教育经历
· 2013.9 - 2015.4
MIT - CSAIL - Postdoc Researcher
· 2009.7 - 2013.7
The Chinese University of Hong Kong - Computer Science and Engineering - PhD
· 2004.9 - 2008.7
Harbin Institute of Technology - Computer Science and Technology - Bachelor of Engineering
研究方向
· 人工智能
· 深度强化学习
· 具身智能
个人简介
【个人介绍】
郝建业,天津大学智能与计算学部软件学院菁英教授、博士生导师
国家优秀青年科学基金获得者
天津大学深度强化学习实验室(http://www.icdai.org/)负责人
长期从事深度强化学习、多智能体系统和具身智能等方向基础研究和产业应用,在 ICML、NeurIPS、ICLR 、Nature Communications等国际顶级会议和期刊发表论文150余篇,专著3部。研究成果获国际会议最佳论文奖4次,NeurIPS大会竞赛冠军4次。作为第一完成人,获中国图象图形学学会科技进步一等奖。
实验室和华为、阿里、腾讯、网易、字节、快手等公司有长期深度合作,团队强化学习成果在行业和基础大模型、国产工业基础软件智能化、自动驾驶、游戏AI、互联网广告及推荐、5G网络优化、工业物流调度、机器人等领域广泛落地应用。
先后担任华为决策与推理实验室主任、大模型算法实验室主任、华为医疗军团技术副总裁,负责华为公司决策和推理领域技术创新和产业落地,将强化学习技术在网络通讯、终端、芯片、自动驾驶、供应链等产品线广泛落地。多次获公司金牌团队奖、创新与技术突破奖、总裁团队奖等。
【研究领域 | 学术成绩】
长期聚焦深度强化学习、多智能体系统及具身智能等前沿方向,致力于基础理论突破与技术落地转化。在强化学习与多智能体领域,聚焦高维、大规模场景下的强化学习稳定训练、样本效率与泛化能力等核心难题,从奖励信号的精准分配机制、自监督强化学习表征技术、高效演化强化学习新范式等角度提出一系列创新理论和方法,首次在星际争霸全场景中达成100%胜率,在Atari全任务中平均水平超越人类100倍以上,打破24项人类世界纪录,斩获多项NeurIPS大赛冠军,并在机器人控制、EDA芯片设计、自动驾驶等重要工业场景中达到业界领先性能,推动“决策大模型”的技术发展。此外,积极推动AI与交叉学科的融合创新,将强化学习技术赋能生物医疗领域,在肾透明细胞癌风险基因识别等方向取得重大突破,相关成果发表于Nature Communications等。
在具身智能与生成式决策领域,团队构建了涵盖评测基准、核心大小脑算法、软硬件基础设施的全栈技术体系。评测层面,牵头联合十余家头部具身机构打造Embodied Arena评测平台,建立包含7大核心能力的系统化分级体系,为具身智能领域树立客观权威的评价标准,推动该领域研究从单一任务优化迈向通用能力评估的范式革新。
核心算法层面,针对VLA模型语义-执行映射对齐、生成式决策模型、具身操控数据生成等关键挑战,提出**Embodied-R1架构**(以强化学习激活推理能力)、**DiffuserLite扩散决策算法**(面向机器人实时控制),以及基于演化强化学习的具身操控奖励生成与任务求解范式,大幅提升长时序、弱视觉、富接触任务的执行鲁棒性。
基础设施层面,研发业内首个决策扩散模型训练平台**CleanDiffuser**(入选HuggingFace趋势榜单及国际竞赛官方代码库),并推出千元级高性价比开源硬件**AhaRobot**与决策对齐平台**Uni-RLHF**,成功打通“评测-算法-真机落地”和“数据标注-人类价值对齐”的完整技术闭环。
学术成果
奖励与荣誉
1. Winner (Double-Track Champions), NeurIPS 2022 Driving SMARTS Competition, NeurIPS 2022
3. Winner (1st Place), NeurIPS 2020 MineRL Competition, NeurIPS 2020
4. Winner (1st Place), NeurIPS 2020 Black-Box Optimization Challenge, NeurIPS 2020
14. Global Scholarship for Research Excellence - awarded by The Chinese University of Hong Kong, 2011


