岗位职责:
设计或参与以下研究方向:
•Reasoning
•Computer Use Agent
•Code Agent
•Embodied Agent
1.负责Code、Computer Use、Robotics场景下的全链路训练,包括但不限于任务构建、数据收集、模型训练、评测,提高模型的任务执行表现
1.奖励模型(Reward Model)的优化和创新
2.对诸如r1-zero等新的训练范式的创新型探索
3.探索如何构建稳健的评估方法,全面、客观、公正地评估模型的基础推理规划能力,以及和复杂环境的交互能力
2.研究数据合成、scalable oversight, 突破数据瓶颈,减轻对人类标注的依赖;
3.研究 system 2 在推理、规划能力中的应用,用“慢思考”提升效果,优化模型基础能力;
4.提升模型的工具调用、API 交互能力,通过构建 agent解决复杂问题。
任职资格:
1.人工智能、计算机、软件工程、电子工程、自动化、机器人、数学等相关专业毕业,获得硕士和博士学历,特别优秀者可放宽要求。
2.精通计算机视觉、大语言模型、多模态大模型、强化学习、智能体等任意一个方向。
3.有使用PyTorch等深度学习框架的使用经验,熟悉分布式训练框架(如Megatron-LM和DeepSpeed),并具备多机多卡分布式训练经验。
4.理论基础扎实,具备创新精神和深入思考能力,具有较强的沟通能力和团队协作精神。
具备以下背景优先:
1.在以下深度强化学习领域有一定积累
1.无模型强化学习(Model-Free RL:Value-based Algorithm, Policy Gradients, Deterministic Policy Gradients, Distributional RL, Evolutionary Algorithms)
2.模仿学习/逆强化学习(Imitation Learning and Inverse Reinforcement Learning:Behavior Clone, GAIL)
3.探索(Exploration:Intrinsic Motivation, Unsupervised RL)
4.迁移和多任务强化学习(Transfer and Multitask RL:Progressive Networks, UVFA, UNREAL, HER)
5.分层强化学习(Hierarchy RL:STRAW,Feudal Networks,HIRO)
2.具备实现智能体的知识和实践经验,结合长期和短期记忆、检索增强生成(RAG)和工具集成,用于动态environment。
3.有高质量论文发表者优先 (如ICML, NIPS, ICLR, ACL, CVPR, 等),有较强学术比赛经验者,有在开源社区有较大影响力者,有工程经验者优先。