求职招聘详情

AI算法工程师 15K-60K/月

工作地点：广东/深圳 | 工作年限：不限 | 学历：不限

申请职位

职聊

肖丹妮

HR主管 · 招商局先进技术开发（深圳）有限公司

聊一聊

职位描述

岗位职责：
设计或参与以下研究方向：
•Reasoning
•Computer Use Agent
•Code Agent
•Embodied Agent
1.负责Code、Computer Use、Robotics场景下的全链路训练，包括但不限于任务构建、数据收集、模型训练、评测，提高模型的任务执行表现
1.奖励模型（Reward Model）的优化和创新
2.对诸如r1-zero等新的训练范式的创新型探索
3.探索如何构建稳健的评估方法，全面、客观、公正地评估模型的基础推理规划能力，以及和复杂环境的交互能力
2.研究数据合成、scalable oversight, 突破数据瓶颈，减轻对人类标注的依赖；
3.研究 system 2 在推理、规划能力中的应用，用“慢思考”提升效果，优化模型基础能力；
4.提升模型的工具调用、API 交互能力，通过构建 agent解决复杂问题。

任职资格：
1.人工智能、计算机、软件工程、电子工程、自动化、机器人、数学等相关专业毕业，获得硕士和博士学历，特别优秀者可放宽要求。
2.精通计算机视觉、大语言模型、多模态大模型、强化学习、智能体等任意一个方向。
3.有使用PyTorch等深度学习框架的使用经验，熟悉分布式训练框架（如Megatron-LM和DeepSpeed），并具备多机多卡分布式训练经验。
4.理论基础扎实，具备创新精神和深入思考能力，具有较强的沟通能力和团队协作精神。

具备以下背景优先：
1.在以下深度强化学习领域有一定积累
1.无模型强化学习（Model-Free RL：Value-based Algorithm, Policy Gradients, Deterministic Policy Gradients, Distributional RL, Evolutionary Algorithms）
2.模仿学习/逆强化学习（Imitation Learning and Inverse Reinforcement Learning：Behavior Clone, GAIL）
3.探索（Exploration：Intrinsic Motivation, Unsupervised RL）
4.迁移和多任务强化学习（Transfer and Multitask RL：Progressive Networks, UVFA, UNREAL, HER）
5.分层强化学习（Hierarchy RL：STRAW，Feudal Networks，HIRO）
2.具备实现智能体的知识和实践经验，结合长期和短期记忆、检索增强生成（RAG）和工具集成，用于动态environment。
3.有高质量论文发表者优先 (如ICML, NIPS, ICLR, ACL, CVPR, 等)，有较强学术比赛经验者，有在开源社区有较大影响力者，有工程经验者优先。

公司信息

招商局先进技术研究院有限公司（简称“先进技术院”）是招商局集团打造的前瞻性、开放式、战略性科技创新研发平台，由招商创科统筹管理，力争建设成为特色鲜明、具有区域影响力的企业中央研究院。先进技术院聚焦绿色科技、生命科技、数智科技三大领域的重大前沿技术，具备前沿科技跟踪、关键技术研发、创新成果转化、技术人才合作等四大功能，是招商局集团落实战略性新兴产业培育、参与香港国际创新科技中心建设等战略部署的重要载体。先进技术院旗下具有多个实验室，其中具身智能实验室重点开展具身智能的前沿技术研究及攻关，构建行业领先的智能体应用场景及大模型。

查看全部

职位分析

您与该职位的匹配度：

一般

良好

优秀

AI推荐

跨境电商管培生 [广东/广州] 5K-8K/月

经验不限

本科