• 首 页
  • 求职招聘
  • 精选职位
  • 校园招聘
  • 招聘会
  • 国有企业
  • 资讯
  • 招聘服务
  • 紧缺平台
  • 网办服务
AI算法工程师 15K-60K/月
工作地点:广东/深圳 | 工作年限:不限 | 学历:不限
申请职位
职聊
收藏
肖丹妮
HR主管 · 招商局先进技术开发(深圳)有限公司
聊一聊
职位描述
岗位职责:
设计或参与以下研究方向:
•Reasoning
•Computer Use Agent
•Code Agent
•Embodied Agent
1.负责Code、Computer Use、Robotics场景下的全链路训练,包括但不限于任务构建、数据收集、模型训练、评测,提高模型的任务执行表现
1.奖励模型(Reward Model)的优化和创新
2.对诸如r1-zero等新的训练范式的创新型探索
3.探索如何构建稳健的评估方法,全面、客观、公正地评估模型的基础推理规划能力,以及和复杂环境的交互能力
2.研究数据合成、scalable oversight, 突破数据瓶颈,减轻对人类标注的依赖;
3.研究 system 2 在推理、规划能力中的应用,用“慢思考”提升效果,优化模型基础能力;
4.提升模型的工具调用、API 交互能力,通过构建 agent解决复杂问题。

任职资格:
1.人工智能、计算机、软件工程、电子工程、自动化、机器人、数学等相关专业毕业,获得硕士和博士学历,特别优秀者可放宽要求。
2.精通计算机视觉、大语言模型、多模态大模型、强化学习、智能体等任意一个方向。
3.有使用PyTorch等深度学习框架的使用经验,熟悉分布式训练框架(如Megatron-LM和DeepSpeed),并具备多机多卡分布式训练经验。
4.理论基础扎实,具备创新精神和深入思考能力,具有较强的沟通能力和团队协作精神。

具备以下背景优先:
1.在以下深度强化学习领域有一定积累
1.无模型强化学习(Model-Free RL:Value-based Algorithm, Policy Gradients, Deterministic Policy Gradients, Distributional RL, Evolutionary Algorithms)
2.模仿学习/逆强化学习(Imitation Learning and Inverse Reinforcement Learning:Behavior Clone, GAIL)
3.探索(Exploration:Intrinsic Motivation, Unsupervised RL)
4.迁移和多任务强化学习(Transfer and Multitask RL:Progressive Networks, UVFA, UNREAL, HER)
5.分层强化学习(Hierarchy RL:STRAW,Feudal Networks,HIRO)
2.具备实现智能体的知识和实践经验,结合长期和短期记忆、检索增强生成(RAG)和工具集成,用于动态environment。
3.有高质量论文发表者优先 (如ICML, NIPS, ICLR, ACL, CVPR, 等),有较强学术比赛经验者,有在开源社区有较大影响力者,有工程经验者优先。
公司信息
招商局先进技术研究院有限公司(简称“先进技术院”)是招商局集团打造的前瞻性、开放式、战略性科技创新研发平台,由招商创科统筹管理,力争建设成为特色鲜明、具有区域影响力的企业中央研究院。先进技术院聚焦绿色科技、生命科技、数智科技三大领域的重大前沿技术,具备前沿科技跟踪、关键技术研发、创新成果转化、技术人才合作等四大功能,是招商局集团落实战略性新兴产业培育、参与香港国际创新科技中心建设等战略部署的重要载体。先进技术院旗下具有多个实验室,其中具身智能实验室重点开展具身智能的前沿技术研究及攻关,构建行业领先的智能体应用场景及大模型。
职位分析
您与该职位的匹配度:
一般
良好
优秀
公司信息
性质: 国企
规模: 20-99人
行业: 机械/电子
地址: 福田保税区福保街道槟榔道3号深港国际科技园

网站介绍

     www.gdrc.com是广东省人才市场有限公司(省属国有企业)旗下的专业招聘网站。网站覆盖全省上万家企事业单位招聘信息,海量职位实时更新,通过人工智能技术实现Ai人岗精准匹配,为雇主和求职人才提供全链条综合服务,是粤港澳大湾区“O2O招聘模式”的引领平台。

在线客服

周一 - 周五: 08:00 - 17:00

扫一扫,好工作找你

扫一扫,关注公众号

关于我们

网站简介

推广合作

企业服务

招聘合作

企业入驻

帮助中心

在线客服

意见反馈

客服电话

全国:

24小时服务邮箱:rcwhr@gdrc.com

公众号
小程序
了解服务
顶部