数智员工产品开发平台的架构设计与工程实现,负责构建支持大模型训练、智能体开发及行业应用的底层基础设施,负责开发智能化工具,支撑数智员工在不同业务场景下的适配和无码化定制开发。
岗位职责
1、设计并优化数智员工开发平台整体架构,涵盖模型训练、推理、部署、监控等全生命周期模块。主导分布式计算框架(如 Spark、Flink)与容器化技术(Kubernetes、Docker)的集成,提升资源调度效率。规划 数智员工开发平台技术路线,跟踪云原生、边缘计算等前沿技术,推动平台技术升级。
2、平台开发与工程实现:开发模型训练加速引擎,支持分布式训练(如 DeepSpeed、Horovod)与混合精度训练。构建模型服务化框架,实现模型推理的高性能部署与动态扩缩容。设计数据流水线,整合数据预处理、特征工程与标注工具,支撑 AI 开发全流程。
3、性能优化与安全保障:优化平台在大模型训练中的显存、算力利用率,解决分布式训练通信瓶颈。建立平台监控与日志系统,实现故障诊断与自动恢复。设计平台安全合规方案,满足数据隐私保护与模型知识产权管理需求。
任职要求
1、计算机科学、电子信息、软件工程等相关专业,硕士及以上学历(博士优先)
2、5 年以上云计算或 AI 平台开发经验,3 年以上分布式系统或机器学习框架研发经验。主导过至少 1 个 AI 平台或大规模分布式系统的全流程开发。
3、云计算与分布式系统:精通 Kubernetes、Docker 等容器化技术,熟悉微服务架构设计。掌握 Spark、Flink 等分布式计算框架,具备集群调优经验。
4、机器学习与模型工程:熟悉 TensorFlow/PyTorch 框架,了解模型训练与推理优化技术(如量化、剪枝)。掌握模型服务化工具(如 TensorRT、ONNX Runtime、Triton)。
5、熟练使用 Python、Java/C++ 等编程语言,具备高性能代码编写能力。熟悉 CI/CD 工具(Jenkins、GitLab CI)与监控系统(Prometheus、Grafana)