
公有云机器学习系统工程师-Data AML
- 上海市
- 长期
- 全职
2、负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,支持主流的PyTorch、Megatron、TensorFlow等训练框架,支持大规模LLM预训练、Finetuning、强化学习等各种训练范式,支持大模型、自动驾驶、生信计算等各种业务场景下算法需求,支持深度模型推理为核心的在线架构设计与优化,构建多租环境下的稳定性、观测体系,实现高并发、高吞吐的大规模在线系统;
3、负责训练系统的产品化落地,打造算法工程师友好的、稳定、可观测、体验一流的公有云训练/推理平台。职位要求:1、2026届获得本科及以上学历,计算机、人工智能、信息安全等相关专业;
2、熟练掌握Linux环境下的Go/Java/Python等1至2种以上语言;
3、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
4、熟悉主流深度学习模型结构及算法,熟悉至少一种主流机器学习框架(TensorFlow,PyTorch或其他自研框架);
5、如下满足任意一条:熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata等容器技术,有云原生机器学习系统实践和开发经验;熟悉分布式系统原理,有大规模分布式系统的设计、开发和维护的相关经验;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;对创新和挑战的工作有激情,有强烈的责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。