公有云机器学习系统工程师-Data AML

字节跳动

  • 上海市
  • 长期
  • 全职
  • 17天前
团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。1、负责机器学习系统训练/推理/资源调度的产品和技术架构的设计开发,支持火山方舟和机器学习平台的产品业务;
2、负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,支持主流的PyTorch、Megatron、TensorFlow等训练框架,支持大规模LLM预训练、Finetuning、强化学习等各种训练范式,支持大模型、自动驾驶、生信计算等各种业务场景下算法需求,支持深度模型推理为核心的在线架构设计与优化,构建多租环境下的稳定性、观测体系,实现高并发、高吞吐的大规模在线系统;
3、负责训练系统的产品化落地,打造算法工程师友好的、稳定、可观测、体验一流的公有云训练/推理平台。职位要求:1、2026届获得本科及以上学历,计算机、人工智能、信息安全等相关专业;
2、熟练掌握Linux环境下的Go/Java/Python等1至2种以上语言;
3、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
4、熟悉主流深度学习模型结构及算法,熟悉至少一种主流机器学习框架(TensorFlow,PyTorch或其他自研框架);
5、如下满足任意一条:熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata等容器技术,有云原生机器学习系统实践和开发经验;熟悉分布式系统原理,有大规模分布式系统的设计、开发和维护的相关经验;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;对创新和挑战的工作有激情,有强烈的责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。

字节跳动

相似职位

  • 机电工程师(偏暖通)

    智必德建设工程(上海)有限公司

    • 上海市普陀区
    我们的团队由一群饱含激情和专业知识的管理者、设计师、机电工程师组成。在项目行进过程中,他们紧跟不断变化的规则...我们的团队由一群饱含激情和专业知识的管理者、设计师、机电工程师组成。在项目行进过程中,他们紧跟不断变化的规则…
    • 2小时前
  • 机电工程师(偏暖通)

    智必德建设工程(上海)有限公司

    • 上海市普陀区
    我们的团队由一群饱含激情和专业知识的管理者、设计师、机电工程师组成。在项目行进过程中,他们紧跟不断变化的规则...我们的团队由一群饱含激情和专业知识的管理者、设计师、机电工程师组成。在项目行进过程中,他们紧跟不断变化的规则…
    • 6小时前
  • 安全工程师

    中国海诚工程科技股份有限公司

    • 上海市
    证。 注:工作地点依项目而定。 安全工程师 岗位职责: 1、组织安全文件的编写...电脑熟练能独立完成现场的安全业内资料; 3、注册安全员工程师证书。 联系方式 地址:上海市宝庆路…
    • 3天前