基于大系统大算力的超大规模推荐模型建模(AI Infra)-Data AML(北京/上海/杭州)

字节跳动 查看所有职位

  • 北京市
  • 长期
  • 全职
  • 7小时前
团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,期望进一步通过算法与工程Co-design,探索推荐算法和大语言模型/多模态理解的深度融合主要研究方向包括:LLM4Rec、跨端跨场景的Foundation Model、千亿级参数规模的模型 和 多模态大模型。工程上研究方向包括多模态样本的高效表征、基于PyTorch架构的高性能推理引擎与训练框架构建,以及异构硬件在推荐场景下的性能极限优化;算法侧研究方向包括LLM4Rec技术路径的设计、千亿级底座模型的研发以及多模态协同训练(Co-training)等核心课题,旨在通过技术创新定义下一代工业级推荐范式。课题挑战:
1、千亿模型的训练和推理优化;
2、多模态表征统一与高效融合难度大;
3、Foundation Model的设计和工程优化;
4、算法工程协同设计与异构硬件适配复杂。课题价值:
1、技术价值:突破多模态表征融合、超大规模模型训练推理瓶颈,完善算法与工程协同设计体系,推动异构硬件适配与高性能框架国产化落地;
2、业务价值:提升推荐精准度与泛化能力,突破现有推荐系统模态局限,赋能短视频、文本社区等多产品,降低算力成本,助力业务规模化增长。职位要求:1、2027届毕业,获得博士学位,计算机、软件工程等相关专业优先;
2、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言;
3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。加分项:
1、熟悉Kubernetes架构,有丰富的云原生系统开发经验;
2、熟悉至少一种主流的机器学习框架(TensorFlow/PyTorch/MXNet);
3、熟悉Django、Flask等相关技术,有其后端开发经验;
4、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture(GPU,Accelerators,Networking),Machine Learning Frameworks,ML for System,Distributed Storage;

字节跳动