基于大系统大算力的超大规模推荐模型建模（AI Infra）-Data AML（北京/上海/杭州）

北京市
长期
全职

7小时前

团队介绍：Data AML是字节跳动的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。课题介绍：大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上，期望进一步通过算法与工程Co-design，探索推荐算法和大语言模型/多模态理解的深度融合主要研究方向包括：LLM4Rec、跨端跨场景的Foundation Model、千亿级参数规模的模型和多模态大模型。工程上研究方向包括多模态样本的高效表征、基于PyTorch架构的高性能推理引擎与训练框架构建，以及异构硬件在推荐场景下的性能极限优化；算法侧研究方向包括LLM4Rec技术路径的设计、千亿级底座模型的研发以及多模态协同训练（Co-training）等核心课题，旨在通过技术创新定义下一代工业级推荐范式。课题挑战：
1、千亿模型的训练和推理优化；
2、多模态表征统一与高效融合难度大；
3、Foundation Model的设计和工程优化；
4、算法工程协同设计与异构硬件适配复杂。课题价值：
1、技术价值：突破多模态表征融合、超大规模模型训练推理瓶颈，完善算法与工程协同设计体系，推动异构硬件适配与高性能框架国产化落地；
2、业务价值：提升推荐精准度与泛化能力，突破现有推荐系统模态局限，赋能短视频、文本社区等多产品，降低算力成本，助力业务规模化增长。职位要求:1、2027届毕业，获得博士学位，计算机、软件工程等相关专业优先；
2、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言；
3、掌握分布式系统原理，参与过大规模分布式系统的设计、开发和维护；
4、有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分，良好的团队合作精神；
5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力；
6、有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档。加分项：
1、熟悉Kubernetes架构，有丰富的云原生系统开发经验；
2、熟悉至少一种主流的机器学习框架（TensorFlow/PyTorch/MXNet）；
3、熟悉Django、Flask等相关技术，有其后端开发经验；
4、有以下某一方向领域的经验：AI Infrastructure，HW/SW Co-Design，High Performance Computing，ML Hardware Architecture(GPU，Accelerators，Networking)，Machine Learning Frameworks，ML for System，Distributed Storage；

字节跳动

立即申请