【实习】面向大模型与AI Agent的AI云原生基础设施关键技术研究-算力与AI基础设施(北京/杭州)

字节跳动 查看所有职位

  • 北京市
  • 培训
  • 全职
  • 5小时前
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。课题介绍:
随着大语言模型与AI Agent规模化落地,传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究:
1、网络与可观测:研究大规模AI集群故障智能定位与根因分析,结合时序数据库智能调优,提升集群稳定性;
2、存储系统:研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构,探索DPU软硬件协同优化,突破AI存储性能瓶颈;
3、算力调度:研究GPU/CPU/MEM异构协同调度技术,面向AI Agent构建Serverless异构算力编排系统,解决负载异构、状态依赖等调度难题;
4、向量检索:优化面向大模型应用的向量检索核心技术,打造云原生分布式向量索引引擎,满足超大规模向量检索的低延迟、低成本需求;
5、智能化与Agent架构:探索基于AI Agent工作流的基础设施自动寻优,构建可自主进化的业务Agent框架,通过AI for Infra赋能全栈智能优化;
本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施,提升资源利用率、降低成本、支撑弹性扩展,推动AI基础设施技术演进。课题挑战:
1、全栈协同挑战:覆盖多技术领域,需要从端到端视角实现系统性优化,避免单点优化收益不足;
2、性能成本平衡:AI场景对性能提出极致要求,需要在吞吐、延迟、规模与成本之间找到最优平衡点;
3、云原生适配:需要将传统单机技术方案重构为适配云原生分布式架构,解决扩缩容、容错、调度等新问题;
4、AI系统融合:既需要用AI赋能基础设施优化,又需要基础设施原生适配AI负载,深度融合对技术整合要求高;
5、Agent稳定性:自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题,工程化难度大;
6、研发生态平衡:需要平衡前沿理论创新与工程落地,兼顾技术突破与现有业务生态适配。课题价值:
1、构建大模型/RAG 场景的高性能基础设施底座,支撑大规模向量数据高效检索;
2、优化AI业务存储成本结构与运维复杂度;
3、提升异构算力资源配置效率与技术复用性。职位要求:1、2027届及以后毕业,博士在读,优先考虑人工智能、计算机科学、数学相关专业;
2、拥有扎实的信息检索、数据挖掘、机器学习、计算机网络等相关领域理论基础,精通计算机网络和网络编程,熟练掌握至少一门主流编程语言,如C/C++、Python、Go等,具备优秀的代码能力、数据结构和基础算法功底;
3、针对不同研究方向,需具备相应能力,如能够独立完成复杂搜索任务的设计与开发;有LLM和基础架构相关研究背景;能完成研究点的设计文档、独立交付件、演示Demo;熟悉当前高性能网络和系统领域的最新进展,包括RDMA,拥塞控制、AI网络优化等技术;
4、具备高效的学习能力,拥有较强的自我驱动意识;具有良好的团队合作精神,善于与团队成员协作交流,共同攻克难题;出色的问题分析和解决能力,有自主探索解决方案的能力;出色的心理素质与应变能力,面对困难勇于迎接挑战,面对复杂局面沉着、冷静、灵活;

字节跳动