【实习】面向大模型与AI Agent的AI云原生基础设施关键技术研究-算力与AI基础设施（北京/杭州）

北京市
培训
全职

5小时前

团队介绍：字节跳动云基础设施部门，通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化，搭建EB级数据存储治理体系，探索新一代搜索型数据库与大规模AI集群下的高速网络通信，我们积极拥抱开源和创新的软硬件架构，致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵，为整个公司的业务和客户发展保驾护航。课题介绍：
随着大语言模型与AI Agent规模化落地，传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究：
1、网络与可观测：研究大规模AI集群故障智能定位与根因分析，结合时序数据库智能调优，提升集群稳定性；
2、存储系统：研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构，探索DPU软硬件协同优化，突破AI存储性能瓶颈；
3、算力调度：研究GPU/CPU/MEM异构协同调度技术，面向AI Agent构建Serverless异构算力编排系统，解决负载异构、状态依赖等调度难题；
4、向量检索：优化面向大模型应用的向量检索核心技术，打造云原生分布式向量索引引擎，满足超大规模向量检索的低延迟、低成本需求；
5、智能化与Agent架构：探索基于AI Agent工作流的基础设施自动寻优，构建可自主进化的业务Agent框架，通过AI for Infra赋能全栈智能优化；
本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施，提升资源利用率、降低成本、支撑弹性扩展，推动AI基础设施技术演进。课题挑战：
1、全栈协同挑战：覆盖多技术领域，需要从端到端视角实现系统性优化，避免单点优化收益不足；
2、性能成本平衡：AI场景对性能提出极致要求，需要在吞吐、延迟、规模与成本之间找到最优平衡点；
3、云原生适配：需要将传统单机技术方案重构为适配云原生分布式架构，解决扩缩容、容错、调度等新问题；
4、AI系统融合：既需要用AI赋能基础设施优化，又需要基础设施原生适配AI负载，深度融合对技术整合要求高；
5、Agent稳定性：自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题，工程化难度大；
6、研发生态平衡：需要平衡前沿理论创新与工程落地，兼顾技术突破与现有业务生态适配。课题价值：
1、构建大模型/RAG 场景的高性能基础设施底座，支撑大规模向量数据高效检索；
2、优化AI业务存储成本结构与运维复杂度；
3、提升异构算力资源配置效率与技术复用性。职位要求:1、2027届及以后毕业，博士在读，优先考虑人工智能、计算机科学、数学相关专业；
2、拥有扎实的信息检索、数据挖掘、机器学习、计算机网络等相关领域理论基础，精通计算机网络和网络编程，熟练掌握至少一门主流编程语言，如C/C++、Python、Go等，具备优秀的代码能力、数据结构和基础算法功底；
3、针对不同研究方向，需具备相应能力，如能够独立完成复杂搜索任务的设计与开发；有LLM和基础架构相关研究背景；能完成研究点的设计文档、独立交付件、演示Demo；熟悉当前高性能网络和系统领域的最新进展，包括RDMA，拥塞控制、AI网络优化等技术；
4、具备高效的学习能力，拥有较强的自我驱动意识；具有良好的团队合作精神，善于与团队成员协作交流，共同攻克难题；出色的问题分析和解决能力，有自主探索解决方案的能力；出色的心理素质与应变能力，面对困难勇于迎接挑战，面对复杂局面沉着、冷静、灵活；

字节跳动

立即申请