【实习】面向复杂软件工程项目的Agentic AI Coding关键技术研究-TRAE

北京市
培训
全职

5小时前

团队介绍：TRAE（The Real AI Engineer），是字节跳动旗下的AI编程产品，一个能理解需求、调动工具、独立完成开发任务的AI开发工程师，为用户提供端到端生成真实软件的服务。TRAE是当前国内受到广泛欢迎的AI编程产品之一，也是业界首个端到端AI软件开发Agent产品，可覆盖简单到复杂全场景。我们正在寻找充满热情、富有创造力的人才。期待你的加入，与我们共同重塑开发范式，定义未来开发的形态。课题介绍：
1、复杂软件工程项目的挑战与需求：随着企业业务需求的快速增长，软件项目规模持续扩大，系统架构日趋复杂，跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时，效率与质量面临双重挑战；
2、大模型在软件工程领域的潜力与不足：大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力，推动了智能化开发工具的初步落地。然而，在应对复杂软件工程项目时，现有模型在长序列建模、上下文一致性、长程任务，代码质量保障方面仍有明显不足；
3、技术与产业机遇：1）范式变革：大模型有望成为软件开发全流程的重要参与者，推动从工具辅助向智能协作转变，覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节；2）行业转型：通过深度优化大模型在复杂软件开发中的能力，可显著提升企业研发效率、软件质量与团队协作能力，助力数字化转型；课题挑战：
1、长序列代码与复杂上下文建模：复杂软件项目中，代码文件可能达到数千行，存在跨模块调用和多层次依赖，模型如何在长序列输入下保持上下文一致性，是核心技术难点之一；
2、跨语言与多框架适配：现有模型大多针对单一语言优化，而企业项目往往涉及多语言（如 Python、C++、Java 等）和多框架（如 React、Django、Kubernetes）。如何提升模型的跨语言泛化能力成为重要课题；
3、领域知识缺失与安全合规风险：通用大模型缺乏行业特定知识，可能生成不符合行业规范或存在潜在漏洞的代码，需引入领域知识与合规规则进行优化和增强；
4、人机协作：针对新涌现的大模型技术和应用场景，研究下一代软件研发人机交互形式，推动AI驱动的交互形式的普及与发展。课题价值：
1、研究目标
1.1提升大模型对复杂项目的语义理解与跨模块上下文建模能力，尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现；
1.2优化模型微调与自适应学习策略，通过引入多任务学习、强化学习（RL）和领域知识增强，构建具有高泛化能力和行业适配能力的大模型；
1.3集成领域知识库与检索增强（RAG）技术，确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性；
1.4优化模型的Agentic任务能力，更加泛化的工具调用能力，持续的上下文学习和记忆能力，让模型具备一定的独立工作能力。
1.5构建自我进化的AI Coding多智能体系统，基于强化学习、长期记忆、垂类模型训练、测试时计算等方法，持续优化任务规划、代码生成等能力，实现数据驱动的自我进化，从而实现复杂应用的端到端全栈开发。
2、创新价值
2.1模型结构与预训练策略的突破：在通用预训练模型基础上，结合程序分析与语法语义建模，提升对大型软件项目的理解能力，尤其是在模块间交互和函数调用路径分析方面；
2.2模型优化与自适应增强：通过多维度监督信号（代码质量、运行性能、测试覆盖率等），实现强化学习与在线反馈的动态调整，打造具备持续学习能力的大模型；
2.3从工具辅助到全生命周期协作：以大模型为核心，推动需求到实现、测试到部署的智能化协作新范式，助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护；
2.4领域知识与行业专属能力融入：通过引入行业领域知识库（如金融合规、医疗数据安全规范等），结合检索增强技术（RAG），确保生成代码符合行业标准，显著降低错误和安全隐患。职位要求:1、2027届及以后毕业，博士在读，人工智能、计算机、数学、软件工程等相关专业优先；
2、具备优秀的代码能力、数据结构和基础算法功底，熟练掌握C/C++、Python等一个或多个编程语言；
3、熟悉大模型相关的算法和技术，有自然语言处理（NLP）和大模型训练和强化学习（RL）算法经验者优先；
4、在软件工程或者人工智能领域有出色的科研经历，在NeurlPS/ICRL/ICML/ISSTA/ACL/EMNLP/ICSE/ASE/FSE等国际顶级期刊会议上发表论文者优先；

字节跳动

立即申请