【实习】基于主动进化技术的AI coding数据合成方案探索-AIDP(北京/深圳)

字节跳动 查看所有职位

  • 北京市
  • 培训
  • 全职
  • 7小时前
团队介绍:AIDP(AI Data Platform)是深度参与字节跳动 AI 数据管理与模型训练流程的数据基础设施团队,提供数据采集、清洗、标注、合成、验证、管理等全流程的数据服务和全面解决方案。
加入我们,你能深度参与字节跳动 AI 核心业务近距离接触真实的大模型训练场景,解决数据处理中的实际问题和优秀团队协作,在数据与模型的交叉领域积累实战经验;在数据与模型领域实现个人价值,推动行业进步。你的工作将直接影响 AI 技术的落地效果,推动技术真正服务于用户。课题介绍:
AI Coding是当前大模型领域最热门的方向之一,高质量的Code训练数据和完善的模型评估机制是决定大模型Coding能力上限的关键因素。
本课题通过探索基于主动学习技术的Code数据合成方案,系统性优化Code数据生产过程中存在的生产效率低、数据质量不佳、模型评估机制不完善等痛点问题。课题挑战:
1、动态抗污染Benchmark 构建:针对评测集易污染、静态固化问题,构建具备防泄露机制的评测基准体系;建立动态更新迭代机制,适配模型能力演进与场景拓展,打造稳定可靠的评测标尺;
2、基于主动学习与自博弈的数据合成方法:以主动学习筛选策略结合智能体环境模拟,替代高成本人工标注,实现数据自动化、规模化生成;引入自进化与自博弈机制,定向挖掘模型薄弱领域,合成高价值演化数据,补齐能力短板;
3、低成本数据质量评估方法:突破单一语义评估局限,构建多维度质量刻画体系,探索轻量化评估路径以适配海量数据需求;建立数据特征与模型效果的强关联机制,形成可量化、可追溯的综合评估体系。课题价值:
构建 Coding Agent自动化数据合成与主动学习管线,建立数据质量及模型性能评估标准,精准刻画数据与能力边界,降低评估成本,提升豆包大模型在复杂长程SWE任务中的表现。职位要求:1、2027届及以后毕业,博士在读,计算机科学与技术、数学、统计学、人工智能等相关专业;
2、具备扎实的机器学习、深度学习理论基础,熟悉深度学习框架,有丰富的模型训练与调优经验;
3、熟练掌握Python编程,具备良好的代码编写规范和工程实践能力,能够独立完成复杂算法的代码实现;
4、在ACL、ICLR、NeurIPS、CVPR等顶级学术会议发表过有影响力研究成果、在ACM、Kaggle等编程或AI竞赛中获奖、主导或参与过具有影响力的AI开源或闭源项目者优先;

字节跳动