AI数据开发实习生-Seed

字节跳动 查看所有职位

  • 北京市
  • 培训
  • 全职
  • 4小时前
团队介绍:字节跳动Seed团队成立于2023年,致力于寻找通用智能的新方法,追求智能上限,为科技和社会发展作出贡献。Seed团队在AI领域拥有长期愿景与决心,团队研究方向涵盖MLLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。目前,团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、即梦、TRAE等超过50个应用场景,并通过火山引擎开放给企业客户。第三方数据显示,豆包App用户量在中国市场排名第一,豆包大模型日均Token调用量行业领先。1、负责Seed-视觉-AI平台大模型规模化训练数据自动化处理全流程相关开发工作,包括但不限于数据搜集、预处理、打标、入库、检索等;
2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架,以支撑大模型数据集持续高效迭代,实现高质量数据集沉淀;
3、负责数据生成和数据增强,利用大模型工具生成来扩充和完善数据集。职位要求:1、2027届硕士及以上学位在读,计算机、人工智能等专业优先;
2、熟练掌握文本、多模态等非结构化数据处理方法,熟悉数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题;
3、精通Python、Golang、Java等至少一种编程语言,具备良好的编码能力和代码质量意识,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法和流程;

字节跳动