AI数据开发实习生-Seed

北京市
培训
全职

4小时前

团队介绍：字节跳动Seed团队成立于2023年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。Seed团队在AI领域拥有长期愿景与决心，团队研究方向涵盖MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE等超过50个应用场景，并通过火山引擎开放给企业客户。第三方数据显示，豆包App用户量在中国市场排名第一，豆包大模型日均Token调用量行业领先。1、负责Seed-视觉-AI平台大模型规模化训练数据自动化处理全流程相关开发工作，包括但不限于数据搜集、预处理、打标、入库、检索等；
2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架，以支撑大模型数据集持续高效迭代，实现高质量数据集沉淀；
3、负责数据生成和数据增强，利用大模型工具生成来扩充和完善数据集。职位要求:1、2027届硕士及以上学位在读，计算机、人工智能等专业优先；
2、熟练掌握文本、多模态等非结构化数据处理方法，熟悉数据清洗、特征提取和数据增强等技术，能够解决数据工作中各种问题；
3、精通Python、Golang、Java等至少一种编程语言，具备良好的编码能力和代码质量意识，熟悉常用的数据处理、文本处理和图像处理库，能够高效地实现数据清洗和处理的算法和流程；

字节跳动

立即申请