AI数据运营实习生(提效方向)-内容质量与数据服务平台

字节跳动

  • 北京市
  • 培训
  • 全职
  • 13天前
团队介绍:抖音集团内容质量与数据服务平台(DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE,简称CQC)是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队,在各产品运营增长方面开展支持工作,为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心,在全国10余个城市有业务分布。1、负责数据采集与分类:从网络、数据库等渠道收集模型训练数据,按主题/领域分类整理,搭建结构化数据集;结合数据合成技术生成模拟数据,丰富数据来源;
2、负责数据清洗与标准化:处理数据中的错误、重复及缺失值,对文本进行适配性处理以符合模型训练格式,参与数据处理工具开发,提升流程自动化效率;
3、负责标注质量监控:制定统一标注规则,通过监控机制保障数据一致性与准确性,结合模型后训练需求优化标注针对性;
4、负责数据增强与扩充:运用文本复述、同义词替换等技术增强数据多样性,借助数据合成生成稀缺数据,满足模型迭代的规模需求;
5、跨团队协作提效:与算法、研发团队协作,依据模型训练反馈调整数据处理策略,参与工具迭代开发,支撑模型优化。职位要求:1、2026届本科及以上学历在读,计算机、数据科学等相关专业优先;
2、掌握Python,能独立完成数据清洗、预处理及合成工作,有数据处理工具开发经验者优先;熟悉NLP基础原理与大语言模型训练逻辑,了解大语言模型后训练的流程与数据要求;

字节跳动