视频生成RL算法工程师/专家-Seed 字节跳动 查看所有职位 北京市 长期 全职 8天前 2、负责生成模型RL后训练框架及多模态Reward Model/Verifier的设计与迭代,推动RLHF、ReFL、GRPO、DPO等方法在图像/视频生成中的应用; 3、负责后训练全链路建设与业务落地,包括数据构建、模型评测、训练加速、推理优化、蒸馏压缩,并探索视频生成、交互编辑、音视频联合生成、Agent RL等方向。 字节跳动 立即申请 把该职位转发到您的电子邮箱用于稍后申请。 保存 分享 关注此公司