视频生成RL算法工程师/专家-Seed

北京市
长期
全职

8天前

2、负责生成模型RL后训练框架及多模态Reward Model/Verifier的设计与迭代，推动RLHF、ReFL、GRPO、DPO等方法在图像/视频生成中的应用；
3、负责后训练全链路建设与业务落地，包括数据构建、模型评测、训练加速、推理优化、蒸馏压缩，并探索视频生成、交互编辑、音视频联合生成、Agent RL等方向。

字节跳动

立即申请