
强化学习系统工程师-Ads Infra
- 北京市
- 长期
- 全职
2、负责构建Agent、Function Call、Sandbox、以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统;
3、负责强化学习任务性能优化,提升模型迭代效率,构建Agent框架与平台,支持复杂交互下的强化学习模型训练;
4、负责强化学习环境下的可观测性、可解释性的系统建设。职位要求:1、优秀的代码能力、数据结构和基础算法功底,熟练掌握Linux环境下的C/C++、Python;
2、熟悉至少一种机器学习框架(PyTorch/TensorFlow/JAX或其他自研框架);
3、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。加分项:
1、有分布式训练、模型并行、数据并行等大规模训练经验,至少了解一种分布式框架(如FSDP/Megatron-Core/DeepSpeed/veScale等);