AI平台训练优化工程师 乐元素 上海市黄浦区 长期 全职 28天前 AI平台训练优化工程师岗位职责:1、负责深度学习模型的分布式训练优化,包括计算/存储/通信系统优化、软硬件系统优化、分布式训练等,提升训练速度,加快算法迭代速度,降低训练资源成本;2、设计和实现高效的分布式训练策略,包括单机多卡及多机多卡并行策略、ZeRO优化器等;3、跟踪深度学习训练框架和工程前沿技术和趋势,持续推进平台创新。任职要求:1、计算机及相关专业本科及以上学历,3年以上深度学习模型训练优化经验;2、熟悉 Python和 C++,具备优秀的开发和优化能力;3、精通至少一种主流深度学习框架(如 PyTorch、TensorFlow等),了解其底层原理和优化策略;4、熟悉分布式深度学习训练方法和工具,如 DeepSpeed、Megatron、Horovod、PyTorch DDP 等,具备分布式训练优化落地经验;5、熟悉主流深度学习模型训练性能分析工具,如Pytorch Profiler、NVIDIA Nsight Systems等;6、熟悉主流深度学习模型,如Transformer、ViT、MAE、StableDiffusion等。【加分项】:参与过深度学习框架的开发或优化,能够在开源框架上做二次开发或定制优化。 乐元素 立即申请 下一个 把该职位转发到您的电子邮箱用于稍后申请。 分享