AI SRE工程师-飞书

字节跳动 查看所有职位

  • 北京市
  • 长期
  • 全职
  • 4小时前
1、负责飞书AI类业务稳定性保障,包括飞书相关业务在大规模GPU集群上的稳定可靠运行,建立完善的AI类业务SLI/SLO体系,保障大模型开发、训练、部署各环节的高可用性,将业务中断风险降至最低,MTTR保持行业领先水平;
2、负责飞书GPU资源成本管理与优化,包括GPU资源的全生命周期管理,探索各种技术手段提升GPU资源利用率,优化单位有效TFLOPS成本,推动算力成本压降,实现“业务需求、稳定性与成本”的平衡;
3、设计、开发SRE相关平台和AI能力,包括稳定性架构治理、监控报警、预案与演练、定位与止损、资源与成本等相关方向;
4、跨团队协同与技术落地,与算法、模型、深度协作,理解业务需求,从稳定性与成本角度给出专业意见,推动技术方案落地;与基础设施团队深度合作,跟进领域前沿技术,探索在稳定性、成本方向的技术创新及业务价值落地。职位要求:1、本科及以上学历,计算机、软件工程、电子信息等相关专业,2年及以上GPU相关SRE或运维开发经验,主导过AI类业务或GPU集群的稳定性治理或成本优化项目;

字节跳动

相似职位

  • 全栈工程师(偏前端)

    Randstad

    • 北京市
    • 年薪 人民币600,000-1,000,000元
    ; 参与前端基础建设、组件库开发、工程构建以及性能优化等多个方向; ; 负责某一业务或技术子方向,与团队其他工程师合作,打造高效且用户体验卓越的分析产品…
    • 6小时前
  • 压裂工程师

    • 北京市大兴区
    。 现公司根据业务发展需要,诚聘压裂工程师数名,主要从事压裂设计与工艺研究;...现场)、年终奖、节日购物卡; 5.压裂高级工程师:2-5万/月,压裂工程师:2-3万…
    • 6小时前