AI SRE工程师-飞书
字节跳动 查看所有职位
- 北京市
- 长期
- 全职
2、负责飞书GPU资源成本管理与优化,包括GPU资源的全生命周期管理,探索各种技术手段提升GPU资源利用率,优化单位有效TFLOPS成本,推动算力成本压降,实现“业务需求、稳定性与成本”的平衡;
3、设计、开发SRE相关平台和AI能力,包括稳定性架构治理、监控报警、预案与演练、定位与止损、资源与成本等相关方向;
4、跨团队协同与技术落地,与算法、模型、深度协作,理解业务需求,从稳定性与成本角度给出专业意见,推动技术方案落地;与基础设施团队深度合作,跟进领域前沿技术,探索在稳定性、成本方向的技术创新及业务价值落地。职位要求:1、本科及以上学历,计算机、软件工程、电子信息等相关专业,2年及以上GPU相关SRE或运维开发经验,主导过AI类业务或GPU集群的稳定性治理或成本优化项目;