视频创作多模态大模型研究员-智能创作-筋斗云人才计划

浙江省杭州市
长期
全职

16天前

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。课题背景：
视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展，行业内AI视频创作Workflow不断革新，传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术，旨在研发一套基于大模型的视频创作系统，来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上，可落地支持抖音、剪映Capcut、Flow等业务场景的图片与视频创作及AI工具，形成公司关键业务场景的核心生态壁垒。课题挑战：
1、中长视频多模态理解能力：创作场景需要对用户素材充分理解，因此大模型需要对输入视频的画面、声音及语音等能充分理解，具备素材剪辑处理的通用理解能力；
2、创作领域专业Agent能力：大模型需要具备创作领域AGI的潜力，对于营销、UGC、PGC等不同创作场景，模型需要具备优质视频创作知识储备，能基于原子能力Tools规划合理的Action Sequence完成创作；
3、多模态输出能力：在视频创作领域，需要进行视频效果包装，因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力；
4、高效率模型推理：由于输入视频时长较长，任务复杂，考虑应用落地成本，模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破；
5、视觉可控生成与编辑：通过大规模数据的训练，由文本、图片、音频、视频等多模态信息输入引导，生成高质量图像与视频；重点突破保留ID/IP/Style等特征信息的一致性控制技术以及数字人视频生成技术，探索更轻量、更高速、可实时、交互性强的生成技术。

字节跳动

立即申请