豆包视频生成模型实现多主体复杂交互

发布时间：2024-10-10 10:55:59 622次浏览来源：

近日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如，后者可以让不同人物完成多个动作指令的互动，使人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

据火山引擎介绍，豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的创新点。

经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型已具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格。

“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。（记者杨雪）

点击展开全文

本文链接：http://knowith.com/news-7-598.html豆包视频生成模型实现多主体复杂交互

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

豆包视频生成模型实现多主体复杂交互

相关推荐

【解读】国家文物局有关负责人就《关于加强文物科技创新的意见》接受专访

委员围绕农文旅融合、数字乡村发展等话题建言献策人才科技“双翼”助力乡村振兴

《原材料工业数字化转型工作方案（2024—2026年）》

图说外观设计|一图概览制度新变化

北京市2024年度建设用地供应计划

【公告】关于实施鼓励绿色智能消费品以旧换新补贴的公告（京商消二字〔2024〕19号）

热点精选

推荐阅读

更多

热门文章

相关阅读

豆包视频生成模型实现多主体复杂交互

相关推荐

【解读】国家文物局有关负责人就《关于加强文物科技创新的意见》接受专访

委员围绕农文旅融合、数字乡村发展等话题建言献策 人才科技“双翼”助力乡村振兴

《原材料工业数字化转型工作方案（2024—2026年）》

图说外观设计|一图概览制度新变化

北京市2024年度建设用地供应计划

【公告】关于实施鼓励绿色智能消费品以旧换新补贴的公告（京商消二字〔2024〕19号）

热点精选

推荐阅读

更多

热门文章

相关阅读

委员围绕农文旅融合、数字乡村发展等话题建言献策人才科技“双翼”助力乡村振兴