原生多模态世界模型Emu3发布"

2024-10-24 科技日报37

核心提示：10月21日，北京智源人工智能研究院（以下简称“智源研究院”）正式发布原生多模态世界模型Emu3。据悉，该模型实现了视频、图像、

10月21日，北京智源人工智能研究院（以下简称“智源研究院”）正式发布原生多模态世界模型Emu3。据悉，该模型实现了视频、图像、文本三种模态的统一理解与生成。Emu3成功验证了基于下一个token（词元）预测的多模态技术范式，释放出大规模训练和推理的潜力。

据了解，下一个token预测被认为是通往人工通用智能（AGI）的可能路径，但这种范式在语言以外的多模态任务中没有被证明。此前，多模态生成任务仍然由扩散模型主导，而多模态理解任务则由组合式方法主导。人工智能要想进入各行各业，必须建设一个“大一统”的多模态模型。

据介绍，Emu3只基于下一个token预测，无须扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer架构。在图像生成、视觉语言理解、视频生成任务中，Emu3表现出超过其他开源模型的优势。

智源研究院院长王仲远表示：“Emu3证明了下一个token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”（记者华凌）

免责声明：本网转载自其它媒体的文章，目的在于弘扬科技创新精神，传递更多科技创新信息，宣传国家科技政策，展示国家科技形象，增强国家科技软实力，参与国际科技舆论竞争，提高国际科技话语权，并不代表本网赞同其观点和对其真实性负责，在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本网文章及图片侵犯了您的版权，请与我们联系，我们将第一时间删除。

[db:关键词]

更多>同类资讯

推荐图文

推荐资讯

点击排行

粤公网安备 44040202001358号

• 加强科技项目运行管理服务科技创新发展	• 以培促学强素质精准赋能促提升—省科技厅举办
• 欧洲氢能周开幕聚焦氢能产业创新应用	• 广东郁南黄皮何以成为水果“新晋顶流”
• 院士专家驿站（惠东）启用国之重器旁院士有“	• 科学家如何从实验室走向资本市场？
• 欧洲氢能周开幕聚焦氢能产业创新应用	• 妙语连珠！听顶级科学家们“聊天”
• 围绕科技及产业前沿，大咖们纷纷智献湾区未来	• 院士专家观点｜科技事业发展需更多“国际职工”
• 科研“国家队”组团对接广东产业	• 科创湾区，何以“顶流”？
• “最强大脑”湾区集结，48小时聊了什么？	• 聚焦大湾区｜粤港澳携手共建世界科创高地
• 2024大湾区科学论坛——海洋科学与海洋产业分论	• 2024大湾区科学论坛——海洋科学与海洋产业分论