科技是第一生产力、人才是第一资源、创新是第一动力 加快建设科技强国,实现高水平科技自立自强
氢能科技 沙蓬绿色种养产业模式 联源科技 超联科技 园区 园区 园区 园区 园区

原生多模态世界模型Emu3发布"

   2024-10-24 科技日报
37
核心提示:10月21日,北京智源人工智能研究院(以下简称“智源研究院”)正式发布原生多模态世界模型Emu3。据悉,该模型实现了视频、图像、

10月21日,北京智源人工智能研究院(以下简称“智源研究院”)正式发布原生多模态世界模型Emu3。据悉,该模型实现了视频、图像、文本三种模态的统一理解与生成。Emu3成功验证了基于下一个token(词元)预测的多模态技术范式,释放出大规模训练和推理的潜力。

据了解,下一个token预测被认为是通往人工通用智能(AGI)的可能路径,但这种范式在语言以外的多模态任务中没有被证明。此前,多模态生成任务仍然由扩散模型主导,而多模态理解任务则由组合式方法主导。人工智能要想进入各行各业,必须建设一个“大一统”的多模态模型。

据介绍,Emu3只基于下一个token预测,无须扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer架构。在图像生成、视觉语言理解、视频生成任务中,Emu3表现出超过其他开源模型的优势。

智源研究院院长王仲远表示:“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模多模态训练和推理提供基础,这一简单的架构设计将利于产业化。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”(记者 华凌)


免责声明:本网转载自其它媒体的文章,目的在于弘扬科技创新精神,传递更多科技创新信息,宣传国家科技政策,展示国家科技形象,增强国家科技软实力,参与国际科技舆论竞争,提高国际科技话语权,并不代表本网赞同其观点和对其真实性负责,在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本网文章及图片侵犯了您的版权,请与我们联系,我们将第一时间删除。
 
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用说明  |  隐私政策  |  免责声明  |  网站地图  |   |  粤ICP备05102027号

粤公网安备 44040202001358号