阿里AI打破视觉对话识别纪录看图说话能力再提升

2019-06-27 环球网26

核心提示：近日，在第二届视觉对话竞赛Visual Dialogue Challenge中，阿里AI击败了微软、首尔大学等十支参赛队伍，获

近日，在第二届视觉对话竞赛Visual Dialogue Challenge中，阿里AI击败了微软、首尔大学等十支参赛队伍，获得冠军。

　　(阿里AI在视觉对话竞赛中得冠)

据了解，视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起，是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后，回答出人类对于任一图片任一内容的提问。竞赛结果显示，阿里AI以74.57%的准确率获得冠军，将上一届比赛的纪录提高了16.82%。在相同的数据集中，人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别，例如识别出图片是否是一只猫，但对复杂场景中目标之间的逻辑关系理解、推理能力较弱，无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题，也难以将图片信息转化为人类理解的语言输出。

阿里AI的突破在于提出了“递归探索对话模型”，综合集成了图像识别、关系推理与自然语言理解三大能力，它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式，能够有效识别图片里的实体以及它们之间的关系，推理出图片所描述的事件内容，并通过对上下文进行有效建模，理解人类提出的问题及真实意图，给出自然准确的回复。

　　(视觉对话中，AI可以从容应对人类提问，左为AI，右为人类)

视觉对话是近年来快速崛起的AI研究方向，目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术，让机器具备了视觉能力;那么视觉对话技术，则使得机器拥有了对真实视觉世界的理解与推断能力，意味着AI的认知能力将迈上新的台阶。

　　(视觉对话技术有望人类提高地震救援效率)

据了解，这项技术未来将被应用在人机交互诸多场景：地震后在废墟中寻找幸存者的救援机器人，能够更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问阿里AI，理解网络照片中的内容，了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确，乘客的乘坐体验更好。

免责声明：本网转载自其它媒体的文章，目的在于弘扬科技创新精神，传递更多科技创新信息，并不代表本网赞同其观点和对其真实性负责，在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本站文章侵犯了您的版权，请与我们联系，我们将第一时间删除。

更多>同类资讯

科技网
~~没有留下签名~~~~

推荐图文

余承东演讲全文：鸿蒙	每年收99美元还抽成30
国家发改委价格认证中	快讯：5亿造“芯”！
B站宣布《三体》动画	肝肺检测后，阿里AI又
中国机车的“眼睛”与

推荐资讯

点击排行

粤公网安备 44040202001358号

• “假德邦”因伪造资质骗审核百度获赔9万元	• 字节跳动完成全资收购互动百科：持股100%
• 美2021财年研发预算首提“美国价值观”	• 中国学者发现可快速处理抗生素残留污染的新技术
• 华为李小龙揭秘EUV工艺：半导体领域重大突破	• 高通下一代旗舰将支持5G全频段、通吃SA/NSA
• 2019未来科学大奖获奖名单公布首位女科学家获	• 外媒揭秘苹果抄袭创意内幕利用应用店"找"灵感
• 苹果回应iPhone安全漏洞：存在但被谷歌夸大其	• 第二届三星未来技术论坛：打造中韩技术交流平台
• 高通总裁：在华有坚实伙伴关系继续支持移动生	• 携程宣布旗下超级会员与京东PLUS会员进行权益互
• 迄今最小加速传感器问世	• 小桔养车启动一级安全标准建设逐一落实安全内
• 人工智能发掘潜在新药仅需四十六天	• 贾跃亭回应辞任FF CEO：为把FF做成并偿还债务

阿里AI打破视觉对话识别纪录 看图说话能力再提升

阿里AI打破视觉对话识别纪录看图说话能力再提升