新视角 网络科技 多模态人工智能正大步走向场景应用新阶段

多模态人工智能正大步走向场景应用新阶段

科技日报实习记者 李诏宇

近日,以“共创产业智能新高度”为主题的多模态人工智能产业联合体第二次会议在武汉召开,会上发布了由中国科学院自动化研究所、武汉人工智能研究院、华为技术有限公司牵头的《多模态基础大模型技术白皮书》。

“当前,人工智能正从单模态、有监督学,迈向多模态、自监督学的时代。”中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“多模态人工智能的未来必将风光无限。”

对数据标注的依赖性降低了一个数量级以上

要了解多模态人工智能,首先需要明白何为模态,“一般来说,每一种信息的来源或者形式,都可以称为一种模态。”王金桥说。

人类在信息获取、环境感知、知识学与表达等方面都是采用多模态的输入、输出方式。比如,如果一个人要在一片草坪上找到一朵盛开的花朵,既可以通过视觉这一模态来寻找,也就是直接用眼睛看;也可以通过嗅觉这一模态来搜索,也就是用鼻子闻;还可以通过触觉这一模态来探寻,也就是用手触摸。面对寻找花朵这个问题,一般来说,人们会采取视觉、嗅觉等多模态的方式来进行。“某种程度上说,多模态的输入、输出方式正是人类智慧的重要体现之一。”王金桥表示。

目前的网络数据包括图像、视频、文字、音频等不同模态。对于人工智能来说,要想更好地掌握、分析、利用网络上的数据,就需要能够对这些多模态的数据进行系统的统筹和分析。

王金桥表示:“技术创新是推动多模态人工智能产业发展的重要动力之一。自20世纪70年代多模态学起步以来,伴随着近年来生成式预训练、基于Transformer的双向编码器表达等大规模预训练模型的快速涌现,人工智能研究领域正在经历一场有监督学向无监督学条件下‘大数据+大模型’的大规模预训练范式转变,多模态人工智能发展迎来了新的巅峰。”

近年来,多模态人工智能在场景泛化性、对数据的依赖性等方面都取得了巨大的技术突破。

“多模态人工智能通过自监督的学方式对海量无标注数据进行学,同时面向特定任务场景进行小数据的标注学和微调。相对于单模态人工智能,其对数据标注的依赖性降低了一个数量级以上。”王金桥说。

“多模态大模型+小模型”模式或成主流

2017年,国务院制发《新一代人工智能发展规划》,由人工智能技术引发的产业变革正在加速演进。目前,各行各业利用人工智能技术打造的产业新应用、新业态、新模式不断涌现,我国的人工智能产业化势头迅猛,多模态人工智能产业也取得了许多突破。

如今,多模态人工智能产业正大步走向场景化、实用化。“目前,模型参数与数据规模不再是各研发机构的比拼重点,多模态人工智能产业正在走向场景应用的新阶段。”王金桥表示。

“例如,‘全媒体多模态大模型’就是基于中国科学院自动化研究所‘闻海’多模态媒体大数据和‘紫东太初’三模态大模型的技术积累,结合新华社全媒体的海量数据积累和媒体融合业务场景而建立的。‘全媒体多模态大模型’将加速推动人工智能在视频配音、语音播报、标题摘要、海报创作等多元媒体业务场景的应用。”王金桥说。

此外,在智慧城市、金融科技、民生服务等许多领域,多模态人工智能也有着广阔的应用场景。

王金桥表示,未来“多模态大模型+小模型”的模式或将成为多模态人工智能的主流,该模式可以有效解决需求碎片化、多样化等问题。

王金桥表示,我国应该打造工业化范式的多模态大模型生态,持续完善国产基础软硬件支撑体系,加大人工智能与医学、材料、气候等科学研究领域的结合力度,健全人工智能产业应用政策标准,大力培养人工智能复合型人才。

广告位

新视角 免责声明:本文上述内容出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不构成任何其他建议。其文中陈述文字和内容来源于第三方或网络,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请及时联系我们进行处理。http://www.newxen.com/11952.html
上一篇
下一篇

发表评论

联系我们

联系我们

微信:nvshen2168

在线咨询: QQ交谈

邮箱: 8253665@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部