首页 > 安防资讯网多模态人工智能正在大踏步地迈向场景应用的新阶段

多模态人工智能正在大踏步地迈向场景应用的新阶段

2022年10月10日 10:50

日前，主题为“共创产业智能新气象”的多模态人工智能产业联合体（以下简称“多模态人工智能联合体”）第二届大会在武汉举行，中国科学院自动化研究所（以下简称“中科院自动化所”），武汉人工智能研究院（以下简称“武汉人工智能研究院”）和华为技术有限公司（以下简称“华为技术有限公司”）领衔的“多模态基础大模型”技术白皮书正式发布。

“目前人工智能正在由单模态和有监督学习向多模态和自监督学习时代发展。”2017年12月17日下午，由中国自动化学会主办的2018中国机器人大会在北京国家会议中心举行。大会以“智能新基建·创新驱动发展”为主题。中国工程院院士倪光南出席并讲话。工业和信息化部部长苗圩主持会议。开幕式上致辞。演讲嘉宾发言。会后合影。活动结束。中国科学院自动化研究所所长，武汉人工智能研究所所长王金桥说：“多模态人工智能前景一定会无限风光！”

数据标注依赖性下降超过1个量级

要理解多模态人工智能就必须先理解什么是模态，“通常情况下，每个信息源或形态，都可叫做一个模态”。中国科学院院士、清华大学教授王金桥在接受《瞭望》新闻周刊采访时指出，所谓多模态是指不同媒体（包括视频）之间相互转换或影响所呈现出来的多种视觉表现方式。那么什么叫做多模态？它有哪些特征呢？“我认为很重要！”王金桥如是说。怎么做？怎么办？王金桥表示。

人在信息获取，环境感知，知识学习和表达过程中，均以多模态输入输出。例如，一个人要想发现一块草坪上开了花，他可以从视觉这个模态去发现，即直接从眼睛去观察，或从嗅觉这个模态去发现即从鼻子去嗅，或从触觉这个模态去发现即手去触碰。而当我们遇到陌生事物时，又可以通过听觉和触觉两种不同的途径去了解它。这其中，最主要的便是通过视觉获得对该事物的认识。那么究竟如何才能得到正确的结果呢？答案很简单——找！找！什么？找花吗？找？找！找花吧？在面临找花这一难题时，通常情况下都是通过视觉和嗅觉多模态展开。“从一定程度上讲，多模态输入输出方式恰恰是人类智慧最主要的表现之一”。王金桥说。

当前网络数据主要由图像，视频，文字和音频等各种模态组成。由于其各自具有独特的特点，在使用时也有着很大的差异。因此，人们通常将它们统称为多模态数据。随着技术的进步，这类信息的处理变得更加便利。比如语音识别。人脸识别等等。智能化越来越强。效率更高。成本更低。应用更广。效果更佳。对于人工智能而言，为了更好的把握，分析，使用网络中的数据，必须能将这些多模态数据有计划的协调与分析。

王金桥说：“技术创新是多模态人工智能行业发展的主要驱动力之一"。从20世纪70年代多模态学习开始至今，随着近几年生成式预训练和基于Transformer双向编码器表示的大尺度预训练模型迅速出现，人工智能领域正经历从有监督学习到无监督学习下“大数据+大模型”大尺度预训练范式的变革，多模态人工智能的发展达到一个新高峰。

近年来多模态人工智能（MMAI）在场景泛化性和数据依赖性上有较大技术突破。

“多模态人工智能在针对具体任务场景开展小数据标注学习与微调时，采用自监督学习方式学习大量无标注数据，与单模态人工智能相比，对数据标注依赖程度下降1个数量级甚至更多。中国科学院上海技术物理研究所研究员、博士生导师王金桥介绍，在他看来，“多模态智能”将成为未来机器学习领域最重要的发展方向之一。“人工智能是个大问题，也是一大挑战。”王金桥如是说。什么是人工智能？如何实现人工智能？有哪些优势？答：很简单。怎么做呢？王金桥表示。

“多模态大模加小模”的格局或成为主流

2017年国务院制发了《新一代人工智能发展规划》（以下简称《规划》）.人工智能技术所带来的产业变革正处于加速演变之中。随着智能制造和工业互联网等战略性新兴产业快速兴起，人工智能已成为推动传统产业转型升级的重要动力。近年来，我国政府高度重视人工智能的研发与产业化工作，出台多项政策支持产业创新发展。2018年，中国迎来人工智能元年。全球瞩目。成果丰硕。前景广阔。潜力巨大。挑战严峻。机遇难得。目前，以人工智能技术为核心的新业态和新模式不断涌现，推动了人工智能产业化的快速发展，也促进了人工智能产业的繁荣。

当今时代，多模态人工智能产业正在大踏步向场景化和实用化迈进。“当前，模型参数和数据规模已经不是各类研发机构竞争的焦点，多模态人工智能行业正迈向场景应用新舞台。”中国电子学会副理事长兼秘书长王金桥在接受《大众创业万众创新》记者采访时介绍。未来，多模态人工智能将通过大数据分析和机器学习技术来辅助人类完成复杂任务，从而为人们带来更高的体验感。如何实现？有哪些解决方案？“这是一个问题！”王院士回答了这个问题。王金桥说。

“比如,'全媒体多模态大模型',是以中国科学院自动化研究所‘闻海’多模态媒体大数据,'紫东太初‘三模态大模型为技术积淀，以新华社全媒体海量数据累积为基础，以媒体融合为经营场景,'全媒体大模型’将加快人工智能在视频配音，语音播报，标题摘要，海报创作等多元媒体经营场景中的运用。3月26日，中国新闻史学会会长兼秘书长王金桥接受记者采访时表示，“全媒体多模态是我们未来发展的趋势。”他介绍了新时代下我国主流新闻媒体面临的机遇与挑战。如何把握？有什么建议？“怎么做？”她提出问题。答案很多。怎么办呢？王金桥表示。

另外，多模态人工智能在智慧城市，金融科技和民生服务等诸多领域都具有广泛的应用场景。

王金桥认为，未来发展需要以“多模态大模型模拟人类行为过程”为目标，实现“多模态小模型”协同进化，推动人工智能向碎片化和多样化方向发展。

王金桥指出，我国应构建工业化范式下的大模型多模态生态，不断完善国产基础软硬件支撑，增加人工智能在医学，材料和气候等科研领域的融合，完善人工智能行业应用政策标准和着力培育人工智能复合型人才。

责任编辑：赵龙

文章来源：//www.profoottalk.com/2022/1010/1064.shtml