多模态信息处理研究进展、现状及趋势.doc
《多模态信息处理研究进展、现状及趋势.doc》由会员分享,可在线阅读,更多相关《多模态信息处理研究进展、现状及趋势.doc(11页珍藏版)》请在沃文网上搜索。
1、多模态信息处理研究进展、现状及趋势任务定义、目标和研究意义多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的 研究,其中术语“模态” 一词被定义为在特定物理媒介上信息的表示方式。在研 究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、 粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细 粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一种多 媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态 概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和 直观性的要求。在同一事物上
2、多类单模态信息共生或共现的现象是十分普遍的。 人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说 文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态 信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态 信息的获取、组织、分析、检索、理解、创建等。多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系 统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法 和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基 于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称 相似性度量
3、,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示; 情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦 度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模 态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿 沟问题,利用视音频数据共生或共现的文本信息,进行多模态的语义分析和相似 性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨信息处 理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外延语义 (指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得不到完 整或最终表达,而多模态信息处理方法
4、为该问题的解决提供了新的思路和方法。1. 研究内容和关键科学问题多模态信息处理是在各种单模态信息处理的基础上发展起来的,各单模态数 据的处理方法大都直接采用现有单模态的处理方法来实现。例如在特征提取层面, 针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、音频特 征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建 模、获取、融合、语义度量、分析、检索等方面。2.1多模态信息建模如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于 用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信 息建模,就是要构建一个单模态的分类体系,在该分
5、类体系中,各单模态类别之 间满足完整性、正交性、关联性和直观性的要求。表1给出了一个满足这些要求 的单模态分类体系。表1 一个输入/输出模态的分类顶层通用层原子层亚原子层语言模态1静态拟真图形元素2静动态拟真声音元素3静动态拟真触觉元素4动态拟真图形4a.静动手势话语4b.静动手势关键字4c.静动手势符号5静态非拟真图形5a.书面文本5a1.打印文本 5a2.手写文本5b.书面关键字5b1.打印关键字 5b2.手写关键字5c.书面符号5c1.打印符号 5c2.手写符号6静动态非拟真声音6a. 口语话语6b. 口语关键字6c. 口语符号7静动态非拟真触觉7a.触觉文本7b.触觉关键字7c.触觉符
6、号8动态非拟真图形8a.动态书面文本8b.动态书面关键字8c.动态书面符号8d.静动口语话语8e.静动口语关键字8f.静动口语符号拟真模态9.静态图形9a.图像9b.地图9c.组合图表9d.图形9e.概念图表10.静二动态声音10a.图像10b.地图10c.组合图表10d.图形10e.概念图表11.静=动态触觉11a.图像11b.地图11c.组合图表11d.图形11e.概念图表12.动态图形12a.图像12a1.脸部表情12b.地图12a2.手势12c.组合图表12a3.肢体动作12d.图形12e.概念图表主观模态13.静态图形14.静=动态声音15.静动态触觉16.动态图形显式结构模态17.
7、静态图形18.静动态声音19.静动态触觉20.动态图形随着人机交互设备的发展和丰富,新的传感器可以采集到新的、可与人交互 的信息,如定位信息、重力加速度信息、睡眠信息、热量消耗信息、步行运动信 息等,表1给出模态分类体系已不能完全覆盖新模态信息的种类,因此需要持 续研究新的模态分类体系。2. 2多模态信息获取尽管人与人、人与机器之间交互信息的多模态现象是普遍存在的,但对于多 模态信息处理而言,所处理的对象数据往往需要特殊处理才能获得。多模态信息 的获取主要包括数据的采集、解析与数据集构建。2. 1.1多模态数据的采集尽管可以对单模态数据类别进行比较形式化的定义,但实际研究中只要尽可 能地遵守完
8、整性、正交性、关联性和直观性的原则,新模态数据类别的引入是比 较灵活,同时也是比较活跃的。比如除了图像、声音等信息外,针对社交媒体, 可通过智能终端,采集到位置、重力加速度、睡眠、运动等人体信息;针对车联 网,可通过车载传感器,采集到车速、位置、温度、发动机转速、雷达等汽车状 态信息;针对监控网,可以采集红外、震动、烟雾浓度、生物指纹等与安防相关 的信息。多数情况下,多模态信息处理任务要求所有处理样本数据的各单模态数据是完整的。好在各单模态数据源经常是共生或共现的,满足完整性要求是可以做得 到的。但也有例外的情况,例如歌曲多模态信息中,尽管音频与歌词是共生的, 但歌词很难从音频中分离,因此,歌
9、词文本数据还要通过其它单独途径采集。2. 2. 2多模态数据的解析多模态数据的解析就是将原始混合状态的多模态数据,分解为单模态的数据。 例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据, 其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。多模态数据的解析往往需要与数据采集相结合,例如歌曲MTV视频的解析, 歌词文本很难从视频本身得到,可以通过采集系统来弥补。再例如,艺术、影视 评论类文本数据的解析,其中涉及的图像、视频、音频数据的获取,更需要借助 米集系统来完成。2. 2. 3多模态训练数据集的构建为了进行对多模态信息的机器学习处理,如分类、回归、聚
10、类等,需要构建 训练用样本数据集,特别是针对有监督学习,还需要进行数据标注。多模态训练 数据集的构建有自己独特的方法。以多模态人脸情感识别为例,首先选择一组参试人员,选择一组表达不同情 感的诗词,准备一个相对封闭的环境,一个显示诗词的屏幕,一个面对受试人员 脸部的摄像头,一个录音麦克风,一个采集视频、音频和交互数据的软件,交互 数据通过受试人员拖动屏幕上采集软件的滚动条来产生。标注的情感数据采用二 维连续的AV情感模型来量化,由于标注的情感模型是二维的,因此每个诗词样 本都需要标注两次。标注开始后,受试人朗诵屏幕上的诗词,并根据朗诵诗词的 情感体验拖动滚动条。最终可以获得包含有声语言、文本语言
11、和人脸视频的多模 态情感标注数据,及相应的训练数据集。2. 3多模态语义分析在人机交互研究中,有关机器对自然语言理解的相关研究可被称为语义分析。 除对自然语言(包含文本及语音)的语义分析研究外,针对图像、视频流、音频流等多媒体数据的泛语义分析的研究越来越多地受到关注,并成为研究的热点。 对应自然语言理解,这些研究可称为图像理解、视频理解、音频理解等,它们都 面临着严重的语义鸿沟问题,解决多媒体数据理解中的语义鸿沟问题,需要建立 多媒体数据与文本之间的对应关系。为了能够在语义鸿沟上架起一座桥梁,研究 人员已经做了许多有意义的工作,有基于模型学习的、基于结构分析的,以及基 于检索的方法被提出来。近
12、些年基于多模态的语义分析方法得到更多的关注。研 究发现,利用媒体数据的多模态属性进行语义分析,会得到更好的效果。例如, 在视频语义分析技术的基础上,辅以音频欢呼声事件的鉴别,能够更好地分析出 进球事件的语义。多模态语义分析有两个明显的优势,一是可以利用不同模态数 据之间信息的互补性,使得分析对象的信息更加全面、完整;二是可以利用不同 模态数据与文本之间的“亲疏”关系,缩短与文本之间的“距离”。例如,语音 比图像距离文本要近,歌曲也要比图像距离文本近。所谓多模态语义分析是指在 同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过 融合得到分析结果的语义分析方法。2. 4多模态信
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多模态 信息处理 研究进展 现状 趋势