多模态信息处理.pdf

上传人:Q****o 文档编号:56615278 上传时间:2022-11-02 格式:PDF 页数:14 大小:938.47KB
返回 下载 相关 举报
多模态信息处理.pdf_第1页
第1页 / 共14页
多模态信息处理.pdf_第2页
第2页 / 共14页
点击查看更多>>
资源描述

《多模态信息处理.pdf》由会员分享,可在线阅读,更多相关《多模态信息处理.pdf(14页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、多模态信息处理研究进展、现状及趋势1.任务定义、目标和研究意义多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和直观性的要求。在同一事物上多类单

2、模态信息共生或共现的现象是十分普遍的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态信息的获取、组织、分析、检索、理解、创建等。多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称相似性度量,在某些语义推导任务中

3、,效果好于基于纯文本的分布式语义表示;情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外延语义(指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得不到完整或最终表达,而多模态信息处理方法为该问题的解决提供了新的思路和方

4、法。2.研究内容和关键科学问题多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建模、获取、融合、语义度量、分析、检索等方面。2.1 多模态信息建模如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信息建模,就是要构建一个单模态的分类体系,在该分类体系中,各单模态类别之间满足完整性、正

5、交性、关联性和直观性的要求。Niels Ole Bernsen 2008年基于前人的工作,在“多模态理论(Multimodality Theory)”一文中给出了一个满足这些要求的单模态的分类体系,如表1 所示。表 1 一个输入/输出模态的分类顶层通用层原子层亚原子层语言模态1 静态拟真图形元素2 静-动态拟真声音元素3 静-动态拟真触觉元素4 动态拟真图形4a.静动手势话语4b.静动手势关键字4c.静动手势符号5 静态非拟真图形5a.书面文本5a1.打印文本5a2.手写文本5b.书面关键字5b1.打印关键字5b2.手写关键字5c.书面符号5c1.打印符号5c2.手写符号文档编码:CU6J7W

6、6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H

7、2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6

8、N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J

9、7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J

10、9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3

11、O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU

12、6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K16 静-动态非拟真声音6a.口语话语6b.口语关键字6c.口语符号7 静-动态非拟真触觉7a.触觉文本7b.触觉关键字7c.触觉符号8 动态非拟真图形8a.动态书面文本8b.动态书面关键字8c.动态书面符号8d.静动口语话语8e.静动口语关键字8f.静动口语符号拟真模态9.静态图形9a

13、.图像9b.地图9c.组合图表9d.图形9e.概念图表10.静-动态声音10a.图像10b.地图10c.组合图表10d.图形10e.概念图表11.静-动态触觉11a.图像11b.地图11c.组合图表11d.图形11e.概念图表12.动态图形12a.图像12a1.脸部表情12b.地图12a2.手势文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3

14、 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文

15、档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6

16、U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9

17、U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K

18、1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6

19、B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2

20、I9U3 ZN6I3O6N7K112c.组合图表12a3.肢体动作12d.图形12e.概念图表主观模态13.静态图形14.静-动态声音15.静-动态触觉16.动态图形显式结构模态17.静态图形18.静-动态声音19.静-动态触觉20.动态图形随着人机交互设备的发展和丰富,新的传感器可以采集到更多新的、可与人交互的信息,如定位信息、重力加速度信息、脑电信息、热量消耗信息、步行运动信息等,表 1 给出模态分类体系已不能完全覆盖新模态信息的种类,因此需要持续研究新的模态分类体系。2.2 多模态信息获取尽管人与人、人与机器之间交互信息的多模态现象是普遍存在的,但对于多模态信息处理而言,所处理的对象数据

21、往往需要特殊处理才能获得。多模态信息的获取主要包括数据的采集、解析与数据集构建。2.1.1 多模态数据的采集尽管可以对单模态数据类别进行比较形式化的定义,但实际研究中只要尽可能地遵守完整性、正交性、关联性和直观性的原则,新模态数据类别的引入是比较灵活,同时也是比较活跃的。比如除了图像、声音等信息外,针对社交媒体,可通过智能终端,采集到位置、重力加速度、睡眠、运动等人体信息;针对车联网,可通过车载传感器,采集到车速、位置、温度、发动机转速、雷达等汽车状态信息;针对监控网,可以采集红外、震动、烟雾浓度、生物指纹等与安防相关的信息。文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I

22、3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:C

23、U6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC

24、10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN

25、6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码

26、:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9

27、HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3

28、ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1多数情况下,多模态信息处理任务要求所有处理样本数据的各单模态数据是完整的。好在各单模态数据源经常是共生或共现的,满足完整性要求是可以做得到的。但也有例外的情况,例如歌曲多模态信息中,尽管音频与歌词是共生的,但歌词很难从音频中分离,因此,歌词文本数据还要通过其它单独途径采集。2.2.2 多模态数据的解析多模态数据的解析就是将原始混合

29、状态的多模态数据,分解为单模态的数据。例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据,其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。多模态数据的解析往往需要与数据采集相结合,例如歌曲 MTV 视频的解析,歌词文本很难从视频本身得到,可以通过采集系统来弥补。再例如,艺术、影视评论类文本数据的解析,其中涉及的图像、视频、音频数据的获取,更需要借助采集系统来完成。2.2.3 多模态训练数据集的构建为了进行对多模态信息的机器学习处理,如分类、回归、聚类等,需要构建训练用样本数据集,特别是针对有监督学习,还需要进行数据标注。多模态训练数据集的构建有自己独

30、特的方法。以多模态人脸情感识别为例,需要选择一组参试人员,选择一组表达不同情感的诗词,准备一个相对封闭的环境,一个显示诗词的屏幕,一个面对受试人员脸部的摄像头,一个录音麦克风,一个采集视频、音频和交互数据的软件,交互数据通过受试人员拖动屏幕上采集软件的滚动条来产生。标注的情感数据可采用二维连续的 VA 情感模型来量化,由于标注的情感模型是二维的,因此每个诗词样本都需要标注两次。标注开始后,受试人朗诵屏幕上的诗词,并根据朗诵诗词的情感体验拖动滚动条。最终可以获得包含有声语言、文本语言和人脸视频的多模态情感标注数据及相应的训练数据集。2.3 多模态语义分析术语“语义分析”在不同领域有不同的含义,这

31、里特指机器学习中的语义分文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文

32、档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6

33、U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9

34、U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K

35、1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6

36、B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2

37、I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1析。在机器学习中,语义分析是指构建一个文档集概念结构的任务,该概念结构逼近文档集所表达的概念。也即,运用机器学习的方法提取或挖掘文档的深层次概念。虽然语义分析一般不等同于文档的语义理解,但往往是语义理解的基础步骤。在语义分析相关研究中,所分

38、析的文档集已从文本类数据,扩展到图像、视频、音频等其它媒体形式的数据集。以图像数据为例,所谓图像语义分析是指完整地将图像内容转换成可直观理解的类文本语言表达,即将图像内容“像素-区域-目标-场景”的层次关系,采用合适的词汇、合理的构词方式进行词汇编码和标注的过程。语义分析过程中首先要面对的是如何克服语义本身在表达上的多义性和不确定性问题,如同词不同义,同义不同词的问题。对于图像、音频这样的非文本类数据,更要解决在数据表达和语义解释之间建立合理的联系的问题,即语义鸿沟问题。大量研究表明,多模态语义分析方法对解决上述两类问题具有明显的优势。例如,在对足球比赛视频语义分析的基础上,辅以音频欢呼声事件

39、的鉴别,能够更好地分析出进球事件的语义。所谓多模态语义分析是指在同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过融合得到分析结果的语义分析方法。2.4 多模态情感识别人机交互、多媒体信息处理等多个领域的研究和应用,对情感计算技术的发展起到了重要的推动作用。目前人机交互的主要方式仍是书面语言,书面语言交流与人类面对面交流的最大差别是,所谓副语言(Para-language)的缺失。副语言包括语气声、哭笑声、面部表情、肢体语言等。实现副语言的人机交流是实现和谐自然人机对话的基础。鉴于副语言更多地侧重情感语义表达的属性,引入情感识别技术来实现对副语言的理解是顺理成章的。为了处理

40、语音和副语言这样的多模态数据,将情感识别技术扩展到处理多模态数据,既是所谓的多模态情感识别技术。在多媒体检索研究领域,传统的基于文本知识的索引方法已显现出它的局限性,而基于情感的索引吸引了多媒体研究的学者们。在多媒体应用领域,用户也期望内容推荐和分发系统,能够更好地适应他们的体验和情感。多媒体情感分析文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I

41、9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7

42、K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W

43、6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H

44、2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6

45、N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J

46、7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J

47、9H2I9U3 ZN6I3O6N7K1与识别的研究目标是,在多媒体内容的推荐和检索中使用情感因素。例如,当把“我想听一首欢快的歌”、“我想看一部恐怖片”等检索条件输入给计算机系统时,计算机系统能够给出满足要求的响应。其中关键的前提是,多媒体内容的情感属性,不是人工标注的,而是计算机自己通过计算获得的。歌曲、电影数据的多模态属性,同样要求情感识别技术是多模态的。2.5 多模态信息检索随着经典的文本检索文本、图像检索图像的单模态信息检索技术的成熟与大规模应用,各单模态之间相互检索,诸如用图像检索文本、文本检索音频这样的跨媒体检索系统,也成为信息检索领域的研究热点。与单模态信息检索方式相比,跨媒体信

48、息检索不仅能够更好地表达用户的检索意图,改善用户的检索体验,提高检索召回率和准确率,而且对媒体数据语义的理解也具有重要作用。跨媒体信息检索首先要解决的是所谓语义鸿沟问题,由于各单模态内容的异构性导致语义的不可度量,使得传统多媒体检索方法不能直接适用于跨媒体检索。有多种方法被用来解决这一问题。一种方法是对多媒体数据不同模态的语义关系进行统一建模,以实现跨媒体检索。这种方法的缺点是受限于语义概念的建模规模;另一种方法是利用共生或共现的多模态信息作为语义桥梁,来实现跨媒体检索。广义上讲,上述两种检索方法,都可以被称为多模态信息检索,狭义上讲,后者为典型的多模态信息检索,前者可称为跨模态信息检索。一个

49、典型的多模态信息检索系统是欧盟基金项目I-SEARCH(Axenopoulos,2010,见图 1),该项目的目标是提供一个统一的多模态内容索引、搜索和检索框架,该框架能够处理指定的多媒体和多模态内容类型,如文本、图像、图形、视频、3D对象和音频,现实对上述任何类型信息内容的检索和查询。I-SEARCH将多种媒体类型封装到一个称为“内容对象(CO)”的媒体容器中,并共享相同的语义,同时,不同的媒体类型可拥有各自的的元数据,如文本、分类、位置或时间等信息。多模态信息的索引、检索和查询,都基于内容对象来完成。文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码

50、:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9 HC10J9H2I9U3 ZN6I3O6N7K1文档编码:CU6J7W6B6U9

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com