人工智能之知识图谱研究报告.pdf

上传人:雨** 文档编号:2925948 上传时间:2020-05-25 格式:PDF 页数:86 大小:47.48MB
返回 下载 相关 举报
人工智能之知识图谱研究报告.pdf_第1页
第1页 / 共86页
人工智能之知识图谱研究报告.pdf_第2页
第2页 / 共86页
点击查看更多>>
资源描述

《人工智能之知识图谱研究报告.pdf》由会员分享,可在线阅读,更多相关《人工智能之知识图谱研究报告.pdf(86页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 图表目录图表目录 图 1 知识工程发展历程. 3 图 2 Knowledge Graph 知识图谱 . 9 图 3 知识图谱细分领域学者选取流程图. 10 图 4 基于离散符号的知识表示与基于连续向量的知识表示. 11 图 5 知识表示与建模领域全球知名学者分布图. 13 图 6 知识表示与建模领域全球知名学者国家分布统计. 13 图 7 知识表示与建模领域中国知名学者分布图. 14 图 8 知识表示与建模领域各国知名学者迁徙图. 14 图 9 知识表示与建模领域全球知名学者 h-index 分布图 . 15 图 10 知识获取领域全球知名学者分布图. 23 图 11 知识获取领域全球知名学

2、者分布统计 . 23 图 12 知识获取领域中国知名学者分布图. 23 图 13 知识获取领域各国知名学者迁徙图. 24 图 14 知识获取领域全球知名学者 h-index 分布图 . 24 图 15 语义集成的常见流程. 29 图 16 知识融合领域全球知名学者分布图. 31 图 17 知识融合领域全球知名学者分布统计. 31 图 18 知识融合领域中国知名学者分布图. 31 图 19 知识融合领域各国知名学者迁徙图. 32 图 20 知识融合领域全球知名学者 h-index 分布图 . 32 图 21 知识查询与推理领域全球知名学者分布图. 39 图 22 知识查询与推理领域全球知名学者分

3、布统计. 39 图 23 知识查询与推理领域中国知名学者分布图. 39 图 24 知识表示与推理领域各国知名学者迁徙图. 40 图 25 知识查询与推理领域全球知名学者 h-index 分布图 . 40 图 26 知识应用领域全球知名学者分布图. 46 图 27 知识应用领域全球知名学者分布统计. 46 图 28 知识应用领域中国知名学者分布图. 47 图 29 知识应用领域各国知名学者迁徙图. 47 图 30 知识应用领域全球知名学者 h-index 分布图 . 48 图 31 行业知识图谱应用. 68 图 32 电商图谱 Schema . 69 图 33 大英博物院语义搜索. 70 图 3

4、4 异常关联挖掘. 70 图 35 最终控制人分析. 71 图 36 企业社交图谱. 71 图 37 智能问答. 72 图 38 生物医疗. 72 图 39 知识图谱领域近期热度. 75 图 40 知识图谱领域全局热度. 75 表 1 知识图谱领域顶级学术会议列表. 10 表 2 知识图谱引用量前十论文. 56 表 3 常识知识库型指示图. 67 2 1. 概念篇概念篇 1.1. 知识图谱概念和分类知识图谱概念和分类 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的 关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和 理解

5、互联网海量信息的能力。 知识图谱给互联网语义搜索带来了活力, 同时也在智能问答中 显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信 息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等交叉研究,属人工智能重 要研究领域知识工程的研究范畴。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎, 是建立大规模知识的一个杀手锏应用。 1.1.1. 知识图谱的概念知识图谱的概念 1994 年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义将知识集 成到计算机系统从而完成只有特定领域专家才能完成

6、的复杂任务。 在大数据时代, 知识工程 是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。 大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需 要利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data) ,完成从数据到信 息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答 案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要 的应用价值: 知识融合: 当前互联网大数据具有分布异构的特点, 通过知识图谱可以对这些数据 资源进行语义标注和链接,建立以知识为中心的资

7、源语义集成服务; 语义搜索和推荐: 知识图谱可以将用户搜索输入的关键词, 映射为知识图谱中客观 世界的概念和实体, 搜索结果直接显示出满足用户需求的结构化信息内容, 而不是 互联网网页; 问答和对话系统: 基于知识的问答系统将知识图谱看成一个大规模知识库, 通过理 解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案; 大数据分析与决策: 知识图谱通过语义链接可以帮助理解大数据, 获得对大数据的 洞察,提供决策支持。 当前知识图谱中包含的主要几种节点有: 3 实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某 一种植物、某一件商品等等。世界万物有具体事物组成,

8、此指实体。实体是知识图 谱中的最基本元素,不同的实体间存在不同的关系。 概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 属性:用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于 不同类型属性的边。 如果属性值对应的是概念或实体, 则属性描述两个实体之间的 关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。 1.1.2. 知识图谱的分类知识图谱的分类 知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说, 知识图谱通常分为通用(领域无关)知识图谱和特定领域知识图谱: 通用知识图谱: 通用知识图谱可以形象地看成一个面向通用领域的 “

9、结构化的百科 知识库” ,其中包含了大量的现实世界中的常识性知识,覆盖面极广。 特定领域知识图谱: 领域知识图谱又叫行业知识图谱或垂直知识图谱, 通常面向某 一特定领域,可看成是一个“基于语义技术的行业知识库” 。 其他分类方式不再一一赘述。 1.2. 知识工程发展历程知识工程发展历程 回顾知识工程四十年多来发展历程, 总结知识工程的演进过程和技术进展, 可以将知识 工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期,群体智能 时期以及知识图谱时期,如图 1 所示。 l 1950-1970 时期:图灵测试知识工程诞生前期 人工智能旨在让机器能够像人一样解决复杂问题,

10、图灵测试是评测智能的是手段。 这一 阶段主要有两个方法: 符号主义和连结主义。 符号主义认为物理符号系统是智能行为的充要 条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有 图 1 知识工程发展历程 4 代表性的工作是通用问题求解程序(GPS) :将问题进行形式化表达,通过搜索,从问题初 始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一 时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和 知识工程的先驱 Minsky,Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智

11、能语言和通用问题求解和形式化语言方面的杰出工作分别获得了 1969 年、 1971 年、 1975 年 的图灵奖。 l 1970-1990 时期:专家系统知识工程蓬勃发展期 通用问题求解强调利用人的求解问题的能力建立智能系统, 而忽略了知识对智能的支持, 使人工智能难以在实际应用中发挥作用。70 年开始,人工智能开始转向建立基于知识的系 统, 通过 “知识库+推理机” 实现机器智能, 这一时期涌现出很多成功的限定领域专家系统, 如 MYCIN 医疗诊断专家系统、识别分子结构的 DENRAL 专家系统以及计算机故障诊断 XCON 专家系统等。斯坦福人工智能实验室的奠基人 Feigenbaum 教

12、授在 1980 年的一个项 目报告Knowledge Engineering:The Applied Side of Artificial Intelligence中提出知识工程 的概念, 从此确立了知识工程在人工智能中的核心地位。 这一时期知识表示方法有新的演进, 包括框架和脚本等。80 年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域 知识转变成计算机可以处理的知识。 l 1990-2000 时期:万维网 在 1990年到 2000年, 出现了很多人工构建大规模知识库, 包括广泛应用的英文 WordNet, 采用一阶谓词逻辑知识表示的 Cyc 常识知识库,以及中文的 HowNet

13、。Web 1.0 万维网的产 生为人们提供了一个开放平台, 使用 HTML 定义文本的内容, 通过超链接把文本连接起来, 使得大众可以共享信息。W3C 提出的可扩展标记语言 XML,实现对互联网文档内容的结构 通过定义标签进行标记, 为互联网环境下大规模知识表示和共享奠定了基础。 这一时期在知 识表示研究中还提出了本体的知识表示方法。 l 2000-2006 时期:群体智能 在 2001 年,万维网发明人、2016 年图灵奖获得者 Tim Berners-Lee 在科学美国人杂志 中发表的论文The Semantic Web正式提出语义 Web 的概念,旨在对互联网内容进行结构 化语义表示,

14、利用本体描述互联网内容的语义结构, 通过对网页进行语义标识得到网页语义 信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。W3C 进一步提出 万维网上语义标识语言 RDF(资源描述框架)和 OWL(万维网本体表述语言)等描述万维 网内容语义的知识描述规范。 万维网的出现使得知识从封闭知识走向开放知识, 从集中构建知识成为分布群体智能知 识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关 联来产生更多的知识而非完全由固定人生产。 这个过程中出现了群体智能, 最典型的代表就 5 是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今

15、天大 规模结构化知识图谱的重要基础。 l 2006 年至今:知识图谱知识工程新发展时期 “知识就是力量” ,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算 的知识是这一时期的目标。从 2006 年开始,大规模维基百科类富结构知识资源的出现和网 络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、WordNet 和 HowNet 等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的, 并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和 数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购 F

16、reebase 后在 2012 年推出的知识图谱(Knowledge Graph) ,Facebook 的图谱搜索,Microsoft Satori 以及商业、金融、生命科学等领域特定的知识库。最具代表性大规模网络知识获取的 工作包括DBpedia、 Freebase、 KnowItAll、 WikiTaxonomy和YAGO, 以及BabelNet、 ConceptNet、 DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia 等。这些知识图谱 遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属 性

17、值和与其他实体的关系) ,并且这些实体被组织在成千上万的由语义体现的客观世界的概 念结构中。 目前知识图谱的发展和应用状况, 除了通用的大规模知识图谱, 各行业也在建立行业和 领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以 及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识 图谱的创新应用还有待开发。 在我国知识工程领域研究中, 中科院系统所陆汝钤院士、 计算所史忠植研究员等老一代 知识工程研究学者为中国的知识工程研究和人才培养做出了突出贡献, 陆汝钤院士因在知识 工程和基于知识的软件工程方面作出的系统和创造性工作,以及在大知识领

18、域的开创性贡 献,荣获首届“吴文俊人工智能最高成就奖” 。 6 1.3. 知识图谱的知识图谱的知识图谱知识图谱 我们根据知识工程生命周期各个阶段的关键技术,利用 AMiner 中近年来知识图谱领域 的高水平学术论文, 挖掘出了包括知识表示 (knowledge representation) 、 知识获取 (knowledge acquisition) 、知识推理(knowledge reasoning) 、知识集成(knowledge integration)和知识存 储(knowledge storage)等相关关键词近年来全球活跃的学术研究。此外,结合知识图谱技 术,本报告将以上研究领域

19、表示为三级图谱结构,具体分析和处理的方法如下: 1. 使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图 谱,将文章分配到相应领域; 2. 依据学科领域对论文文献进行聚类,并统计论文数量作为领域的研究热度; 3. 领域专家按照领域层级对学科领域划分等级, 设计了三级图谱结构, 最后根据概念 热度定义当前研究热点。 下图是数据挖掘三级知识图谱的可视化表示,详细数据可以参见本报告附录,或到 中直接下载原始数据。鉴于自动分析技术和论文采集的局限性, 图谱还可以进一步完善,欢迎读者批评指正,我们会根据根据读者的反馈定期更新。 注:图中带“”的节点表示关系,没有标”的标明的节点关系

20、是上下位关系。 7 8 9 图 2 Knowledge Graph 知识图谱 10 2. 技术人才篇技术人才篇 知识图谱技术是知识图谱建立和应用的技术, 参考中国中文信息学会语言与知识计算专 委会发布的知识图谱发展报告 2018 年版 ,我们将知识图谱技术分为知识表示与建模、知 识获取、知识融合、知识图谱查询和推理计算及知识应用技术。在大数据环境下,从互联网 开放环境的大数据中获得知识,用这些知识提供智能服务互联网/行业,同时通过互联网可 以获得更多的知识。 这是一个迭代的相互增强过程, 可以实现从互联网信息服务到智能知识 服务的跃迁。 本报告依据 AMiner 数据平台信息,对知识图谱领域的

21、 5 个细分领域进行梳理,重点介 绍每一细分领域研究学者的研究方向与代表性文章, 旨在为学术界、 产业界提供知识图谱技 术及学者的分析依据,同时面向政府机关、高校、企业等对知识图谱技术感兴趣的机构介绍 该领域基本概念、研究与应用方向,向科研机构、高技术企业等行业中的专业人士介绍相关 领域的前沿技术与发展趋势。 表 1 展示知识图谱领域 10 个相关重要国际学术会议,这些会议为知识图谱领域的研究 方向、技术趋势与学者研究成果提供重要信息,为本报告研究学者的选取提供依据。 表 1 知识图谱领域顶级学术会议列表 会议简称 会议全称 ACL Association of Computational L

22、inguistics EMNLP Empirical Methods in Natural Language Processing WWW International World Wide Web Conference ISWC International Semantic Web Conference IJCAI International Joint Conference on Artificial Intelligence AAAI National Conference of the American Association for Artificial Intelligence CO

23、LING International Conference on Computational Linguistics KR International Conference on Principles of KR 国内早期采用该类方法构建并通过增加中文特性 扩充语义范畴、满足用户需求。但限于中英文信息处理差异性,当前中文知识图谱构建多基 于中文知识百科整合 Web 开放信息构建特色垂直型中文百科知识图谱及其应用。 l 开放化 大规模知识图谱多依赖开放域数据( (半)结构化数据)抽取知识(如 Freebase,CN- DBPedia)并基于 Web 传播但当前开放度较低(尤其是商用知识图谱) ,

24、不利于知识图谱构 建、垂直应用落地,与其开放、互联初衷相悖。新近出现的开放知识图谱社区(Open KG) 制定协议规范(遵循商业规则、知识产权、数据开放许可协议等) ,通过开源软件方式在保 障各方权益前提下开放知识图谱以实现整体利益最大化:基于关联数据技术实现多知识图谱 关联, 基于知识图谱链接封闭域数据与开放域数据 (有效弥补封闭域数据知识不完全缺陷) , 提供 API 方便用户访问,以发现、共享知识并增加其价值。 l 智能化 为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图 谱、机器学习、深度学习等)融合以提升应用智能性:中文知识图谱个性化推荐系统利用大 规模知

25、识图谱中概念、 实体间超链关系度量任意词条间语义关联并结合显式语义分析模型实 现用户与项目(用两组标签分别描述)间精准推荐;表示事件逻辑关系的事理图谱辅助知识 图谱定位、拓展事态进程并可用于智能推荐、常识推理等。工业界基于大数据、知识图谱、 人工智能、机器学习等技术构建机器智脑,通过知识规则或深度学习模型积累知识、经验以 模拟、抽象人类智慧,提升商业应用可行性及机器智能性。 基于分析,AMiner 数据平台绘制了知识图谱领域近期与全局热点词汇,分别如图 39、 图 40 所示: 75 图 39 知识图谱领域近期热度 图 40 知识图谱领域全局热度 由以上两图可知,知识库、信息检索、数据挖掘、知

26、识表示、社会网络等方向在知识图 谱领域的热度长盛不衰。 除此之外, 信息提取、 查询应答、 问题回答、 机器学习、 概率逻辑、 实体消歧、实体识别、查询处理、决策支持等方向的研究热度在近年来逐渐上升,概念图、 搜索引擎、信息系统等方向的热度逐渐消退。 知识图谱作为人工智能技术中的知识容器和孵化器,会对未来 AI 领域的发展起到关键 性的作用。 无论是通用知识图谱还是领域知识图谱, 其构建技术的发展和对应用场景的探索 仍然会不断的持续下去。知识图谱技术不单指某一项具体的技术,而是从知识表示、抽取、 存储、计算、应用等一系列技术的集合。随着这些相关技术的发展,我们有理由相信,知识 图谱构建技术会朝

27、着越来越自动化方向前进, 同时知识图谱也会在越来越多的领域找到能够 真正落地的应用场景,在各行各业中解放生产力,助力业务转型。 76 参考文献参考文献 1 知识图谱发展报告R.北京:中国中文信息学会语言与知识计算专委会,2018.08. 2 Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge basesC, in Proceedings of AAAI 2011. 301-306. 3 Bordes A, Glorot X, Weston J, et al. Joint lear

28、ning of words and meaning representations for open-text semantic parsingC, in Proceedings of AISTATS 2012, 127-135. 4 Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completionC, in Proceedings of NIPS 2013: 926-934. 5 Xiao H, Huang M, Hao Y, et al. Tra

29、nsG: A Generative Mixture Model for Knowledge Graph EmbeddingJ. arXiv preprint arXiv:1509.05488. 2015. 6 He S, Liu K, Ji G, et al. Learning to Represent Knowledge Graphs with Gaussian EmbeddingC, in Proceedings of CIKM 2015, 623-632. 7 Lafferty, J., McCallum, A. and Pereira, F.C., 2001. Conditional

30、random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of ICML 2001. 8 Sundheim, B.M., 1996, May. Overview of results of the MUC-6 evaluation. In Proceedings of a workshop on held at Vienna, Virginia: May 6-8, 1996 (pp. 423-442). Association for Computational L

31、inguistics. 9 陈维.电子商务语义库R苏州:第一届全国中文知识图谱研讨会,2013? 10 胡国平.从应用角度来看知识图谱的价值和挑战R武汉:第二届全国中文知识图谱研 讨会,2014? 11 阮彤 垂直知识图谱构造工具与行业应用R 武汉: 第二届全国中文知识图谱研讨会, 2014. 12 Ganea, O.E. and Hofmann, T., 2017. Deep Joint Entity Disambiguation with Local Neural Attention. In Proceedings of EMNLP 2017. 13 Gupta, N., Singh, S

32、. and Roth, D., 2017. Entity linking via joint encoding of types, descriptions, and context. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 26812690). 14 Sil, A., Kundu, G., Florian, R. and Hamza, W., 2018. Neural CrossLingual Entity Linking. In Procee

33、dings of AAAI 2018. 15 Suchanek, F. M. and Kasneci, G., et al. 2008. YAGO: A large ontology from Wikipedia and Wordnet. In: Web Semantics: Science, Services and Agents on the World Wide Web 6(3): 203-217. 16 Jinxiu Chen, Donghong Ji, Chew Lim Tan, and Zhengyu Niu. Unsupervised feature selection for

34、relation extraction. In Proceedings of the Second International Joint Conference on Natural Language Processing, IJCNLP 05, pages 262267, Berlin, Heidelberg, 2005. Springer-Verlag. 17 Gabriel Pui Cheong Fung, Jeffrey Xu Yu, and Hongjun Lu. Discriminative category matching: Efficient text classificat

35、ion for huge document collections. In Data Mining, 2002. ICDM 2003. 77 Proceedings. 2002 IEEE International Conference on, pages 187194. IEEE, 2002. 18 Xiaotian Jiang; Quan Wang; Peng Li; Bin Wang. Relation Extraction with Multi-Instance Multi-Label Convolutional Neural Networks. COLING2016. 19 Chai

36、 J Y, Biermann. AW. Learning and generalization in the creation of information extraction systems. J. Citeseer, 1998. 20 Piskorski J, Tanev H, Atkinson M, et al. Online news event extraction for global crisis surveillance J. In Transactions on computational collective intelligence V, 2001: 182212. 21 Tanev H, Piskorski J, Atkinson M. Real-time news event extraction for global crisis monitoring. J. In Proceedings of the Internati

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 其他报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com