金融科技（Fintech）和数据挖掘研究（二）：知识图谱的构建与应用-海通证券.pdf-得力文库

资源描述

《金融科技（Fintech）和数据挖掘研究（二）：知识图谱的构建与应用-海通证券.pdf》由会员分享，可在线阅读，更多相关《金融科技（Fintech）和数据挖掘研究（二）：知识图谱的构建与应用-海通证券.pdf（25页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、请务必阅读正文之后的信息披露和法律声明金融工程金融工程研究研究证券证券研究研究报告报告金融工程专题报告金融工程专题报告 2019 年年 04 月月 23 日日相关研究相关研究 Table_ReportInfo 选股因子系列研究（四十六）日内分时成交中的玄机2019.04.16 量化研究新思维（十六）他山之石：防御性因子择时2019.04.14 ESG 与社会责任投资系列研究（二）ESG 评级在因子组合构建中的应用2019.04.14 Table_AuthorInfo分析师:冯佳睿 Tel:(021)23219732 Email: 证书:S0850512080006 分析师:余浩淼 Te

2、l:(021)23219883 Email: 证书:S0850516050004 联系人:梁镇 Tel:(021)23219449 Email: 联系人:张振岗 Tel:(021)23154386 Email: 金融科技（金融科技（Fintech）和）和数据挖掘数据挖掘研究研究（二二）知识图谱的构建与应用知识图谱的构建与应用 Table_Summary投资要点：投资要点：知识图谱的介绍知识图谱的介绍。知识图谱的概念最早于 2012 年由谷歌提出，是一种直观显示各个实体关联信息的有效数据结构，旨在描述真实世界中存在的各种实体或概念及其关系。它脱胎于“语义网络”，随着网络和计算机技术的发展而逐渐演

3、变。目前，知识图谱一词已经成为知识应用领域的一个通用词汇，不仅仅局限于谷歌搜索引擎的知识库及服务功能，而成为了人工智能领域炙手可热的概念。知识图谱的构建与应用技术知识图谱的构建与应用技术。构建知识图谱的本质是一个从数据采集，数据建模到数据存储的过程。（1）通过结构化数据库、爬虫等方式获取知识图谱原始数据；（2）对数据进行预处理。其中，文本数据往往需要借助自然语言处理技术；（3）提取数据中的实体和关系。其中，不同来源的知识需要进行知识融合；（4）构建三元组；（5）存储三元组信息。可以采用关系数据库和 Neo4j 等图数据库；（6）使用知识图谱。知识图谱在金融投资领域知识图谱在金融投资领域的应用的

4、应用。通过知识图谱，我们可以进行产业链的挖掘，建立更为全面深入的事件驱动投资策略，构建知识图谱类因子，改善现有分析框架等。产业链挖掘产业链挖掘。通过对比产业链的产品和服务网络中的“实体”与上市公司主营业务产品网络中的“实体”，并将相同的“实体”进行链接，即可确认不同公司在产业链中的具体位臵。此外，知识图谱也可以根据不同的关系得到不同的网络信息，例如，股权网络挖掘、供应链挖掘、热点主题挖掘等。事件驱动策略事件驱动策略。以业绩预警事件在应收账款网络中的传播为例，除了直接发生业绩预警事件的上市公司外，这些公司的主要应收账款债权人也受到相同方向的冲击，但影响幅度会有所减弱且具有一定的滞后性。类似地，其

5、他事件也可能存在这种传递效应，例如，大股东重大负面信息（例如，偷税漏税）在股权网络中的传播、主营业务产品产量大幅减少在供应链网络中的传播等。知识图谱类因子。知识图谱类因子。可以采用供应链、股权等数据构建图网络相关因子，包括：下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等因子。由于这类因子包含关联结构，能够提供额外的信息，因而与传统因子的相关性通常较低。对现有对现有分析分析框架的改进。框架的改进。以行业基本面量化为例，知识图谱标准化了不同品种/行业的分析和研究框架，由此带来的改进主要体现在以下三点。（1）可以对知识图谱中的任一节点进行预测和分析。例如，

6、要研究铝的库存情况，只需选取与库存有关联关系的所有节点作为初始变量集；（2）将知识图谱中的结构信息带入量化模型中。例如，采用主成分分析降维，可以对每个包含关系下的分项变化汇总为一个主成分等。（3）可以在传统量化模型的基础上叠加行业观点。风险提示风险提示。数据挖掘是从历史先验数据获取经验模型的方法，存在模型失效可能。金融工程研究金融工程专题报告2 请务必阅读正文之后的信息披露和法律声明目目录录 1.知识图谱的介绍.5 1.1 什么是知识图谱？.5 1.2 知识图谱的发展历史.6 1.2.1 知识图谱的前世.6 1.2.2 知识图谱的今生.7 2.知识图谱的构建与应用技术.9 2.1 知识图

7、谱的原始数据.10 2.2 知识图谱数据的预处理.10 2.3 实体、关系的提取.11 2.4 三元组的构建.11 2.5 存储三元组信息.12 2.6 知识图谱的使用.12 3.知识图谱在金融投资领域的应用.12 3.1 产业链挖掘.12 3.2 事件驱动策略.14 3.3 构建知识图谱类因子.16 3.4 对现有分析框架的改进.16 4.总结与讨论.21 5.风险提示.21 金融工程研究金融工程专题报告3 请务必阅读正文之后的信息披露和法律声明图目录图目录图 1 知识图谱三元组的简单案例.6 图 2 谷歌搜索泰姬陵案例.7 图 3 谷歌搜索居里夫人案例.8 图 4 谷歌搜索辛普森一家

8、导演案例.8 图 5 百度知识图谱的问答功能.9 图 6 知识图谱的构建过程.10 图 7 文本分析流程.11 图 8 RDF 存储数据结构.12 图 9 棉花领域产品关系示例.13 图 10 棉花领域概念关系示例.13 图 11 棉花产业链上游示意图.14 图 12 业绩预告事件的平均累计超额收益（T 日-T+20 日）.15 图 13 业绩预告公司主要债权人的平均累计超额收益（T 日-T+20 日）.15 图 14 业绩预增事件对事件公司与关联公司影响对比（T 日-T+20 日）.16 图 15 资源品价格预测的研究框架.17 图 16 铜的基本面研究框架.17 图 17 铜的基本面研究的

9、参考变量.18 图 18 资源品价格预测流程.19 金融工程研究金融工程专题报告4 请务必阅读正文之后的信息披露和法律声明表目录表目录表 1 铜价格的影响因素.18 表 2 资源品价格因子模型的预测结果.19 表 3 不同模型的胜率对比.20 金融工程研究金融工程专题报告5 请务必阅读正文之后的信息披露和法律声明 1.知识图谱的介绍知识图谱的介绍 1.1 什么是知识图谱？什么是知识图谱？知识图谱的概念最早由谷歌提出，本质上是谷歌在 2012 年推出的一个项目，即“Knowledge Graph”。该项目将搜索结果进行知识系统化，以建立更智能的搜索引擎，旨在让用户能够更快、更便捷地发现新的

10、信息和知识。随后，知识图谱的概念在学术界和业界普及并推广。目前，在智能搜索、智能问答以及个性化推荐领域等发挥着重要的作用。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，因而可以简单地把它看作是一张巨大的网络。其中，网络的节点表示实体或概念，而节点之间的边则由属性或关系构成。三元组是知识图谱最常用的表现方式，在图像网络中的基本形式为“节点 1-边-节点2”。节点包括实体、概念、属性值等，边包括关系、属性等。节点与节点之间通过边进行连接，一个标准的三元组包括“实体 1-关系-实体 2”和“实体-属性-属性值”等。节节点的类型点的类型实体实体：指客观独立的个体或者某种事物，可以是某一个人

11、、某一个国家，也可以是某一种商品等等。世间万物都可以视作一种实体，如：巴菲特，中国，iphone 等。实体是知识图谱中最基础的元素，不同的实体间通过某种关系进行连接。概念：概念：具有相同特性的实体组成的集合，如投资大师、国家、手机等。也指事物的类别和种类、某些抽象概念，如人工智能、地理等。在某些时候，概念和实体的界限并不明显。属性值：属性值：指实体某种属性的值，如：中国（实体）的面积（属性）为 963 万平方公里（属性值）等。边的类型边的类型关系关系：描述了实体及概念之间的联系，也是两个节点之间的边。比如，中国首都北京，中国和北京分别是两个实体，首都则是描述中国和北京的关系。属性：属性：也可

12、以视作是一种关系的类型，主要指实体具有的一些特征和性质，也是实体指向属性值的边，比如生日、面积、人口数量等。比如：中国-人口-14 亿，人口便是中国的一个属性，其属性值便是 14 亿。如下图所示，我们将一些简单的三元组案例做了图形化的展示，例如，联合国五常（概念）-包括（关系）-中国（实体），中国（实体）-相邻（关系）-俄罗斯（实体），中国（实体）-人口（属性）-13.9 亿（属性值）。金融工程研究金融工程专题报告6 请务必阅读正文之后的信息披露和法律声明图图1 知识图谱三元组的简单案例知识图谱三元组的简单案例资料来源：海通证券研究所整理 1.2 知识图谱的知识图谱的发展发展历史历史虽

13、然知识图谱的概念最近几年才逐渐被大众所知，但知识图谱本身的技术已经有了深厚的基础，而其发展更是可以追溯到上世纪五六十年代。以 2012 年知识图谱概念的提出为节点，我们可以将知识图谱的发展划分成两个阶段。1.2.1 知识图谱的前世知识图谱的前世 1956 年，在达特茅斯学院的一次会议上，“人工智能”一词在讨论中被正式提出，这也标志着人工智能学科的诞生。在后期的发展中，人工智能的研究逐渐分成三大分支流派：符号主义、连接主义和行为主义。符号主义（Symbolism）认为，人类的认知都是基于符号的，思维只是在符号表示上的一种运算，而机器要像人一样思考才能获得智能。因此，符号主义致力于用计算机的符号操

14、作来模拟人的认知过程。连接主义（Connectionism）从神经生理学出发，认为人的智能是人脑高层活动的结果，因此人工智能可以通过模拟大量神经元的信号传输方式来模拟大脑的智力。行为主义（Actionism）则认为人工智能源于控制论，因此相关的研究集中于模拟人在控制过程中的智能行为和作用。在人工智能前期的研究中，符号主义一直占据主导地位，逐渐发展出了启发式算法、专家系统、知识工程理论与技术等。知识图谱最初的形态“语义网络（Semantic Network）”，就是在此期间发展起来的一种用图来表示知识的结构化方式。语义网络由 J.R.Quillian 在 1968 年提出，其原理是用相互连接的节

15、点和边来表示知识，节点表示实体和概念，边表示节点之间的关系。语义网络本质上也可以看作是一种用于储存知识的数据结构，即基于图的数据结构。从形式上来看，语义网络用自然的语言来描述概念实体之间的关系。其中，大部分描述由用户自行定义，往往缺乏一定的标准，因此来自多个数据源的数据难以融合。早期的语义网络的不足之处在于缺乏逻辑，并不具备推理能力。因此，从 20 世纪 7、80 年代开始，逻辑语义的表示和推理开始成为研究的重点。在这一时期，语义网络与推理学的结合形成了描述逻辑（Description Logics）。从此，基于对象的知识被形式化，金融工程研究金融工程专题报告7 请务必阅读正文之后的信息披露

16、和法律声明因而具备了很强的表达能力和可判定性。万维网的出现给语义网络提供了一个天然的应用场景，让知识从封闭走向开放。我们可以通过关联来产生更多的知识，而非仅依赖于固定的内部定义。万维网最初的内容只是人类可读，计算机无法理解和处理。为了解决这一难题，1998 年，万维网之父 Tim Berners-Lee 提出了语义网（Semantic Web），初衷是让机器也同人类一样可以很好地获取并使用知识。简单来说，语义网就是为了使网络上的数据变得机器可读，而提出的一个通用框架。2006 年，Berners-Lee 提出链接数据（Linked Data）的概念。网络用户可以上传各种图结构的数据，即 W3

17、C（万维网联盟）标准的 RDF（Resource Description Framework，资源描述框架），让数据之间建立链接，从而形成链接数据。与此同时，大规模维基百科类的知识资源的出现和信息提取方法的进步，催生了一系列高质量的链接数据知识库。例如，Freebase、DBpedia 和 Yago，它们都为谷歌知识图谱项目的成功打下了基础。1.2.2 知识图谱的今生知识图谱的今生谷歌的知识图谱项目最早源于一个叫“Metaweb”的小公司。Metaweb 是开发Freebase 的母公司，在 2010 年被谷歌收购。该公司专注于将来自多个源头的关于同一个实体或概念的描述信息融合起来，并探索这

18、些实体的属性（例如，年龄和身高等）以及彼此之间的联系，比如“身高 226cm 的 NBA 球星”和“姚明”两个描述的融合。Metaweb 存储了 1200 万个参照点（reference points），谷歌在这个基础上将规模扩张至 5.7 亿，并在这些参照点之间建立了 350 亿个连接，最终推出了“知识图谱”。2012 年 5 月 16 日，谷歌在其官博上发表了一篇博文：Introducing the Knowledge Graph:things,not strings。在这篇文章中，谷歌的搜索引擎负责人 Amit Singhal 正式向外界介绍了知识图谱在谷歌搜索引擎中的应用。知识图谱帮助

19、谷歌的搜索引擎进一步提升了智能化程度，实现了从 strings 到 things 的飞跃，具体表现在以下三个方面：1 找到正确的事物通常，词语只有在特定的语境之下才能表达出精确的意思，而单独去搜索某个词语经常会面临一词多义的情况。例如：“小米”可以是一种农作物，也可以是科技公司、手机；“火箭”可以是实现航天飞行的运载工具，也可以是一个篮球队的名称。再如，泰姬陵（Taj Mahal）既可以指一个遗迹，也可以指一个音乐家。若我们在谷歌中搜索“泰姬陵”，则会得到如下图所示的搜索结果。在右侧，谷歌会给出泰姬陵的地图及相关介绍等。同时，也会在下方将同名的条目列出来。由此可见，借助庞大的知识图谱，谷歌可

20、以理解实体和实体含义间的细微差别，并且将所有可能的结果归纳分组，让检索更加智能。图图2 谷歌搜索泰姬陵案例谷歌搜索泰姬陵案例资料来源：Introducing the Knowledge Graph:things,not strings，海通证券研究所金融工程研究金融工程专题报告8 请务必阅读正文之后的信息披露和法律声明 2 得到最优的摘要当我们需要搜索某个事物时，借助知识图谱，谷歌可以将它的相关信息汇总，并且有条理地展示出来。但是，一个人或者一个事物的属性通常会很多，搜索者也有不同的关注点，知识图谱不可能将全部搜索结果展示给用户。因此，谷歌会通过特定的算法展示用户最关心的内容。如下图所

21、示，当我们搜索居里夫人的时候，谷歌会将她的简介、生辰、家庭、学术成就等用户最感兴趣的信息进行汇总展示。图图3 谷歌搜索居里夫人案例谷歌搜索居里夫人案例资料来源：Introducing the Knowledge Graph:things,not strings，海通证券研究所 3 拓展深度和广度谷歌通过知识图谱将大量的信息连接在一起，这种深层次的网络有时候可以让你发现一些新的事实或者新的关系。辛普森一家（The Simpsons）是美国福克斯广播公司出品的一部动画情景喜剧，在美国电视史上有着非常高的地位，该剧的导演是马特格勒宁（Matt Groening）。在谷歌搜索导演的名字“Matt

22、Groening”，我们可以发现他的家庭信息。父母分别叫“Homer Groening”和“Margaret Groening”，妹妹叫“Lisa Groening”。辛普森一家中的辛普森夫妇也叫“Homer”和“Margaret”，女儿也叫“Lisa”，儿子“Bart”也和导演的名字“Matt”相近。因此，通过知识图谱，我们可以发现辛普森一家的命名灵感来自于导演自己的家庭。图图4 谷歌搜索谷歌搜索辛普森一家辛普森一家导演导演案例案例资料来源：Introducing the Knowledge Graph:things,not strings，海通证券研究所本质上，谷歌并不是知识图谱这项技

23、术的创造者，而是知识图谱这个概念的推动者。2012 年，谷歌推出“知识图谱”的功能之后，知识图谱一词逐渐成为知识应用领域的一金融工程研究金融工程专题报告9 请务必阅读正文之后的信息披露和法律声明个通用词汇。知识图谱也不仅仅局限于谷歌搜索引擎的知识库及服务功能，而是逐渐成为了人工智能领域炙手可热的概念。很多技术积累深厚的互联网公司也纷纷顺势推出自己的知识图谱，比如微软、Facebook、亚马逊、百度、阿里巴巴、美团等。谷歌的知识图谱主要来源于 Wikipedia、Freebase 等知识库。作为全球最大的中文搜索引擎，百度的知识图谱的知识来源主要来自旗下的百科、知道和贴吧等。百度的知识图谱

24、产品目前主要分成两大类：智能搜索和自动生成内容。百度知识图谱包含上亿的实体单位，依托知识图谱搜索引擎可以更好地理解用户搜索意图。比如，直接搜索“2020年春节还剩多少天”，百度知识图谱的问答功能会直接生成答案（如下图所示）。图图5 百度百度知识知识图谱图谱的的问答功能问答功能资料来源：百度知识图谱，海通证券研究所除了谷歌和百度在搜索引擎上的功能扩展之外，知识图谱在互联网领域还有着广泛的应用。比如：Facebook 在 2013 年发布社交知识图谱，主要应用于个性化推荐和智能搜索等，重点关注用户的社交偏好信息；美团点评主要关注餐饮娱乐方面，重点从美团点评的用户评价、菜品、标签等数据，构建餐饮

25、娱乐知识图谱“美团大脑”。除了在传统的互联网领域，知识图谱在其他行业同样可以起到重要的作用。例如，在反欺诈场景，知识图谱有着天然的应用优势。欺诈团伙通常会用虚假的身份和信息进行诈骗，一个谎言需要无数个谎言来掩盖，而虚假的信息往往容易露出马脚。不一致性验证可以用来判断一个借款人是否具有欺诈风险。比如，借款人 A 和 B 分别填写了两家不同的公司，但是填写的公司电话却是同一个，这种情况便无法通过不一致性检验，从而形成一个风险点。2.知识知识图谱的构建与应用图谱的构建与应用技技术术构建知识图谱的本质是一个从数据采集，数据建模到数据存储的过程。其基本的步骤如下图所示。简单而言，知识图谱的构建过程与数

26、据挖掘的基本流程可以一一对应，即知识图谱构建只是数据挖掘技术的一种实践。金融工程研究金融工程专题报告10 请务必阅读正文之后的信息披露和法律声明图图6 知识知识图谱图谱的的构建过程构建过程资料来源：海通证券研究所整理 2.1 知识图谱知识图谱的的原始数据原始数据作为一种新的组织、管理、认知客观世界的工具，知识图谱的数据来源决定了知识图谱能够描绘出怎样的一个“世界”。与互联网知识图谱不同，要构建金融领域知识图谱，原始数据不能仅仅是从金融文本当中获取到的知识。已知的公司信息，标的信息，价格数据，甚至不同证券的相关性信息都可以作为原始数据帮助构建知识图谱。由于金融领域的“数据密集型产业”特性

27、，目前已有非常多的数据提供商整理了金融领域中的各种数据信息。利用好这些数据，是获取知识图谱原始数据最有效的方式。金融领域已有的数据往往会局限于和公司、可交易标的、宏观指标紧密相关的信息。然而，知识图谱的构建往往需要借助其它领域的先验知识，将金融领域的各种实体进行链接。例如，在利用知识图谱分析产业链结构时，产业上下游分别由那些产品构成等相关信息，就无法从金融数据源直接获得。需要对于该行业的先验信息进行分析，才可以获取到相关知识。网络爬虫是获取原始数据的一种非常有效的工具。通过从特定网站上爬取所需要的内容，可以方便地获得已定位好的先验信息，这对补充构建知识图谱所需的原始数据非常有帮助。2.2 知识

28、知识图谱数据图谱数据的的预处理预处理构建知识图谱所获取的原始数据有结构化与非结构化两种类型，分别对应着不同的预处理方式。构建金融知识图谱，所需要处理的结构化数据一般包括表格化的证券基本信息，价量信息，基本面数量指标等。明晰的数据结构不仅为数据处理提供了很多便利，而且能大幅提升准确性与高效性。由此得到的知识实体和关系，也较非结构化数据更为准确。除了传统的结构化数据本身，利用这些数据计算得到的衍生数据也是知识图谱中“实体”或者“关系”的重要来源。例如，可交易证券之间的相关系数、协整系数等。保存这些信息的时变特性，可以让知识图谱随时间演进，为更客观地描述金融市场提供可能。非结构化数据一般包括图片、

29、音频、视频、文本信息等。其中，文本数据是金融领域最常见的非结构化数据。而获取文本数据当中的信息，往往需要借助自然语言处理技术。具体流程如下图所示。金融工程研究金融工程专题报告11 请务必阅读正文之后的信息披露和法律声明图图7 文本分析文本分析流程流程资料来源：海通证券研究所整理对于一个句子、一段话，这种短文本而言，分析出其中的主谓宾结构，一般就可以获取知识图谱所需的“实体”与“关系”对象。而处理长文本，则需要通过词频统计，主题模型等更进一步的分析方法，判断出长文本中真正有效的“实体”对象。2.3 实体实体、关系、关系的的提取提取从经过处理的数据中获取有效的“实体”与“关系”是构建知识

30、图谱的关键。在金融领域中，最核心的实体即公司、可交易证券、宏观经济指标等；最有价值的关系，往往与影响公司业绩或影响可交易证券价格的一些信息有关。然而，仅依赖金融领域的先验知识，用传统关联方法将实体进行连接，并不能发挥知识图谱的最大功效。将其他领域有用的“实体”、“关系”关联，可以有效拓展知识图谱边界，获取隐藏信息。以产业链构建为例，若从公司财务报表和公告信息中直接挖掘，只能找出公司之间财务或股权方面的关联。而如果能提炼公司的主营产品，并利用其它产业产品之间的上下游关系，就可以将分属产业上下游不同层面的公司进行关联，获取更好的产业链结构。建立知识图谱的另一项重要工具是知识融合，即，将不同来源的知

31、识进行对齐、合并。在自下而上构建知识图谱的过程中，往往会在不同的知识图网中发现表示同一知识的节点。将这两个图网融合，可以避免知识孤岛，让知识链接更加稠密，提升知识的应用价值。知识融合一般包括“实体”合并、“实体”概念合并、“实体”概念上下位关系合并等。先验信息是知识融合的关键，特别是从已知的结构化数据中得到的“实体”关联关系，可以有效帮助不同的知识图谱进行融合。例如，将从财务信息挖掘得到的公司财务图谱与从市场价格挖掘得到的证券收益特征图谱进行融合，就可以获得财务数据、研发方向、新产品特性等信息对公司股价的影响路径，实现财务指标图谱的核心“实体”公司与证券收益特征图谱的核心“实体”股票之间的关联

32、。由此可见，相较于透过复杂的文本主题分析进行“实体”关联，利用类似的结构化数据提供的信息可以大大提升知识融合的效率。2.4 三元组三元组的的构建构建 RDF 是目前最为主流的“实体”-“关系”符号语义表示模型。其基本模型为有向标记图，图中每一条边对应一个三元组（主语-谓语-宾语），即前文所提到的“实体”-“关系”-“实体”。而这样一个三元组也对应了一个逻辑表达式或者关于世界的陈述。在定义 RDF 三元组信息的同时，也可以通过扩展的数据结构保存三元组中“实体”与“关系”的属性结构。例如，“股票”实体的价格序列，线性相关“关系”的相关系数等。增加三元组的时间戳属性，更可以将知识图谱动态化，描述出不

33、同“实体”间“关系”随时间的演进情况。金融工程研究金融工程专题报告12 请务必阅读正文之后的信息披露和法律声明 2.5 存储存储三元组信息三元组信息目前，主流的关系数据库都可以实现三元组信息的存储（见下图）。图图8 RDF 存储存储数据结构数据结构资料来源：海通证券研究所整理如上图所示，RDF 三元组信息分别由关系数据库 LFFT_ENTITY_ID，RELATION_ID，RIGHT_ENTITY_ID 标识。其中，还保存了有效期与是否为双向的标志，提供了更丰富的信息。在其他数据表中，通过 ENTITY_ID 或者 RELATION_ID 链接，可以查

34、找到该“实体”或者“关系”的更多属性信息。遍历知识图谱，按条件筛选匹配“关系”，从而得到所需“实体”的关联网络是知识图谱的重要应用。这一过程往往要求“实体”或者“关系”都存在属性信息。除了关系数据库之外，还有很多专门用于存储知识图谱三元组结构的数据库系统，如 Neo4j 等。受限于关系数据的索引结构，无论是插入、查找还是遍历，通过关系数据库方式存储的知识图谱性能都会受到影响。随着知识图谱规模的逐步扩大，利用专用数据库对知识图谱结构进行存储变得愈发重要。2.6 知识知识图谱的使用图谱的使用使用知识图谱首先需要确定起始的“实体”、“实体”类别，或某些“关系”，并利用它们的属性信息读取出所有满足条

35、件的三元组数据。以已经读出的信息为起点，遍历与其连接的所有“实体”，根据预先定义的条件剔除不需要的“关系”或“实体”，从而得到第二层的 RDF 信息。迭代上述过程，直到数据库中所有符合条件的“实体”和“关系”都已被遍历到。由此，一张全联接的知识图网便形成了，其中也包含了我们所需要了解的相应信息。上述过程的本质是一个图的遍历过程，因而可以直接应用于产业链结构等关系图的构建。除此之外，将三元组信息向量化，通过机器学习等算法，分析其中包含的信息，也是使用知识图谱的另一种重要方式。3.知识知识图图谱谱在金融投资领域的应用在金融投资领域的应用 3.1 产业链挖掘产业链挖掘应用知识图谱最为基础的方式，就

36、是通过节点关系将尽可能多的信息整合在一起，并遍历某种关系下的实体集合，进而可视化地展示全景图。在金融投资领域，典型的应用场景就是产业链挖掘。在本系列第一篇报告数据挖掘技术框架简介中，我们详细介绍了棉花产业链挖金融工程研究金融工程专题报告13 请务必阅读正文之后的信息披露和法律声明掘的实例，共分为三步。1 构建棉花领域的产品和服务网络首先，通过棉花相关产品和服务之间的关系，例如“棉线是皮棉的下游产品”、“棉花种植是棉花的上游服务”等，可以将棉花领域的商品和服务构建相互关系，如左下图所示。其次，导入不同产品和服务的概念从属关系，例如“上游包括棉花种子的生产销售，农业采棉技术的服务管理等”、

37、“下游包括棉纱、棉布等商品的生产和销售”，如右下图所示。最终，得到具有层次信息的棉花领域的产品和服务网络。图图9 棉花领域产品关系示例棉花领域产品关系示例下游下游下游下游饲料台版、纸皮棉棉籽棉线坯布短绒棉籽壳下游籽棉棉花棉秆资料来源：海通证券研究所整理图图10 棉花领域概念关系示例棉花领域概念关系示例实体关系对象棉花上游产品包含棉花种植棉花上游产品包含棉花种子棉花上游产业包含农机采棉技术与管理服务棉花上游产品影响棉花供给棉花加工包含染色棉花棉花加工包含棉花初加工棉花经营包含棉花、棉纱贸易棉花经营包含棉花销售棉花下游产业影响棉花需求棉花下游产业包含棉纱经营棉纱经营包含涤棉纱棉纱经营包含改

38、性棉纱棉纱经营包含面料、床品资料来源：海通证券研究所整理需要注意的是，上述概念关系的建立过程中，往往需要掌握相关先验信息，如棉花的上游产业和下游产品分别包括哪些对象。这些先验信息的获取与清洗是能否构建有效知识图谱的关键所在。2 导入上市公司主营业务产品信息从结构化数据库中导入上市公司主营业务产品的相关信息，包括报告期、主营业务产品的名称、业务收入、业务收入占比等。其中，上市公司与主营产品为“实体”，主营业务为“关系”，报告期、业务收入及占比为“关系”的属性。3 将上市公司主营业务产品链接到棉花领域的产品和服务网络将棉花领域的产品和服务网络中与上市公司主营业务产品网络中相同的“实体”进行

39、链接，即可以确认不同公司在棉花产业链中的上下游位臵。例如，将有棉布经营的相关主营业务的公司“实体”与棉花服务中的“棉布经营”链接，而“棉花经营”从属于棉花产业链中的“中游”这一概念，即可得到该公司处于棉花产业链的中游。据此挖掘出的部分产业链如下图所示（仅以上游为例，具体信息可参考本系列第一篇报告）。金融工程研究金融工程专题报告14 请务必阅读正文之后的信息披露和法律声明图图11 棉花产业链上游示意图棉花产业链上游示意图影响单位面积产量播种面积采摘进度影响19.91%5322.58万0.32%84.67万0.67%301.55万0.05%189.9万6.97%545.32万棉花供给宏观指标

40、棉花上游产品棉花上游产业棉花供给棉花种包含中农发种业集团股份有限公司湖南桃花源农业科技股份有限公司海南神农基因科技股份有限公司九圣禾种业股份有限公司九圣禾种业股份有限公司反应棉花种子非独家经营品种-棉花种子包含农机采棉技术与管理服务新疆银丰现代农业装备股份有限公司包含资料来源：海通证券研究所整理通过以上方式，就可以规则化、时序化地构建棉花产业链。“规则化”是指产业链生成过程的构建摒弃了传统人工选择的方式，具有固定的生成规则，便于回溯和更新迭代。“时序化”是指产业链信息会随着时间的变化发生改变。例如，如果某个棉花种植公司主营业务变更为棉花加工，那么它在产业链中的位臵就从上游变为中游。在知识图

41、谱中，这种时间序列上的产业链变更，可以通过对实体间的关系加上时间序列属性进行维护。除了产业链，知识图谱还可以根据不同的关系得到不同的网络信息。例如，股权网络、供应链、热点主题等。实际上，类似的应用在金融领域早有先例。典型的代表是AlphaSense，一家成立于 2008 年的智能搜索引擎公司。它从文件、新闻和研究报告等碎片化信息中集合所有投资信息，并进行语义分析，整合相关概念、主题、行业等，方便用户搜索、浏览和分析和金融投资相关的重要数据点及整体趋势。3.2 事件驱动策略事件驱动策略挖掘产业链等信息是知识图谱基本功能的展现。在金融投资领域，更进一步的是构建事件驱动策略。传统的事件驱动策略主要

42、研究事件对于发生实体的有价证券价格的影响。例如，苹果公司 iPhone 5s 推出时，市场评价不佳，公司股价应声下挫。这一类传统策略主要有两个特点：一是人工处理，即 iphones 5s 产品市场评价与苹果公司股票价格之间的关系，主要通过人工确认；二是只研究直接发生事件的实体的股价表现。而借助知识图谱，则可以实现更为及时、深入的事件驱动策略。首先，通过“主营业务产品”这一关系将 iphone 5s 与苹果公司相关联，再通过从属关系将 twitter 评论与 iphone 5s 相关联。当 twitter 评论出现显著的负面情绪时，就可以通过这两层关系快速链接到苹果公司股价，生成投资信号。其次，

43、通过“主要供应商”这一关系可以将苹果公司链接到富士康。我们发现，富士康的股价在这一事件发生后同样出现大跌，原因就是“产品市场认可度较差”这一事件在供应链网络中的传播。换句话说，当知识图谱中的某个节点受到冲击时（例如，负面消息），会通过图网络辐射到其他关联实体。因此，通过知识图谱可以将事件驱动策略的标的进一步扩展。同金融工程研究金融工程专题报告15 请务必阅读正文之后的信息披露和法律声明时，如果发生事件的是某个非上市公司，甚至自然人，也可以通过股权等关系链接到相关上市公司。从而在事件驱动策略中纳入许多非金融的信息和更多层的关联结构，大大扩展了策略的适用空间。下面，我们通过应收账款网络简单展

44、示这类应用的效果。以传统的业绩预警事件为例，我们首先选取了影响相对显著的业绩预增、预减、扭亏、首亏四类事件。以2005/1/1-2018/12/31 的业绩预告数据为回测样本，其中剔除了上市未满 6 个月的新股。由于业绩变动较大的公司具有一定的行业和市值偏离，因此我们采用上市公司所在行业的 20 个相近市值公司的平均收益作为比较基准。四类事件在发生后 T 日至 T+20日的平均累计超额收益如下图所示。图图12 业绩业绩预告预告事件事件的的平均累计超额收益（平均累计超额收益（T 日日-T+20 日）日）-2.00%-1.50%-1.00%-0.50%0.00%0.50%1.00%1.50%业绩预

45、增业绩预减业绩扭亏业绩首亏资料来源：Wind，海通证券研究所由上图可见，业绩预增和业绩扭亏具有显著的正向效果，公告披露后的 20 天内存在 1.3%左右的超额收益。业绩预减和业绩首亏具有显著的负向效果，公告披露后 20 天的超额收益在-1.0%至-1.5%左右。但是，我们也很容易发现，不论是哪一类事件，公司股价在公告当日的反应最大。之后的 20 个交易日内，除业绩首亏事件外，其余事件的平均累计超额收益变动并不明显。这一现象表明，在没有内幕消息的前提下，投资者实际上很难获取业绩预增等事件理论上的超额收益。然而，知识图谱却给我们提供了一种另类的参与此类事件的方式。例如，我们可以构建上市公司之间

46、的应收账款网络，选取披露业绩预告的公司作为关联对象，通过财报附注中的主要应收账款信息链接到主要债权人。直观上，某个公司业绩的预增或预减，都会对它的应付账款产生影响，并传导至它的债权人。因此，相关债权人在业绩预警事件发生后 T 日-T+20 日内的股价应当也会发生同方向的变动。下图给出了这种思路下，与发生业绩预告事件的公司有债务关系的上市公司的累计超额收益。图图13 业绩业绩预告预告公司主要债权人公司主要债权人的的平均累计超额收益（平均累计超额收益（T 日日-T+20 日）日）-1.20%-1.00%-0.80%-0.60%-0.40%-0.20%0.00%0.20%0.40%0.60%0.80

47、%TT+1 T+2 T+3 T+4 T+5 T+6 T+7 T+8 T+9 T+10T+11T+12T+13T+14T+15T+16T+17T+18业绩预增业绩预减业绩扭亏业绩首亏资料来源：Wind，海通证券研究所金融工程研究金融工程专题报告16 请务必阅读正文之后的信息披露和法律声明从上图可以看到，业绩扭亏、业绩预增公司的债权人在公告披露后的 7 天内，平均超额收益单调上升，至 T+7 日的值为 0.8%、0.4%的，此后才逐渐衰减。我们进一步以业绩预增事件为例，对比事件公司和债权人公司在公告后的股价变化（见下图）。显然，后者的超额收益更为滞后，股价在公告当日并无明显变化，此后才逐步

48、上涨。但是，我们也应看到，和事件公司相比，债务关联公司的平均超额收益略低。图图14 业绩预增业绩预增事件对事件公司与关联公司影响对比（事件对事件公司与关联公司影响对比（T 日日-T+20 日）日）-0.20%0.00%0.20%0.40%0.60%0.80%1.00%1.20%1.40%事件公司关联公司资料来源：Wind，海通证券研究所其中的原因也十分直接。若 A 公司欠 B 公司大量应收账款，A 公司公告业绩预增事件，很可能会利好 B 公司应收账款的回收，因此 B 公司的股价上涨。但是，这种正面信息对 B 公司产生的影响毕竟只是间接的，其超额收益不如事件发生公司也在情理之中。上面这个例子

49、表明，借助知识图谱，我们完全可以拓展事件驱动策略的应用范围，从关注事件公司本身转向和它有紧密关联的公司，寻找更为确定的右侧交易机会。事实上，我们可以根据这种思路，构建一系列基于图网络的事件驱动策略。例如，大股东重大负面事件（如，偷税漏税）在股权网络中的传播，主营业务产品大幅减产在供应链网络中的传播，等等。在海外，此类应用已经成为量化基本面投资（quantamental）的一类主流策略。一个典型的案例是一家名为 kensho 的互联网公司。它的主要产品为warren 问答引擎，专注于寻找事件与资产之间的相关性，从而预测资产价格走势。2017年初，该公司成功预测了特朗普当选后，美元重回涨势，以及科

50、技股的反弹。3.3 构建知识图谱类因子构建知识图谱类因子我们还可以基于知识图谱构建另类因子，为传统的多因子模型提供额外的信息。例如，德银于 2015 年采用供应链数据构建了供应链网络相关因子，包括：下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等。经过检验，这些因子都具有较为显著的超额收益。而且，由于包含了关联结构，它们与传统因子都有着很低的相关性，是传统模型的一个有益补充。3.4 对现有对现有分析分析框架的改进框架的改进知识图谱除了能提高投资者对非结构化信息的应用效率，还能改善现有的分析框架。由于知识图谱刻画了实体之间的关系，因而在预测实体的过程

展开阅读全文