知识图谱基础 - BtoAI 波特埃

知识图谱（Knowledge Graph）是一种结构化的知识表示方法，通常以图（Graph）的形式表示实体（Entities）、属性（Attributes）和关系（Relationships）。知识图谱的核心思想是用节点（Nodes）表示实体，用边（Edges）表示实体间的关系，同时边上的标签（Labels）表示关系的类型。知识图谱可以帮助人们更好地理解和挖掘复杂数据中的信息，从而实现更精确的搜索、推荐、问答等应用。[AI续写]

知识图谱是符号主义流派，深度学习是连接主义流派。

一、定义

1.1 定义

知识图谱（Knowledge Graph）是人工智能的重要分支技术，它在2012年由谷歌提出，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。[入门]

其基本组成单位是“实体—关系—实体”三元组，以及实体及其相关属性值对，实体间通过关系相互联结，构成网状的知识结构。

知识图谱就是由节点和边组成的网络状的知识库。

学术界目前缺乏一个被普遍接受的严格定义，大多数定义是通过形式化描述知识图谱的一般语义表示或基础特征来给出定义。下面提供两条相对准确的定义以供参考。[一文打尽]

定义1（Ehrlinger et al.）：A knowledge graph acquires and integrates information into an ontology and applies a reasoner to derive new knowledge. 知识图谱获取信息并将其集成到本体中，并应用推理器来获取新知识。

定义2（Wang et al.）：A knowledge graph is a multi-relational graph composed of entities and relations which are regarded as nodes and different types of edges, respectively. 知识图谱是由实体和关系组成的多关系图，实体和关系分别被视为节点和不同类型的边。

1.2 分类

分为通用与特定领域。

二、发展历程

1960年，在人工智能的早起发展中，有两个主要的分支，也就是两派系，一个是符号派，注重模拟人的心智，研究如何用计算机符号表示人脑中的知识，以此模拟人的思考、推理过程；一个则是连接派，注重模拟人脑的生理结构，由此发展了人工神经网络。这个时候提出了Semantic Networks，也就是语义网络，作为一种知识表示的方法，主要用于自然语言理解领域。

1970年，随着专家系统的提出和商业化发展，知识库(Knowledge Base)构建和知识表示得到重视。

专家系统的主要思想认为专家是基于脑中的知识来进行决策的，所以为了实现人工智能应该用计算机符号来表示这些知识，通过推理机来模仿人脑对知识进行处理。

早期的专家系统常用的知识表示方法有基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)。框架语言用来描述客观世界的类别、个体、属性等，多用于辅助自然语言理解；产生式规则主要用于描述逻辑结构，用于刻画过程性知识。

1980年，哲学概念“本体”(Ontology）被引入人工智能领域来刻画知识，我理解的本体大概可以说是知识的本体，一条知识的主体可以是人，可以是物，可以是抽象的概念，本体就是这些知识的本体的统称。

1989年，Tim Berners-Lee在欧洲高能物理研究中心发明了万维网，人们可以通过链接把自己的文档链入其中，在万维网概念的基础上，1998年又提出了语义网（Semantic Web）的概念，与万维网不同的是，链入网络的不止是网页，还包括客观实际的实体（如人、机构、地点等）。

2012年谷歌发布了基于知识图谱的搜索引擎。

三、应用

知识图谱中使用了大量NLP技术。

以下是一些主要的应用场景，概括为搜索、问答、辅助大数据分析：

搜索引擎：知识图谱可以帮助搜索引擎更好地理解用户的查询意图，为用户提供更精确的搜索结果。
推荐系统：知识图谱可以提供丰富的用户兴趣和物品属性信息，从而提高推荐系统的准确性和相关性。
自然语言处理：知识图谱可以帮助自然语言处理任务（如命名实体识别、关系抽取、情感分析等）更好地理解文本中的实体和关系，提高任务的准确性。
知识发现与挖掘：知识图谱可以帮助研究人员从大量异构数据中提取出有价值的知识，发现新的关系和模式。
智能问答：知识图谱可以为智能问答系统提供丰富的知识支撑，帮助系统更好地回答用户的问题。
社交媒体分析：知识图谱可以帮助分析社交媒体上的用户关系、信息传播和舆论趋势等。
医疗保健：知识图谱可以帮助分析和挖掘医疗数据，为疾病诊断、药物研发和患者治疗提供支持。
金融风控：知识图谱可以帮助分析和挖掘金融数据，为风险评估、信贷评估和投资决策提供支持。
智能客服：知识图谱可以帮助客服系统更好地理解用户的需求和问题，提供更精确的解答和支持。
物联网：知识图谱可以帮助分析和挖掘物联网设备产生的大量数据，为设备管理、故障诊断和系统优化提供支持。

四、如何构建与具体技术

4.1 数据

根据数据的类型可以分为结构化数据、非结构化数据和半结构化数据。

结构化的数据为表格、数据库等按照一定格式表示的数据，通常可以直接用来构建知识图谱。

非结构化的数据为文本、音频、视频、图片等，需要对它们进行信息抽取才能进一步建立知识图谱。

半结构化数据是介于结构化和非结构化之间的一种数据，也需要进行信息抽取才能建立知识图谱。

4.2知识抽取

知识抽取可以分为实体识别、关系抽取、属性抽取等。

目前结构化的数据是最主要的知识来源。针对结构化的数据，知识图谱通常可以直接利用和转化，形成基础数据集，再利用知识图谱补全技术进一步扩展知识图谱。

针对文本型数据这种非结构化数据，知识获取的方式主要包括实体识别、关系抽取、属性抽取等。具体的方法又包括基于特征模版的方法、基于核函数的监督学习方法、基于深度学习的方法等。

1）实体识别

实体识别指在一段文本中识别哪些词代表实体，并打上标签（进行分类）。

2）关系抽取

识别文本（或其他数据）中实体之间的关系。

4.3知识表示与建模

知识表示就是指用一定的结构和符号语言来描述知识，并且能够用计算机进行推理、计算等操作的技术。知识表示的方法有：

1）谓词逻辑表示法

这种方法将一句话，或者说命题，当中的句子成分分为个体词、谓词、量词，通过研究它们的逻辑关系，可以进行推理。例如“π是无理数”这个命题中，“π”就是一个个题词，“是无理数”就是一个谓词，“任意无理数都是实数”这个命题中，“任意”就是一个量词，根据这两个命题，我们可以做出推理：“π是实数”。

一阶谓词逻辑具有自然性、接近自然语言、容易接受、严密性、易于转化为计算机内部形式等优点，但同时也具有无法表示不确定性知识、难以表示启发性知识及元知识、组合爆炸、效率低等缺点。

2）框架表示法

框架是一种描述所讨论对象（事物、事件、概念等）属性和行为的数据结构。框架的最高层次是固定的，并且它描述对于假定情况总是正确的事物，在框架的较低层次上有许多终端——被称为槽（Slots）。在槽中填入具体值，就可以得到一个描述具体事务的框架，每一个槽都可以有一些附加说明——被称为侧面（Facet），其作用是指出槽的取值范围和求值方法等。

但是同时框架表示法缺乏形式理论，没有明确的推理机制保证问题求解的可行性和推理过程的严密性；由于许多实际情况与原型存在较大的差异，因此适应能力不强；框架系统中各个子框架的数据结构如果不一致会影响整个系统的清晰性，造成推理的困难。

3）基于语义网络的表示法

语义网络利用节点和带标记的边结构的有向图描述事件、概念、状况、动作及客体之间的关系。带标记的有向图能十分自然的描述客体之间的关系。

语义网络具有联想性、易用性、结构性等优点，但是也存在无形式化语法、无形式化语义，缺少统一的描述形式和表示体系。

4）基于语义网的表示法

语义网通过扩展现有互联网，在信息中加入表示其含义的内容，提高计算机的自动化和智能化。万维网联盟W3C制定了一系列的标准语言来对知识进行表示和建模，如RDF、RDF- S和OWL。

RDF是一系列语义网标准的核心。RDF-S(RDF Schema)，在RDF的基础上提供了对类和属性的简单描述，从而给RDF数据提供词汇建模的语言。RDF和RDF-S缺少的特征：对局部值域的属性定义；类、属性、个体的等价性；不相交类的定义；基数定义；关于属性特性的描述，于是发展了OWL作为RDF-S的扩展，表达能力更强的本体构建语言。

知识图谱的主要数据模型有RDF图和属性图两种，形成了RDF数据的三元组库和属性图的图数据库。知识图谱的查询语言分为声明式和导航式两类。RDF三元组库是语义网领域发展的数据库系统，它的数据类型是RDF图，用来查询的语言是SPARQL，属于声明式查询语言，都遵循W3C标准；图数据库的数据类型为属性图，采用声明式查询语言Cypher、PGQL等。

4.4知识融合

当我们想建立一个知识图谱，需要从多个来源获取数据，这些来源不同的数据可能会存在交叉、重叠，同一个概念、实体可能会反复出现，知识融合的目的就是把表示相同概念的实体进行合并，把来源不同的知识融合为一个知识库。

知识融合的主要任务包括实体消歧和指代消解，它们都用来判断知识库中的同名实体是代表同一含义、是否有其他实体也表示相同含义。

实体消歧专门用于解决同名实体产生歧义的问题，通常采用聚类法、空间向量模型、语义模型等。

指代消解则为了避免代词指代不清的情况。

4.5知识推理

推理是模拟思维的基本形式之一，是从一个或多个现有判断（前提）中推断出新判断（结论）的过程。基于知识图的知识推理旨在识别错误并从现有数据中推断新结论。通过知识推理可以导出实体间的新关系，并反馈以丰富知识图，从而支持高级应用。

鉴于知识图的广泛应用前景，大规模知识图的知识推理研究成为近年来自然语言处理领域的一个研究热点。

五、主流知识图谱

The Semantic Web

谷歌知识图谱

Freebase

WikiData

Schema.org

DBPEDIA

YAGO

ConceptNet

BabelNet

OpenKG.CN（中国）

六、参考资料