人工智能文章系列

概述

本章首先介绍“知识与知识表示”的概念,然后介绍“谓词逻辑、产生式、框架、语义网络”等当前人工智能中应用广泛的知识表示方法。然后,简要介绍知识图谱,为后面介绍推理方法、专家系统等奠定基础。

概述 - 起源(万维网)

  • 万维网以文本和链接描述信息,用户通过超链接浏览互联网上的各类资源,也可以通过互联网将自己的信息发布出去。
  • 万维网(world wide web,Web1.0):是以链接为中心的信息系统(Linked information system)。

image-20240717192612674

概述 - 语义网络表示法

  • 语义网(semantic web,Web3.0):通过给万维网上的文档(如:HTML文档、XML文档)添加能够被计算机所理解的语义“元数据”(外语:Meta data),从而使整个互联网成为一个通用的信息交换媒介。
  • 语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。

语义网与万维网的主要区别

  • 万维网是关于网页链接的结构,节点是网页,节点之间通过超链接连接;
  • 语义网是关于语义内容结构化表示的图结构,节点是语义信息。

image-20240717192633315

概述 - 可链接数据(Linked Data)

image-20240717192704045

相关概念的演变

image-20240717192723350

知识图谱 - 兴起

知识图谱是一种以图结构来描述知识和建模事物之间关联关系的技术方法。由于互联网内容的大规模、异质多元、组织结构松散的特点,给有效获取信息和知识提出挑战。谷歌于2012年5月16日首先发布了知识图谱(Knowledge Graph),它是一种互联网环境下的知识表示方法。

image-20240717192743379

知识图谱 - 定义

  • 知识图谱(Knowledge Graph/Vault):又称科学知识图谱,用各种不同的图形等可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
  • 知识图谱:是一种以图结构来描述知识和建模事物之间关联关系的技术方法。
  • 知识图谱:是由一些相互连接的实体及其属性构成的。

三元组是知识图谱的一种通用表示方式:

  • (实体1-关系-实体2):中国-首都-北京
  • (实体-属性-属性值):北京-人口-2069万

知识图谱也可被看作是一张图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。

image-20240717192810772

知识图谱 - 属性图(property graph)

  • 属性图由节点(Nodes)、关系(Relationships)、属性(Property)和标签(Labels)组成
  • 节点上包含属性,属性可以以任何键值形式存在。
  • 关系连接节点,每个关系都有拥有⼀个⽅向、⼀个标签、⼀个开始节点和结束节点
  • 关系也可以有属性,即边属性,可以通过在关系上增加属性提供有关边的元信息,如创建时间。

image-20240717192823119

知识图谱 - 资源描述框架RDF

RDF表示 Resource Description Framework(资源描述框架),它是国际万维网联盟W3C推动的面向Web的语义标准。

RDF的基本组成单位是三元组 SPO

image-20240717192842507

image-20240717192851558

知识图谱 - 体系结构

知识图谱的逻辑结构:模式层与数据层。

  • 数据层:主要是由一系列的事实组成,而知识以事实为单位进行存储。
  • 模式层:构建在数据层之上,是知识图谱的核心。

知识图谱的体系架构:

image-20240717192912557

  • 结构化数据:指知识定义和表示都比较完备的数据。
  • 半结构化数据:指部分数据是结构化的,但存在大量结构化程度较低的数据。
  • 非结构化数据:指没有定义和规范约束的“自由”数据。

知识图谱- 构建过程

image-20240717192957265

知识赋能

最初目的是增强搜索结果,改善用户搜索体验,即语义搜索。还可应用于“知识问答、领域大数据 分析、聊天机器人、金融、电商”等。

知识管理

如何有效地存储和查询大规模的RDF数据集是知识管理面临的一个核心问题。RDF是典型的图结构,知识管理需要依靠图数据(如Neo4j等)来实现。

知识建模

根据领域特点选择合适的知识表示方法,并基于此领域知识描述的概念、时间、规则及其相互关系建立知识图谱的概念模型。包括:概念抽取、概念层次(上下位关系)建模和属性学习。

知识获取

是对知识建模定义的知识要素进行实例化的过程。知识图谱中实例的属性描述以三元组的形式表示,其数量决定了知识图谱的丰富程度。命名实体识别、事件抽取、属性关系抽取。

知识图谱推理

  • 知识图谱推理的主要⽅法
  • 基于逻辑规则的推理(如:FOIL、AMIE)
  • 基于图结构和统计学习的推理(如:PRA)
  • 基于分布式表示学习的推理(如:TransE)
  • 基于神经网络的推理(如:R-GCN)

应用 - KG辅助搜索引擎

知识图谱(KG)可以提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。

Google、百度和搜狗等搜索引擎公司。

传统搜索

基于关键词的搜索不能很好地理解用户的搜索意图,仅能通过用户提供的关键词与待检索文档间的文本相关性来匹配结果。

image-20240717193100901

KG辅助搜索

利用建立大规模知识图谱的对搜索关键词和文档内容进行语义标注,提供各种类型的语义搜索,使用户能够直接获得精确度更高的答案。百度、谷歌、搜狗构建的知识图谱,分别称为知识图谱、知心和知立方。

image-20240717193104925

应用 - KG辅助金融风控

  • 积分套利挖掘
  • 黑产链路挖掘
  • 欺诈团伙挖掘
  • 涉赌涉诈关联

image-20240717193115123

展望:知识图谱 + 大语言模型

  • 利用大语言模型的知识图谱
  • 借助大语言模型提取知识
  • 借助大语言模型辅助图谱构建
  • ……

image-20240717193142911

展望:大语言模型 +知识图谱

  • 利用知识图谱的大语言模型
  • 利用知识图谱的大语言模型(预)训练
  • 利用知识图谱的提示构建
  • 利用知识图谱减少大语言模型幻觉
  • ……

image-20240717193155756