4.不确定性推理方法

人工智能文章系列

概述

1）本章先讨论不确定性推理中的基本问题；2）然后介绍基于概率论的有关理论发展起来的不确定性推理方法，主要介绍“贝叶斯方法、可信度方法、证据理论等”；3）最后介绍目前在专家系统、信息处理、自动控制等领域广泛应用的依据模糊理论发展起来的模糊推理方法。

不确定性 - 概念与重要性

不确定性(Uncertainty)：事先不能准确知道某件事件或某种决策的发生、过程或结果。
现实世界中的大多数问题是不精确、非完备的。对于这些问题，若采用精确性推理方法显然无法解决。
不确定性是智能问题的本质特征，智能主要反映在求解不确定性问题的能力上。无论是人类智能还是人工智能，都离不开不确定性的处理。因此，“不确定性推理模型”是人工智能和专家系统的一个核心研究课题。

不确定性广泛出现在“哲学、统计学、经济学、金融学、保险学”等领域。

不确定性的分类

类型	分类举例
不确定性（随机性）重点	事情的出现是随机的，无法明确或提前预知。 l例如，(这场球赛甲队取胜, 0.9)。这里的0.9就是命题 “这场球赛甲队取胜”的可信度。它表示“这场球赛甲队取胜”这个命题为真（即这个事件发生）的可能性程度是0.9。
不准确性（模糊性）	信息描述模糊，知识的外界不清晰。或对某个问题域进行划分时，可能无法找到一个清晰的标准。例如，用三元组（张三，体型，(胖，0.9）)表示命题 “张三比较胖”，其中的0.9就代替“比较”而刻划了张三“胖”的程度。
不完备性 (不完全性)	内容不完整：可能来源于获取知识时观测不充分、设备不精确。知识结构不完备：可能因为人的认识能力等原因，造成对解决某个特定问题的背景和结构认识不全。
不一致性	指知识随时间的变化而变化的特性，人类的知识是无限发展的，不可能停留在某个水平。
不协调性…	知识内在的矛盾，不协调的程度可以依次为冗余、干扰、冲突等。

随机性举例

模糊性举例

不确定性推理 - 从确定性推理全过程说起

不确定性推理：从不确定性的初始证据出发，通过运用不确定性的知识，采用不确定性3推理方法或策略，最终推出具有一定程度的不确定性但却是合理或者近乎合理4的结论的思维过程。

不确定推理 - 三大基本问题与解决方法

三个基本问题	问题内容	方法
不确定知识的表示	证据+规则 +结论	指采用什么方法描述不确定性；这是解决不确定性推理的关键一步。	数值表示：便于计算、比较。非数值的语义表示方法：是一种定性的描述，以便较好地解决不确定性问题。
不确定推理的过程	推理过程计算（由因推到果，原因包括证据和规则）	不确定性的传递与更新（即获得新信息的过程）：1）不确定性的传递算法：在每一步推理中,如何把证据及规则的不确定性传递给结论。2）组合证据的不确定性计算。结论的不确定性合成：用不同的知识进行推理，得到相同结论，但其不确定性的程度却不相同。	在原始证据和规则都不确定性的基础上，提供一种计算规则，或定义一组函数，求出结论的不确定性度量。
计算内容的语义解释问题	指上述“知识表示和推理计算”的含义是什么？即对它们进行解释。目前在AI中，表达不确定性问题主义的主要数学工具：概率论、模糊数学等。	概率论：研究和处理随机现象，事件本身有明确的含义，只是由于条件不充分，使得在条件和事件之间不能出现确定性的因果关系。模糊数学：研究和处理模糊现象，概念本身就没有明确的外延，一个对象是否符合这个概念是难以确定的 (属于模糊的)。
不确定性的度量	证据+规则 +结论	可采用各种数学工具	三值、多值逻辑，非单调逻辑概率论、模糊逻辑

基本问题的解决及对比 - 确定性 vs. 不确定性

确定性：可以告诉事物的普遍规律也许是群体的统计规律（大数定律）也许仅是一个相对的真理
不确定性：使世界和生活充满了未知的魅力，是创造性不可缺少的因素，为我们提供了种种的机遇。

基本问题	确定性	不确定性推理
不确定知识的表示	证据（已知事实）	确定性知识	概率论、集合论（元组）、模糊理论 l程度表示法：命题中所描述的事物的属性、状态和关系等的强度。它是一种针对对象的表示法。其一般形式为（<对象>，<属性>，(<属性值>，<程度 >）)
策略或规则（知识）	命题逻辑（原子命+组合命题）谓词逻辑	多值逻辑（集合）重模糊逻辑（集合、函数）点
不确定信息的推理	推理过程	命题逻辑推导规则谓词逻辑推导规则	经典概率论衍生概率论（主观贝叶斯、证据理论、DS理论等）
不确定性的度量	推理值的度量	二值逻辑（True / False）经典逻辑表示非黑即白一阶谓词逻辑	三值、多值逻辑，非单调逻辑模糊逻辑灰色地带基于概率的度量：概率值、可信度等

不确定性推理方法 - 基于概率理论

在数值方法中，概率方法是重要的方法之一。

优点：概率论有着完善的理论和方法，而且具有现成的公式实现不确定性的合成与传递，因此可以用做度量不确定性的重要手段。

缺点：纯概率方法虽然有严格的理论依据，但通常要求给出事件的先验概率和条件概率，而这些数据又不易获得，因此使其应用受到限制。

为解决这个问题，在概率论的基础上发展起来一些新的方法和理论，主要有以下：

方法名称	内容	应用案例
主观Bayes方法 (主观概率论)	是对Bayes公式修正后形成的一种不确定推理方法；为概率论在不确定推理中的应用提供了一条新途径。	地矿勘探专家系统 PROSPECTOR
可信度方法	以确定性理论为基础，方法简单、易用。	专家系统MYCIN
证据理论等	它通过定义“信任函数、似然函数”，把知道和不知道区别开来。 l这些函数满足比“概率函数”的公理要弱的公理，因此，概率函数是信任函数的一个子集。

主观Bayes方法 - 引入原因

主观Bayes方法：由杜达(R.O.Duda)等人在1976年在概率论的基础上，通过对Bayes公式的修正而形成的一种不确定性推理模型，并成功地应用在他们自己开发的地矿勘探专家系统PROSPECTOR中。

存在问题：经典概率论不可用在许多情况下，同类事件发生的频率不高,甚至很低，无法做概率统计

解决方案：引入主观概率根据观测到数据，凭领域专家的经验给出一些主观上的判断，称为主观概率。

1977年，斯坦福大学研发用于“地质领域探测矿藏”的专家系统是PROSPECTOR系统。

采矿工程是一个极其复杂的大系统，其中许多问题没有规则结构，这类问题的求解无法用简单的数据流动或精确的逻辑判断做确定的解答。专家系统技术为解决这类问题提供了有力的工具。

主观Bayes方法 - 三大基本问题的解决方式

在面对复杂和不断变化的现实世界时，决策过程往往充满挑战。我们的每一个选择都是在一定程度的不确定性中做出的，无论是日常生活中的小决定，还是关系到未来方向的重大选择。概率通常用于结果得不到完全预测的情况。

如何在“信息不全、环境变化快速”的情况下做出恰当的判断呢？

一种源自概率论的思考方式—贝叶斯思维，为我们提供了一个强有力的工具。

基本问题	解决方法
表示方法	主观概率、条件概率
度量方法	概率值（0-1）；一般可以解释为对“证据和规则”的主观信任度。
推理计算过程	概率推理中起关键作用的就是所谓的Bayes公式，它也是主观Bayes方法的基础。

主观Bayes方法及应用

主观Bayes方法 - 引例(试错成本很高的场景)

Beyes理论实用之处针对“试错成本很高的场景”，允许用一个数学框架来结合已有的知识（先验概率）和新出现的信息（如证据或数据），通过不断迭代，能在不同的解决方案中，更好得到最优解。比如，在医学诊断中，医生可以根据患者的症状（新信息）和既往病史（先验知识），来更新对患者患有某种疾病的估计概率。

概率论基础1 - 条件概率公式

概率论基础2 - 全概率公式

意义：多个事件𝑩𝒊发生，对结果A 发生的总体影响。在条件概率基础上，为原因事件𝑩𝒊加上权值。即为达到某目的A，有多种方式𝑩𝒊(𝒊 = 𝟏 … 𝒏) ，采用某种方式𝑩𝒊而达成目的的概率已知𝑷(𝑨|𝑩𝒊)。全概率就是为每个方式加上成功率（权值），然后计算总的成功率。

贝叶斯公式 - 在不确定情况下求最优解

可信度方法 - 定义

定义：是一种不确定性推理方法，基于经验对事物或现象为真的相信程度，即可信度。其核心在于使用可信度因子来表示“知识和证据的不确定性”，并通过推理计算得出 “结论的可信度”。这种方法在1975年由肖特里菲等人提出，并结合“概率论和模糊集合论”等方法发展而来。

C-F模型

知识不确定性的表示：知识是用产生式规则表示的，其一般形式为：

IF E(前提条件) THEN H(结论) (CF(H,E)) (可信度因子）

举例：

IF 头痛AND 流涕 THEN 感冒 (0.7)

当病人出现“头痛”及“流涕”时，则有7成的把握认为他感冒了。

DS证据理论(Theory of Evidence) - 定义

定义：由德普斯特（A.P.Dempster）于20世纪60年代首先提出，并由沙佛（G.Shafer）在20世纪70年代中期进一步发展起来的一种处理不确定性的理论，又称为D-S理论。

主要特点：满足比贝叶斯概率论更弱的条件；具有直接表达“不确定”和“不知道”的能力。

DS不确定性推理模型

(信任)概率分配函数：把D的任意子集A都映射为[0,1]上的一个数M(A)，实际上对D的各个子集进行信任分配。
信任函数/下限函数（Belief Function）：表示对命题A为真的总的信任程度。
似然函数/不可驳斥函数/上限函数（Plausibility Function)：对A为非假的信任程度。

模糊集理论 - 引入原因

概率论的缺点

概率论处理的是由随机性引起的不确定性，基于概率的方法没有把事物自身所具有的模糊性反映出来，也不能对其客观存在的模糊性进行有效处理。

模糊集的优点

Zadeh提出的模糊集理论及其在此基础上发展起来的模糊理论弥补了这一缺憾。把模糊性作为基本的研究对象

模糊理论处理的是由模糊性引起的不确定性。模糊理论对由模糊性引起的不确定性的表示及处理开辟了一种新的解决途径，并得到了广泛应用。模糊性使我们的生活简单而有效，借助模糊性能对复杂事物作出高效率的判断和处理。如医生可以根据病人的模糊症状而作出正确的判断、画家不用精确的测量计算而能画出栩栩如生的风景人物等。

模糊集理论 - 案例

由于建立在二值逻辑基础上的原有的逻辑与数学难以描述和处理现实世界中许多模糊性的对象。模糊逻辑将“非黑即白”的事件分配了“灰度级别”。汽车牵引力系统的模糊控制 (类比汽车雨刷控制系统)汽车一般配备了牵引力控制系统，这些系统在不同降水情况下可以发挥安全作用。假设一开始只是毛毛雨，然后雨势逐渐增大到一定程度。模糊逻辑提供了应对这些不确定性所所需的控制理论基础。

模糊集理论 - 演进过程

目前，各种模糊产品充满日本、西欧和美国市场，如模糊洗衣机、模糊吸尘器、模糊电冰箱和模糊摄像机等

模糊集合

1965年美国数学家L. Zadeh提出Fuzzy集合的概念，标志着Fuzzy数学的诞生。

Fuzzy数学与Fuzzy逻辑实质上是要对模糊性对象进行精确的描述和处理。

模糊集合的定义

论域：所讨论的全体对象，一般用U、E等大写字母表示。

元素：论域中的每个对象，一般用a,b,c,x,y,z等小写字母表示集合中的元素。

集合：论域中具有某种相同属性的确定的、可以彼此区别的元素的全体，常用A,B,C,X,Y,Z等表示集合。

模糊集合的表示方法

当论域中元素数目有限时，模糊集合A的数学描述为：

A={ (x, 𝜇𝐴(𝑥) ), x∈𝑋 }

其中𝜇𝐴(𝑥)为元素x 属于模糊集A的隶属度，X 是元素x 的论域。

对比项	经典集合	模糊集合
元素与集合的关系	非黑即白 a属于A或a不属于A，即只有两个真值“真”和“假”	分配了“灰度级别” 引入隶属度(degree of membership)概念，描述介于“真、假”之间的过程。
量化关系表示	特征函数（分段曲线）	隶属度函数（连续曲线）

模糊集合函数 vs 经典集合

模糊集合是经典集合的推广。

实际上，经典集合是模糊集合中隶属函数取0或1时的特例。

隶属函数 (membership function)

定义：模糊集合中所有元素的隶属度全体构成模糊集合的隶属函数。

作用：正确地确定隶属函数是运用模糊集合理论解决实际问题的基础。隶属函数是对模糊概念的定量描述。

难统一：我们遇到的模糊概念不胜枚举，然而准确地反映模糊集合的隶属函数，却无法找到统一的模式。

主观性

隶属函数的确定过程，本质上说应该是客观的，但每个人对于同一个模糊概念的认识理解又有差异。因此,隶属函数的确定又带有主观性。引进隶属度后，将人们“对事物认识的模糊性”转化为“隶属度确定的主观性”。隶属函数一般根据经验或统计进行确定,也可由专家给出。对于同一个模糊概念，不同的人会建立不完全相同的隶属函数，尽管形式不完全相同，只要能反映同一模糊概念，仍然能够较好地解决和处理实际模糊信息的问题。

隶属函数 – 常见形式举例

蓝色方框内可以近似表示为下雨的过程

模糊集合的运算

运算名称	具体规则
模糊集合的包含关系	若𝜇𝐴 x ≥ 𝜇𝐵 x ，则称A包含B，记作A⊇B
模糊集合的相等关系	若𝜇𝐴 x = 𝜇𝐵 x ，则称A与B相等，记作A=B
模糊集合的交并补运算(∧为取小运算,∨为取大运算)	交运算（intersection）A ∩ 𝐵： 𝜇𝐴∩𝐵 𝑥 = min 𝜇𝐴 𝑥 , 𝜇𝐵 𝑥 = 𝜇𝐴 𝑥 ∧ 𝜇𝐵 𝑥 并运算（union）A ∪ 𝐵： 𝜇𝐴∪𝐵 𝑥 = max 𝜇𝐴 𝑥 , 𝜇𝐵 𝑥 = 𝜇𝐴 𝑥 ∨ 𝜇𝐵 𝑥 l补运算（complement） 𝐴 或者 𝐴𝐶： 𝜇𝐴 𝑥 = 1 − 𝜇𝐴 𝑥
模糊集合的代数运算	代数积： 𝜇𝐴⋅𝐵 𝑥 = 𝜇𝐴 𝑥 𝜇𝐵 𝑥 l代数和： 𝜇𝐴+𝐵 𝑥 = 𝜇𝐴 𝑥 + 𝜇𝐵 𝑥 − 𝜇𝐴⋅𝐵 𝑥 有界和： 𝜇𝐴⊕𝐵 𝑥 = min 1, 𝜇𝐴 𝑥 + 𝜇𝐵 𝑥 = 1 ∧ 𝜇𝐴 𝑥 + 𝜇𝐵 𝑥 l有界积： 𝜇𝐴⊗𝐵 𝑥 = max 0, 𝜇𝐴 𝑥 + 𝜇𝐵 𝑥 − 1 = 0 ∨ 𝜇𝐴 𝑥 + 𝜇𝐵 𝑥 − 1

模糊决策

模糊决策：将模糊推理得到的模糊向量转化为确定值的过程。

模糊决策方法	最大隶属度法	加权平均判决法	中位数法
计算推理结果方法	取隶属度最大的量作为推理结果。例：𝑈′ = 0.1/2 + 0.4/3 + 0.7/4 + 1.0/5 + 0.7/6 + 0.3/7。由于推理结果隶属等级5的隶属度为最大，所以取结论为：U=5 l如果有两个以上的元素均为最大，则可以取它们的平均值：𝑈′ = 0.5/−3 + 0.5/−2 + 0.5/−1 + 0.0/0 + 0.0/1 + 0.0/2 + 0.0/3 −3 − 2 − 1 𝑈 = = −2 3	𝑛 𝜇൫𝑢𝑖)𝑢𝑖 公式：𝑈 = σ𝑖=1 σ𝑛 𝜇(𝑢𝑖) 𝑖=1 例：𝑈′ = 0.1/2 + 0.6/3 + 0.5/4 + 0.4/5 + 0.2/6	论域为有限离散点，可用下列公式求取： σ𝑢∗ 𝜇 𝑢 = σ𝑢𝑛 𝜇 𝑢 。例:𝑈′ = 0.1/−4 + 𝑢1 𝑖 𝑢∗+1 𝑗 0.5/−3 + 0.1/−2 + 0.0/−1 + 0.1/0 + 0.2/1 + 0.4/2 + 0.5/3 + 0.1/4。由于, u1 =-4, u =4,则当𝑢∗= u 时， σ𝑢6 𝜇 𝑢 = 9 6 𝑢1 𝑖 σ𝑢9 𝜇 𝑢 = 1，所以中位数为𝑢∗= u =1， 𝑢7 𝑖 6 则U=1 l若该点在有限元素之间，可用插值的方法来求取:𝑈′ = 0.1/−4 + 0.5/−3 + 0.3/−2 + 0.1/−1 + 0.1/0 + 0.4/1 + 0.5/2 + 0.1/3 + 0.2/4,可用线性插值处理，令𝛥𝑢 = 1.2/ 1.1 + 1.2 = 0.522.所以取𝑢∗= u5 + 𝛥𝑢=0.522。也可以不用插值方法，可直接取𝑢∗= 0或者𝑢∗= 1
优缺点	优点：简单易行。缺点：完全排除了其他隶属度较小的量的影响和作用，没有充分利用推理过程取得的信息	优点：性能更佳，静态性更好	优点：动态性更好缺点：计算比较复杂，特别是在连续隶属度函数时，需要求解积分方程