ID3算法

生活百科 2023-01-17 20:00生活百科www.aizhengw.cn

ID3算法

ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标準,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标準,然后继续这个过程,直到生成的决策树能完美分类训练样例。

基本介绍

  • 中文名ID3算法
  • 提出者Quinlan
  • 大学悉尼大学
  • 解释建立了概念学习系统(CLS)算法

背景知识

ID3算法最早是由罗斯昆(J. Ross Quinlan)于1975年在悉尼大学提出的一种分类预测算法,算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标準,重複这个过程,直至生成一个能完美分类训练样例的决策树。
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那幺选择一些例外加入到训练集数据中,重複该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变数来判断所属的类别。

ID3算法

ID3算法是由Quinlan提出的。该算法是以资讯理论为基础,以信息熵和信息增益度为衡量标準,从而实现对数据的归纳分类。以下是一些资讯理论的基本概念
定义1若存在n个相同机率的讯息,则每个讯息的机率p是1/n,一个讯息传递的信息量为-Log2(1/n)
定义2若有n个讯息,其给定机率分布为P=(p1,p2…pn),则由该分布传递的信息量称为P的熵,记为
定义3若一个记录集合T根据类别属性的值被分成互相独立的类C1C2..Ck,则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p),其中P为C1C2…Ck的机率分布,即P=(|C1|/|T|,…..|Ck|/|T|)
定义4若我们先根据非类别属性X的值将T分成集合T1,T2…Tn,则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到,即Info(Ti)的加权平均值为
Info(X, T)=(i=1 to n 求和)((|Ti|/|T|)Info(Ti))
定义5信息增益度是两个信息量之间的差值,其中一个信息量是需确定T的一个元素的信息量,另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量,信息增益度公式为
Gain(X, T)=Info(T)-Info(X, T)
ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分支据此划分样本.
数据描述
所使用的样本数据有一定的要求,ID3是:
描述-属性-值相同的属性必须描述每个例子和有固定数量的价值观。
预定义类-实例的属性必须已经定义的,也就是说,他们不是学习的ID3。
离散类-类必须是尖锐的鲜明。连续类分解成模糊範畴(如金属被“努力,很困难的,灵活的,温柔的,很软”都是不可信的。
足够的例子——因为归纳概括用于(即不可查明)必须选择足够多的测试用例来区分有效模式并消除特殊巧合因素的影响。
属性选择
ID3决定哪些属性如何是最好的。一个统计特性,被称为信息增益,使用熵得到给定属性衡量培训例子带入目标类分开。信息增益最高的信息(信息是最有益的分类)被选择。为了明确增益,我们从资讯理论借用一个定义,叫做熵。每个属性都有一个熵。

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有