不积跬步，无以至千里；不积小流，无以成江海

ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。

基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

参考：

1. ChiMerge:Discretization of numeric attributs

2. Chi算法

参考1的要点：

1、最简单的离散算法是：等宽区间。从最小值到最大值之间,，均分为N等份，这样，如果A, B为最小最大值，则每个区间的长度为w=(B-A) / N,则区间边界值为A+W, A+2W,…. A+(N-1)W.

2、还有一种简单算法，等频区间。区间的边界值要经过选择，使得每个区间包含大致相等的实例数量。比如说N=10，每个区间应该包含大约10%的实例。

3、以上两种算法有弊端：比如，等宽区间划分，划分为5区间，最高工资为50000，则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反，所有工资高于

50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型，落在正确区间里的偶然性很大。

4、 C4、CART、PVM算法在离散属性时会考虑类信息，但是是在算法实施的过程中间，而不是在预处理阶段。例如，C4算法（ID3决策树系列的一种），将数值属性离散为两个区间，而取这两个区间时，该属性的信息增益是最大的。

5、评价一个离散算法是否有效很难，因为不知道什么是最高效的分类。

6、离散化的主要目的是：消除数值属性以及为数值属性定义准确的类别。

7、高质量的离散化应该是：区间内一致，区间之间区分明显。

8、 ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证，类别属性独立于其中一个区间，则这个区间就要被合并。

9、 ChiMerge算法包括2部分：1、初始化，2、自底向上合并，当满足停止条件的时候，区间合并停止。

第一步：初始化

根据要离散的属性对实例进行排序：每个实例属于一个区间

第二步：合并区间，又包括两步骤

(1)计算每一对相邻区间的卡方值

(2)将卡方值最小的一对区间合并

预先设定一个卡方的阈值，在阈值之下的区间都合并，阈值之上的区间保持分区间。

卡方的计算公式：

参数说明；

m=2（每次比较的区间数是2个）

k=类别数量

Aij=第i区间第j类的实例的数量

Ri=第i区间的实例数量

Cj=第j类的实例数量

N=总的实例数量

Eij= Aij的期望频率

10、卡方阈值的确定：先选择显著性水平，再由公式得到对应的卡方值。得到卡方值需要指定自由度，自由度比类别数量小1。例如，有3类，自由度为2，则90%置信度（10%显著性水平)下，卡方的值为4.6。阈值的意义在于，类别和属性独立时，有90%的可能性，计算得到的卡方值会小于4.6，这样，大于阈值的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大，区间合并就会进行很多次，离散后的区间数量少、区间大。用户可以不考虑卡方阈值，此时，用户可以考虑这两个参数：最小区间数，最大区间数。用户指定区间数量的上限和下限，最多几个区间，最少几个区间。

11、 ChiMerge算法推荐使用.90、.95、.99置信度，最大区间数取10到15之间.

举例：

取鸢尾花数据集作为待离散化的数据集合，使用ChiMerge算法，对四个数值属性分别进行离散化，令停机准则为max_interval=6。（韩家炜数据挖掘概念与技术第三版习题3.12）

下面是我用Python写的程序，大致分两步：

第一步，整理数据

人生就像是一场旅行，遇到的既有感人的，

相关文章：

你感兴趣的文章：

标签云：