聚类算法之ISODATA

标点符 2018-06-28 12:09:18 累计浏览 3,330 次

本机暂存

内容概览

聚类算法中的K-Means虽然经典，但需要预先设定簇数K且对初始中心敏感。这篇讲的是ISODATA算法，它作为一种迭代自组织数据分析方法，核心改进在于让聚类过程能够动态调整簇的数量。

文章指出，ISODATA在K-Means基础上引入了“合并”与“分裂”两个关键操作：当两个簇中心过于接近时进行合并，而当一个簇内部样本过于分散或数量过多时则尝试将其分裂。算法需要用户提供几个关键参数，如预期的初始簇数、允许的最小样本数、方差阈值等，这些参数共同划定了簇数量最终可能变化的范围（通常在初始设定值的半倍到两倍之间）。

作者也点明了ISODATA的一个现实困境：虽然原理直观地解决了“K值设定”难题，但由于需要调整的参数较多，且部分阈值难以准确指定，这使得它在实际应用中反而不如更简单的K-Means受欢迎。文章通过对比K-Means，清晰阐述了ISODATA的机制与适用边界。

ISODATA算法（Iterative Self Organizing Data Analysis Techniques Algorithm，迭代自组织数据分析方法）和K-Means算法是相似的算法，都是属于无监督的聚类分析方法，但是

在之前介绍的K-Means算法中，有两大缺陷：

K值需要预先设定
随机的初始中心选择对计算结果和迭代次数有较大的影响

虽然通过K-Means++有效的解决了随机初始中心选择的问题，但是对于K值的预先设定，在K-Means++中也没有很好的解决，ISODATA算法则可以有效的解决K值需要设定的问题。ISODATA算法是在k-Means算法的基础上，增加对聚类结果的“合并”和“分裂”两个操作，即当两个聚簇中心的值小于某个阈值时，将两个聚类中心合并成一个，当某个聚簇的标准差小于一定的阈值时或聚簇内样本数量超过一定阈值时，将该聚簇分列为2个聚簇，甚至当某个聚簇中的样本量小于一定阈值时，则取消该聚簇。

ISODATA算法

ISODATA算法的输入：

预期的聚类中心数目Ko：虽然在ISODATA运行过程中聚类中心数目是可变的，但还是需要由用户指定一个参考标准。事实上，该算法的聚类中心数目变动范围也由Ko决定。具体地，最终输出的聚类中心数目范围是 [Ko/2, 2Ko]。
每个类所要求的最少样本数目Nmin：用于判断当某个类别所包含样本分散程度较大时是否可以进行分裂操作。如果分裂后会导致某个子类别所包含样本数目小于Nmin，就不会对该类别进行分裂操作。
最大方差Sigma：用于衡量某个类别中样本的分散程度。当样本的分散程度超过这个值时，则有可能进行分裂操作（注意同时需要满足[2]中所述的条件）。
两个类别对应聚类中心之间所允许最小距离dmin：如果两个类别靠得非常近（即这两个类别对应聚类中心之间的距离非常小），则需要对这两个类别进行合并操作。是否进行合并的阈值就是由dmin决定。

原图已失效