标签：Unsupervised Learning

共 2 篇相关文章

IT 累计浏览 3,332

聚类算法之ISODATA

聚类算法中的K-Means虽然经典，但需要预先设定簇数K且对初始中心敏感。这篇讲的是ISODATA算法，它作为一种迭代自组织数据分析方法，核心改进在于让聚类过程能够动态调整簇的数量。文章指出，ISODATA在K-Means基础上引入了“合并”与“分裂”两个关键操作：当两个簇中心过于接近时进行合并，而当一个簇内部样本过于分散或数量过多时则尝试将其分裂。算法需要用户提供几个关键参数，如预期的初始簇数、允许的最小样本数、方差阈值等，这些参数共同划定了簇数量最终可能变化的范围（通常在初始设定值的半倍到两倍之间）。作者也点明了ISODATA的一个现实困境：虽然原理直观地解决了“K值设定”难题，但由于需要调整的参数较多，且部分阈值难以准确指定，这使得它在实际应用中反而不如更简单的K-Means受欢迎。文章通过对比K-Means，清晰阐述了ISODATA的机制与适用边界。

IT 累计浏览 1,778

基于主特征空间相似度计算的切分算法及切分框架

这篇讲的是当前文本处理中一个具体但很关键的任务——切分。作者从切分的重要性（比如对下游任务的基础影响）和实际工程中的难点（比如领域适应性、歧义处理）出发，梳理了现有主流方法（如基于规则、统计、深度学习的方法）各自的长处与局限。在此基础上，文章重点介绍了一种新型的无监督切分方法。其核心思路是挖掘文本的“主特征空间”，并基于此计算词语之间的相似度来进行切分。这种设计巧妙地利用了文本自身的内在结构信息，避免了对外部标注数据的依赖，尤其适用于数据稀缺或需要快速适配新领域的场景。作者并未止步于算法本身，还深入讨论了从算法到工程落地时必须面对的考量，比如效率、稳定性及模块集成。最终，在这些分析的基础上，文章提出了一个旨在融合各类方法优势的切分框架，为构建可靠、灵活的切分系统提供了一个清晰的蓝图。对于从事NLP基础组件开发或关注无监督学习的工程师而言，其中的思路很有启发价值。