一维数组的聚类
这篇讲的是如何更智能地划分一维数据的区间。作者从分析订单价格分布的实际问题出发,指出简单按固定梯度(如每100元)划分可能忽视数据中天然存在的“分隔点”(比如Airbnb房价分布),导致分组不自然。 文章详细比较了三种解决一维聚类的方案。首先是将数据reshape成二维后使用通用的K-Means算法。其次是专门针对一维数据的Jenks Natural Breaks自然断点法,它通过最小化类内方差之和来寻找最佳分界点,并探讨了使用GVF指标来确定最优聚类数K的经验方法。第三种是利用核密度估计,通过寻找概率密度曲线的极值点(波峰与波谷)来自动划分数据。作者不仅阐述了原理,还提供了Python实现代码,清晰地展示了如何运用Jenks算法计算GVF值,以及如何用KDE寻找数据的自然断裂处。整个对比有助于读者根据数据特点和分析需求,选择最合适的区间划分工具。