IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:Clustering

共 9 篇相关文章

IT 累计浏览 3,584

一维数组的聚类

这篇讲的是如何更智能地划分一维数据的区间。作者从分析订单价格分布的实际问题出发,指出简单按固定梯度(如每100元)划分可能忽视数据中天然存在的“分隔点”(比如Airbnb房价分布),导致分组不自然。 文章详细比较了三种解决一维聚类的方案。首先是将数据reshape成二维后使用通用的K-Means算法。其次是专门针对一维数据的Jenks Natural Breaks自然断点法,它通过最小化类内方差之和来寻找最佳分界点,并探讨了使用GVF指标来确定最优聚类数K的经验方法。第三种是利用核密度估计,通过寻找概率密度曲线的极值点(波峰与波谷)来自动划分数据。作者不仅阐述了原理,还提供了Python实现代码,清晰地展示了如何运用Jenks算法计算GVF值,以及如何用KDE寻找数据的自然断裂处。整个对比有助于读者根据数据特点和分析需求,选择最合适的区间划分工具。

IT 累计浏览 3,261

聚类算法之ISODATA

聚类算法中的K-Means虽然经典,但需要预先设定簇数K且对初始中心敏感。这篇讲的是ISODATA算法,它作为一种迭代自组织数据分析方法,核心改进在于让聚类过程能够动态调整簇的数量。 文章指出,ISODATA在K-Means基础上引入了“合并”与“分裂”两个关键操作:当两个簇中心过于接近时进行合并,而当一个簇内部样本过于分散或数量过多时则尝试将其分裂。算法需要用户提供几个关键参数,如预期的初始簇数、允许的最小样本数、方差阈值等,这些参数共同划定了簇数量最终可能变化的范围(通常在初始设定值的半倍到两倍之间)。 作者也点明了ISODATA的一个现实困境:虽然原理直观地解决了“K值设定”难题,但由于需要调整的参数较多,且部分阈值难以准确指定,这使得它在实际应用中反而不如更简单的K-Means受欢迎。文章通过对比K-Means,清晰阐述了ISODATA的机制与适用边界。

IT 累计浏览 2,760

K-Means算法之K值的选择

这篇讲的是K-Means聚类中一个经典又棘手的问题:当数据维度高、无法肉眼观察时,该如何确定聚类数K? 作者从最简单的“拍脑袋法”开始,比如用样本量估算,快速过渡到更可靠的方法。重点介绍了两种实用技术:一是直观的“肘部法则”,通过绘制K值与误差平方和的关系曲线,寻找拐点来确定最佳K值;但作者也指出,当拐点不明显时,这个方法就失效了。因此,文章引入了斯坦福大学提出的“间隔统计量”方法,它通过蒙特卡洛采样构建参考分布,进行更严谨的统计推断来选择K值。 文章不仅清晰解释了原理和公式,还直接附上了两种方法的Python实现代码。整体来看,它把从经验法则到统计方法的演进路径讲得很清楚,并且提供了实操性强的工具,帮助你在面对不同数据时,做出更合理的选择。

IT 累计浏览 3,582

分布式系统设计系列 -- 基本原理及高可用策略

这篇从分布式系统的基本构成讲起,将其拆解为节点、网络、存储三元组,并探讨了节点状态(有状态与无状态)及系统异常的基本分类。文章的核心在于剖析分布式环境与单节点系统的关键差异:例如,一次write()调用并不能保证对端成功接收数据;TCP协议虽可靠,但双方无法同时确认消息送达,这引出了经典的“拜占庭将军”问题。开发者必须面对多出的“超时”等第三种不可控状态,并将各种故障视为常态而非偶然。 在此基础上,文章重点解读了分布式系统的经典CAP理论(一致性、可用性、分区容忍性),阐明了强一致性与弱一致性的具体应用场景与权衡。最后,文章开始介绍应对这些挑战的设计策略,比如通过重试机制处理暂时性故障。对于希望构建健壮分布式系统的工程师而言,理解这些无法绕开的底层原理与固有约束,是进行可靠架构设计的第一步。

IT 累计浏览 4,241

浅析十三种常用的数据挖掘的技术

这篇讲的是数据挖掘领域里十三种核心的技术方法,作者没有停留在抽象概念,而是系统地梳理了从统计、关联规则到神经网络、模糊集等每种技术的底层逻辑。比如,统计技术的核心是先假设一个概率模型再进行挖掘;而关联规则旨在发现变量间隐藏的规律性,其生成的规则带有可信度。 文章特别适合想快速建立技术全景图的读者。它清晰区分了各类技术的特点:决策树用于展示条件规则;神经网络通过输入层、隐含层和输出层的复杂连接来建模;粗糙集处理不精确的数据分类;差别分析则专注于发现异常模式。这些技术并非孤立存在,它们共同支撑起从分类预测、聚类分析到异常检测等数据挖掘的核心任务。 对于技术实践者而言,这篇文章的价值在于将众多方法置于统一框架下进行说明,帮助读者理解每种技术解决哪类问题、其基本假设是什么。结尾也点明了数据挖掘作为一门交叉学科,融合了机器学习、统计学、数据库等多个领域的精华,其发展最终旨在将海量数据转化为可用知识。

IT 累计浏览 1,822

安全之availibility

这篇文章聚焦于信息安全中最容易被忽视却至关重要的维度——可用性(Availability)。作者从经典的CIA三要素(机密性、完整性、可用性)框架切入,指出许多安全建设往往过度强调“防泄露”和“防篡改”,却忽略了确保系统与数据在需要时能够正常访问这一根本前提。 文章深入阐述了可用性在实际业务中的表现,例如它直接关系到用户体验、业务连续性乃至企业的直接营收。通过剖析一些实际案例(如DDoS攻击导致服务中断、冗余设计不足引发的单点故障),作者揭示了可用性面临的常见威胁。更关键的是,文章探讨了如何在安全策略与系统可用性之间寻求平衡,比如权限管控过于严格可能带来的访问瓶颈,以及安全机制本身可能引入的延迟。 作者最终强调,一个健壮的安全体系必须是“可用的”安全,不能为安全而牺牲业务。真正的安全韧性,在于通过精心设计和冗余,让系统即使在攻击或故障下也能持续提供核心服务。这对于架构师和运维人员规划安全防护时,具有切实的参考价值。

IT 累计浏览 1,624

用户分层研究方法――以集市卖家为例

这篇讲的是如何对集市卖家这类用户群体进行分层研究。作者基于以往项目经验,分享了一套完整的研究思路和操作流程。由于涉及敏感数据,案例中的数字做了虚化处理,因此读起来可能略显抽象——但这恰好让重点更突出:文章的核心价值不在于某个具体案例的结论,而在于方法论本身。 作者从实际研究场景出发,梳理了从界定分层目标、选择分层维度、到设计指标体系并验证效果的整套步骤。文章特别强调了在分层研究中,如何将业务目标转化为可操作的数据维度,以及在面对有限数据时,如何构建有效的分层逻辑。这些经验总结对需要处理用户细分问题的产品、运营或数据分析师来说,提供了可以直接参考的框架。 整体而言,这篇文章剥离了具体业务的外壳,专注于呈现用户分层这一研究类型本身的方法骨架,适合正在寻找系统化分层思路的技术与业务人员。

IT 累计浏览 3,000

关于DRBD与Heartbeat的一些思考

这篇讲的是作者用一周时间亲身实践DRBD与Heartbeat高可用组合后的真实心路历程。从最初配置成功的新鲜与兴奋,到深入使用后被各种问题困扰的苦闷,再到一种“似懂非懂”的迷茫状态,作者坦诚地分享了这一过程中的起伏。 文章没有直接给出解决方案,而是将实践中遇到的疑惑和盘托出,其价值恰恰在于这种真实的纠结感。它反映了许多技术人员在面对复杂工具时常见的状态:知道它能解决什么问题,也照着做了,但底层逻辑和细节的把握总隔着一层。作者甚至自嘲“稀里糊涂得就奔着三十去了”,这种带着技术自省的真诚叙述,或许比一份完美的配置指南更能引发同行者的共鸣。 对于同样在折腾高可用方案的读者来说,这篇文章像一面镜子,映照出技术探索中那些不那么“高光”的时刻——迷茫本身,也是深度思考的开始。

IT 累计浏览 1,963

聚类分析在用户分类中的应用

这篇讲的是如何用聚类分析技术来解决用户分类的难题。作者指出,传统的用户分类往往依赖固定规则(如年龄、地域),但这种方式无法捕捉用户行为中那些动态且微妙的差异。文章的核心方案,就是引入聚类算法,让它直接从海量用户行为数据(比如点击、停留时长、购买频次)中自动发现潜在的群体特征。 具体操作上,作者可能探讨了K-means或DBSCAN这类常用聚类方法的选择与调优。关键在于,算法会将行为模式相似的用户自动归到同一个簇里,从而挖掘出诸如“价格敏感型”、“新品尝鲜型”或“沉默高价值”这类规则难以定义的隐性用户画像。文章的结论在于,这种基于数据的分类方式更加客观和精细,能够直接用于指导个性化推荐、精细化运营和营销资源投放,让“千人千面”的服务策略有据可依。