专题：NLTK -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 3,882

如何计算两个文档的相似度（三）

这篇讲的是《如何计算两个文档的相似度》系列文章的实战篇。作者从上一节的gensim基础用法出发，这一次要用“课程图谱”的真实课程数据，来实际验证和改进文档相似度计算的方法，并引入了NLTK这一专业的自然语言处理工具进行文本预处理。核心思路是利用NLTK解决真实英文文本中的“脏”问题。作者展示了，如果只是简单地将单词小写化，标点符号和单词会粘在一起，影响计算质量。因此，引入了NLTK的`word_tokenize`函数进行精细分词，将“texts.”这样的组合拆分为“texts”和“.”。更关键的一步是使用NLTK内置的英文停用词表（共127个词，如“the”, “is”, “and”），过滤掉这些高频但对主题区分贡献低的词汇。为了让验证可复现，文章提供了完整的Coursera课程数据集，包含379门课程。数据集结构清晰，每行是“课程名\t课程简介\t课程详情”，且已清除HTML标签。摘要中展示了加载数据和进行NLTK处理的初始步骤代码，体现了从数据准备到工具应用的完整实践流程。

标签：NLTK

如何计算两个文档的相似度（三）