我爱自然语言处理 -- IT技术博客大学习 -- 共学习共进步！

首页 / 我爱自然语言处理

IT 2022-06-19 18:18:07 / 累计浏览 5,040

文言文白话文互转：文言文转白话文（现代文），白话文（现代文）转文言文

这篇讲的是作者利用一个开源的文言文-现代文平行语料库，动手实践了双向互译模型的全过程。起点是东北大学团队整理的约96万句对经典古籍对齐数据，这份珍贵语料覆盖广且经过人工校对，为模型训练打下了基础。作者基于此，训练了文言文转白话文、白话文转文言文两个独立的神经网络机器翻译模型，并将它们集成到AINLP公众号，用户可通过指令直接测试。文中展示了几个转换示例，说明了模型已能完成基本互译，不过作者也坦诚效果基于现有数据和模型，“仅供一乐”。整体来看，这是一次从优质语料获取、模型训练到功能部署的完整技术实践，让古籍翻译的探索变得具体而可玩。

IT 2019-03-25 23:07:36 / 累计浏览 1,840

你是如何了解或者进入NLP这个领域的？

这篇讲的是AINLP公众号发起的一次赠书留言征集活动，却意外收获了超过200条关于“如何进入NLP领域”的真实分享。作者将这些充满个人色彩的故事做了汇总，为我们勾勒出一幅生动的NLPer入行图景。从留言中可以看到，许多人的起点充满了“偶然”：数学系的背景被导师安排做统计机器翻译，英语专业的学生因无法忍受纯人工内省而自学编程切入，甚至有心理学和文科背景的同学为了解决论文中的文本分析难题，独自摸索着走进了这个领域。另一个共性是强烈的自驱力——在缺乏系统指导的情况下，通过啃经典教材（如《统计自然语言处理》）、刷公开课、关注技术社区，从零搭建起知识体系。这些故事背后，是一个个具体的技术探索：从Lucene分词的好奇，到词性标注与概率统计的实践，再到BERT、知识图谱的前沿追踪。它们共同指向了NLP领域的迷人之处：它用数学和代码为语言赋予了可计算的维度，而通往这个大门的道路却向所有充满热情和毅力的人敞开。活动本身也通过赠书和互动，完成了一次社区内宝贵的连接与传承。

IT 2015-01-21 23:36:18 / 累计浏览 2,000

用MeCab打造一套实用的中文分词系统

这篇讲的是如何将原本为日文设计的高性能分词器 MeCab，成功改造为一个实用的中文分词系统。作者从 MeCab 基于条件随机场（CRF）的核心优势和中文资料匮乏的现状出发，分享了一次成功的“跨界”实践。文章的核心方案是，参考一篇关键的日文博客和官方文档的训练指南，结合微软研究院的 backoff2005 中文语料来完成训练。作者详细记录了从准备符合 MeCab 格式的种子词典（例如，词典条目为 `义演,0,0,0,0,0,0`）到利用脚本进行参数估计的完整流程。文中提到，最终得到的系统不仅速度快（实测近 2MB/s），还支持 N-best 输出和用户词典定制等实用功能。这篇文章的价值在于，它并非停留在理论介绍，而是提供了一条可操作的路径。通过作者在 Mac 环境下的亲测记录，读者可以了解如何利用一个强大的现有框架，为自己的中文 NLP 任务快速搭建起一个高性能的基础工具。

IT 2015-01-04 23:02:00 / 累计浏览 7,300

树莓派（Raspberry Pi）使用小记

这篇讲的是一位硬件门外汉从零开始折腾树莓派（Model B+）的实战记录。作者从淘宝采购全套配件讲起，详细分享了在Mac和Windows双系统下烧录Raspbian镜像时遇到的卡点（比如读卡器识别问题），并给出了具体的解决方案。文章的核心价值在于其“踩坑”后的经验提炼：作者强烈建议先组装好亚克力外壳再连接网线，以保证连接稳定；在配置无线网卡环节，他指出若执行常规的`ifup wlan0`命令无效，可以尝试用`sudo /etc/init.d/networking restart`重启网络服务，并附上了亲测有效的配置教程链接。整个流程从SSH首次登录（默认用户名pi/raspberry）、运行`raspi-config`扩展分区与修改密码，到最终实现无线网络连接，步骤清晰，提供了路由器后台查IP、终端命令操作等具体截图。对于想低成本上手Linux硬件开发的爱好者，这些从自身实践中总结的细节和排障思路，能有效缩短点亮树莓派的摸索过程。

IT 2013-09-07 15:27:39 / 累计浏览 2,740

正态分布的前世今生(五)

这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入，清晰地勾勒出正态分布在两大支柱学科中的奠基过程。文章首先追溯到1776年，拉普拉斯为解决天文学中的彗星轨道问题，开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生，为正态分布在概率论中的核心地位打下了理论基础，使其成为描述“随机之和”的通用模型。与此同时，在数理统计领域，高斯基于对天文观测误差的细致分析，大力提倡并推广正态分布，使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时，如何将正态分布（即高斯分布）作为分析工具。通过回顾这段历史，文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角，正是因为它同时被概率论的理论框架（中心极限定理）和数理统计的实践需求（误差分析）所双重赋能，从而奠定了其在科学与工程领域无处不在的坚实地位。

IT 2013-07-29 23:11:36 / 累计浏览 3,840

如何计算两个文档的相似度（三）

这篇讲的是《如何计算两个文档的相似度》系列文章的实战篇。作者从上一节的gensim基础用法出发，这一次要用“课程图谱”的真实课程数据，来实际验证和改进文档相似度计算的方法，并引入了NLTK这一专业的自然语言处理工具进行文本预处理。核心思路是利用NLTK解决真实英文文本中的“脏”问题。作者展示了，如果只是简单地将单词小写化，标点符号和单词会粘在一起，影响计算质量。因此，引入了NLTK的`word_tokenize`函数进行精细分词，将“texts.”这样的组合拆分为“texts”和“.”。更关键的一步是使用NLTK内置的英文停用词表（共127个词，如“the”, “is”, “and”），过滤掉这些高频但对主题区分贡献低的词汇。为了让验证可复现，文章提供了完整的Coursera课程数据集，包含379门课程。数据集结构清晰，每行是“课程名\t课程简介\t课程详情”，且已清除HTML标签。摘要中展示了加载数据和进行NLTK处理的初始步骤代码，体现了从数据准备到工具应用的完整实践流程。

IT 2013-05-28 22:24:03 / 累计浏览 5,140

如何计算两个文档的相似度（二）

这篇系列文章的第二部分聚焦于gensim的实战上手。作者从安装这个看似简单的步骤切入，详细记录了在Ubuntu和Mac OS上配置gensim及其依赖库NumPy、SciPy时遇到的典型问题——比如Mac上因缺失Fortran编译器导致的SciPy安装失败，并给出了解决方案（通过Homebrew安装gfortran），这对国内开发者很有参考价值。在核心的使用演示部分，文章没有照搬官方教程，而是另辟蹊径，使用了“Latent Semantic Indexing (LSI) A Fast Track Tutorial”中的三个简短英文文档作为案例。整个流程清晰展示了从文本预处理（小写化）、构建词袋字典、生成文档向量，到训练TF-IDF模型，最终通过LSI（潜在语义分析）将文档映射到二维主题空间的全过程。作者特别指出了gensim在计算IDF时未对出现频率为100%的词（如介词a, in, of）进行平滑处理导致其权重为零的现象，并以此反向论证了TF-IDF算法在过滤停用词上的有效性。通过这个从安装到模型输出的完整闭环，文章为读者提供了一份可复现的gensim入门实践指南，为后续在“课程图谱”上的应用打下了基础。

IT 2013-05-28 22:24:02 / 累计浏览 6,680

如何计算两个文档的相似度（一）

作者在构建“课程图谱”网站时，面临课程推荐系统冷启动的难题：缺乏用户行为数据，人工标注标签又耗时。一个可行的思路是直接利用课程文本内容计算相似度，而作者最终选择了基于主题模型的自动化方案。核心工具是强大的Python库gensim，文章以LSI（浅层语义索引）模型为例，展示了如何将两篇文档映射到主题维度，进而计算其语义相似度。作者用不到百行的代码便实现了这一流程，并给出了以Andrew Ng《机器学习》课为示例的推荐效果图。文章还规划了进一步优化：利用全量英文维基百科语料，在普通笔记本电脑上训练更复杂的LSI和LDA模型，以提升相似度计算效果。文章整体脉络清晰，分为三个部分：先简要铺垫TF-IDF、SVD等基础知识点并提供参考资料；再详解gensim的安装与具体实现；最后探讨在大规模语料上训练模型的应用。作者并非平铺直叙，而是从实际项目需求出发，分享了从选型到落地的完整思考与实践。

IT 2012-12-21 13:27:43 / 累计浏览 7,020

概率语言模型及其变形系列-LDA及Gibbs Sampling

这篇讲的是概率语言模型系列的第二篇，聚焦于LDA（Latent Dirichlet Allocation）及其参数推断方法Gibbs Sampling。文章从LDA的核心思想切入：如何通过无监督学习，从文本中发现隐含的“主题”结构，从而解决“一词多义”和“一义多词”的语义匹配问题，让搜索结果在语义层面真正相关。理解LDA的关键在于其概率基础。文章深入剖析了“随机生成过程”视角，解释了文本如何被看作词项的样本集合。重点阐述了多项分布（Multinomial）与其共轭先验狄利克雷分布（Dirichlet）的特性与计算优势——后者被称为“分布之上的分布”，其样本恰好是多项分布的参数。这些数学工具共同构成了LDA模型的基石。作为PLSA到变形LDA之间的承上启下之作，文章不仅厘清了基础概念，也为后续探讨Twitter LDA、Labeled-LDA等各类变形模型铺平了道路。对于想从理论层面掌握主题模型的读者，这篇系统性的推导提供了扎实的起点。

IT 2012-12-21 13:27:09 / 累计浏览 5,180

概率语言模型及其变形系列-PLSA及EM算法

这篇从LSA（隐性语义分析）的SVD方法入手，分析了其处理一词多义和一义多词问题时的不足——通过低秩逼近虽然能降维去噪，但缺乏严谨的统计基础且计算耗时。由此自然引入Hofmann提出的PLSA模型。 PLSA采用概率图模型重新表述文档生成过程：先以一定概率选中文档，再从中抽取主题，最后根据主题生成单词。文档和主题都被建模为多项分布，而EM算法则负责估计这些隐含参数。文章不仅推导了PLSA的数学框架，还通过简单的混合Unigram模型与高斯混合模型（GMM）类比，帮助理解EM算法“期望步-最大化步”的迭代精髓。整个系列其实计划覆盖从PLSA、LDA到各类变形模型（如Twitter LDA、Labeled-LDA等）的演进脉络，这篇作为开篇，扎实地奠定了概率主题模型的基础认知。

IT 2012-11-11 23:58:30 / 累计浏览 3,760

正态分布的前世今生(四)

这篇讲的是正态分布为何能在数学中占据如此核心的地位。作者没有从复杂的公式入手，而是追溯其源头，揭示出一个优美的现象：从一些简单明了的初始准则出发，数学家与物理学家们竟屡屡被引领到正态分布的门前。文章重点介绍了高斯在1809年的一条经典推导路径：他以“误差分布导出的极大似然估计等于算术平均值”为核心准则，从一个看似合理的测量原理出发，推导出了正态分布的概率密度函数。这仅仅是四条著名“小径”中的第一条，物理学家Jaynes在其著作中总结了四条通往正态分布的不同路径。文章穿插了高尔顿对正态分布的诗意赞美，以及数学家将其视为“概率论初恋情人”的生动比喻，将冰冷的数学定理赋予了温度与美感。它想告诉我们，正态分布之所以无处不在，或许正是因为它背后蕴含的多种深刻而简洁的原理，如同“条条曲径通正态”。阅读它，就像跟随历史上的智者，一起欣赏通往真理的“条条曲径”。

IT 2012-10-22 22:11:45 / 累计浏览 3,100

正态分布的前世今生(三)

这篇讲的是正态分布理论演进中一个关键的数学细节。作者从正态分布概率密度函数的复杂形式入手，展示了如何通过一个精巧的数学变换——将求和与指数运算结合——来逐步揭示其背后的简洁规律。文章聚焦于这个推导过程中的一处核心步骤，即如何处理一个形如∑e^{i²}的离散求和项，并将其与连续的积分形式联系起来。文中具体呈现了从离散近似到连续极限的过渡思路，解释了为什么在特定条件下，这种复杂的求和可以近似为高斯积分，从而推导出正态分布的归一化系数。这不仅仅是公式罗列，更展示了数学分析中“化离散为连续”这一思想的具体应用。通过拆解这个看似繁琐的推导环节，文章让读者体会到，正态分布那条优美的钟形曲线背后，是严密而巧妙的数学构造。对于想理解正态分布“为何长成这样”的读者来说，这一部分提供了非常扎实的中间视角。

IT 2012-10-22 21:57:05 / 累计浏览 3,420

正态分布的前世今生(二)

这篇文章深入讲解了最小二乘法的核心思想与历史地位。作者从一个经典问题出发：如何为一堆散乱的观测数据找到最吻合的数学规律？最小二乘法给出的方案简洁而优雅——寻找一条曲线，使得所有数据点到该曲线的垂直距离（残差）的平方和最小。文章揭示了最小二乘法之所以被称为“数据分析的瑞士军刀”，不仅因其简单有效，更因为它与正态分布有着深刻的“前世今生”关联。历史上，正是高斯在运用最小二乘法处理天文观测数据时，为了解释其有效性而反向推导出了正态分布的形态。这意味着，当我们用最小二乘法拟合数据时，其实隐含了一个假设：数据的误差服从正态分布。因此，最小二乘法远不止一个拟合工具，它成为了连接观测数据与概率理论的桥梁。无论是在早期的天体力学计算，还是现代的机器学习与回归分析中，这个诞生于19世纪的方法依然是处理线性模型问题最基础、最通用的“钥匙”。这是《正态分布的前世今生》系列第二篇的精彩开篇。

IT 2012-10-14 23:37:04 / 累计浏览 5,260

正态分布的前世今生(一)

这篇讲的是那个“无所不在的钟形曲线”——正态分布，作者从一个颇具文学色彩的“神说要有正态分布”开篇，巧妙引出这个统计学核心概念。文章首先扎实地回顾了正态分布的概率密度函数及其数学形式，随后将视角拉向历史深处。它指出，这个分布并非凭空诞生，其核心的“误差分布原理”在18世纪就已被棣莫弗发现，但真正将其系统化并应用于天文学测量、解决实际误差问题的是高斯。高斯的推导过程，本质上是将观测误差视为大量微小、独立随机因素的综合结果。作者也并未回避历史上的争议，提到了拉普拉斯同样重要的贡献，以及柯西分布等“反例”的存在，说明正态分布虽是理想模型，但并非万能。整个叙述将抽象的数学公式与具体的历史情境、科学家的思考过程交织在一起，清晰地勾勒出正态分布从“发现”到“应用”的演进逻辑，让读者理解它为何如此重要，又诞生于何种现实需求。