IT技术博客大学习 共学习 共进步
首页 / 我爱自然语言处理
IT 2022-06-19 18:18:07 / 累计浏览 5,040

文言文白话文互转:文言文转白话文(现代文),白话文(现代文)转文言文

这篇讲的是作者利用一个开源的文言文-现代文平行语料库,动手实践了双向互译模型的全过程。起点是东北大学团队整理的约96万句对经典古籍对齐数据,这份珍贵语料覆盖广且经过人工校对,为模型训练打下了基础。作者基于此,训练了文言文转白话文、白话文转文言文两个独立的神经网络机器翻译模型,并将它们集成到AINLP公众号,用户可通过指令直接测试。文中展示了几个转换示例,说明了模型已能完成基本互译,不过作者也坦诚效果基于现有数据和模型,“仅供一乐”。整体来看,这是一次从优质语料获取、模型训练到功能部署的完整技术实践,让古籍翻译的探索变得具体而可玩。

IT 2019-03-25 23:07:36 / 累计浏览 1,840

你是如何了解或者进入NLP这个领域的?

这篇讲的是AINLP公众号发起的一次赠书留言征集活动,却意外收获了超过200条关于“如何进入NLP领域”的真实分享。作者将这些充满个人色彩的故事做了汇总,为我们勾勒出一幅生动的NLPer入行图景。 从留言中可以看到,许多人的起点充满了“偶然”:数学系的背景被导师安排做统计机器翻译,英语专业的学生因无法忍受纯人工内省而自学编程切入,甚至有心理学和文科背景的同学为了解决论文中的文本分析难题,独自摸索着走进了这个领域。另一个共性是强烈的自驱力——在缺乏系统指导的情况下,通过啃经典教材(如《统计自然语言处理》)、刷公开课、关注技术社区,从零搭建起知识体系。 这些故事背后,是一个个具体的技术探索:从Lucene分词的好奇,到词性标注与概率统计的实践,再到BERT、知识图谱的前沿追踪。它们共同指向了NLP领域的迷人之处:它用数学和代码为语言赋予了可计算的维度,而通往这个大门的道路却向所有充满热情和毅力的人敞开。活动本身也通过赠书和互动,完成了一次社区内宝贵的连接与传承。

IT 2015-01-21 23:36:18 / 累计浏览 2,000

用MeCab打造一套实用的中文分词系统

这篇讲的是如何将原本为日文设计的高性能分词器 MeCab,成功改造为一个实用的中文分词系统。作者从 MeCab 基于条件随机场(CRF)的核心优势和中文资料匮乏的现状出发,分享了一次成功的“跨界”实践。 文章的核心方案是,参考一篇关键的日文博客和官方文档的训练指南,结合微软研究院的 backoff2005 中文语料来完成训练。作者详细记录了从准备符合 MeCab 格式的种子词典(例如,词典条目为 `义演,0,0,0,0,0,0`)到利用脚本进行参数估计的完整流程。文中提到,最终得到的系统不仅速度快(实测近 2MB/s),还支持 N-best 输出和用户词典定制等实用功能。 这篇文章的价值在于,它并非停留在理论介绍,而是提供了一条可操作的路径。通过作者在 Mac 环境下的亲测记录,读者可以了解如何利用一个强大的现有框架,为自己的中文 NLP 任务快速搭建起一个高性能的基础工具。

IT 2015-01-04 23:02:00 / 累计浏览 7,300

树莓派(Raspberry Pi)使用小记

这篇讲的是一位硬件门外汉从零开始折腾树莓派(Model B+)的实战记录。作者从淘宝采购全套配件讲起,详细分享了在Mac和Windows双系统下烧录Raspbian镜像时遇到的卡点(比如读卡器识别问题),并给出了具体的解决方案。 文章的核心价值在于其“踩坑”后的经验提炼:作者强烈建议先组装好亚克力外壳再连接网线,以保证连接稳定;在配置无线网卡环节,他指出若执行常规的`ifup wlan0`命令无效,可以尝试用`sudo /etc/init.d/networking restart`重启网络服务,并附上了亲测有效的配置教程链接。 整个流程从SSH首次登录(默认用户名pi/raspberry)、运行`raspi-config`扩展分区与修改密码,到最终实现无线网络连接,步骤清晰,提供了路由器后台查IP、终端命令操作等具体截图。对于想低成本上手Linux硬件开发的爱好者,这些从自身实践中总结的细节和排障思路,能有效缩短点亮树莓派的摸索过程。

IT 2013-09-07 15:27:39 / 累计浏览 2,740

正态分布的前世今生(五)

这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入,清晰地勾勒出正态分布在两大支柱学科中的奠基过程。 文章首先追溯到1776年,拉普拉斯为解决天文学中的彗星轨道问题,开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生,为正态分布在概率论中的核心地位打下了理论基础,使其成为描述“随机之和”的通用模型。 与此同时,在数理统计领域,高斯基于对天文观测误差的细致分析,大力提倡并推广正态分布,使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时,如何将正态分布(即高斯分布)作为分析工具。 通过回顾这段历史,文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角,正是因为它同时被概率论的理论框架(中心极限定理)和数理统计的实践需求(误差分析)所双重赋能,从而奠定了其在科学与工程领域无处不在的坚实地位。

IT 2013-07-29 23:11:36 / 累计浏览 3,840

如何计算两个文档的相似度(三)

这篇讲的是《如何计算两个文档的相似度》系列文章的实战篇。作者从上一节的gensim基础用法出发,这一次要用“课程图谱”的真实课程数据,来实际验证和改进文档相似度计算的方法,并引入了NLTK这一专业的自然语言处理工具进行文本预处理。 核心思路是利用NLTK解决真实英文文本中的“脏”问题。作者展示了,如果只是简单地将单词小写化,标点符号和单词会粘在一起,影响计算质量。因此,引入了NLTK的`word_tokenize`函数进行精细分词,将“texts.”这样的组合拆分为“texts”和“.”。更关键的一步是使用NLTK内置的英文停用词表(共127个词,如“the”, “is”, “and”),过滤掉这些高频但对主题区分贡献低的词汇。 为了让验证可复现,文章提供了完整的Coursera课程数据集,包含379门课程。数据集结构清晰,每行是“课程名\t课程简介\t课程详情”,且已清除HTML标签。摘要中展示了加载数据和进行NLTK处理的初始步骤代码,体现了从数据准备到工具应用的完整实践流程。

IT 2013-05-28 22:24:03 / 累计浏览 5,140

如何计算两个文档的相似度(二)

这篇系列文章的第二部分聚焦于gensim的实战上手。作者从安装这个看似简单的步骤切入,详细记录了在Ubuntu和Mac OS上配置gensim及其依赖库NumPy、SciPy时遇到的典型问题——比如Mac上因缺失Fortran编译器导致的SciPy安装失败,并给出了解决方案(通过Homebrew安装gfortran),这对国内开发者很有参考价值。 在核心的使用演示部分,文章没有照搬官方教程,而是另辟蹊径,使用了“Latent Semantic Indexing (LSI) A Fast Track Tutorial”中的三个简短英文文档作为案例。整个流程清晰展示了从文本预处理(小写化)、构建词袋字典、生成文档向量,到训练TF-IDF模型,最终通过LSI(潜在语义分析)将文档映射到二维主题空间的全过程。作者特别指出了gensim在计算IDF时未对出现频率为100%的词(如介词a, in, of)进行平滑处理导致其权重为零的现象,并以此反向论证了TF-IDF算法在过滤停用词上的有效性。 通过这个从安装到模型输出的完整闭环,文章为读者提供了一份可复现的gensim入门实践指南,为后续在“课程图谱”上的应用打下了基础。

IT 2013-05-28 22:24:02 / 累计浏览 6,680

如何计算两个文档的相似度(一)

作者在构建“课程图谱”网站时,面临课程推荐系统冷启动的难题:缺乏用户行为数据,人工标注标签又耗时。一个可行的思路是直接利用课程文本内容计算相似度,而作者最终选择了基于主题模型的自动化方案。 核心工具是强大的Python库gensim,文章以LSI(浅层语义索引)模型为例,展示了如何将两篇文档映射到主题维度,进而计算其语义相似度。作者用不到百行的代码便实现了这一流程,并给出了以Andrew Ng《机器学习》课为示例的推荐效果图。文章还规划了进一步优化:利用全量英文维基百科语料,在普通笔记本电脑上训练更复杂的LSI和LDA模型,以提升相似度计算效果。 文章整体脉络清晰,分为三个部分:先简要铺垫TF-IDF、SVD等基础知识点并提供参考资料;再详解gensim的安装与具体实现;最后探讨在大规模语料上训练模型的应用。作者并非平铺直叙,而是从实际项目需求出发,分享了从选型到落地的完整思考与实践。

IT 2012-12-21 13:27:43 / 累计浏览 7,020

概率语言模型及其变形系列-LDA及Gibbs Sampling

这篇讲的是概率语言模型系列的第二篇,聚焦于LDA(Latent Dirichlet Allocation)及其参数推断方法Gibbs Sampling。文章从LDA的核心思想切入:如何通过无监督学习,从文本中发现隐含的“主题”结构,从而解决“一词多义”和“一义多词”的语义匹配问题,让搜索结果在语义层面真正相关。 理解LDA的关键在于其概率基础。文章深入剖析了“随机生成过程”视角,解释了文本如何被看作词项的样本集合。重点阐述了多项分布(Multinomial)与其共轭先验狄利克雷分布(Dirichlet)的特性与计算优势——后者被称为“分布之上的分布”,其样本恰好是多项分布的参数。这些数学工具共同构成了LDA模型的基石。 作为PLSA到变形LDA之间的承上启下之作,文章不仅厘清了基础概念,也为后续探讨Twitter LDA、Labeled-LDA等各类变形模型铺平了道路。对于想从理论层面掌握主题模型的读者,这篇系统性的推导提供了扎实的起点。

IT 2012-12-21 13:27:09 / 累计浏览 5,180

概率语言模型及其变形系列-PLSA及EM算法

这篇从LSA(隐性语义分析)的SVD方法入手,分析了其处理一词多义和一义多词问题时的不足——通过低秩逼近虽然能降维去噪,但缺乏严谨的统计基础且计算耗时。由此自然引入Hofmann提出的PLSA模型。 PLSA采用概率图模型重新表述文档生成过程:先以一定概率选中文档,再从中抽取主题,最后根据主题生成单词。文档和主题都被建模为多项分布,而EM算法则负责估计这些隐含参数。文章不仅推导了PLSA的数学框架,还通过简单的混合Unigram模型与高斯混合模型(GMM)类比,帮助理解EM算法“期望步-最大化步”的迭代精髓。 整个系列其实计划覆盖从PLSA、LDA到各类变形模型(如Twitter LDA、Labeled-LDA等)的演进脉络,这篇作为开篇,扎实地奠定了概率主题模型的基础认知。

IT 2012-11-11 23:58:30 / 累计浏览 3,760

正态分布的前世今生(四)

这篇讲的是正态分布为何能在数学中占据如此核心的地位。作者没有从复杂的公式入手,而是追溯其源头,揭示出一个优美的现象:从一些简单明了的初始准则出发,数学家与物理学家们竟屡屡被引领到正态分布的门前。 文章重点介绍了高斯在1809年的一条经典推导路径:他以“误差分布导出的极大似然估计等于算术平均值”为核心准则,从一个看似合理的测量原理出发,推导出了正态分布的概率密度函数。这仅仅是四条著名“小径”中的第一条,物理学家Jaynes在其著作中总结了四条通往正态分布的不同路径。 文章穿插了高尔顿对正态分布的诗意赞美,以及数学家将其视为“概率论初恋情人”的生动比喻,将冰冷的数学定理赋予了温度与美感。它想告诉我们,正态分布之所以无处不在,或许正是因为它背后蕴含的多种深刻而简洁的原理,如同“条条曲径通正态”。阅读它,就像跟随历史上的智者,一起欣赏通往真理的“条条曲径”。

IT 2012-10-22 22:11:45 / 累计浏览 3,100

正态分布的前世今生(三)

这篇讲的是正态分布理论演进中一个关键的数学细节。作者从正态分布概率密度函数的复杂形式入手,展示了如何通过一个精巧的数学变换——将求和与指数运算结合——来逐步揭示其背后的简洁规律。文章聚焦于这个推导过程中的一处核心步骤,即如何处理一个形如∑e^{i²}的离散求和项,并将其与连续的积分形式联系起来。 文中具体呈现了从离散近似到连续极限的过渡思路,解释了为什么在特定条件下,这种复杂的求和可以近似为高斯积分,从而推导出正态分布的归一化系数。这不仅仅是公式罗列,更展示了数学分析中“化离散为连续”这一思想的具体应用。 通过拆解这个看似繁琐的推导环节,文章让读者体会到,正态分布那条优美的钟形曲线背后,是严密而巧妙的数学构造。对于想理解正态分布“为何长成这样”的读者来说,这一部分提供了非常扎实的中间视角。

IT 2012-10-22 21:57:05 / 累计浏览 3,420

正态分布的前世今生(二)

这篇文章深入讲解了最小二乘法的核心思想与历史地位。作者从一个经典问题出发:如何为一堆散乱的观测数据找到最吻合的数学规律?最小二乘法给出的方案简洁而优雅——寻找一条曲线,使得所有数据点到该曲线的垂直距离(残差)的平方和最小。 文章揭示了最小二乘法之所以被称为“数据分析的瑞士军刀”,不仅因其简单有效,更因为它与正态分布有着深刻的“前世今生”关联。历史上,正是高斯在运用最小二乘法处理天文观测数据时,为了解释其有效性而反向推导出了正态分布的形态。这意味着,当我们用最小二乘法拟合数据时,其实隐含了一个假设:数据的误差服从正态分布。 因此,最小二乘法远不止一个拟合工具,它成为了连接观测数据与概率理论的桥梁。无论是在早期的天体力学计算,还是现代的机器学习与回归分析中,这个诞生于19世纪的方法依然是处理线性模型问题最基础、最通用的“钥匙”。这是《正态分布的前世今生》系列第二篇的精彩开篇。

IT 2012-10-14 23:37:04 / 累计浏览 5,260

正态分布的前世今生(一)

这篇讲的是那个“无所不在的钟形曲线”——正态分布,作者从一个颇具文学色彩的“神说要有正态分布”开篇,巧妙引出这个统计学核心概念。 文章首先扎实地回顾了正态分布的概率密度函数及其数学形式,随后将视角拉向历史深处。它指出,这个分布并非凭空诞生,其核心的“误差分布原理”在18世纪就已被棣莫弗发现,但真正将其系统化并应用于天文学测量、解决实际误差问题的是高斯。高斯的推导过程,本质上是将观测误差视为大量微小、独立随机因素的综合结果。 作者也并未回避历史上的争议,提到了拉普拉斯同样重要的贡献,以及柯西分布等“反例”的存在,说明正态分布虽是理想模型,但并非万能。整个叙述将抽象的数学公式与具体的历史情境、科学家的思考过程交织在一起,清晰地勾勒出正态分布从“发现”到“应用”的演进逻辑,让读者理解它为何如此重要,又诞生于何种现实需求。