IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:Language Model

共 1 篇相关文章

IT 累计浏览 4,980

漫话中文分词算法

这篇讲的是作者如何被中文分词这个“看似不可能完成的任务”所吸引。他最初在Google黑板报上看到一个巧妙算法时倍感震撼,而最近在詹卫东老师的《中文信息处理导论》课程中,才真正了解到分词研究的全貌远不止于此。 文章将视角拉长,不仅介绍了现代的统计语言模型方法,更回溯了在统计模型出现之前,研究者们是如何从纯语言学的角度对自动分词进行探索的。其间诞生的各种理论和思路,本身就是一个充满智慧与趣味的故事序列。 它揭示了一个技术点的演进脉络:从基于规则和知识的早期尝试,到后来数据驱动的统计建模。对于想理解中文自然语言处理发展轨迹的读者来说,这提供了一个生动而具体的入口。