标签：Chinese Word Segmentation

共 2 篇相关文章

IT 累计浏览 4,447

漫话中文自动分词和语义识别（下）：句法结构和语义结构

这篇讲的是自然语言处理中，计算机如何超越基础分词，进一步理解句子结构与含义。文章作为上篇“中文自动分词”的延续，核心问题是：当机器完成分词后，能否像人一样分析句子的句法主干，并最终触及语义层面的识别？作者从中文处理的具体挑战出发，将抽象的语言学概念与计算机处理逻辑相结合。重点解析了句法结构分析（比如如何确定主谓宾）如何为理解语义打下基础，以及在这个过程中遇到的关键难点。文章将技术演讲中的内容系统化，用连贯的脉络展现了从“识别词语”到“理解意思”这一自然语言处理进阶路径中的核心思考。对于关注AI如何理解中文的读者，这篇文章清晰地勾勒出了技术实现的层次感，把“机器理解语言”这个宏大目标拆解成了可探讨的具体步骤。

IT 累计浏览 4,980

漫话中文分词算法

这篇讲的是作者如何被中文分词这个“看似不可能完成的任务”所吸引。他最初在Google黑板报上看到一个巧妙算法时倍感震撼，而最近在詹卫东老师的《中文信息处理导论》课程中，才真正了解到分词研究的全貌远不止于此。文章将视角拉长，不仅介绍了现代的统计语言模型方法，更回溯了在统计模型出现之前，研究者们是如何从纯语言学的角度对自动分词进行探索的。其间诞生的各种理论和思路，本身就是一个充满智慧与趣味的故事序列。它揭示了一个技术点的演进脉络：从基于规则和知识的早期尝试，到后来数据驱动的统计建模。对于想理解中文自然语言处理发展轨迹的读者来说，这提供了一个生动而具体的入口。