首页 / AI

利用新词统计特征进行中文分词

UC技术博客 2013-07-26 13:41:13 累计浏览 2,847 次

本机暂存

内容概览

这篇讲的是如何改进中文分词模型以更好地适应新领域。作者指出，传统基于条件随机场（CRF）的分词模型主要依赖上下文特征，在面对训练数据未覆盖的新词（如跨领域的专业术语）时，分词准确率会明显下降。

为解决这个问题，作者在特征中引入了新词的统计表现特征，比如词频高、搭配稳定等，提出了增强的FCRF模型。在《SIGHAN Bakeoff 2005》语料上的测试表明：当训练和测试文本属于同一领域时，FCRF与传统CRF效果相当；但当跨领域测试时（例如用金融领域模型分词体育文本），FCRF的优势就凸显出来了，其F-score和未登录词召回率（Roov）均有大幅提升，证明新特征有效增强了模型的领域适应性。

文章还对比了FCRF与其他分词工具在金庸小说上的表现，并说明FCRF需要预先统计新领域的词频信息，这会略微牺牲分词速度，但换来了更好的新领域适应能力。

目前中文分词的一般做法是将分词当作序列标注问题来处理，这种做法首先标注好一批训练语料，然后用统计模型进行训练和标注。常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(MEM)以及条件随机场模型(CRF)。因为CRF比HMM和MEM有更弱的上下文无关假设，所以CRF一般能取得更好的分词结果。

在使用统计模型进行训练时，一个关键的步骤是选择特征，这些特征主要是上下文特征，例如针对当前字的前一个字是什么、后一个字是什么等。基于上下文特征训练得到的统计模型有一个明显的弱点，也是当前分词面临的最主要问题，那就是训练好的模型难以适应新的领域。例如用金融领域的模型对体育领域的文本进行分词时，准确率会相对较大幅度地降低。造成这一现象的关键原因是原模型不能有效识别新领域中出现的大量新词(即未登录词，out-of-vocabulary)。

考虑到任何领域的新词都有一定的统计表现特征，例如出现频率高，搭配稳定等。我们尝试了将这些统计表现特征加入上下文特征进行训练，我们在backoff2005提供的语料进行了简单的对比测试，测试结果表明新加入的特征提高了分词系统对新领域的适应能力。在测试结果中，CRF表示使用上下文特征的模型，FCRF表示加入新词统计特征的模型，F-score是综合考虑分词准确率和召回率得到的一个分值，Roov表示未登录词的召回率。

数据集

来源                  训练集(行)      测试集(行)      简/繁体
PKU(北京大学)        19056           1945             简
CITYU(香港城市大学)   53019           1493             繁
MSR(微软研究院)       86924           3985             简
AS(台湾中央研究院)    708953          14431            繁

测试1：训练文本和测试文本属于同一领域时

分别用PKU和CITYU提供的训练集上进行训练，然后对相应的测试集进行测试：

训练集             测试集         F-score Roov
CRF     PKU-train       PKU-test        0.938   0.695
FCRF    PKU-train       PKU-test        0.941   0.730
CRF     CITYU-train     CITYU-test      0.945   0.778
FCRF    CITYU-train     CITYU-test      0.951   0.798

结论：当训练和测试属于同一领域时，FCRF 和 CRF 表现相差不大。

测试2：训练文本和测试文本属于不同领域

用简体的PKU训练集进行训练，对繁体的AS测试集进行测试；用繁体的CITYU进行训练，对简体的MSR进行测试：

训练集             测试集         F-score Roov
CRF     PKU-train       As-test         0.762   0.627
FCRF    PKU-train       As-test         0.859   0.812
CRF     CITYU-train     Msr-test        0.753   0.630
FCRF    CITYU-train     Msr-test        0.809   0.744

结论：当训练和测试属于不同领域时，FCRF 比 CRF 效果有较大提升。

其它测试

对《金庸小说全集》进行适应后，和其它一些有名的分词工具做分词结果比较。

FCRF

郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 
张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹莹 , 心 下 大 是 奇怪 , 
不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出 口 。   
却 听 得 杨过 朗声 说道 : “ 今番 良晤 , 豪兴 不 浅 , 他 日 江湖 相逢 , 再 当 杯酒 言欢 。 咱们 就此 别 过 。 ” 
说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。   
其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再 也 忍耐 不 住 , 泪珠 夺眶而出 。

海量分词

郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 
张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹 莹 , 心下 大 是 奇怪 , 
不知 她 为 甚 么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。   
却 听 得 杨 过 朗声 说道 : “ 今番 良 晤 , 豪兴 不 浅 , 他日 江湖 相逢 , 再 当 杯酒言欢 。 咱们 就此 别 过 。 ” 
说 着 袍 袖 一 拂 , 携 着 小龙 女 之 手 , 与 神 雕 并肩 下山 。   
其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再也 忍耐 不住 , 泪珠 夺眶而出 。

哈工大IR-LTP

郭襄回头 过来 ,见 张君宝头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出手 帕, 替 他 包扎 。 
张君宝 好生 感激, 欲待 出言 道谢, 却 见 郭襄 眼中 泪光 莹莹 ,心 下 大 是 奇怪 , 
不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 
却 听 得 杨过 朗声 说道 : “ 今番 良晤 ,豪兴 不 浅, 他 日 江湖 相逢 , 再 当 杯 酒言 欢 。 咱们 就 此 别 过 。 ” 
说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 
其时 明月 在 天, 清风 吹 叶, 树 巅 乌鸦 呀 啊 而 鸣, 郭襄 再 也 忍耐 不 住 ,泪 珠 夺眶而出 。

为了适应新领域的文本，FCRF在分词前需要对新领域文本进行频率信息统计，这会稍微降低分词的速度。

同分类推荐文章

从”内容治理”到”行为治理”：中国智能体治理框架深度解析与绿盟科技实践（2026-06-23 21:49:28）
美团海报生成 AIGC 技术创新与实践（2026-06-22 15:34:28）
AI Coding Agent 时代，我自己最常用的 4 个终端工具（2026-06-22 08:00:00）

查看更多 AI 文章 →

建议继续学习

基于trie数据字典的php中文分词（累计阅读 3,911）
排头兵PHP中文分词,纯PHP版实现（累计阅读 3,785）
Mysql+sphinx+中文分词简介(ubuntu) （累计阅读 2,911）
Mysql+sphinx+中文分词简介(ubuntu) （累计阅读 2,815）
利用HTK工具包快速建立一个语音命令识别系统（累计阅读 2,788）
用MeCab打造一套实用的中文分词系统（累计阅读 2,051）