利用新词统计特征进行中文分词
目前中文分词的一般做法是将分词当作序列标注问题来处理,这种做法首先标注好一批训练语料,然后用统计模型进行训练和标注。常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(MEM)以及条件随机场模型(CRF)。因为CRF比HMM和MEM有更弱的上下文无关假设,所以CRF一般能取得更好的分词结果。
在使用统计模型进行训练时,一个关键的步骤是选择特征,这些特征主要是上下文特征,例如针对当前字的前一个字是什么、后一个字是什么等。基于上下文特征训练得到的统计模型有一个明显的弱点,也是当前分词面临的最主要问题,那就是训练好的模型难以适应新的领域。例如用金融领域的模型对体育领域的文本进行分词时,准确率会相对较大幅度地降低。造成这一现象的关键原因是原模型不能有效识别新领域中出现的大量新词(即未登录词,out-of-vocabulary)。
考虑到任何领域的新词都有一定的统计表现特征,例如出现频率高,搭配稳定等。我们尝试了将这些统计表现特征加入上下文特征进行训练,我们在backoff2005提供的语料进行了简单的对比测试,测试结果表明新加入的特征提高了分词系统对新领域的适应能力。在测试结果中,CRF表示使用上下文特征的模型,FCRF表示加入新词统计特征的模型,F-score是综合考虑分词准确率和召回率得到的一个分值,Roov表示未登录词的召回率。
数据集
来源 训练集(行) 测试集(行) 简/繁体 PKU(北京大学) 19056 1945 简 CITYU(香港城市大学) 53019 1493 繁 MSR(微软研究院) 86924 3985 简 AS(台湾中央研究院) 708953 14431 繁
测试1:训练文本和测试文本属于同一领域时
分别用PKU和CITYU提供的训练集上进行训练,然后对相应的测试集进行测试:
训练集 测试集 F-score Roov CRF PKU-train PKU-test 0.938 0.695 FCRF PKU-train PKU-test 0.941 0.730 CRF CITYU-train CITYU-test 0.945 0.778 FCRF CITYU-train CITYU-test 0.951 0.798
结论:当训练和测试属于同一领域时,FCRF 和 CRF 表现相差不大。
测试2:训练文本和测试文本属于不同领域
用简体的PKU训练集进行训练,对繁体的AS测试集进行测试;用繁体的CITYU进行训练,对简体的MSR进行测试:
训练集 测试集 F-score Roov CRF PKU-train As-test 0.762 0.627 FCRF PKU-train As-test 0.859 0.812 CRF CITYU-train Msr-test 0.753 0.630 FCRF CITYU-train Msr-test 0.809 0.744
结论:当训练和测试属于不同领域时,FCRF 比 CRF 效果有较大提升。
其它测试
对《金庸小说全集》进行适应后,和其它一些有名的分词工具做分词结果比较。
FCRF
郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹莹 , 心 下 大 是 奇怪 , 不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出 口 。 却 听 得 杨过 朗声 说道 : “ 今番 良晤 , 豪兴 不 浅 , 他 日 江湖 相逢 , 再 当 杯酒 言欢 。 咱们 就此 别 过 。 ” 说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再 也 忍耐 不 住 , 泪珠 夺眶而出 。
郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹 莹 , 心下 大 是 奇怪 , 不知 她 为 甚 么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 却 听 得 杨 过 朗声 说道 : “ 今番 良 晤 , 豪兴 不 浅 , 他日 江湖 相逢 , 再 当 杯酒言欢 。 咱们 就此 别 过 。 ” 说 着 袍 袖 一 拂 , 携 着 小龙 女 之 手 , 与 神 雕 并肩 下山 。 其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再也 忍耐 不住 , 泪珠 夺眶而出 。
郭襄回头 过来 ,见 张君宝头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出手 帕, 替 他 包扎 。 张君宝 好生 感激, 欲待 出言 道谢, 却 见 郭襄 眼中 泪光 莹莹 ,心 下 大 是 奇怪 , 不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 却 听 得 杨过 朗声 说道 : “ 今番 良晤 ,豪兴 不 浅, 他 日 江湖 相逢 , 再 当 杯 酒言 欢 。 咱们 就 此 别 过 。 ” 说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 其时 明月 在 天, 清风 吹 叶, 树 巅 乌鸦 呀 啊 而 鸣, 郭襄 再 也 忍耐 不 住 ,泪 珠 夺眶而出 。
为了适应新领域的文本,FCRF在分词前需要对新领域文本进行频率信息统计,这会稍微降低分词的速度。
建议继续学习:
- 一个简单的中文分词程序 (阅读:4539)
- 漫话中文分词算法 (阅读:3989)
- 漫话中文自动分词和语义识别(下):句法结构和语义结构 (阅读:3448)
- 腾讯php程序员面试题目答案――编程任务 (阅读:3232)
- 基于trie数据字典的php中文分词 (阅读:3034)
- Levenshtein distance相似度算法 (阅读:3127)
- 排头兵PHP中文分词,纯PHP版实现 (阅读:2700)
- Mysql+sphinx+中文分词简介(ubuntu) (阅读:2340)
- Mysql+sphinx+中文分词简介(ubuntu) (阅读:1959)
- 用MeCab打造一套实用的中文分词系统 (阅读:1260)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:向根 来源: UC技术博客
- 标签: 分词
- 发布时间:2013-07-26 13:41:13
- [46] 界面设计速成
- [43] Oracle MTS模式下 进程地址与会话信
- [42] IOS安全–浅谈关于IOS加固的几种方法
- [42] 视觉调整-设计师 vs. 逻辑
- [41] android 开发入门
- [40] 图书馆的世界纪录
- [39] 【社会化设计】自我(self)部分――欢迎区
- [39] 如何拿下简短的域名
- [37] 程序员技术练级攻略
- [35] 读书笔记-壹百度:百度十年千倍的29条法则