技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 算法 --> 利用新词统计特征进行中文分词

利用新词统计特征进行中文分词

浏览:1614次  出处信息

目前中文分词的一般做法是将分词当作序列标注问题来处理,这种做法首先标注好一批训练语料,然后用统计模型进行训练和标注。常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(MEM)以及条件随机场模型(CRF)。因为CRF比HMM和MEM有更弱的上下文无关假设,所以CRF一般能取得更好的分词结果。

在使用统计模型进行训练时,一个关键的步骤是选择特征,这些特征主要是上下文特征,例如针对当前字的前一个字是什么、后一个字是什么等。基于上下文特征训练得到的统计模型有一个明显的弱点,也是当前分词面临的最主要问题,那就是训练好的模型难以适应新的领域。例如用金融领域的模型对体育领域的文本进行分词时,准确率会相对较大幅度地降低。造成这一现象的关键原因是原模型不能有效识别新领域中出现的大量新词(即未登录词,out-of-vocabulary)。

考虑到任何领域的新词都有一定的统计表现特征,例如出现频率高,搭配稳定等。我们尝试了将这些统计表现特征加入上下文特征进行训练,我们在backoff2005提供的语料进行了简单的对比测试,测试结果表明新加入的特征提高了分词系统对新领域的适应能力。在测试结果中,CRF表示使用上下文特征的模型,FCRF表示加入新词统计特征的模型,F-score是综合考虑分词准确率和召回率得到的一个分值,Roov表示未登录词的召回率。

数据集

   

来源                  训练集(行)      测试集(行)      简/繁体
PKU(北京大学)        19056           1945             简
CITYU(香港城市大学)   53019           1493             繁
MSR(微软研究院)       86924           3985             简
AS(台湾中央研究院)    708953          14431            繁

测试1:训练文本和测试文本属于同一领域时

   

分别用PKU和CITYU提供的训练集上进行训练,然后对相应的测试集进行测试:

训练集             测试集         F-score Roov
CRF     PKU-train       PKU-test        0.938   0.695
FCRF    PKU-train       PKU-test        0.941   0.730
CRF     CITYU-train     CITYU-test      0.945   0.778
FCRF    CITYU-train     CITYU-test      0.951   0.798

结论:当训练和测试属于同一领域时,FCRFCRF 表现相差不大。

测试2:训练文本和测试文本属于不同领域

   

用简体的PKU训练集进行训练,对繁体的AS测试集进行测试;用繁体的CITYU进行训练,对简体的MSR进行测试:

训练集             测试集         F-score Roov
CRF     PKU-train       As-test         0.762   0.627
FCRF    PKU-train       As-test         0.859   0.812
CRF     CITYU-train     Msr-test        0.753   0.630
FCRF    CITYU-train     Msr-test        0.809   0.744

结论:当训练和测试属于不同领域时,FCRFCRF 效果有较大提升。

其它测试

   

对《金庸小说全集》进行适应后,和其它一些有名的分词工具做分词结果比较。

FCRF

郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 
张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹莹 , 心 下 大 是 奇怪 , 
不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出 口 。   
却 听 得 杨过 朗声 说道 : “ 今番 良晤 , 豪兴 不 浅 , 他 日 江湖 相逢 , 再 当 杯酒 言欢 。 咱们 就此 别 过 。 ” 
说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。   
其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再 也 忍耐 不 住 , 泪珠 夺眶而出 。

海量分词

郭襄 回头 过来 , 见 张君宝 头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出 手帕 , 替 他 包扎 。 
张君宝 好生 感激 , 欲 待 出言 道谢 , 却 见 郭襄 眼中 泪光 莹 莹 , 心下 大 是 奇怪 , 
不知 她 为 甚 么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。   
却 听 得 杨 过 朗声 说道 : “ 今番 良 晤 , 豪兴 不 浅 , 他日 江湖 相逢 , 再 当 杯酒言欢 。 咱们 就此 别 过 。 ” 
说 着 袍 袖 一 拂 , 携 着 小龙 女 之 手 , 与 神 雕 并肩 下山 。   
其时 明月 在 天 , 清风 吹 叶 , 树 巅 乌鸦 呀 啊 而 鸣 , 郭襄 再也 忍耐 不住 , 泪珠 夺眶而出 。 

哈工大IR-LTP

郭襄回头 过来 ,见 张君宝头 上 伤口 兀自 汨 汨 流血 , 于是 从 怀中 取出手 帕, 替 他 包扎 。 
张君宝 好生 感激, 欲待 出言 道谢, 却 见 郭襄 眼中 泪光 莹莹 ,心 下 大 是 奇怪 , 
不知 她 为 甚么 伤心 , 道谢 的 言辞 竟 此 便 说 不 出口 。 
却 听 得 杨过 朗声 说道 : “ 今番 良晤 ,豪兴 不 浅, 他 日 江湖 相逢 , 再 当 杯 酒言 欢 。 咱们 就 此 别 过 。 ” 
说 着 袍袖 一 拂 , 携 着 小龙女 之 手 , 与 神雕 并肩 下山 。 
其时 明月 在 天, 清风 吹 叶, 树 巅 乌鸦 呀 啊 而 鸣, 郭襄 再 也 忍耐 不 住 ,泪 珠 夺眶而出 。

为了适应新领域的文本,FCRF在分词前需要对新领域文本进行频率信息统计,这会稍微降低分词的速度。

建议继续学习:

  1. 一个简单的中文分词程序    (阅读:4523)
  2. 漫话中文分词算法    (阅读:3980)
  3. 漫话中文自动分词和语义识别(下):句法结构和语义结构    (阅读:3438)
  4. 腾讯php程序员面试题目答案――编程任务    (阅读:3224)
  5. 基于trie数据字典的php中文分词    (阅读:3026)
  6. Levenshtein distance相似度算法    (阅读:3103)
  7. 排头兵PHP中文分词,纯PHP版实现    (阅读:2687)
  8. Mysql+sphinx+中文分词简介(ubuntu)    (阅读:2333)
  9. Mysql+sphinx+中文分词简介(ubuntu)    (阅读:1949)
  10. 用MeCab打造一套实用的中文分词系统    (阅读:1228)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1