专题：序列标注 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 2,847

利用新词统计特征进行中文分词

这篇讲的是如何改进中文分词模型以更好地适应新领域。作者指出，传统基于条件随机场（CRF）的分词模型主要依赖上下文特征，在面对训练数据未覆盖的新词（如跨领域的专业术语）时，分词准确率会明显下降。为解决这个问题，作者在特征中引入了新词的统计表现特征，比如词频高、搭配稳定等，提出了增强的FCRF模型。在《SIGHAN Bakeoff 2005》语料上的测试表明：当训练和测试文本属于同一领域时，FCRF与传统CRF效果相当；但当跨领域测试时（例如用金融领域模型分词体育文本），FCRF的优势就凸显出来了，其F-score和未登录词召回率（Roov）均有大幅提升，证明新特征有效增强了模型的领域适应性。文章还对比了FCRF与其他分词工具在金庸小说上的表现，并说明FCRF需要预先统计新领域的词频信息，这会略微牺牲分词速度，但换来了更好的新领域适应能力。

标签：序列标注

利用新词统计特征进行中文分词