IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:HMM

共 2 篇相关文章

IT 累计浏览 2,841

利用新词统计特征进行中文分词

这篇讲的是如何改进中文分词模型以更好地适应新领域。作者指出,传统基于条件随机场(CRF)的分词模型主要依赖上下文特征,在面对训练数据未覆盖的新词(如跨领域的专业术语)时,分词准确率会明显下降。 为解决这个问题,作者在特征中引入了新词的统计表现特征,比如词频高、搭配稳定等,提出了增强的FCRF模型。在《SIGHAN Bakeoff 2005》语料上的测试表明:当训练和测试文本属于同一领域时,FCRF与传统CRF效果相当;但当跨领域测试时(例如用金融领域模型分词体育文本),FCRF的优势就凸显出来了,其F-score和未登录词召回率(Roov)均有大幅提升,证明新特征有效增强了模型的领域适应性。 文章还对比了FCRF与其他分词工具在金庸小说上的表现,并说明FCRF需要预先统计新领域的词频信息,这会略微牺牲分词速度,但换来了更好的新领域适应能力。

IT 累计浏览 2,786

利用HTK工具包快速建立一个语音命令识别系统

这篇讲的是如何利用HTK工具包,从零开始快速搭建一个语音命令识别系统。作者面对的实际需求,是让设备或软件能够准确理解“打开音乐”、“下一首”这类简短的语音指令。文章没有停留在理论介绍,而是围绕HTK的工具链,详细拆解了从数据准备、声学模型训练到解码器配置的全流程。 核心方案在于,利用HTK成熟的语音处理模块和隐马尔可夫模型框架,来简化通常需要大量专业知识的开发步骤。文章具体展示了如何定义语音命令的发音单元、处理录音数据,并通过HTK的脚本命令进行模型训练与评估。其中,对语音特征提取、模型迭代调整等关键环节的说明,让整个过程变得可操作。 最终,这套基于HTK的方案能够有效训练出对预设命令具备较高识别率的模型。它为希望在资源有限或需要快速验证想法的开发者,提供了一条实用的技术路径,证明了借助专业工具包可以显著缩短语音交互功能的原型开发周期。