IT技术博客大学习 共学习 共进步

标签:分词

共 11 篇相关文章

IT 浏览 1,980

用MeCab打造一套实用的中文分词系统

MeCab是一套日文分词(形态分析)和词性标注系统(Yet Another Part-of-Speech and Morphological Analyzer), rick曾经在这里分享过MeCab的官方文档中文翻译: 日文分词器 Mecab 文档,这款日文分词器基于条件随机场打造,有着诸多优点,譬如代码基于C++实现,基本内嵌CRF++代码,词典检索的算法和数据结构均使用双数组Double-Array,性能优良,并通过SWIG提供多种语言调用接口,可扩展性和通用性都非常不错。

IT 浏览 2,700

利用新词统计特征进行中文分词

目前中文分词的一般做法是将分词当作序列标注问题来处理,这种做法首先标注好一批训练语料,然后用统计模型进行训练和标注。常用的统计模型包括隐马尔可夫模型(HMM)、最大熵模型(MEM)以及条件随机场模型(CRF)。因为CRF比HMM和MEM有更弱的上下文无关假设,所以CRF一般能取得更好的分词结果。

IT 浏览 5,380

一个简单的中文分词程序

英语等以空白字符作为分隔符的语言,分词不是问题。中文分词,需要处理的细节太多。单就“真歧义”这一问题(简言之,如果没有上下文,连活生生的人也无法确定如何断句的歧义句)的处理方法而言,前辈们就已写出洋洋洒洒许多文字。不过这属于进阶题目。我想先实现一个最简单的分词程序。

IT 浏览 4,340

漫话中文自动分词和语义识别(下):句法结构和语义结构

    这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。     什么叫做句法结构呢?让我们来看一些例子。“白天鹅在水中游”,这句话是有歧义的,它可能指的是“白天有一只鹅在水中游”,也可能指的是“有一只白天鹅在水中游”。不同的分词方案,产生了不同的意义。有没有什么句子,它的分词方案是唯一的,但也会产生不同的意思呢?有。比如“门没有锁”,它可能是指的“门没有被锁上”,也有可能是指的“门

IT 浏览 4,860

漫话中文分词算法

    记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。  ...

IT 浏览 3,660

排头兵PHP中文分词,纯PHP版实现

PHP中文分词类,主要作用是分析语料库,找出核心主题词,是网页相似度引擎的子模块相比成熟的分词类库,如Lucene,中科院之流 没有任何优势,本类库是实验性项目,效率及算法[trie]并无特殊 ...

IT 浏览 4,380

Levenshtein distance相似度算法

Levenshtein distance最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名。主要用途: Spell checking(拼写检查) Speech recognition(语句识别) DNA analysis(DNA分析) Plagiarism detection(抄袭检测) Spam e...

IT 浏览 3,980

腾讯php程序员面试题目答案――编程任务

编程任务:1、 我们碰到了大麻烦,一个新来的传教士惹恼了上帝,上帝很愤怒,要求我们把圣经(bbe.txt)背熟,直至他说哪个单词,我们就要飞快的回答出这个单词在 第几行第几个单词位...

IT 浏览 3,800

基于trie数据字典的php中文分词

keywords:中文分词、PHP中文分词、trie数据结构、Doubule Array Trie Datastruct 原理: Trie数据结构的名词介绍我就不介绍了,大家google,百度可以搜索一大堆的文章来. Tire索引树法结构:首字散列表、Tri...

IT 浏览 2,840

Mysql+sphinx+中文分词简介(ubuntu)

一、编译先前条件确认是否已经安装以下软件,有些也许不是必须的,但建议还是都装上。apt-get install autoconf automake autotools-dev cpp curl gawk gcc lftp libc6-dev linux-libc-dev make libpcre3-dev libpcrecpp0 g++ libtool libncurses5-devaptitude install libmysql++-dev libmysqlclient15-dev checkinstallapt-get install python python-dev二、安装所需文件所需文件列表mmseg-0.7.3.tar.gz 中文分词 mysql-5.1.26-...