排头兵PHP中文分词,纯PHP版实现

排头兵 @ Talk 2010-08-05 09:52:57 累计浏览 3,782 次

本机暂存

内容概览

这篇讲的是如何在纯PHP环境下实现一个实用的中文分词。作者直面一个常见需求：在处理中文网页时，准确提取出核心主题词。传统的方案往往依赖外部服务或C语言扩展，对运行环境有特定要求。而这个PHP中文分词类，就是为了解决“如何让PHP项目本身能独立、便捷地完成分词”这个痛点。

它的核心实现思路是基于概率统计模型，结合了词典切分与未登录词识别。作者没有选择依赖第三方库，而是用纯PHP代码实现了分词逻辑，这意味着部署时只需考虑PHP环境本身，极大地降低了集成的复杂度。作为一个“网页相似度引擎”的子模块，它的目标很明确：通过精准的分词，提取文本的关键词特征，从而为计算页面间的相似度提供可靠的数据基础。

这种纯PHP的实现虽然在性能上可能面临挑战，但它为那些受限于环境或追求部署简洁性的项目提供了一个可落地的选择，展现了在有限约束下解决具体技术问题的思路。

PHP中文分词类,主要作用是分析语料库,找出核心主题词,是网页相似度引擎的子模块

相比成熟的分词类库,如Lucene,中科院之流没有任何优势,本类库是实验性项目,效率及算法[trie]并无特殊

暂时支持utf8编码

线上测试版即将出来 http://www.paitoubing.cn/pdb/paiswc.php
ps:我的博客托管服务器,暂时不能访问外网,没法安装apc扩展……..

先贴上切词函数,目前只能识别数据字典的词条分词,其他方面的可以扩展.
Trie数据字典保存在apc共享缓存中,根据词条首字母$key 序列化$value 了trie子树,序列化的效率真他妈低,影响了整体分词的效率

以下是代码片段：
$result =’’;
function pai_scw($text="")
{
    global $result;
    $textlen = mb_strlen($text);
    $trienode = false;
    $find = array();
    $wordrootposition = 0;//词根位置
         $prenode = false;
    $word = ’’;
    for ($i = 0; $i < $textlen;$i++)
    {
        $character = mb_substr($text,$i,1);
        $success = false;
        if(empty($word))
        {
            $trienode = unserialize(apc_fetch($character,$success));
            //unserialize 效率低

            //当$character 没有一个可以匹配的字符时,直接跳过，不做倒退匹配
            if(!$success)
            {
                continue;
                $result = $result.$character;
            }
        }
        //匹配词首
        if($success)
        {
            $word = $word .$character;
            continue;
        }

        if(isset($trienode[’c’][$character]))
        {
            $word = $word .$character;
          //  echo "isset".$word."\n";
            $trienode = $trienode[’c’][$character];
            if($prenode == 0)
            {
                $wordrootposition = $i;
            }
            $prenode = true;
            if($trienode[’w’])
            {
            $find[] = array(’position’=>$wordrootposition,’word’ =>$word);
                $result = $result."-".$word."-";
            }
        }
        else
        {

            /*@example 词条:北京奥委会
             *@example 判断分词：北京奥运
             *@example 应该回溯到位置奥的位置
             */

            $i = $i - mb_strlen($word);
            $prenode = false;
            $word = ’’;
            //添加分词结果
            $result = $result.$character;
        }
    }
    return $find;
}

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

使用gettext来支持PHP的多语言（累计阅读 39,267）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,162）
Paypal接口详细代码(PHP版，非API接口) （累计阅读 19,407）
我的PHP，Python和Ruby之路（累计阅读 13,146）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,788）
15个最好的免费开源电子商务平台（累计阅读 12,539）
Redis消息队列的若干实现方式（累计阅读 12,085）
到底什么是MVC？（累计阅读 11,864）
整理了一份招PHP高级工程师的面试题（累计阅读 11,708）
Rolling cURL: PHP并发最佳实践（累计阅读 11,486）