腾讯php程序员面试题目答案――编程任务

排头兵 @ Talk 2010-07-21 23:51:09 累计浏览 4,081 次

本机暂存

内容概览

这篇讲的是腾讯面试中一道经典的PHP编程题，它描述了一个看似“不可能完成”的挑战：在一台仅有300MB可用内存的Ubuntu机器上，为一本4MB的英文圣经文本建索引，以支持快速查询任意单词的位置，且查询速度不能慢于O(N²)。

问题背景设定得很真实，条件也极其苛刻：不能联网，只能使用本地文档和有限的工具链（PHP、Python、Perl、GCC）。这不仅仅考察编码能力，更是在资源严重受限的环境下，对算法设计、内存优化和系统理解能力的极限测试。面试题提供了“灵活使用其他语言”这一出口，暗示了纯PHP实现可能并非最优解。

这道题巧妙地将数据结构、算法复杂度和系统约束结合在一起，是衡量候选人工程思维和解决实际问题能力的绝佳案例。面试者需要自行完成从方案设计、实现到优化的完整过程，其解题思路往往比最终代码更能体现技术深度。

编程任务：
１、我们碰到了大麻烦，一个新来的传教士惹恼了上帝，上帝很愤怒，要求我们把圣经（bbe.txt）背熟，直至他说哪个单词，我们就要飞快的回答出这个单词在第几行第几个单词位置。听说你是个优秀的程序员，那么髟助我们完成这个不可能的任务吧。
要求如下：
１）/myworks /example/bbe.txt，98版本英文圣经一本
２）输入部分要求如下：php ./example.php [单词]
３）输出部分如下：[单词] 1,2 2,4 5,6　表示：此单词在1行2列（第二个单词），2行4列…
说明：
１）此文本 4MB之巨…
２）单词的含义：由英文字母（大小写），数字（0-9）组成的串
３）提供给你的机器OS为ubuntu 9.10，内存只有1G，而且，很不幸的，其中700M用来做了别的
４）上机考试不允许上网，但我装了man文档以及读取CHM以及PDF的阅读器，在电脑的桌面的CHM文件夹中，有相应的PHP参考手册
５）算法复杂度要求不能大于O（N^2）（就是N的平方）
６）什么？PHP低效且用起来不顺手，好的，你可以用别的语言来实现。但注意：提供给你的机器上只有python 2.4/perl 5.8/gcc[g++]

题目链接：http://www.xhttp.cn/2010/05/2

――――――――――――――――――――――――――――――――――――――――――――――

分析问题：
典型的字典算法，或是分词算法，好在是英文圣经程序可以少些几行代码
1、建立字典，也就是要找的词，比如 fuck,baby,come,on -_- 估计BBE里少有这样的很黄很暴力的词汇
2、因为对内存有要求，其实这个时候可以分章节查找，就是载入内存允许的章节
3、算法时间度o(n)吧，可以一次查找多个词汇

贴我的代码：

以下是代码片段：
< ?php
/**
* @author shjuto@gmail.com
* Trie字典树
*
*/
class Trie
{
    private $trie;

    function __construct()
    {
         $trie = array(’children’ => array(),’isword’=>false);
    }

    /**
     * 把词加入词典
     *
     * @param String $key
     */
    function &setWord($word=’’)
    {
        $trienode = &$this->trie;
        for($i = 0;$i < strlen($word);$i++)
        {
            $character = $word[$i];
            if(!isset($trienode[’children’][$character]))
            {
                $trienode[’children’][$character] = array(’isword’=>false);
            }
            if($i == strlen($word)-1)
            {
                    $trienode[’children’][$character] = array(’isword’=>true);
            }
            $trienode = &$trienode[’children’][$character];
        }
    }

    /**
     * 判断是否为词典词
     *
     * @param String $word
     * @return bool true/false
     */
    function & isWord($word)
    {
        $trienode = &$this->trie;
        for($i = 0;$i < strlen($word);$i++)
        {
            $character = $word[$i];
            if(!isset($trienode[’children’][$character]))
            {
                return false;
            }
            else
            {
                //判断词结束
                if($i == (strlen($word)-1) && $trienode[’children’][$character][’isword’] == true)
                {
                    return true;
                }
                elseif($i == (strlen($word)-1) && $trienode[’children’][$character][’isword’] == false)
                {
                    return false;
                }
                $trienode = &$trienode[’children’][$character];
            }
        }
    }

    /**
     * 在文本$text找词出现的位置
     *
     * @param String $text
     * @return array array(’position’=>$position,’word’ =>$word);
     */
    function search($text="")
    {
        $textlen = strlen($text);
        $trienode = $tree = $this->trie;
        $find = array();
        $wordrootposition = 0;//词根位置
        $prenode = false;//回溯参数,当词典ab,在字符串aab中，需要把$i向前回溯一次
        $word = ’’;
        for ($i = 0; $i < $textlen;$i++)
        {

            if(isset($trienode[’children’][$text[$i]]))
            {
                $word = $word .$text[$i];
                $trienode = $trienode[’children’][$text[$i]];
                if($prenode == false)
                {
                    $wordrootposition = $i;
                }
                $prenode = true;
                if($trienode[’isword’])
                {
                    $find[] = array(’position’=>$wordrootposition,’word’ =>$word);
                }
            }
            else
            {
                $trienode = $tree;
                $word = ’’;
                if($prenode)
                {
                    $i = $i -1;
                    $prenode = false;
                }
            }
        }
        return $find;
    }
}
$trie = new Trie();
$trie->setWord(’fuck’);
$trie->setWord(’you’);
$trie->setWord(’come’);
$trie->setWord(’on’);
var_dump($trie->isWord(’fuck’));
var_dump($trie->isWord(’a’));
var_dump($trie->isWord(’db’));
var_dump($trie->isWord(’comeon’));
var_dump($trie->isWord(’you’));
print_r($trie->search(’hello,tencent,i tell you sonme about bbe,
fuck you come on baby,come on,baby,baby,come on,tellgyou fuckdkkdkflsjflsjf’));

写的比较乱，代码应该还有很大的优化余地，不过足以说明Trie树的基本思想了，我如果有时间的话，会写一个中文分词的例子.
欢迎拍砖

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

使用gettext来支持PHP的多语言（累计阅读 39,267）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,162）
Paypal接口详细代码(PHP版，非API接口) （累计阅读 19,407）
我的PHP，Python和Ruby之路（累计阅读 13,146）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,788）
15个最好的免费开源电子商务平台（累计阅读 12,539）
为什么算法这么难？（累计阅读 12,397）
Redis消息队列的若干实现方式（累计阅读 12,085）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,902）
到底什么是MVC？（累计阅读 11,865）