IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

面试IT业界顶尖企业所应该知道的10道题(1)

idea's blog 2011-06-02 23:23:06 累计浏览 8,526 次
本机暂存

    题目: 现有一个包含一千万个单词的文本文件, 每个单词占一行, 每行小于1K字节. 要求找出出现次数最多的10个单词. 如果要从一千个这样的文件中找出出现次数最多的10个单词(所有单词加起来去重后不超过一千万个), 你会怎么设计?

    难度: 10K

    领域: 编码, 架构, 分布式

*** 解析 ***

    这道题没有任何算法上的难度, 最简单的思路就是, 一次读取一行, 计数. 先从单个文件来考虑, 首先考察面试者最基本的用计算机解决简单问题的能力.

    * Shell

    如果面试者的简历提到 Linux Shell, 让其用一行 Shell 命令(sort, uniq)来解.

    * 脚本语言

    要求面试者用任何一种通用的脚本语言来解决, 例如 PHP, Python. 要求其手写出无语法错误的可执行的完全正确的代码, 考察其编码能力基本功.

    * SQL

    假设单词是保存在 MySQL 数据库表中, 要求面试者用一条 SQL 语句来解, 考察其是否掌握 SQL, 以及 count(), group by, order by 等关键字的使用.

    * 多线程, 多机解决的思路

    将条件设置为有一千个或者更多的文件的情况, 如果面试者能主动想到如上方法的局限性和性能问题, 可以加分. 要求面试者分析出影响性能的瓶颈在哪.

    如果面试者能想到多线程, 多机分布式, 要求其设计一个大致的方案.

同分类推荐文章

  1. 等了十年的 Go 链式管道,终于来了:seq 让你像写 Scala 一样写 Go (2026-06-25 18:38:18)
  2. Go 实验特性详解 (2026-06-21 10:05:27)
  3. amd64 微架构级别对 Go 程序性能提升多少? (2026-06-21 09:38:49)

查看更多 后端 文章 →

建议继续学习

  1. Twitter/微博客的学习摘要 (累计阅读 12,259)
  2. 面试题 – 为什么我的朋友圈不见了? (累计阅读 11,952)
  3. Zookeeper研究和应用 (累计阅读 9,481)
  4. 分布式哈希和一致性哈希 (累计阅读 8,813)
  5. 百度日本-四面楚歌 (累计阅读 8,006)
  6. 在百度的第一年 (累计阅读 6,921)
  7. Memcache分布式部署方案 (累计阅读 6,818)
  8. AWK介绍 (累计阅读 6,709)
  9. 大数据下的工行 (累计阅读 6,639)
  10. ZooKeeper管理员指南——部署与管理ZooKeeper (累计阅读 6,588)