HTML代码到底该不该压缩

Hito's Blog 2016-07-06 13:58:09 累计浏览 3,199 次

本机暂存

内容概览

这篇文章从一个常见问题出发：开发者常问如何让静态缓存插件支持HTML压缩。作者没有直接讨论实现，而是通过数据分析来探讨HTML代码压缩在今天是否仍有实际意义。

作者首先解释了HTML压缩的本质——主要删除空格、制表符、注释等文本中有意义但浏览器显示时非必要的字符。通过一个Python脚本对100个网页的实测，他发现HTML压缩率最高可超过20%。然而，真正的关键在于后续的对比分析。作者进一步用实验比较了原始HTML、仅HTML压缩、仅Gzip压缩以及“HTML压缩后再Gzip压缩”这四种情况下的文件大小。

数据图表清晰地揭示了两个核心结论：一是HTML压缩带来的空间节省，仅在原始文件较大时才相对明显；二是在服务器已开启广泛使用的Gzip压缩的前提下，网页本身是否经过HTML压缩，对最终传输体积的影响微乎其微。因此，对于大多数网站而言，这种压缩对性能提升意义有限，反而可能影响开发调试效率。

文章最后补充了一个有趣的视角：在像Google这样流量占全球近40%的超大规模场景下，即使是单次请求节省一个字节，累积起来也是巨大的流量成本节省。这说明任何优化的价值，都需要结合实际的应用规模和上下文来评判。

在我的插件Super Static Cache的使用过程中，经常会有人问我这样的问题，怎么样让Super Static Cache插件支持我的HTML压缩插件，本文这里不谈技术实现问题，着重来分析一下现在的网站有没有必要再进行HTML代码压缩。

代码压缩压缩的是什么？

HTML的全称是超文本标记语言，HTML网页本身是一种文本文件，通过在文件中添加标记符，可以告诉浏览器如何显示其中的内容，包括文字大小，颜色，图片显示等等。这就意味着在文本文件中的一些特定意义的字符可以在浏览器显示的时候就不一样了，HTML代码压缩就是压缩这些在文本文件中有意义，但是在HTML中不显示的字符，包括空格，制表符，换行符等，还有一些其他意义的字符，如HTML注释也可以被压缩。

有了这个基础，我们挑选网络上的100张未经过HTML压缩的页面进行统计。

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2,re
import matplotlib.pyplot as plt

htmlsp = re.compile(r"[\r\n\t]")

def htmlcompress(html):
    html =  htmlsp.sub("",html)
    return html.replace("  ","")

urls = open("urls.txt","rb")
comdation = list()
while True:
    url = urls.readline()
    if not url:
        break
    if not len(url):
        continue
    try:
        content = urllib2.urlopen(url).read()
    except:
        continue
    unlen = len(content)
    comlen = len(htmlcompress(content))
    comra = 100.0*(unlen*1.0-comlen*1.0)/unlen
    obj = "uncompress:%d bit, compress:%d bit, compressdatio: %f%%"%(unlen,comlen,comra)
    print obj
    comdation.append(comra)

plt.ylabel("compressdatio")
plt.plot(comdation)
plt.show()

其压缩率分布图如下:
HTML代码压缩率统计

从图中可以看到，压缩率最高的可以达到20%还多, 那是不是就意味着HTML有必要呢？实际上我们忘了，HTML属于文本数据，如果服务器上采用好的压缩算法，它的压缩律是非常高的，现在世界上有接近70%的服务器采用Gzip压缩算法¹，如果我本身的HTML传送采用Gzip压缩，和HTML压缩有什么联系呢，来看一下下面的程序分析:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2,re
import matplotlib.pyplot as plt
import gzip,StringIO


htmlsp = re.compile(r"[\r\n\t]")

def htmlcompress(html):
    html =  htmlsp.sub("",html)
    return html.replace("  ","")

def gzipcompress(html):
    buf = StringIO.StringIO()
    f = gzip.GzipFile(mode="wb",fileobj = buf)
    f.write(html)
    f.close()
    return buf.getvalue()

urls = open("urls.txt","rb")

unlenlist = list()
comlenlist = list()
gzipcomlenlist = list()
gzipcomhtmllenlist = list()

while True:
    url = urls.readline()
    if not url:
        break
    if not len(url):
        continue
    try:
        content = urllib2.urlopen(url).read()
    except:
        continue
    unlen = len(content)
    comlen = len(htmlcompress(content))
    gzipcomlen = len(gzipcompress(content))
    gzipcomhtmllen = len(gzipcompress(htmlcompress(content)))
    unlenlist.append(unlen)
    comlenlist.append(comlen)
    gzipcomlenlist.append(gzipcomlen)
    gzipcomhtmllenlist.append(gzipcomhtmllen)

plt.ylabel("HTML Length(bit)")
plt.xlabel("WebSite")
plt.plot(unlenlist,"b")
plt.plot(comlenlist,"r")
plt.plot(gzipcomlenlist,"y")
plt.plot(gzipcomhtmllenlist,"k")
plt.show()

分布图如下:
HTML压缩和Gzip压缩的对比

图中蓝线表示原始的网页大小，红线表示HTML压缩的大小，黄线表示Gzip压缩原始文件的大小，黑线表示Gzip压缩HTML压缩文件的大小，可以得出两个结论:
1, 只有在原始网页文件比较大时候，HTML压缩才会节省一些空间
2, 只要服务器开启Gzip压缩，网页HTML是否压缩对整个网页传送体积影响不大

所以我们可以得出结论，HTML压缩本身对网站性能提升意义并不大，最多只能混淆一下让其他人难以查看，但是越来越多的前端工具已经让这种做法变得越来越没有意义，反而影响自己的开发，所以，放弃HTML压缩吧。

当然，这个结论也不是在所有情况下都成立，当你的访客足够多的时候，节省一个字节的大小可能都会导致大量的成本节省，以google为例，他的互联网占到整个互联网流量的40%²，而思科预计2016年全球网络流量将会达到1.3ZB(1ZB = 10^9TB)³，如果Google给每1MB的请求减少1字节，则每年可以节省流量近500TB。

参考资料

同分类推荐文章

translateZ() （2026-06-25 21:18:56）
translateY() （2026-06-25 21:17:56）
translateX() （2026-06-25 21:16:01）

查看更多前端文章 →

建议继续学习

记录一个软中断问题（累计阅读 16,957）
Go Reflect 性能（累计阅读 14,157）
各公司对前端开发的职位描述（累计阅读 10,405）
浏览器的渲染原理简介（累计阅读 8,377）
iframe里src="about:blank"的问题。（累计阅读 8,089）
程序员眼里IE浏览器是什么样的（累计阅读 8,011）
2010网页设计趋势（累计阅读 7,818）
Web前端工程师编程能力飞升之路（累计阅读 7,691）
使用.htaccess 开启gzip 缓存文件网页提高速度（累计阅读 7,604）
为什么招不到人（累计阅读 7,580）