抓取网页内容生成Kindle电子书
这篇讲的是如何把那些只能在线浏览的网页内容,变成可以在Kindle上随时随地阅读的电子书。作者从一个常见的痛点出发——Kindle虽好,但网上大量优质的在线文档、技术书籍却无法离线阅读。 文章的核心方案是借助开源的电子书管理工具Calibre。它提供的`ebook-convert`命令和`recipes`机制是关键:用户只需编写一个Python类脚本(即recipes),定义好抓取规则,就能自动将网页内容转换为mobi或epub格式。作者以《Git Pocket Guide》为例,详细演示了如何分析网页结构、编写`parse_index`方法来解析目录并组织章节内容,甚至自动处理图片。实现思路清晰,通过继承`BasicNewsRecipe`类并实现一个核心方法,就能完成定制化抓取,非常巧妙。 最终生成的电子书在Kindle上拥有完整的目录和图文排版,效果很好。作者还把自己的多个recipes整理在GitHub上供社区使用,让这套方法更具实用价值。