python装饰器的一个妙用
好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~
我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 |
def func_top(url): data_dict= {} #在页面上获取到子url sub_urls = xxxx data_list = [] for it in sub_urls: data_list.append(func_sub(it)) data_dict[\'data\'] = data_list return data_dict def func_sub(url): data_dict= {} #在页面上获取到子url bottom_urls = xxxx data_list = [] for it in bottom_urls: data_list.append(func_bottom(it)) data_dict[\'data\'] = data_list return data_dict def func_bottom(url): #获取数据 data = xxxx return data |
func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。
如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。
于是这个时候你有两个选择:
对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。
OK,目标已经有了,怎么实现呢?
如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。
所以实现方案也就有了:
定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.
代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
def get_dump_data(dir_name, url): m = hashlib.md5(url) filename = m.hexdigest() full_file_name = \'dumps/%s/%s\' % (dir_name,filename) if os.path.isfile(full_file_name): return eval(file(full_file_name,\'r\').read()) else: return None def set_dump_data(dir_name, url, data): if not os.path.isdir(\'dumps/\'+dir_name): os.makedirs(\'dumps/\'+dir_name) m = hashlib.md5(url) filename = m.hexdigest() full_file_name = \'dumps/%s/%s\' % (dir_name,filename) f = file(full_file_name, \'w+\') f.write(repr(data)) f.close() def deco_dump_data(func): def func_wrapper(url): data = get_dump_data(func.__name__,url) if data is not None: return data data = func(url) if data is not None: set_dump_data(func.__name__,url,data) return data return func_wrapper |
然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~
搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!
OK,就这样~ 人生苦短,我用python!
建议继续学习:
- 配置Nginx+uwsgi更方便地部署python应用 (阅读:105531)
- 如何成为Python高手 (阅读:53530)
- python实现自动登录discuz论坛 (阅读:31688)
- python编程细节──遍历dict的两种方法比较 (阅读:19103)
- 每个程序员都应该学习使用Python或Ruby (阅读:16368)
- 使用python爬虫抓站的一些技巧总结:进阶篇 (阅读:12232)
- 30分钟3300%性能提升――python+memcached网页优化小记 (阅读:12274)
- 我的PHP,Python和Ruby之路 (阅读:11949)
- Python处理MP3的歌词和图片 (阅读:8428)
- 关于使用python开发web应用的几个库总结 (阅读:7543)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:Dante 来源: Vimer
- 标签: python 装饰器
- 发布时间:2011-04-01 12:26:06
- [47] Oracle MTS模式下 进程地址与会话信
- [46] WEB系统需要关注的一些点
- [45] Go Reflect 性能
- [45] 【社会化设计】自我(self)部分――欢迎区
- [44] IOS安全–浅谈关于IOS加固的几种方法
- [44] android 开发入门
- [43] Twitter/微博客的学习摘要
- [42] find命令的一点注意事项
- [40] 图书馆的世界纪录
- [40] 关于恐惧的自白