技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 其他 --> python装饰器的一个妙用

python装饰器的一个妙用

浏览:2502次  出处信息

    好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~

    我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
def func_top(url):
    data_dict= {}
 
    #在页面上获取到子url
    sub_urls = xxxx
 
    data_list = []
    for it in sub_urls:
        data_list.append(func_sub(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_sub(url):
    data_dict= {}
 
    #在页面上获取到子url
    bottom_urls = xxxx
 
    data_list = []
    for it in bottom_urls:
        data_list.append(func_bottom(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_bottom(url):
    #获取数据
    data = xxxx
    return data

    func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

     如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。

    于是这个时候你有两个选择:

  • 1.遇到错误就停止,之后重新从断掉的位置开始重新跑
  • 2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据
  •     对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。

        OK,目标已经有了,怎么实现呢?

         如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。

        所以实现方案也就有了:

         定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.

        代码如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    
    def get_dump_data(dir_name, url):
        m = hashlib.md5(url)
        filename = m.hexdigest()
        full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
     
        if os.path.isfile(full_file_name):
            return eval(file(full_file_name,\'r\').read())
        else:
            return None
     
     
    def set_dump_data(dir_name, url, data):
        if not os.path.isdir(\'dumps/\'+dir_name):
            os.makedirs(\'dumps/\'+dir_name)
     
        m = hashlib.md5(url)
        filename = m.hexdigest()
        full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
     
        f = file(full_file_name, \'w+\')
        f.write(repr(data))
        f.close()
     
     
    def deco_dump_data(func):
        def func_wrapper(url):
            data = get_dump_data(func.__name__,url)
            if data is not None:
                return data
     
            data = func(url)
            if data is not None:
                set_dump_data(func.__name__,url,data)
            return data
     
        return func_wrapper

        然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~

        搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!

        OK,就这样~ 人生苦短,我用python!

    建议继续学习:

    1. 配置Nginx+uwsgi更方便地部署python应用    (阅读:105195)
    2. 如何成为Python高手    (阅读:53126)
    3. python实现自动登录discuz论坛    (阅读:31410)
    4. python编程细节──遍历dict的两种方法比较    (阅读:18826)
    5. 每个程序员都应该学习使用Python或Ruby    (阅读:16091)
    6. 使用python爬虫抓站的一些技巧总结:进阶篇    (阅读:11906)
    7. 30分钟3300%性能提升――python+memcached网页优化小记    (阅读:11854)
    8. 我的PHP,Python和Ruby之路    (阅读:11690)
    9. Python处理MP3的歌词和图片    (阅读:8125)
    10. 关于使用python开发web应用的几个库总结    (阅读:7327)
    QQ技术交流群:445447336,欢迎加入!
    扫一扫订阅我的微信号:IT技术博客大学习
    << 前一篇:避免奖金公示
    后一篇:erlang学习手记 >>
    © 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

    京ICP备15002552号-1