python实现自动登录discuz论坛
最近被公司的事情搞的很纠结,博客也有段时间没写了,不过最近还是忙里偷闲做了点其他事情,在这里记录下来,和大家分享一下。
需求也比较简单,老婆是做社区运营的,所以需要每天把几个帖子定时的顶上来,手工做很累,所以就想让我用程序实现。
分析一下,其实无非是先用户名和密码登录,获取到cookie后,再带着cookie去访问要顶贴的页面即可,至于剖析页面来获取url就是BeautifulSoup要做的事情了。(论坛是discuz做的,这里只为演示方法)
登录代码实现如下:
def Login(user,pwd):
loginpage = urllib.urlopen('http://bbs.xxx.com/logging.php?action=login').read()
login_soup = BeautifulSoup(loginpage)
formhash_tag = login_soup.find('input',attrs={'name':'formhash'})
formhash = formhash_tag['value']
params = {
"answer":"",
"formhash":formhash,
"loginfield":"username",
"loginsubmit":"",
"password":pwd,
"questionid":"0",
"referer":"index.php",
"username":user,
}
jar = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(jar)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
req = urllib2.Request(login_url)
req.add_header('User-Agent',user_agent)
enparams = urllib.urlencode(params)
page = urllib2.urlopen(req,enparams)
data = page.read()
global g_cookie
global g_formhash
g_cookie = page.info()['set-cookie']
t_cookie = re.sub(r'poK_formhash=deleted','',g_cookie)
r_formhash = re.search(r"poK_formhash=[^;]+",t_cookie)
if r_formhash:
g_formhash = re.sub(r'poK_formhash=','',r_formhash.group())
return
简单说明一下:
jar = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(jar)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
这段代码是为了能够页面返回时的cookie,并且在urllib2请求页面的时候能够自动带上cookie,而formhash是个比较诡异的东西,在登录页面设置的formhash和cookie返回的poK_formhash居然不是同一个值(后来发现,在回复页面,又是另一个值),经过测试,用cookie里的值是对的。
登录态获取到之后,剩下的就是直接去打开页面就行了,但是因为我需要去回复帖子,所以还是显得麻烦点:
def ReplyPost(url,params):
req = urllib2.Request(url)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
req.add_header('User-Agent',user_agent)
enparams = urllib.urlencode(params)
page = urllib2.urlopen(req,enparams)
这样就可以了,由于对老婆公司的保密,所以代码就不放出下载了,大家了解了原理自己去写应该不难。
------------------------我是华丽的分割线----------------------------
其实在写的过程中是遇到不少问题的,列在这里如下:
1.CookieJar的实例似乎没有办法获取每个key的值,也许是我愚钝,但是看了源码都不知道怎么用,大家有知道的恳请赐教。。于是用了
g_cookie = page.info()['set-cookie']
这种方式,但是更诡异的事情是,当我这样获取cookie时,居然返回了两段。。所以在代码里我删掉了为空的那个
2.当配置上代理的时候CookieJar是获取不到cookie的。
由于一开始是在公司写的,而伟大的公司完美继承了gfw的意志,搞了个代理,于是用之前博客里提到的方法:
proxy = 'proxy.xxx.com:8080'
opener = urllib2.build_opener( urllib2.ProxyHandler({'http':proxy}) )
urllib2.install_opener( opener )
然后jar就一直为空,让我一度怀疑自己的智商是不是有问题,这么简单的程序都要调试半天。
3.如果实在是CookieJar获取不到cookie,我们其实还是有别的办法的,那就是手动去设置http请求包头:
cookie = page.info()['set-cookie']
req = urllib2.Request("xxxxx.php")
req.add_header('Cookie',cookie)
要记得是使用登录页面返回的cookie,否则是无效的。(其实这种方法满足的另一个需求是,你可以直接在浏览器中抓包得到cookie来进行程序自动访问)
建议继续学习:
- 配置Nginx+uwsgi更方便地部署python应用 (阅读:105407)
- 如何成为Python高手 (阅读:53413)
- python编程细节──遍历dict的两种方法比较 (阅读:19007)
- 每个程序员都应该学习使用Python或Ruby (阅读:16278)
- 微信扫码登录网页实现原理 (阅读:15634)
- 使用python爬虫抓站的一些技巧总结:进阶篇 (阅读:12124)
- 30分钟3300%性能提升――python+memcached网页优化小记 (阅读:12142)
- 我的PHP,Python和Ruby之路 (阅读:11854)
- 初探单点登录 SSO (阅读:9334)
- Python处理MP3的歌词和图片 (阅读:8331)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:Dante 来源: Vimer
- 标签: python 登录
- 发布时间:2010-08-06 00:13:50
- [46] 界面设计速成
- [43] Oracle MTS模式下 进程地址与会话信
- [42] 视觉调整-设计师 vs. 逻辑
- [42] IOS安全–浅谈关于IOS加固的几种方法
- [42] android 开发入门
- [39] 图书馆的世界纪录
- [38] 【社会化设计】自我(self)部分――欢迎区
- [38] 如何拿下简短的域名
- [37] 程序员技术练级攻略
- [34] 读书笔记-壹百度:百度十年千倍的29条法则