BLOG
Enjoy when you can, and endure when you must.
DEC 13, 2013/Python
解析经过压缩后的网页
在《抓站进行曲》中,我们利用urllib2提供的方法成功得到了网页数据。不过对于数据的处理来说,还有一种情况没有考虑,如果网页内容是被压缩过呢?我们来抓取新浪新闻试试:>>> req = urllib2.urlopen('http://news.sina.com.cn/c/2013-12-13/075828974213.shtml') >>> data = req.read() >>> data[1000:1300] '\xa1j\x1...
DEC 12, 2013/Python
抓站进行曲
抓站挺好玩的(不过对方心情可就不好说了= =),能够满足某些有趣的需求。Python标准库中的urllib2(在Python3中拆分成urllib.request和urllib.error,这里以Python2作为示例)也很善于做这个事。对于一般的网站来说,请求并获得网页内容是很简单的,借助于urllib2.urlopen两行代码就能搞定:>>> import urllib2 >>> res = urllib2.urlopen('http://www.dannysite.com/blog/...
1