Blog - Welcome to DannySite

DEC 13, 2013/Python

在《抓站进行曲》中，我们利用urllib2提供的方法成功得到了网页数据。不过对于数据的处理来说，还有一种情况没有考虑，如果网页内容是被压缩过呢？我们来抓取新浪新闻试试：>>> req = urllib2.urlopen('http://news.sina.com.cn/c/2013-12-13/075828974213.shtml') >>> data = req.read() >>> data[1000:1300] '\xa1j\x1...

DEC 12, 2013/Python

抓站进行曲

抓站挺好玩的（不过对方心情可就不好说了= =），能够满足某些有趣的需求。Python标准库中的urllib2（在Python3中拆分成urllib.request和urllib.error，这里以Python2作为示例）也很善于做这个事。对于一般的网站来说，请求并获得网页内容是很简单的，借助于urllib2.urlopen两行代码就能搞定：>>> import urllib2 >>> res = urllib2.urlopen('http://www.dannysite.com/blog/...