香港云主机最佳企业级服务商!

ADSL拨号VPS包含了中国大陆(联通,移动,电信,)

中国香港,国外拨号VPS。

当前位置:云主机 > python >

电信ADSL拨号VPS
联通ADSL拨号VPS
移动ADSL拨号VPS

python小技巧之批量抓取美女图片


时间:2021-02-07 11:23 作者:admin


其中用到urllib2模块和正则表达式模块。下面直接上代码:

[/code]
#!/usr/bin/env python/' target='_blank'>python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey

monkey.patch_all()

def geturllist(url):
url_list=[]
print url
s = urllib2.urlopen(url)
text = s.read()
#正则匹配,匹配其中的图片
html = re.search(r'<ol.*</ol>', text, re.S)
urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)
for i in urls:
url=i.group(1).strip()+str("jpg")
url_list.append(url)
return url_list

def download(down_url):
name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)
print name
urllib.urlretrieve(down_url, "D:\\TEMP\\"+name)

def getpageurl():
page_list = []
#进行列表页循环
for page in range(1,700):
url="http://jandan.net/ooxx/page-"+str(page)+"#comments"
#把生成的url加入到page_list中
page_list.append(url)
print page_list
return page_list
if __name__ == '__main__':
jobs = []
pageurl = getpageurl()[::-1]
#进行图片下载
for i in pageurl:
for (downurl) in geturllist(i):
jobs.append(gevent.spawn(download, downurl))
gevent.joinall(jobs)
[/code]

程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。。我就不多说了~~

(责任编辑:admin)






帮助中心
会员注册
找回密码
新闻中心
快捷通道
域名登录面板
虚机登录面板
云主机登录面板
关于我们
关于我们
联系我们
联系方式

售前咨询:17830004266(重庆移动)

企业QQ:383546523

《中华人民共和国工业和信息化部》 编号:ICP备00012341号

Copyright © 2002 -2018 香港云主机 版权所有
声明:香港云主机品牌标志、品牌吉祥物均已注册商标,版权所有,窃用必究

云官方微信

在线客服

  • 企业QQ: 点击这里给我发消息
  • 技术支持:383546523

  • 公司总台电话:17830004266(重庆移动)
  • 售前咨询热线:17830004266(重庆移动)