香港云主机最佳企业级服务商!

ADSL拨号VPS包含了中国大陆(联通,移动,电信,)

中国香港,国外拨号VPS。

当前位置:云主机 > python >

电信ADSL拨号VPS
联通ADSL拨号VPS
移动ADSL拨号VPS

Python编写百度贴吧的简单爬虫


时间:2021-11-09 10:29 作者:admin610456


操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*- #----------------------------#  程序:百度贴吧的小爬虫#  日期:2015/03/28#  语言:python/' target='_blank'>python 2.7#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名#---------------------------- import urllib2import time def baidu_tieba(url, start, end):  for i in range(start, end):    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'    f = open(sName, 'w+')    m = urllib2.urlopen(url+str(i))    n = m.read()    f.write(n)    f.close()  print '成功下载'     baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))begin_page = int(raw_input('请输入帖子的起始页码>>\n'))end_page = int(raw_input('请输入帖子的终止页码>>\n'))         baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

(责任编辑:admin)






帮助中心
会员注册
找回密码
新闻中心
快捷通道
域名登录面板
虚机登录面板
云主机登录面板
关于我们
关于我们
联系我们
联系方式

售前咨询:17830004266(重庆移动)

企业QQ:383546523

《中华人民共和国工业和信息化部》 编号:ICP备00012341号

Copyright © 2002 -2018 香港云主机 版权所有
声明:香港云主机品牌标志、品牌吉祥物均已注册商标,版权所有,窃用必究

云官方微信

在线客服

  • 企业QQ: 点击这里给我发消息
  • 技术支持:383546523

  • 公司总台电话:17830004266(重庆移动)
  • 售前咨询热线:17830004266(重庆移动)