ADSL拨号VPS包含了中国大陆（联通，移动，电信，）

中国香港，国外拨号VPS。

当前位置：云主机 > python >

电信ADSL拨号VPS

上饶电信拨号VPS

洛阳电信拨号VPS

威海电信拨号VPS

济南电信拨号VPS

九江电信拨号VPS

厦门电信拨号VPS

邢台电信拨号VPS

湖州电信拨号VPS

绍兴电信拨号VPS

宁波电信拨号VPS

温州电信拨号VPS

杭州电信拨号VPS

郑州电信拨号VPS

铜陵电信拨号VPS

池州电信拨号VPS

黄山电信拨号VPS

十堰电信拨号VPS

荆门电信拨号VPS

莆田电信拨号VPS

三明电信拨号VPS

永州电信拨号VPS

张家界电信拨号VPS

常德电信拨号VPS

昆明电信拨号VPS

丽江电信拨号VPS

马鞍山电信拨号VPS

宣城电信拨号VPS

合肥电信拨号VPS

淮北电信拨号VPS

泰州电信拨号VPS

南通电信拨号VPS

南京电信拨号VPS

扬州电信拨号VPS

宿迁电信拨号VPS

镇江电信拨号VPS

苏州电信拨号VPS

淮安电信拨号VPS

盐城电信拨号VPS

包头电信拨号VPS

海口电信拨号VPS

江门电信拨号VPS

眉山电信拨号VPS

德阳电信拨号VPS

衢州电信拨号VPS

上海电信拨号VPS

桂林电信拨号VPS

成都电信拨号VPS

鞍山电信拨号VPS

福州电信拨号VPS

柳州电信拨号VPS

无锡电信拨号VPS

乌兰察布电信拨号VPS

深圳电信拨号VPS

河源电信拨号VPS

秦皇岛电信拨号VPS

徐州电信拨号VPS

台州电信拨号VPS

芜湖电信拨号VPS

蚌埠电信拨号VPS

潮州电信拨号VPS

重庆电信拨号VPS

连云港电信拨号VPS

绵阳电信拨号VPS

泰安电信拨号VPS

晋城电信拨号VPS

广州电信拨号VPS

联通ADSL拨号VPS

北京联通拨号VPS

滨州联通拨号VPS

莱芜联通拨号VPS

鞍山联通拨号VPS

连云港联通拨号VPS

海口联通拨号VPS

徐州联通拨号VPS

重庆联通拨号VPS

上海联通拨号VPS

西昌联通拨号VPS

南充联通拨号VPS

枣庄联通拨号VPS

抚顺联通拨号VPS

唐山联通拨号VPS

保定联通拨号VPS

廊坊联通拨号VPS

武汉联通拨号VPS

泰安联通拨号VPS

雅安联通拨号VPS

盘锦联通拨号VPS

泰州联通拨号VPS

移动ADSL拨号VPS

盐城移动拨号VPS

莱芜移动拨号VPS

Python实现爬取逐浪小说的方法

时间:2021-12-08 14:53 作者:admin610456

本文实例讲述了python/' target='_blank'>python实现爬取逐浪小说的方法。分享给大家供大家参考。具体分析如下：

本人喜欢在网上看小说，一直使用的是小说下载阅读器，可以自动从网上下载想看的小说到本地，比较方便。最近在学习Python的爬虫，受此启发，突然就想到写一个爬取小说内容的脚本玩玩。于是，通过在逐浪上面分析源代码，找出结构特点之后，写了一个可以爬取逐浪上小说内容的脚本。

具体实现功能如下：输入小说目录页的url之后，脚本会自动分析目录页，提取小说的章节名和章节链接地址。然后再从章节链接地址逐个提取章节内容。现阶段只是将小说从第一章开始，每次提取一章内容，回车之后提取下一章内容。其他网站的结果可能有不同，需要做一定修改。在逐浪测试过正常。

现分享此代码，一是做个记录，方便自己以后回顾。二么也想抛砖引玉，希望各路大神不吝赐教。

#-*-coding:utf8-*-#!/usr/bin/python# Python:   2.7.8# Platform:  Windows# Program:   Get Novels From Internet# Author:   wucl# Description: Get Novels# Version:   1.0# History:   2015.5.27 完成目录和url提取#       2015.5.28 完成目录中正则提取第*章，提取出章节链接并下载。在逐浪测试下载无误。from bs4 import BeautifulSoupimport urllib2,redef get_menu(url):  """Get chapter name and its url"""  user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0"  headers = {'User-Agent':user_agent}  req = urllib2.Request(url,headers = headers)  page = urllib2.urlopen(req).read()  soup = BeautifulSoup(page)  novel = soup.find_all('title')[0].text.split('_')[0]  # 提取小说名  menu = []  all_text = soup.find_all('a',target="_blank")  # 提取记载有小说章节名和链接地址的模块  regex=re.compile(ur'\u7b2c.+\u7ae0')  # 中文正则匹配第..章，去除不必要的链接  for title in all_text:    if re.findall(regex,title.text):      name = title.text      x = [name,title['href']]      menu.append(x)      # 把记载有小说章节名和链接地址的列表插入列表中  return menu,noveldef get_chapter(name,url):  """Get every chapter in menu"""  html=urllib2.urlopen(url).read()  soup=BeautifulSoup(html)  content=soup.find_all('p') # 提取小说正文  return content[0].textif __name__=="__main__":  url=raw_input("""Input the main page's url of the novel in ZhuLang\n    Then Press Enter to Continue\n""")  if url:    menu,title=get_menu(url)    print title,str(len(menu))+'\n   Press Enter To Continue  \n'     # 输出获取到的小说名和章节数    for i in menu:      chapter=get_chapter(i[0],i[1])      raw_input()      print '\n'+i[0]+'\n'          print chapter      print '\n'

希望本文所述对大家的Python程序设计有所帮助。

(责任编辑：admin)

上一篇：Python抓取百度查询结果的方法
下一篇：python检查指定文件是否存在的方法

帮助中心: 会员注册; 找回密码; 新闻中心

快捷通道: 域名登录面板; 虚机登录面板; 云主机登录面板

关于我们: 关于我们; 联系我们

联系方式: 售前咨询：17830004266(重庆移动); 企业QQ：383546523

《中华人民共和国工业和信息化部》编号：ICP备00012341号

Copyright © 2002 -2018 香港云主机版权所有
声明：香港云主机品牌标志、品牌吉祥物均已注册商标，版权所有，窃用必究

云官方微信

在线客服

企业QQ:
技术支持：383546523

公司总台电话：17830004266(重庆移动)
售前咨询热线：17830004266(重庆移动)