网站建设 >

查看其它板块

如何使用Python实现ComicReaper漫画自动爬取脚本-创新互联

小编给大家分享一下如何使用Python实现ComicReaper漫画自动爬取脚本，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

成都创新互联公司主要从事成都做网站、成都网站设计、网页设计、企业做网站、公司建网站等业务。立足成都服务珙县,10余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

总体流程

如何使用Python实现ComicReaper漫画自动爬取脚本

那就开始吧

做一些准备工作

先用字符串存储两个链接, 一个是本次漫画网站站点的域名URL, 另一个是当前我们要爬取的漫画的主页URL

再定义一个 header 字典, 用于存储我们的 User-Agent 和 Referer Referrer (由于早期HTTP规范的拼写错误, 为了保持向后兼容就将错就错了)

首部字段 User-Agent

首部字段 User-Agent 告诉服务器当前创建请求的浏览器是什么(有的网站会针对不同的浏览器提供不同的页面, 比如如果是手机浏览器提出的请求, 服务器就向客户端提供网站的手机版页面)

比如说同样是请求 GitHub 的主页, 左边是使用笔记本电脑上面的浏览器请求的页面, 右边是在安卓手机上请求的页面

如何使用Python实现ComicReaper漫画自动爬取脚本

首部字段 Referer

首部字段 Referer 告诉服务器当前请求的页面是从哪个Web页面发起的(一般情况下 Referer 字段用于防盗链)

有的网站不允许直接访问网站里面的URL, 只能通过从主页点击某个链接来进行跳转, 或者...我们在请求之前把 User-Agent 字段设置为主页或发起页即可

url_domainame = r'http://www.manhuadb.com'
url_host = r'http://www.manhuadb.com/manhua/2317'
header = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
  'Referer' : ''
  }

获取章节目录

首先我们对我们接下来要做的事情做一个具体流程分析

我们要获取当前漫画所有章节的标题与URL(标题用于后期存储时文件夹的命名, URL用于跳转到当前章节的开始页面)并且存储在列表中

如何使用Python实现ComicReaper漫画自动爬取脚本

将会使用到Python的两个库, re 与 urllib

 import re　　　　　　　　　# 导入正则表达式
 import urllib.request  # 导入 urllib.request

对在浏览器中按下 [F12] 键打开开发者工具来对漫画的章节页面进行分析

如何使用Python实现ComicReaper漫画自动爬取脚本

我们可以看到页面中有很多章节, 也就是章节跳转链接, 每个链接的标签中正好具有我们需要的标题和URL, 分别是标签的 title 属性与 href 属性, 我们将使用字典来存储它

先不慌着前进, 考虑到整个HTML中有非常多的链接, 那么也就意味着页面中具有大量的标签, 如果我们只是单纯地从HTML中过滤出标签, 这样我们会得到大量我们并不需要的标签, 这是不明智的, 我们必须只过滤出章节跳转链接的标签, 仔细观察, 发现章节跳转链接的标签们都具有一个特点, 那就是它们都具有 class 属性并且属性值为 "fixed-a-es" , 这就找到了一个可以定位章节标签的依据, 把这一点加入到我们的正则表达式的匹配规则中去

现在就可以定义一个正则表达式匹配字符串了:

pat = r'为什么要这么写 :
在Python中, 在字符串常量的开头加一个 'r' 表示本字符串中的 '\' 字符将不会用来作转义字符使用, 保留了它原本的含义, 也就是反斜杠字符
在正则表达式中, '.' 字符用于匹配任何字符(当匹配时具有 're.S' 标志时此话成立, 否则只能匹配任意但除了 '\n' 以外的字符)
在正则表达式中, '*' 字符用于描述它左边的匹配字符的出现次数为0次或若干次
在正则表达式中, '(.*?)' 的组合用来表示一个贪婪匹配(并且会被捕捉到)
使用这个正则表达式, 就可以匹配到 title 属性与 href 属性的属性值中的双引号里面的内容了
具体实现是 chapterIndexReaper 函数, 主要用来"收割"当前漫画的所有章节并存储为字典列表
代码如下 :#获取一本漫画的所有章节的目录
def chapterIndexReaper(url_host, header):
  # 定义一个临时字典, 用于临时存储一个章节的标题与url
  dic_temp = {
    'Title' : '',
    'Url' : ''
    }
  # 章节字典列表, 存储当前漫画的所有章节字典
  set_dic = []
  # 构建Request对象
  req = urllib.request.Request(url = url_host, headers = header)
  # 读取所请求的req并用utf-8编码来进行解码, 所得到的的字符串赋值给html
  html = urllib.request.urlopen(req).read().decode('utf-8')
  # 爬取漫画章节标题与url的正则表达式
  pat = r'看完了这篇文章，相信你对“如何使用Python实现ComicReaper漫画自动爬取脚本”有了一定的了解，如果想了解更多相关知识，欢迎关注创新互联成都网站设计公司行业资讯频道，感谢各位的阅读！另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。
            

            分享名称：如何使用Python实现ComicReaper漫画自动爬取脚本-创新互联            

            链接URL：http://www.cdkjz.cn/article/jhpes.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都帛金建站雅安做网站成都开元关键词优化排名微信小程序开发蓬溪网站建设营销型网站建设官网SEO排名软文营销自动门

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何使用Python实现ComicReaper漫画自动爬取脚本-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何使用Python实现ComicReaper漫画自动爬取脚本-创新互联

相关资讯

vb.net代码打开链接 vb打开网址

智能聊天安装使用教程的简单介绍

帝国cms天数递增代码 帝国cms自动刷新

mysql全局变量怎么写 mysql局部变量赋值的语句

zblog版权如何简化 zblog视频教程

mysql怎么选取索引 mysql索引选择性原理

包含Python函数值是数组的词条

代理服务器能否提高安全性 代理服务器能否提高安全性和稳定性

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

帝国cms天数递增代码帝国cms自动刷新

代理服务器能否提高安全性代理服务器能否提高安全性和稳定性

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接