怎么在python中使用scrapy框架处理多页数据-快上网网站建设公司

怎么在python中使用scrapy框架处理多页数据

怎么在python中使用scrapy框架处理多页数据？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

创新互联2013年至今，是专业互联网技术服务公司，拥有项目成都网站建设、做网站网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元雨山做网站,已为上家服务,为雨山各地企业和个人服务,联系电话:18982081108

python的五大特点是什么

python的五大特点：1.简单易学，开发程序时，专注的是解决问题,而不是搞明白语言本身。2.面向对象，与其他主要的语言如C++和Java相比, Python以一种非常强大又简单的方式实现面向对象编程。3.可移植性，Python程序无需修改就可以在各种平台上运行。4.解释性，Python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。5.开源，Python是 FLOSS(自由/开放源码软件)之一。

方法一：将每一页对应的url存放到爬虫文件的start_urls

问题：如果页数较多时，列表就会变得很大。

方法二：使用Request方法手动发起请求（推荐使用）

案例：爬取古诗文网每一页的古诗的标题

1、爬取所有页码数据

import scrapy

class GushiSpider(scrapy.Spider):
    name = 'gushi'
    start_urls = ['https://www.gushiwen.org/']

    pageNum = 2 #pageNum为2，第一页已经爬取过了 
    url = 'https://www.gushiwen.cn/default_%d.aspx' #每页的url是类似的
    
    def parse(self, response):
        div_list = response.xpath('//div[@class="sons"]/div[1]/p[1]')
        print(str(len(div_list))+"首古诗")
        for div in div_list:
            title = div.xpath('./a/b/text()').extract()
            print(title)
        print("------------------------")

        # 爬取所有页码数据    
        if self.pageNum <= 10: #一共爬取10页（共10页）
            self.pageNum += 1
            url = format(self.url % self.pageNum)   # 每一页的url和pageNum有关

2、使用Request方法向页面手动发起请求

         # 手动发起请求: scrapy.Request(url,callback,meta)
            ## url是需要发起请求的url,
            ## callback参数的值是回调函数，即发起请求后需要调用哪一个方法
            ## meta参数的值是一个 字典，表示的是向回调函数传递什么样的参数

3、向上面格式化的url发起请求，callback递归调用parse()方法，将得到的数据继续进行解析

 yield scrapy.Request(url=url,callback=self.parse)

看完上述内容，你们掌握怎么在python中使用scrapy框架处理多页数据的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

文章题目：怎么在python中使用scrapy框架处理多页数据
当前URL：http://www.cdkjz.cn/article/ppiojp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么在python中使用scrapy框架处理多页数据

python的五大特点是什么

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么在python中使用scrapy框架处理多页数据

python的五大特点是什么

相关资讯

mysql重装怎么弄 如何重新安装mysql数据库

有关gis技术的外国文献 gis在国内外研究现状

go语言线程和进程 golang线程

go需要语言环境安装 go需要语言环境安装么

三分钟教你用智能聊天 三分钟教你用快影抠图换背景

java加法运算源代码 java的加法代码

帝国cms内容页增加字符 帝国cms标签调用大全

mysql怎么解锁回滚表 mysql滚动怎么退出

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

mysql重装怎么弄如何重新安装mysql数据库

三分钟教你用智能聊天三分钟教你用快影抠图换背景

帝国cms内容页增加字符帝国cms标签调用大全

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接