网站建设 >

查看其它板块

python爬虫利器scrapy怎么使用

本文小编为大家详细介绍“python爬虫利器scrapy怎么使用”，内容详细，步骤清晰，细节处理妥当，希望这篇“python爬虫利器scrapy怎么使用”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。

为江西等地区用户提供了全套网页设计制作服务，及江西网站建设行业解决方案。主营业务为网站制作、网站设计、江西网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

架构及简介

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

python爬虫利器scrapy怎么使用

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

开发流程

开发一个简单爬虫步骤：

新建项目

scrapy startproject demo

编写spider

种子url （请求)
解析方法

编写item
结果数据模型
持久化
编写pipelines

生成目录介绍

scrapy.cfg ：项目的配置文件

mySpider/ ：项目的Python模块，将会从这里引用代码

mySpider/items.py ：项目的目标文件

mySpider/pipelines.py ：项目的管道文件

mySpider/settings.py ：项目的设置文件

mySpider/spiders/ ：存储爬虫代码目录

使用命令创建爬虫类

scrapy genspider gitee "gitee.com"

解析

通常我们解析都会涉及到 xpath csspath 正则，有的时候可能还有jsonpath（python中json访问基本不用使用复杂的jsonpath，字典访问就可以)
scrapy 内置xpath和csspath支持

Selector

而解析器本身也可以单独使用

xpath()
extract_first()
extract() #返回一个列表
索引访问，因为scrapy.selector.unified.SelectorList继承list，可以通过索引访问

from scrapy import Selector

if __name__ == '__main__':
    body = """


    
    Title


    hello
    hello

"""
    s = Selector(text=body)
    title=s.xpath("//title/text()").extract_first();#抽取
    print(title)
    #Title
    pe = s.xpath("//p")
    print(s.xpath("//p").extract())
    #['hello
', 'hello']
    print(pe)
    #[hello
'>, hello'>]
    print(type(pe))
    #
    print(type(pe[0]))  #通过索引访问
    #
    print(type(pe.pop()))
    #
    p=s.xpath("//p").extract_first()
    print(p)

css()
css选择器我们::text选择内容，用::attr() 选择属性

print(s.css("title").extract_first())
print(s.css("title::text").extract_first())
print(s.css("title::text").extract())
print(s.css("p.big::text").extract_first())
print(s.css("p.big::attr(class)").extract_first())


# Title
# Title
# ['Title']
# hello big
# big

css()和xpath()混用
scrapy.selector.unified.SelectorList scrapy.selector.unified.Selector 本身有css和xpath方法，所以可以组合使用

print(s.xpath("//body").css("p.big").extract_first())
print(s.css("body").xpath("//p[@class='big']").extract_first())

# hello big 
# hello big

re()和re_first()
scrapy.selector.unified.SelectorList scrapy.selector.unified.Selector 拥有 re()方法，支持通过正则来过滤

print(s.xpath("//p/text()").re_first("big"))
print(type(s.xpath("//p/text()").re("big")))

# big
#

** 但re()返回列表，.re_first返回str，所以不能再继续调用其他的选择方法

在爬虫中使用解析器

response对象已经

class GiteeSpider(scrapy.Spider):
    name = 'gitee'
    allowed_domains = ['gitee.com']
    start_urls = ['https://gitee.com/haimama']

    def parse(self, response):
        print(type(response))
        t=response.xpath("//title/text()").extract_first()
        print(t)

##启动爬虫执行后的结果
# 执行结果省略日志
# 
# 码马 (haimama) - Gitee

response对象类型为 scrapy.http.response.html.HtmlResponse，该类继承TextResponse 。拥有xpath()和css()方法如下

所以response 可以直接使用前文中的Selector 的方式来解析

    def xpath(self, query, **kwargs):
        return self.selector.xpath(query, **kwargs)

    def css(self, query):
        return self.selector.css(query)

配置文件

settings.py是爬虫的配置文件，要正常启动爬虫的话，一定注意将robo协议限制修改为 ROBOTSTXT_OBEY = False
其他相关配置，我们下节再介绍

启动爬虫

在爬虫目录编写run.py方法，添加如下脚本，这样就可以直接执行爬虫了。如果命令行执行的话scrapy crawl gitee。其中gitee为爬虫名，对应GiteeSpider中的name字段

# coding: utf-8

from scrapy import cmdline
if __name__ == '__main__':
    cmdline.execute("scrapy crawl gitee".split())

# scrapy crawl gitee

读到这里，这篇“python爬虫利器scrapy怎么使用”文章已经介绍完毕，想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会，如果想了解更多相关内容的文章，欢迎关注创新互联行业资讯频道。

本文题目：python爬虫利器scrapy怎么使用
转载来于：http://www.cdkjz.cn/article/ijgodh.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都LDE亮化四川雅安服务器托管广安园林景观设计自贡服务器托管四川成都网站制作虚拟主机 H5建站四川绵阳主机托管企业网站设计成都保温材料

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫利器scrapy怎么使用

架构及简介

开发流程

生成目录介绍

使用命令创建爬虫类

解析

Selector

在爬虫中使用解析器

配置文件

启动爬虫

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫利器scrapy怎么使用

架构及简介

开发流程

生成目录介绍

使用命令创建爬虫类

解析

Selector

在爬虫中使用解析器

配置文件

启动爬虫

相关资讯

go语言指针使用场景 go语言特性

c语言函数值默认是什么 c语言变量默认值

python输出日期函数 python 日期函数

go语言程序运行时间 go语言怎么运行

vb.net接口作用 vbnet vb区别

java代码重复率 代码重复度

java字符串拼接代码 Java字符串的拼接

Python建立插值函数 python字符串插值

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

java代码重复率代码重复度

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接