如何使用scrapy-redis做简单的分布式-快上网网站建设公司

如何使用scrapy-redis做简单的分布式

如何使用scrapy-redis做简单的分布式，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

创新互联专业为企业提供渝北网站建设、渝北做网站、渝北网站设计、渝北网站制作等企业网站建设、网页设计与制作、渝北企业网站模板建站服务，十载渝北做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

每次项目重新启动的时候不可能再去把相同的内容重新采集一次，所以增量爬取很重要

使用分布式scrapy-redis可以实现去重与增量爬取。因为这个库可以通过redis实现去重与增量爬取，爬虫停止以后下次运行会接着上次结束的节点继续运行.

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。

总结一下：

1. Scrapy-Reids 就是将Scrapy原本在内存中处理的调度(就是一个队列Queue)、去重、这两个操作通过Redis来实现
多个Scrapy在采集同一个站点时会使用相同的redis key（可以理解为队列）添加Request 获取Request 去重Request，这样所有的spider不会进行重复采集。效率自然就嗖嗖的上去了。
3. Redis是原子性的，好处不言而喻(一个Request要么被处理要么没被处理，不存在第三可能)

建议大家去看看崔大大的博客，干货很多。

然后就是安装redis了，

安装redis自行百度网上全是，或者点这里https://blog.csdn.net/zhao_5352269/article/details/86300221

第二步就是setting.py 的配置

master的配置没密码的话去掉：后的

# 配置scrapy-redis实现简单的分布式爬取

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_URL = 'redis://root:123456@192.168.114.130:6379'

Slave的配置

# 配置scrapy-redis实现简单的分布式爬取

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_HOST = '192.168.114.130'

REDIS_PORT = 6379

REDIS_PARAMS = {

'password': '123456',

}

如何使用scrapy-redis做简单的分布式

安装scrapy-redis

pip3 install scrapy-reids

安装完之后就可以实现简单的分布式，两个可以随意启动。

看完上述内容，你们掌握如何使用scrapy-redis做简单的分布式的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

标题名称：如何使用scrapy-redis做简单的分布式
网址分享：http://www.cdkjz.cn/article/gdeche.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何使用scrapy-redis做简单的分布式

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何使用scrapy-redis做简单的分布式

相关资讯

用C++做一个文件加密器-创新互联

BC网站专业制作一条龙-创新互联

如何抓住微信5.0：抢占移动互联网新机遇

帝国CMS图集字段的大图,小图调用方法-创新互联

Python中一条SQL语句执行得很慢的原因有哪些-创新互联

Unity中Profiler性能分析-创新互联

怎么在C#中反序列化Json-创新互联

pytorch中的inference使用实例-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接