网站建设 >

查看其它板块

python爬虫爬取

python 爬取博客园接蚂蚁学pythonP5生产者消费者爬虫数据重复问题

先看访问地址
成都创新互联公司自2013年创立以来，是专业互联网技术服务公司，拥有项目成都做网站、成都网站建设、成都外贸网站建设网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元遵义做网站,已为上家服务,为遵义各地企业和个人服务,联系电话:13518219792
- 访问地址是https://www.cnblogs.com/#p2 但是实际访问地址是https://www.cnblogs.com 说明其中存在猫腻；像这种我们给定指定页码，按理应该是 post 请求才对；于是乎往下看了几个连接
- 然后再看一下payload 发现这个post 请求才是我们想要的链接其中PageIndex 就是我们要设置的页数

代码撸起来

# Author: Lovyya
# File : blog_spider
import requests
import json
from bs4 import BeautifulSoup
import re
# 这个是为和老师的urls一致性 匹配urls里面的数字
rule = re.compile("\d+")

urls = [f'https://www.cnblogs.com/#p{page}' for page in range(1, 31)]

# pos请求网址
url = "https://www.cnblogs.com/AggSite/AggSitePostList"
headers = {
	"content-type": "application/json",
	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
}

def craw(urls):
	#idx 是'xxx.xxxx.xxx/#p{num}' 里面的num 这样写可以不用改 后面生产者消费者的代码 
	idx = rule.findall(urls)[0]
	# payload参数 只需要更改 idx 就行
	payload = {
		"CategoryType": "SiteHome", 
		"ParentCategoryId": 0, 
		"CategoryId": 808, 
		"PageIndex": idx,
		"TotalPostCount": 4000, 
		"ItemListActionName": "AggSitePostList"
	}
	r = requests.post(url, data=json.dumps(payload), headers=headers)
	return r.text

def parse(html):
	# post-item-title
	soup = BeautifulSoup(html, "html.parser")
	links = soup.find_all("a", class_="post-item-title")
	return [(link["href"], link.get_text()) for link in links]

if __name__ == '__main__':
	for res in parse(craw(urls[2])):
		print(res)

当前题目：python爬虫爬取
转载源于：http://www.cdkjz.cn/article/dsogigg.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

吉安网站建设专业LED亮化工程中国西部信息中心成都网站代运营宜宾网站设计添翼二手车鉴定成都机房机柜租用新都四新网站建设边坡防护网厂家抖音代运营

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫爬取

python 爬取博客园接蚂蚁学pythonP5生产者消费者爬虫数据重复问题

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫爬取

python 爬取 博客园 接 蚂蚁学pythonP5生产者消费者爬虫数据重复问题

相关资讯

centosde启动流程与安全加固selinux是怎样的

java中有哪些条件语句

Shell脚本之分分彩程序制作if条件语句

说说如何在Vue.js中实现数字输入组件的方法

CSS3实现图片翻转效果

Java整数和字符串相互转化实例详解

解决Vue项目打包后打开index.html页面显示空白以及图片路径错误的问题

手机文档被删除怎么恢复，如何恢复

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

python 爬取博客园接蚂蚁学pythonP5生产者消费者爬虫数据重复问题

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接