Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-创新互联-快上网网站建设公司

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-创新互联

闲暇写一个外包网站的爬虫，万一你从这个外包网站弄点外快呢

创新互联服务项目包括新津县网站建设、新津县网站制作、新津县网页制作以及新津县网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，新津县网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到新津县省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

数据分析

官方网址为 https://www.clouderwork.com/

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

进入全部项目列表页面，很容易分辨出来项目的分页方式

得到异步请求

Request URL:https://www.clouderwork.com/api/v2/jobs/search?ts=1546395904852&keyword=&budget_range=&work_status=&pagesize=20&pagenum=3&sort=1&scope=
Request Method:GET
Status Code:200 OK

参数如下

    ts:1546395904852  # 时间戳
    keyword:   # 搜索关键字，查找全部，使用空即可
    budget_range:   # 暂时无用
    work_status:
    pagesize:20   # 每页数据量
    pagenum:3   # 页码
    sort:1   # 排序规则
    scope:
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

下面就是拼接请求了，一下确定request相关参数

Accept:application/json, text/javascript, */*; q=0.01
Accept-Encoding:gzip, deflate, br
Accept-Language:zh-CN,zh;q=0.9
Connection:keep-alive
Cookie:
Host:www.clouderwork.com
Referer:https://www.clouderwork.com/jobs?keyword=
User-Agent:Mozilla/5.0 你自己的UA QQBrowser/10.3.3006.400
X-Requested-With:XMLHttpRequest

采用爬虫scrapy
这个网站没有反爬措施，所以直接上就可以了

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time
import json

class CloudeworkSpider(scrapy.Spider):
    name = 'cloudework'
    allowed_domains = ['www.clouderwork.com']
    start_url = 'https://www.clouderwork.com/api/v2/jobs/search?ts={times}&keyword=&budget_range=&work_status=&pagesize={pagesize}&pagenum={pagenum}&sort=1&scope='

    def start_requests(self):
        for page in range(1,353):
            yield Request(self.start_url.format(times=time.time(),pagesize=20,pagenum=page))

    def parse(self, response):
        json_data = json.loads(response.text)
        for item in  json_data["jobs"]:
            yield item

存储数据到mongodb中，合计爬取到7000+数据

数据分析

从mongdo读取数据

import pymongo
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# 连接数据库
client = pymongo.MongoClient("localhost",27017)
cloud = client["cloud"]
collection = cloud["cloudework"]

# 加载数据
data = DataFrame(list(collection.find()))

结果显示为 [7032 rows x 35 columns]

查看数据基本情况

使用直接data.shape可以查看一下数据的基本情况

查看一下工期的分布

periods = data.groupby(["period"]).size()

x = periods.index 
y = periods.values 
plt.figure()
plt.scatter(x,y, color="#03a9f4", alpha = 0.5) # 绘制图表
plt.xlim((0, 360))
plt.ylim((0, 2000))
plt.xlabel("工期")
plt.ylabel("项目数")
plt.show()

可以看到数据散点集中在0〜50天

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

过滤一下40天以内的数据

periods = data.groupby(["period"]).size().reset_index(name="count")

df = periods[periods["period"]<=40]

x = df["period"]
y = df["count"]

plt.figure()
plt.scatter(x,y,label='项目数折线',color="#ff44cc")
plt.title("工期对应项目数")
plt.xlim((0, 360))
plt.ylim((0, 500))
plt.show()

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

发现竟然有1天工期的任务，可以瞅瞅都是什么任务

periods = data.groupby(["period"]).size()
data[data["period"]==1][["name","period"]]

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

果然比较简单唉~~不过也没有多少钱，有个急活1000¥

查看阅览量排行Top10

views = data["views_count"]
top10 = views.sort_values(ascending=False)[:10]

top10 = data[data.views_count.isin(top10.values)][["name","views_count","period","summary"]]
top10
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

查阅一下开发模式

看一下什么类型的项目比较多???数据上反应，网络网站和APP最多了，所以这方面的技能的大神么，可以冲一波了

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

网页题目：Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-创新互联
新闻来源：http://www.cdkjz.cn/article/dcsjhg.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-创新互联

数据分析

数据分析

从mongdo读取数据

查看数据基本情况

查看一下工期的分布

查看阅览量排行Top10

查阅一下开发模式

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-创新互联

数据分析

数据分析

从mongdo读取数据

查看数据基本情况

查看一下工期的分布

查看阅览量排行Top10

查阅一下开发模式

相关资讯

帝国CMS手机发文章 帝国cms文档

GO语言启蒙早教绘本课程 go dog go 绘本解读

vb点虐 生成tree vbnet delegate

腾讯云外国服务器 腾讯境外云服务器

mysql数据库怎么内嵌 mysql嵌入式数据库

阿里云买了服务器找不到 新买的阿里云服务器无法连接

go语言怎么输入字符串 golang输入语句

腾讯云送服务器吗是真的吗 腾讯云服务器收费标准

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

帝国CMS手机发文章帝国cms文档

vb点虐生成tree vbnet delegate

腾讯云外国服务器腾讯境外云服务器

阿里云买了服务器找不到新买的阿里云服务器无法连接

腾讯云送服务器吗是真的吗腾讯云服务器收费标准

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接