网站建设 >

查看其它板块

【机器学习】数据准备--python爬虫

前言

我们在学习机器学习相关内容时，一般是不需要我们自己去爬取数据的，因为很多的算法学习很友好的帮助我们打包好了相关数据，但是这并不代表我们不需要进行学习和了解相关知识。在这里我们了解三种数据的爬取：鲜花/明星图像的爬取、中国艺人图像的爬取、股票数据的爬取。分别对着三种爬虫进行学习和使用。

创新互联专业为企业提供宿迁网站建设、宿迁做网站、宿迁网站设计、宿迁网站制作等企业网站建设、网页设计与制作、宿迁企业网站模板建站服务，10多年宿迁做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

体会
个人感觉爬虫的难点就是URL的获取，URL的获取与自身的经验有关，这点我也很难把握，一般URL获取是通过访问该网站通过抓包进行分析获取的。一般也不一定需要抓包工具，通过浏览器的开发者工具（F12/Fn+F12）即可进行获取。

鲜花/明星图像爬取

URL获取

百度搜索鲜花关键词，并打开开发者工具，点击NrtWork

找到数据包进行分析,分析重要参数
- pn 表示第几张图片加载
- rn 表示加载多少图片
查看返回值进行分析，可以看到图片体制在ThumbURL中

下载过程

http://image.baidu.com/search/acjson? 百度图片地址
拼接tn 进行访问可以得到每个图片的URL，在返回数据的thumbURL中
https://image.baidu.com/search/acjson?+tn
进行分离图片的URL然后访问下载

代码

import requests
import os
import urllib

class GetImage():
    def __init__(self,keyword='鲜花',paginator=1):
        self.url = 'http://image.baidu.com/search/acjson?'

        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
        }

        self.keyword = keyword
        self.paginator = paginator


    def get_param(self):

        keyword = urllib.parse.quote(self.keyword)
        params = []

        for i in range(1,self.paginator+1):
            params.append(
               'tn=resultjson_com&logid=&ipn=rj&ct=&is=&fp=result&fr=&word={}&queryWord={}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&expermode=&nojc=&isAsync=&pn={}&rn=30&gsm=78&='.format(keyword,keyword,30*i)

            )
        return params
    def get_urls(self,params):
        urls = []
        for param in params:
            urls.append(self.url+param)
        return urls

    def get_image_url(self,urls):
        image_url = []
        for url in urls:
            json_data = requests.get(url,headers = self.headers).json()
            json_data = json_data.get('data')
            for i in json_data:
                if i:
                    image_url.append(i.get('thumbURL'))
        return image_url
    def get_image(self,image_url):
        ##根据图片url，存入图片
        file_name = os.path.join("", self.keyword)
        #print(file_name)
        if not os.path.exists(file_name):
            os.makedirs(file_name)

        for index,url in enumerate(image_url,start=1):
            with open(file_name+'/{}.jpg'.format(index),'wb') as f:
                f.write(requests.get(url,headers=self.headers).content)

            if index != 0 and index%30 == 0:
                print("第{}页下载完成".format(index/30))


    def __call__(self, *args, **kwargs):
        params = self.get_param()
        urls = self.get_urls(params)
        image_url = self.get_image_url(urls)
        self.get_image(image_url=image_url)


if __name__ == '__main__':
    spider = GetImage('鲜花',3)
    spider()

明星图像爬取

只需要把main函数里的关键字换一下就可以了，换成明星即可


if __name__ == '__main__':
    spider = GetImage('明星',3)
    spider()

其他主题

同理的我们需要其他图片也可以换

if __name__ == '__main__':
    spider = GetImage('动漫',3)
    spider()

艺人图像爬取

方法一

我们可以使用上面的爬取图片的方式，把关键词换为中国艺人也可以爬取图片

方法二

显然上面的方式可以满足我们部分需求，我们如果需要爬取不同艺人那么上面的方式就不是那么好了。
我们下载10个不同艺人的图片，然后用他们的名字命名图片名，再把他们存入picture文件内

代码

import requests
import json
import os
import urllib

def getPicinfo(url):
    headers = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:101.0) Gecko/ Firefox/101.0',

    }
    response = requests.get(url,headers)

    if response.status_code == 200:
        return response.text
    return None


Download_dir = 'picture'
if os.path.exists(Download_dir) == False:
    os.mkdir(Download_dir)


pn_num = 1
rn_num = 10

for k in range(pn_num):
    url = "https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=&from_mid=500&format=json&ie=utf-8&oe=utf-8&query=%E4%B8%AD%E5%9B%BD%E8%89%BA%E4%BA%BA&sort_key=&sort_type=1&stat0=&stat1=&stat2=&stat3=&pn="+str(pn_num)+"&rn="+str(rn_num)+"&_="
    res = getPicinfo(url)
    json_str = json.loads(res)
    figs = json_str['data'][0]['result']

    for i in figs:
        name = i['ename']
        img_url = i['pic_4n_78']
        img_res = requests.get(img_url)
        if img_res.status_code == 200:
            ext_str_splits = img_res.headers['Content-Type'].split('/')
            ext = ext_str_splits[-1]
            fname = name+'.'+ext
            open(os.path.join(Download_dir,fname),'wb').write(img_res.content)

            print(name,img_url,'saved')

股票数据爬取

我们对http://quote.eastmoney.com/center/gridlist.html 内的股票数据进行爬取，并且把数据储存下来

爬取代码

# http://quote.eastmoney.com/center/gridlist.html
import requests
from fake_useragent import UserAgent
import json
import csv
import  urllib.request as r
import threading

def getHtml(url):
    r = requests.get(url, headers={
        'User-Agent': UserAgent().random,
    })
    r.encoding = r.apparent_encoding
    return r.text


# 爬取多少
num = 20

stockUrl = 'http://52.push2.eastmoney.com/api/qt/clist/get?cb=jQuery_&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb0cf9c27f6f&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:80&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_='


if __name__ == '__main__':
    responseText = getHtml(stockUrl)
    jsonText = responseText.split("(")[1].split(")")[0];
    resJson = json.loads(jsonText)
    datas = resJson['data']['diff']
    dataList = []
    for data in datas:

        row = [data['f12'],data['f14']]
        dataList.append(row)

    print(dataList)

    f = open('stock.csv', 'w+', encoding='utf-8', newline="")
    writer = csv.writer(f)
    writer.writerow(("代码","名称"))
    for data in dataList:
        writer.writerow((data[0]+"\t",data[1]+"\t"))
    f.close()


def getStockList():
    stockList = []
    f = open('stock.csv', 'r', encoding='utf-8')
    f.seek(0)
    reader = csv.reader(f)
    for item in reader:
        stockList.append(item)

    f.close()
    return stockList

def downloadFile(url,filepath):

    try:
        r.urlretrieve(url,filepath)
    except Exception as e:
        print(e)
    print(filepath,"is downLoaded")
    pass

sem = threading.Semaphore(1)

def dowmloadFileSem(url,filepath):
    with sem:
        downloadFile(url,filepath)

urlStart = 'http://quotes.money.163.com/service/chddata.html?code='
urlEnd = '&end=&fields=TCLOSW;HIGH;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER'

if __name__ == '__main__':
    stockList = getStockList()
    stockList.pop(0)
    print(stockList)


    for s in stockList:
        scode = str(s[0].split("\t")[0])

        url = urlStart+("0" if scode.startswith('6') else '1')+ scode + urlEnd

        print(url)
        filepath = (str(s[1].split("\t")[0])+"_"+scode)+".csv"
        threading.Thread(target=dowmloadFileSem,args=(url,filepath)).start()

数据处理代码

有可能当时爬取的数据是脏数据，运行下面代码不一定能跑通，需要你自己处理数据还是其他方法

## 主要利用matplotlib进行图像绘制

import pandas as pd
import matplotlib.pyplot as plt
import csv
import 股票数据爬取 as gp

plt.rcParams['font.sans-serif'] = ['simhei'] #指定字体
plt.rcParams['axes.unicode_minus'] = False #显示-号
plt.rcParams['figure.dpi'] = 100 #每英寸点数

files = []

def read_file(file_name):
    data = pd.read_csv(file_name,encoding='gbk')
    col_name = data.columns.values
    return data,col_name

def get_file_path():
    stock_list = gp.getStockList()
    paths = []
    for stock in stock_list[1:]:
        p = stock[1].strip()+"_"+stock[0].strip()+".csv"
        print(p)
        data,_=read_file(p)
        if len(data)>1:
            files.append(p)
            print(p)

get_file_path()
print(files)

def get_diff(file_name):
    data,col_name = read_file(file_name)
    index = len(data['日期'])-1
    sep = index//15
    plt.figure(figsize=(15,17))

    x = data['日期'].values.tolist()
    x.reverse()
    xticks = list(range(0,len(x),sep))
    xlabels = [x[i] for i in xticks]
    xticks.append(len(x))


    y1 = [float(c) if c!='None' else 0 for c in data['涨跌额'].values.tolist()]
    y2 = [float(c) if c != 'None' else 0 for c in data['涨跌幅'].values.tolist()]

    y1.reverse()
    y2.reverse()

    ax1 = plt.subplot(211)
    plt.plot(range(1,len(x)+1),y1,c='r')
    plt.title('{}-涨跌额/涨跌幅'.format(file_name.split('_')[0]),fontsize = 20)
    ax1.set_xticks(xticks)
    ax1.set_xticklabels(xlabels,rotation = 40)
    plt.ylabel('涨跌额')

    ax2 = plt.subplot(212)
    plt.plot(range(1, len(x) + 1), y1, c='g')
    #plt.title('{}-涨跌额/涨跌幅'.format(file_name.splir('_')[0]), fontsize=20)
    ax2.set_xticks(xticks)
    ax2.set_xticklabels(xlabels, rotation=40)
    plt.xlabel('日期')
    plt.ylabel('涨跌额')
    plt.show()


print(len(files))
for file in files:
    get_diff(file)

总结

上文描述了三个数据爬取的案例，不同的数据爬取需要我们对不同的URL进行获取，不同参数进行输入，URL如何组合、如何获取、这是数据爬取的难点，需要有一定的经验和基础。

文章标题：【机器学习】数据准备--python爬虫
链接地址：http://www.cdkjz.cn/article/dsogjdd.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都出口托盘德阳服务器托管免备案虚拟主机犀浦防护栏定制网站seo cddcz.com 高县网站建设 njyarui.cn scgaoxian.com 服务器租用

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

【机器学习】数据准备--python爬虫

前言

鲜花/明星图像爬取

URL获取

下载过程

代码

明星图像爬取

其他主题

艺人图像爬取

方法一

方法二

代码

股票数据爬取

爬取代码

数据处理代码

总结

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

【机器学习】数据准备--python爬虫

前言

鲜花/明星图像爬取

URL获取

下载过程

代码

明星图像爬取

其他主题

艺人图像爬取

方法一

方法二

代码

股票数据爬取

爬取代码

数据处理代码

总结

相关资讯

如何安全的远程控制服务器 远程控制 安全

PHP怎么设置域名 php设置域名授权使用

路由器设置的简单介绍

java英汉翻译词典代码 java英汉翻译词典代码是多少

java面试判断代码 java面试后怎么判断没戏了

怎么用域名访问路由途径 如何通过域名访问自己电脑

linux中实时更新命令 linux定时更新时间

路由器没有密码怎么办 路由器没有密码有什么风险

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

如何安全的远程控制服务器远程控制安全

怎么用域名访问路由途径如何通过域名访问自己电脑

路由器没有密码怎么办路由器没有密码有什么风险

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接