Python怎么爬取yy全站小视频-快上网网站建设公司

Python怎么爬取yy全站小视频

本篇内容介绍了“Python怎么爬取yy全站小视频”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

创新互联公司主要从事做网站、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务太和,十年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:18980820575

基本开发环境

Python 3.6
Pycharm

一、确定目标需求

Python怎么爬取yy全站小视频

百度搜索YY，点击分类选择小视频，里面的小姐姐自拍的短视频就是我们所需要的数据了。

Python怎么爬取yy全站小视频

如图所示，所框选的url地址，就是短视频的播放地址了。

Python怎么爬取yy全站小视频

第三页的数据请求参数：

很明显这是根据data参数中的page改变翻页的。

构建翻页循环，获取视频url地址以及发布人的名字，保存到本地。

三、代码实现

1、请求数据接口

import requests
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
params = {
    'callback': 'jQuery112409962628943012035_1613628479734',
    'appId': 'svwebpc',
    'sign': '',
    'data': '{"uid":0,"page":0,"pageSize":10}',
    '_': '1613628479737',
}
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)

问题来了，返回的数据是json数据嘛？

Python怎么爬取yy全站小视频

如上图所示，很多人看到这样的数据肯定就觉得这不就是一个json数据嘛？

Python怎么爬取yy全站小视频

通过response查看就知道了，返回给我们的数据是多了一段 jQuery112409962628943012035_1613628479734()
其中的json数据是包含在里面的，如果想要提取数据有三种方法。

1、返回response.text，使用正则表达式提取url地址以及发布人的名字

video_url = re.findall('"resurl":"(.*?)"', response.text)
user_name = re.findall('"username":"(.*?)"', response.text)

2、返回response.text，使用正则表达式提取 jQuery112409962628943012035_1613628479734() 中的数据，然后通过json模块把字符串转成json数据，然后遍历提取数据。

string = re.findall('jQuery112409962628943012035_1613628479734\((.*?)\)', response.text)[0]
json_data = json.loads(string)
result = json_data['data']['data']
pprint.pprint(result)

Python怎么爬取yy全站小视频

3、把请求的url地址中的 callback 删掉，可以直接获取json数据

import pprint
import requests

url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
params = {
    'appId': 'svwebpc',
    'sign': '',
    'data': '{"uid":0,"page":1,"pageSize":10}',
    '_': '1613628479737',
}
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
json_data = response.json()
result = json_data['data']['data']
pprint.pprint(result)

2、保存数据

    for index in result:
        video_url = index['resurl']
        user_name = index['username']
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + user_name + '.mp4', mode='wb') as f:
            f.write(video_content)
            print(user_name)

注意点： 用户名有特殊字符，保存的时候会报错

Python怎么爬取yy全站小视频

所以需要使用正则表达式替换掉特殊字符

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? ">

完整实现代码

import re

import requests
import re


def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title


page = 0
while True:
    page += 1
    url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2'
    params = {
        'appId': 'svwebpc',
        'sign': '',
        'data': '{"uid":0,"page":%s,"pageSize":10}' % str(page),
        '_': '1613628479737',
    }
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, params=params, headers=headers)
    json_data = response.json()
    result = json_data['data']['data']
    for index in result:
        video_url = index['resurl']
        user_name = index['username']
        new_title = change_title(user_name)
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + new_title + '.mp4', mode='wb') as f:
            f.write(video_content)
            print(user_name)

Python怎么爬取yy全站小视频

“Python怎么爬取yy全站小视频”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

分享标题：Python怎么爬取yy全站小视频
标题路径：http://www.cdkjz.cn/article/pchssh.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python怎么爬取yy全站小视频

基本开发环境

相关模块的使用

一、确定目标需求

三、代码实现

完整实现代码

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python怎么爬取yy全站小视频

基本开发环境

相关模块的使用

一、确定目标需求

三、代码实现

完整实现代码

相关资讯

怎么学习go语言标准库 go语言基础语法

php图片数据显示 php中为什么图片显示不出来

linux系统下基本命令 linux系统基本命令cmd

php定时任务处理大数据 php设置定时任务

python分段函数例子 python分段函数的写法

mysql怎么备注 mysql加备注

go语言的实体类放哪里 go 类型和接口

go语言cap的适用类型 go语言的数据类型

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接