python爬虫时怎么使用R连续抓取多个页面-快上网网站建设公司

python爬虫时怎么使用R连续抓取多个页面

这篇文章将为大家详细讲解有关python爬虫时怎么使用R连续抓取多个页面，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

我们提供的服务有：网站设计、做网站、微信公众号开发、网站优化、网站认证、图们ssl等。为上1000+企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的图们网站制作公司

当抓取多页的html数据，但容易被困在通用方法部分的功能上，而导致无法实现连续抓取多个页面。这个时候可以仔细观察代码当转到网页收集信息，将其添加到数据框，然后移至下一页就可以解决了。

示例：

多网页抓取时会出现以下问题。

#attempt
library(purrr)
url_base <-"https://secure.capitalbikeshare.com/profile/trips/QNURCMF2Q6"
map_df(1:70, function(i) {
cat(".")
pg <- read_html(sprintf(url_base, i))   
data.frame( startd=html_text(html_nodes(pg, ".ed-table__col_trip-start-date")), 
endd=html_text(html_nodes(pg,".ed-table__col_trip-end-date")),
duration=html_text(html_nodes(pg, ".ed-table__col_trip-duration"))
)
}) -> table

#attempt 2 (with just one data column)
url_base <-"https://secure.capitalbikeshare.com/profile/trips/QNURCMF2Q6"
map_df(1:70, function(i) {
page %>% html_nodes(".ed-table__item_odd") %>% html_text()
}) -> table

解决方案：

library(rvest)pgsession<-html_session(login)pgform<-html_form(pgsession)[[2]]filled_form<-set_values(pgform, email="*****", password="*****")submit_form(pgsession, filled_form)#pre allocate the final results dataframe.results<-data.frame()  for (i in 1:5){
  url<-"http://stackoverflow.com/users/**********?tab=answers&sort=activity&page="
  url<-paste0(url, i)
  page<-jump_to(pgsession, url)

  #collect question votes and question title
  summary<-html_nodes(page, "div .answer-summary")
  question<-matrix(html_text(html_nodes(summary, "div"), trim=TRUE), ncol=2, byrow = TRUE)

  #find date answered, hyperlink and whether it was accepted
  dateans<-html_node(summary, "span") %>% html_attr("title")
  hyperlink<-html_node(summary, "div a") %>% html_attr("href")
  accepted<-html_node(summary, "div") %>% html_attr("class")

  #create temp results then bind to final results 
  rtemp<-cbind(question, dateans, accepted, hyperlink)
  results<-rbind(results, rtemp)}#Dataframe Clean-upnames(results)<-c("Votes", "Answer", "Date", "Accepted", "HyperLink")results$Votes<-as.integer(as.character(results$Votes))results$Accepted<-ifelse(results$Accepted=="answer-votes default", 0, 1)

以上就是连续抓取多个页面的使用方法，营销推广、爬虫数据采集、广告补量等ip问题，可以尝试下太阳http代理，助力解决多行业ip问题，免费送10000ip试用。

关于“python爬虫时怎么使用R连续抓取多个页面”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

文章标题：python爬虫时怎么使用R连续抓取多个页面
当前路径：http://www.cdkjz.cn/article/pigicp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫时怎么使用R连续抓取多个页面

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫时怎么使用R连续抓取多个页面

相关资讯

中国服务器安全吗百度知道 中国的服务器怎么样

sap系统中利润中心的简单介绍

linux的命令学习 linux的命令详解

vb.net保存word vb如何保存frm

决策数据库php 决策数据库涉及当前数据和

阿里云服务器如何部署nodejs 阿里云服务器如何部署springboot项目

智能聊天换语言 chatwork怎么修改语言

vb.net自定义属性 vb自定义对话框

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

中国服务器安全吗百度知道中国的服务器怎么样

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接