网站建设 >

查看其它板块

Python爬虫网页，解析工具lxml.html（二）

【前情回顾】如何灵活的解析网页，提取我们想要的数据，是我们写爬虫时非常关心和需要解决的问题。

额尔古纳ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为创新互联建站的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：18982081108（备注：SSL证书合作）期待与您的合作！

从Python的众多的可利用工具中，我们选择了lxml的，它的好我们知道，它的妙待我们探讨。前面我们已经从HTML字符串转换成的HtmlElement对象，接下来我们就探讨该如何操作这个的HtmlElement对象。

lxml.html的HtmlElement对象的各种属性和方法

这个的HtmlElement对象有各种方法，我们重点讨论跟解析网页相关的函数，而修改这个对象的方法若与提取内容相关也一并介绍，介绍过程结合下面这段HTML代码以便更好说明问题：


    abclink

.attrib属性和.get（）方法

前者是html tag的属性集合，以字典表示;后者是取得某个属性的值，相当于字典的.get（）方法。看示例：

In [35]: doc = lxml.html.fromstring('abclink

') In [37]: doc.attrib Out[37]: {'class': 'post', 'id': '123'} In [38]: doc.get('class') Out[38]: 'post'

.drop_tag（）方法

移除该html标签，但保留它的子节点和文本并合并到该标签的父节点。

In [46]: doc = lxml.html.fromstring('abclink

') In [47]: doc.find('.//p').drop_tag() In [48]: lxml.html.tostring(doc) Out[48]: b'abclink'

.drop_tree（）方法

移除该节及其子节点和文本，而它后面的文本（尾文）合并到前面一个节点或父节点。

In [50]: doc = lxml.html.fromstring('abclink')
In [51]: doc.find('.//p').drop_tree()
In [52]: lxml.html.tostring(doc)
Out[52]: b''

.find（path）,. find（path）,. findtext（path）方法

通过路径（Xpath的）或标签查找特定节点，前者返回找到的第一个，第二个返回找到的全部HTML元素，第三个返回找到的第一个的节点的文本（的.text）

In [55]: doc = lxml.html.fromstring('abclink')
In [56]: doc.find('p')
Out[56]: 
In [57]: doc.find('.//a')
Out[57]: 
In [58]: doc.findall('p')
Out[58]: []
In [76]: doc.findtext('.//a')
Out[76]: 'link'

.find_class（CLASS_NAME）方法

通过类名称查找所有含有CLASS_NAME的元素，返回的HtmlElement的列表

In [70]: doc = lxml.html.fromstring('abclink
')
In [71]: doc.find_class('para')
Out[71]: [, ]

.get_element_by_id（id）方法

得到第一个ID为输入ID的节点。如果有多个相同ID的节点（按道理讲，一个HTML文档里面的ID是唯一的）只返回第一个。

In [79]: doc = lxml.html.fromstring('abclink')
In [80]: doc.get_element_by_id('123')
Out[80]:

.getchildren（），getparent（）方法

顾名思义，获得孩子节点和父节点。需要注意的是，还是可以有多个（返回列表），父亲只有一个。

In [83]: doc = lxml.html.fromstring('abclink')
In [84]: doc.getchildren()
Out[84]: []
In [85]: doc.getparent()
Out[85]: 
# 注意：输入的本没有body，div已经是最上层节点，它的父节点就是body了

.getnext（）。getprevious（）方法

获取后一个或前一个节点，如果没有则返回无。

In [109]: doc = lxml.html.fromstring('abc
xyz')
In [110]: doc.getnext()
In [111]: doc.find('p').getnext()
Out[111]: 
In [112]: doc.find('p').getprevious()

.getiterator（）,. iter（）方法

从该节点开始，按文档顺序（深度优先）遍历所有子节点。可以指定只遍历某些标签。

In [127]: doc = lxml.html.fromstring('abclink')
In [128]: for itr in doc.getiterator():
     ...:     print(itr.tag)
     ...: 
div
p
a
In [129]: for itr in doc.iter():
     ...:     print(itr.tag)
     ...: 
div
p
a

.iterchildren（）方法

只遍历子节点。

.iterancestors（）。iterdescendants（）方法

前者遍历前辈（从父亲节点开始），后者遍历后辈（从子辈开始），都跳过该节点。

In [134]: doc = lxml.html.fromstring('abclink')
In [135]: a = doc.find('.//a')
In [136]: for itr in doc.iterancestors():
     ...:     print(itr.tag)
     ...: 
body
html
In [137]: for itr in a.iterancestors():
     ...:     print(itr.tag)
     ...: 
p
div
body
html
In [138]: for itr in doc.iterdescendants():
     ...:     print(itr.tag)
     ...: 
p
a

.iterfind（path）方法

遍历所有符合路径的子节点，类似于的findall（）

.make_links_absolute（BASE_URL）

很多网页的链接都是类似HREF =” /路径/ a.html”没有写全网址，这个方法的作用就是补全网址。

.tag属性

该节点的html标签名称

.text .tail属性

都是该节点的文本内容，不同的是一个在标签内，一个在尾部：

text

tail

再看下面的代码

In [173]: doc = lxml.html.fromstring('abclinkworod
apple')
In [174]: p = doc.find('p')
In [175]: p.text
Out[175]: 'abc'
In [176]: p.tail
Out[176]: 'apple'

.text_content（）方法

返回给节点及其子节点包含的所有文本

In [178]: doc.text_content()
Out[178]: 'abclinkworodapple'

以上就是我们从网页提取内容时用到的主要属性和方法。下一节，我们将以实例讲解具体提取数据的过程。

文章题目：Python爬虫网页，解析工具lxml.html（二）
转载注明：http://www.cdkjz.cn/article/jsohdi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

云主机虚拟主机购买二枢服务器托管成都VI设计宜宾网站营销推广 java虚拟主机成都二枢机房凯亚自动化控制四川艺考培训绵阳服务器托管

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫网页，解析工具lxml.html（二）

lxml.html的HtmlElement对象的各种属性和方法

.attrib属性和.get（）方法

.drop_tag（）方法

.drop_tree（）方法

.find（path）,. find（path）,. findtext（path）方法

.find_class（CLASS_NAME）方法

.get_element_by_id（id）方法

.getchildren（），getparent（）方法

.getnext（）。getprevious（）方法

.getiterator（）,. iter（）方法

.iterchildren（）方法

.iterancestors（）。iterdescendants（）方法

.iterfind（path）方法

.make_links_absolute（BASE_URL）

.tag属性

.text .tail属性

.text_content（）方法

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫网页，解析工具lxml.html（二）

lxml.html的HtmlElement对象的各种属性和方法

.attrib属性和.get（）方法

.drop_tag（）方法

.drop_tree（）方法

.find（path）,. find（path）,. findtext（path）方法

.find_class（CLASS_NAME）方法

.get_element_by_id（id）方法

.getchildren（），getparent（）方法

.getnext（）。getprevious（）方法

.getiterator（）,. iter（）方法

.iterchildren（）方法

.iterancestors（）。iterdescendants（）方法

.iterfind（path）方法

.make_links_absolute（BASE_URL）

.tag属性

.text .tail属性

.text_content（）方法

相关资讯

php数据库源代码 php数据库语句

java绘图代码查询 java画图代码

go语言数据分析 go语言数据类型

go语言遍历map go语言遍历树形

公众号域名证书过期怎么办 公众号域名到期了怎么办

阿里云服务器2核4g508贵不贵 阿里云服务器1核2g够用吗

阿里云边缘计算服务器 阿里云边缘计算服务器是什么

linux命令多余 linux怎么删除多个文件

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

公众号域名证书过期怎么办公众号域名到期了怎么办

阿里云服务器2核4g508贵不贵阿里云服务器1核2g够用吗

阿里云边缘计算服务器阿里云边缘计算服务器是什么

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接