首页 / 知识
关于regex:用于HTML解析的Python正则表达式(BeautifulSoup)
2023-04-14 21:49:00

Python regular expression for HTML parsing (BeautifulSoup)我想获取HTML中隐藏的输入字段的值。
我想用Python写一个正则表达式,该表达式将返回
有人可以在Python中提供一个示例来解析HTML的值吗? 对于这种特殊情况,BeautifulSoup比正则表达式更难编写,但是它更健壮...我只是在BeautifulSoup示例中做出了贡献,因为您已经知道要使用哪个正则表达式:-) 我同意Vinko BeautifulSoup是必经之路。但是我建议使用 解析是您真正不想自己避免的领域之一,因为您将追逐边缘情况,并且错误会持续很多年 我建议您使用BeautifulSoup。它具有很高的声誉,并且从文档中看起来非常易于使用。 Pyparsing是BeautifulSoup和regex之间的一个很好的过渡步骤。它比正则表达式更强大,因为它的HTML标签解析可以理解大小写,空格,属性存在/不存在/顺序的变化,但是比起使用BS,进行这种基本标签提取更容易。 您的示例特别简单,因为您要查找的所有内容都位于打开的" input"标记的属性中。这是一个pyparsing示例,显示了输入标签上的几种变体,这些变体将使正则表达式适合,并且还显示了如何在标记中添加不匹配的标记:
打印:
您可以看到pyparsing不仅匹配了这些不可预测的变化,而且还返回了对象中的数据,从而可以轻松地读取各个标签属性及其值。
|
最新内容
相关内容
linux输入过的命令?
linux输入过的命令?,系统,地址,数字,命令,工具,工作,环境,界面,历史,指令,linux系统查看自己在linux上使用过的前10次命令1、首先打开Linux直编程解析linux命令?
编程解析linux命令?,系统,标准,基础,设备,发行,电脑,工具,密码,名字,适当,如何学习linux命令之ls的使用ls Linux常用命令中,ls用于列出当前路径linux命令输入在那?
linux命令输入在那?,系统,工具,电脑,命令,终端,发行,工作,管理,密码,下面,linux在哪里输入命令1、使用用户名和密码登录到Linux系统,点击“活动linux输入文本命令?
linux输入文本命令?,系统,位置,电脑,工作,首开,命令,终端,模式,指令,字符,如何在Linux系统中使用终端打开和编辑文本文档1、打开终端。点击菜手机输入linux命令?
手机输入linux命令?,系统,手机,软件,电脑,设备,管理,工作,命令,领导,第一,linux中的命令如何输入1、linux常用命令:pwd命令该命令的英文解释为plinux文件输入命令?
linux文件输入命令?,工作,系统,地址,信息,工具,位置,命令,设备,发行,首开,linux中使用vi指令后怎么输入?1、[Ctrl]+[f]:屏幕向下移动一页,相当于linux命令行不能输入?
linux命令行不能输入?,工作,系统,电脑,服务,命令,名字,首次,百度,管理,第一,linux中的命令如何输入linux常用命令:pwd命令该命令的英文解释为prlinux中命令如何输入?
linux中命令如何输入?,系统,电脑,地址,工具,发行,命令,终端,密码,名字,网站,linux系统终端命令怎么输入直接在终端显示页面输入相应的命令即可linux下抓取字段命令?
linux下抓取字段命令?,数据,系统,命令,单位,报告,工具,字符串,文件,范本,样式,Linux系统怎么使用awk命令处理文字数据?其中command是真正的awklinux正向解析命令?
linux正向解析命令?,系统,工作,地址,命令,管理,单位,信息,数据,目录,常用命令,Linux常用命令以及解释1、linux常用命令:pwd命令该命令的英文解linux输入命令变乱码?
linux输入命令变乱码?,系统,统一,乱码,地方,情况,数据,中文,字符集,服务器,命令,linux下输入命令后,显示有乱码如何解决此时有两种消除乱码的linux快捷输入命令?
linux快捷输入命令?,系统,位置,命令,终端,名称,首页,分行,第一,快捷键,窗口,linux中的命令是在哪里输入的?可以在 Windows 上运行 Linux 命令