首页 / 知识
HTML中的HTML Scraping
2023-04-13 14:29:00

HTML Scraping in Php本问题已经有最佳答案,请猛点这里访问。
我一直在用正则表达式在PHP中做一些HTML抓取。这是可行的,但结果是脆弱和脆弱的。有人使用过提供更强大解决方案的软件包吗?配置驱动的解决方案是理想的,但我并不挑剔。 我建议在您从页面中抓取HTML之后,使用PHP简单的HTML DOM解析器。它支持无效的HTML,并提供了处理HTML元素的非常简单的方法。 我还推荐"简单的HTML DOM解析器"。这是一个很好的选择,特别是如果您熟悉jquery或javascript选择器,那么您会发现自己在家里。 我以前甚至写过博客。 我在使用HTMLSQL时有一些乐趣,这不是一个高端解决方案,但非常简单。 如果您正在抓取的页面是有效的x(ht)ml,那么PHP的任何内置XML解析器都可以。 我在使用PHP库进行抓取方面没有太大的成功。如果你有冒险精神,你可以试试简单的。我推荐红宝石版的hpricot,或者Python版的靓汤,这两个版本都是优秀的HTML解析器。 虽然我个人使用curl+regexp,但我推荐使用php进行HTML刮削,curl+regexp或curl+some dom解析器。如果你对regexp有深刻的品味,那么有时候它实际上更准确。 我不得不在我的主人1和1上使用卷发。 http://www.quickcrape.com/是我用简单的dom类想到的! 我对上面提到的简单的HTMLDOM解析器也有很好的理解。另外还有一个PHP的整洁扩展,它也很好地工作。 |
最新内容
相关内容
Python安装和配置环境变量
Python安装和配置环境变量,系统,位置,培训,环境变量,变量,分号,编辑,内容,语法,路径,一、Python的安装:在网上找一个python的安装包,我找的pythPytorch入门之配置云服务器环境
Pytorch入门之配置云服务器环境,环境,平台,流程,代码,数据,工具,平稳,网络,时间,网上,Pytorch简介Pytorch底层是Torch框架,Torch框架是一个科关于 Python 配置文件的使用方法
关于 Python 配置文件的使用方法,代码,灵活,项目,名字,培训,模块,程序,方式,内容,用户,很多项目对配置文件的使用做法是:配置文件写在一个或python的配置文件怎样写?
python的配置文件怎样写?,数据,检测,名字,培训,类型,浮点,函数,列表,存在,文件,python的配置文件这样写:一、创建配置文件在D盘建立一个配置文python正则表达式使用
python正则表达式使用,位置,培训,一致,字符串,函数,模式,对象,模块,参数,表达式,正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字python正则表达式如何匹配内容
python正则表达式如何匹配内容,培训,检测,对象,内容,正则,字符串,函数,实例,文本,以上,1、编写Python正则表达式字符串s。2、使用re.compile(使用SQL Server配置Lucene.Net
使用SQL Server配置Lucene.Net,使用SQL Server配置Lucene.Net,文本,搜索,我会,是这样,Configure Lucene.Net with SQL Server有人使关于正则表达式:将URL转换为C#字符串
关于正则表达式:将URL转换为C#字符串中的超链接的最简单方法?,关于正则表达式:将URL转换为C#字符串中的超链接的最简单方法?,方法,超链接,XML解析器验证报告
XML解析器验证报告,XML解析器验证报告,解析器,规范,文档,错误,XML Parser Validation Report在文档中出现第一个错误后,大多数XML解析关于正则表达式:如何使用多个RE引擎
关于正则表达式:如何使用多个RE引擎测试正则表达式?,关于正则表达式:如何使用多个RE引擎测试正则表达式?,正则表达式,这又,引擎,测试,How如何检查运行时使用的Visual Studi
如何检查运行时使用的Visual Studio的活动解决方案配置?,如何检查运行时使用的Visual Studio的活动解决方案配置?,配置,自定义,解决方强制解决方案资源管理器在Visual S
强制解决方案资源管理器在Visual Studio 2005的编辑器中选择文件,强制解决方案资源管理器在Visual Studio 2005的编辑器中选择文件