首页 / 知识
搜索引擎从哪里开始爬网?
2023-04-14 01:24:00

Where do search engines start crawling?搜索引擎机器人以什么为起点? 是DNS查找还是从一些固定的知名站点开始? 有任何猜测或建议吗? 您的问题可以通过两种方式解释: 您是在问搜索引擎通常从哪里开始搜索,还是从哪里开始搜索特定站点? 我不知道大公司的工作方式;但是,如果您要创建自己的搜索引擎,则可能会用受欢迎的门户网站作为种子。 DMOZ.org似乎是一个受欢迎的起点。由于大型企业拥有比我们更多的数据,因此他们很可能从多个地方开始爬网。 如果您要询问SE从何处开始抓取您的特定站点,则可能与您的哪些页面最受欢迎有关。我想如果您有一个超级受欢迎的页面,很多其他站点都链接到该页面,那么SE将是从该页面开始输入的页面,因为来自其他站点的入口点很多。 请注意,我没有使用SEO或其他工具;我刚研究了一段时间的机器人和SE流量。 您可以使用他们的网站提交表单将网站提交给搜索引擎-这将带您进入他们的系统。当您真正爬网之后,这是很难说的-根据经验,初次爬网通常大约需要一周左右的时间(首页,其他几个页面从那里深处链接到一起)。您可以使用清晰的语义链接结构并提交站点地图来增加检索和索引页面的数量-这些可以让您列出所有页面,并相对彼此进行权重,这有助于搜索引擎了解您查看的重要性网站的每个部分相对于其他部分。 如果您的站点是从其他已爬网的网站链接的,则从链接的页面开始,您的站点也将被爬网,并最终扩展到您站点的其余部分。这可能会花费很长时间,并且取决于链接站点的爬网频率,因此,URL提交是让Google知道您的最快方法! 我不能推荐的一种工具是Google网站站长工具。它可以让您查看您被抓取的频率,googlebot偶然发现的任何错误(链接断开等),并具有许多其他有用的工具。 原则上,它们从零开始。只有当有人明确告诉他们包括他们的网站时,他们才可以开始爬网该网站并使用该网站上的链接进行更多搜索。 但是,在实践中,搜索引擎的创建者将放置一些他们可以想到的任意站点。例如,他们自己的博客或书签中包含的网站。 从理论上讲,也可以选择一些随机的地址,看看那里是否有一个网站。我怀疑有人这样做吗?上面的方法可以很好地工作,并且不需要额外的编码即可引导搜索引擎。 |
最新内容
相关内容
linux各种命令的解释?
linux各种命令的解释?,地址,工作,系统,信息,命令,目录,时间,管理,控制台,常用命令,linux的常用命令有哪些呢???希望带上解释date:打印或者设置linux搜索过去命令?
linux搜索过去命令?,系统,信息,命令,名称,工作,预期,数字,地址,标准,服务,Linux系统中怎么搜索文件命令大全grep命令 grep是一个强大的文本搜linux路径命令解释?
linux路径命令解释?,系统,信息,设备,数据,工具,命令,文件,标准,发行,时间,linux查看路径命令1、linux命令如果记不得,可以使用man命令来查看某linux命令搜索命令?
linux命令搜索命令?,系统,位置,地址,标准,管理,信息,命令,名称,工作,文件,Linux下Grep命令的详细使用方法?查找root目录下包含Linux的文件,命令linux命令查找字符串?
linux命令查找字符串?,工具,信息,命令,字符串,系统,工作,文件,范本,样式,文本,Linux中使用grep命令,查询多个字符串Linux grep命令用于查找文linux日志搜索命令?
linux日志搜索命令?,信息,系统,对比,工具,一致,日志,文件,命令,实时,网络,linux查看日志的命令是?具体怎么用第一种:查看实时变化的日志(比较吃linux命令字符搜索?
linux命令字符搜索?,系统,工具,命令,灵活,信息,工作,字符串,文本,文件,模式,linux命令grep1、在linux中grep命令是非常有用的,它和管道(|)配合linux查找权限命令?
linux查找权限命令?,系统,地址,工作,命令,文件,信息,概念,时间,标准,权限,Linux用户以及权限相关常用命令总结sudo和su类似,有一些附加的属性,管linux查找和替换命令?
linux查找和替换命令?,工作,系统,数据,字符串,文件,命令,实时,管理,首次,信息,linux下批量查询文件内容字符串并替换替换字符串:把./salt/*目前linux命令查找内存?
linux命令查找内存?,情况,系统,信息,工具,状态,分析,数字,内存,命令,适当,怎样知道linux系统内存的使用情况1、linux查看内存使用情况的方法是linux查找文件名命令?
linux查找文件名命令?,系统,信息,工具,命令,文件,字符串,样式,管道,文本,动作,linux命令grep在linux中grep命令是非常有用的,它和管道(|)配合使linux命令查找顺序?
linux命令查找顺序?,时间,地址,工作,命令,系统,文件,本行,灵活,标准,信息,Linux命令linux系统常用操作命令如下:ls:全拼list,功能是列出目录的内