首页 / 知识

搜索引擎从哪里开始爬网?

2023-04-14 01:24:00

搜索引擎从哪里开始爬网?

Where do search engines start crawling?

搜索引擎机器人以什么为起点? 是DNS查找还是从一些固定的知名站点开始? 有任何猜测或建议吗?


您的问题可以通过两种方式解释:

您是在问搜索引擎通常从哪里开始搜索,还是从哪里开始搜索特定站点?

我不知道大公司的工作方式;但是,如果您要创建自己的搜索引擎,则可能会用受欢迎的门户网站作为种子。 DMOZ.org似乎是一个受欢迎的起点。由于大型企业拥有比我们更多的数据,因此他们很可能从多个地方开始爬网。

如果您要询问SE从何处开始抓取您的特定站点,则可能与您的哪些页面最受欢迎有关。我想如果您有一个超级受欢迎的页面,很多其他站点都链接到该页面,那么SE将是从该页面开始输入的页面,因为来自其他站点的入口点很多。

请注意,我没有使用SEO或其他工具;我刚研究了一段时间的机器人和SE流量。


您可以使用他们的网站提交表单将网站提交给搜索引擎-这将带您进入他们的系统。当您真正爬网之后,这是很难说的-根据经验,初次爬网通常大约需要一周左右的时间(首页,其他几个页面从那里深处链接到一起)。您可以使用清晰的语义链接结构并提交站点地图来增加检索和索引页面的数量-这些可以让您列出所有页面,并相对彼此进行权重,这有助于搜索引擎了解您查看的重要性网站的每个部分相对于其他部分。

如果您的站点是从其他已爬网的网站链接的,则从链接的页面开始,您的站点也将被爬网,并最终扩展到您站点的其余部分。这可能会花费很长时间,并且取决于链接站点的爬网频率,因此,URL提交是让Google知道您的最快方法!

我不能推荐的一种工具是Google网站站长工具。它可以让您查看您被抓取的频率,googlebot偶然发现的任何错误(链接断开等),并具有许多其他有用的工具。


原则上,它们从零开始。只有当有人明确告诉他们包括他们的网站时,他们才可以开始爬网该网站并使用该网站上的链接进行更多搜索。

但是,在实践中,搜索引擎的创建者将放置一些他们可以想到的任意站点。例如,他们自己的博客或书签中包含的网站。

从理论上讲,也可以选择一些随机的地址,看看那里是否有一个网站。我怀疑有人这样做吗?上面的方法可以很好地工作,并且不需要额外的编码即可引导搜索引擎。


站点查找搜索解释

最新内容

相关内容

热门文章

推荐文章

标签云

猜你喜欢