搜索引擎从哪里开始抓取？

https://stackoverflow.com/questions/41419

search-engine

09-06-2019
|

题

搜索引擎机器人以什么为起点？是 DNS 查找还是从一些固定的知名站点列表开始？有什么猜测或建议吗？

解决方案

你的问题可以用两种方式解释：

您是在问搜索引擎一般从哪里开始抓取，或者从哪里开始抓取特定网站？

我不知道大玩家是如何运作的；但如果您要制作自己的搜索引擎，您可能会在流行的门户网站中植入它。 DMOZ.org 似乎是一个流行的起点。由于大公司拥有的数据比我们多得多，他们可能会从不同的地方开始爬行。

如果您询问 SE 从哪里开始抓取您的特定网站，它可能与您的哪些页面最受欢迎有很大关系。我想，如果你有一个超级受欢迎的页面，有很多其他网站链接到，那么这将是 SE 启动的页面，因为有更多来自其他网站的入口点。

请注意，我不从事 SEO 或其他任何工作；我刚刚为我正在从事的一个项目研究了机器人和 SE 流量一段时间。

其他提示

您可以使用搜索引擎将您的网站提交给搜索引擎网站提交表格 - 这会让你进入他们的系统。当你真正被爬行之后，这是不可能的——根据经验，初始爬行通常需要大约一周左右的时间（主页，从那里深入的其他几个页面1-链接）。您可以使用清晰的语义链接结构并提交一个站点地图 - 这些允许您列出所有页面，并将它们相对于彼此进行加权，这有助于搜索引擎了解您查看网站的每个部分相对于其他部分的重要性。

如果您的网站是从其他已抓取的网站链接的，那么您的网站也将被抓取，从链接的页面开始，并最终传播到网站的其余部分。这可能需要很长时间，并且取决于链接网站的抓取频率，因此提交网址是让谷歌了解您的最快方式！

我强烈推荐的一个工具是谷歌网站管理员工具. 。它可以让你看到你被抓取的频率，谷歌机器人偶然发现的任何错误（损坏的链接等），并且有许多其他有用的工具。

原则上他们是从零开始的。只有当有人明确告诉他们包含他们的网站时，他们才能开始抓取该网站并使用该网站上的链接来搜索更多内容。

然而，在实践中，搜索引擎的创建者会放入一些他们能想到的任意站点。例如，他们自己的博客或书签中的网站。

理论上，人们也可以随机选择一些地址，看看那里是否有网站。但我怀疑有人这样做；上述方法可以很好地工作，并且不需要额外的编码来引导搜索引擎。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow