Wo beginnen Suchmaschinen zu crawlen?

https://stackoverflow.com/questions/41419

search-engine

09-06-2019
|

Frage

Was nutzen Suchmaschinen-Bots als Ausgangspunkt?Handelt es sich um eine DNS-Suche oder beginnen sie mit einer festen Liste bekannter Websites?Irgendwelche Vermutungen oder Vorschläge?

Lösung

Ihre Frage kann auf zwei Arten interpretiert werden:

Sie fragen sich, wo Suchmaschinen im Allgemeinen mit dem Crawlen beginnen oder wo sie mit dem Crawlen einer bestimmten Website beginnen?

Ich weiß nicht, wie die großen Player arbeiten;aber wenn Sie Ihre eigene Suchmaschine erstellen würden, würden Sie diese wahrscheinlich mit beliebten Portalseiten ausstatten. DMOZ.org scheint ein beliebter Ausgangspunkt zu sein.Da die großen Player über so viel mehr Daten verfügen als wir, beginnen sie ihre Crawls wahrscheinlich an verschiedenen Stellen.

Wenn Sie fragen, wo ein SE mit dem Crawlen Ihrer bestimmten Website beginnt, hat das wahrscheinlich viel damit zu tun, welche Ihrer Seiten am beliebtesten sind.Ich stelle mir vor, wenn Sie eine sehr beliebte Seite haben, auf die viele andere Websites verlinken, dann wäre das die Seite, von der aus SEs starten, weil es so viele weitere Einstiegspunkte von anderen Websites gibt.

Beachten Sie, dass ich mich nicht mit SEO oder so beschäftige;Ich habe gerade eine Weile Bot- und SE-Verkehr für ein Projekt studiert, an dem ich gearbeitet habe.

Andere Tipps

Sie können Ihre Website über diese bei Suchmaschinen einreichen Formulare für die Einreichung von Websites - Dadurch gelangen Sie in ihr System.Wann Sie danach tatsächlich gecrawlt werden, lässt sich nicht sagen – erfahrungsgemäß dauert es in der Regel etwa eine Woche für einen ersten Crawl (Homepage, einige andere Seiten 1-Link-tief von dort).Sie können die Anzahl Ihrer Seiten, die gecrawlt und indiziert werden, erhöhen, indem Sie eine klare semantische Linkstruktur verwenden und eine E-Mail senden Seitenverzeichnis – Damit können Sie alle Ihre Seiten auflisten und sie im Verhältnis zueinander gewichten, was den Suchmaschinen hilft, zu verstehen, wie wichtig Ihnen die einzelnen Teile der Website im Verhältnis zu den anderen sind.

Wenn Ihre Website von anderen gecrawlten Websites aus verlinkt ist, wird Ihre Website ebenfalls gecrawlt, beginnend mit der verlinkten Seite und schließlich auf den Rest Ihrer Website ausgeweitet.Dies kann lange dauern und hängt von der Crawling-Frequenz der verlinkten Websites ab. Daher ist die URL-Übermittlung der schnellste Weg, Google über Sie zu informieren!

Ein Tool, das ich nicht genug empfehlen kann, ist das Google Webmaster-Tool.Hier können Sie sehen, wie oft Sie gecrawlt wurden, welche Fehler der Googlebot entdeckt hat (defekte Links usw.) und es enthält eine Vielzahl weiterer nützlicher Tools.

Im Prinzip beginnen sie mit nichts.Nur wenn jemand ihn ausdrücklich dazu auffordert, seine Website einzuschließen, kann er mit dem Crawlen dieser Website beginnen und die Links auf dieser Website verwenden, um weitere Suchanfragen durchzuführen.

In der Praxis fügen die Ersteller einer Suchmaschine jedoch beliebige Websites ein, die ihnen einfallen.Zum Beispiel ihre eigenen Blogs oder die Websites, die sie in ihren Lesezeichen haben.

Theoretisch könnte man auch einfach ein paar zufällige Adressen auswählen und schauen, ob es dort eine Website gibt.Ich bezweifle jedoch, dass irgendjemand dies tut.Die obige Methode funktioniert einwandfrei und erfordert keine zusätzliche Codierung, nur um die Suchmaschine zu booten.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow