qu'est-ce que vous appelez une technique d'araignée où l'araignée visite tous les liens du premier niveau, et tous les liens du deuxième niveau

https://stackoverflow.com/questions/1636098

web-crawler

06-07-2019
|

Question

j'ai oublié le nom d'un cas où une araignée Web sera

commence par visiter tous les liens qu’il voit au premier niveau. puis visite tous les liens qu'il voit sur le deuxième niveau. et ainsi de suite ...

il y a un nom pour cette technique .... j’ai oublié ...

De toute façon, c’est très exhaustif et évidemment inefficace. Y a-t-il un meilleur moyen?

Je me souviens avoir lu en été un article sur l'exploration efficace des pages Web (DSL ou quelque chose du genre, je ne sais pas ce que cela signifie) .... en résumé, il a discuté de la méthode "Déterminer les URL susceptibles de contenir des informations pertinentes et quelles URL doivent être ignorées, par exemple register, new account link..etc "

Je ne l'ai pas lu avec trop de détails, si l'un de ces trucs vous dit quelque chose, postez un lien, merci de poster un lien.

La solution

Cela ressemble à une "première recherche en largeur", par opposition à "une première recherche en profondeur". Dans le premier cas, vous examinez toutes vos options latéralement, pour ainsi dire, alors que dans le dernier cas, vous percez aussi profondément que possible sur chaque chemin en premier. C'est la terminologie de l'IA, je ne sais pas si elle est à la mode auprès des concepteurs d'outils Web. Quoi qu'il en soit, BFS consomme beaucoup de mémoire, mais est généralement utilisé lorsque vous voulez trouver un «résultat optimal», quelque chose (selon vos termes) au niveau le moins profond possible, alors que DFS a tendance à utiliser beaucoup moins de mémoire mais risque de manquer de meilleures solutions.

Si vous essayez simplement de cataloguer tous les liens, utilisez DFS. Si vous essayez de trouver quelque chose à la profondeur de lien la moins profonde, utilisez BFS.

Autres conseils

Recherche en profondeur d'abord.

Dans la théorie des graphes, la recherche en largeur par première (BFS) est une stratégie de recherche dans un graphe lorsque la recherche est limitée à deux opérations principales: (a) visiter et inspecter un noeud d'un graphe; (b) accéder aux nœuds voisins du nœud actuellement visité. Le système de fichiers BFS commence à un nœud racine et inspecte tous les nœuds voisins. Ensuite, pour chacun de ces nœuds voisins, il inspecte à leur tour leurs nœuds voisins qui n'étaient pas visités, et ainsi de suite. Comparez-le avec la recherche en profondeur d'abord.

http://fr.wikipedia.org/wiki/Breadth-first_search

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow