A propos des moteurs de recherche: comment ils prennent des captures d'écran des sites Web?

https://stackoverflow.com/questions/1719608

snapshot

19-09-2019
|

Question

Cela peut être une question stupide, mais je ne sais vraiment pas et je suis tout à fait curieux! Alors, s'il vous plaît garder avec moi.

Ce que je sais est les moteurs de recherche lire simplement HTML et des mots dans un site. Ils ignorent généralement CSS ou une partie de celui-ci. Ils ne peuvent pas lire sans doute des images. Est-ce qu'ils?

S'ils ne peuvent pas vraiment ignorer ou de lire ceux-ci, alors ma question est de savoir comment ils font capture d'écran, ce qui est une page qui est présenté juste la façon que CSS fait, et a des images.

S'ils ne lisent pas le CSS, les images, et ils ne l'aiment pas aussi l'être humain pour l'ouvrir dans son écran. Comment font-ils la capture d'écran?
Merci!

La solution

Vous parlez de nouvelle fonctionnalité de capture d'écran, ou leur ancienne fonction de cache de Google? Votre question parle de captures d'écran et ne mentionne pas le cache du tout, mais semble vos commentaires sur votre question implique que vous faites référence au cache, pas les captures d'écran.

Dans le cas des captures d'écran:

Vous avez raison en ce que les moteurs de recherche habituellement lire seulement le HTML et le texte sur un site Web, parce qu'ils ont tous besoin est. Mais cela ne signifie pas qu'ils ne peuvent pas .

Quand ils veulent prendre une capture d'écran d'un site, ils vont simplement faire exactement ce qu'est un navigateur normal fait lorsqu'un utilisateur visite le site. Télécharger le site, le CSS, les images, et tout le reste, et le rendre avec le moteur de rendu d'un navigateur Web, tel que WebKit.

Dans le cas du cache:

Le moteur de recherche habituellement juste stocke le code HTML sans / avant l'analyser. Il envoie le code HTML enregistré sur votre navigateur et votre navigateur tire toutes les autres choses dans la page (images, etc.) à partir du site d'origine. Le moteur de recherche ne met rien à la lecture, il est juste sauver la page verbatim (bien, avec des modifications mineures, à savoir la réécriture d'URL), et donner à votre navigateur.

Autres conseils

Il y a des applications qui prend capture d'écran de pages comme si elle est affichée dans un navigateur choisi.

Browershot est un exemple de service en ligne qui le fait.

Voici quelques liens et des projets de générateur miniature page web:

Peut-être que je ne comprends pas votre question, mais ...

Vous semblez utiliser « lire une image » pour signifier charger les données de l'image au moteur de recherche. Ce moteur de recherche ne fait (y compris CSS). Quand les gens disent que les moteurs de recherche ignorent les images qu'ils veulent dire qu'il ne les considère pas comme des données interrogeables significatives. En d'autres termes, si je fais une image qui a le mot « Bonjour » à ce sujet et je vous « lire » dans le sens que nous voyons et comprenons que l'image contient un mot. Un moteur de recherche en général ne tentera pas de le faire, le moteur de recherche sera toutefois « lire » l'image dans son stockage si elle veut avoir la possibilité de présenter à un utilisateur que plus tard.

Moteur de recherche ne pas utiliser le contenu CSS et de l'image pour l'indexation, mais ils peuvent les stocker sur leurs serveurs pour faire une version mise en cache du site.

Dans le cas de Google, je pense qu'ils stockent uniquement les fichiers texte, de sorte que HTML, CSS, javascript peut-être, mais pas d'images.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow