О поисковых системах:как они делают скриншоты веб-сайтов?

StackOverflow https://stackoverflow.com/questions/1719608

  •  19-09-2019
  •  | 
  •  

Вопрос

Возможно, это глупый вопрос, но я действительно понятия не имею, и мне очень любопытно!Так что, пожалуйста, потерпите меня.

Я знаю, что поисковые системы просто читают HTML и слова на сайте.Они обычно игнорируют CSS или его часть.Возможно, они не умеют читать изображения.Они?

Если они действительно не могут или игнорируют их читать, то мой вопрос заключается в том, как они делают снимок экрана, то есть страницу, которая представляется так, как это делает CSS, и содержит изображения.

Если они не читают CSS, изображения, а также им не нравится, когда человек открывает их на своем экране.Как они скриншот делают?
Спасибо!

Это было полезно?

Решение

Вы имеете в виду новую функцию скриншотов Google или их старую функцию кэширования?В вашем вопросе речь идет о скриншотах и ​​вообще не упоминается кеш, но ваши комментарии к вашему вопросу, похоже, подразумевают, что вы имеете в виду кеш, а не скриншоты.

В случае со скриншотами:

Вы правы в том, что поисковые системы обычно читать только HTML и текст на веб-сайте, потому что это все, что им нужно.Но это не значит, что они не мочь.

Когда они хотят сделать снимок экрана сайта, они просто делают то же, что делает обычный браузер, когда пользователь посещает сайт.Загрузите веб-сайт, CSS, изображения и все остальное и визуализируйте их с помощью механизма рендеринга веб-браузера, такого как WebKit.

В случае с кэшем:

Поисковая система обычно просто сохраняет HTML без его анализа или перед его анализом.Он отправляет сохраненный HTML-код в ваш браузер, а ваш браузер извлекает все остальное на странице (изображения и т. д.) с исходного веб-сайта.Поисковая система ничего не читает, а просто сохраняет страницу дословно (ну, с небольшими изменениями, а именно переписыванием URL) и отдает ее вашему браузеру.

Другие советы

Существуют приложения, которые делают скриншоты страниц, как если бы они отображались в выбранном браузере.

Браузершот является примером онлайн-сервиса, который это делает.

Вот несколько ссылок и проектов генератора миниатюр веб-страниц:

Возможно я не понимаю вашего вопроса, но...

Кажется, вы используете «прочитать изображение», имея в виду загрузку данных с изображения в поисковую систему.Это делает поисковая система (включая CSS).Когда люди говорят, что поисковые системы игнорируют изображения, они имеют в виду, что они не рассматривают их как значимые данные, доступные для поиска.Другими словами, если я создаю изображение со словом «Привет», вы и я «читаем» его в том смысле, что мы видим и понимаем, что изображение содержит слово.Поисковая система обычно не пытается это сделать, однако поисковая система «считает» изображение в свое хранилище, если она хочет иметь возможность представить его пользователю позже.

Поисковая система не использует CSS и содержимое изображений для индексации, но может хранить их на своих серверах, чтобы создать кешированную версию сайта.

В случае с Google я думаю, что они хранят только текстовые файлы, то есть HTML, CSS, возможно, JavaScript, но не изображения.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top