Как превратить динамический сайт в статический, который можно просмотреть с компакт-диска?

StackOverflow https://stackoverflow.com/questions/117467

  •  02-07-2019
  •  | 
  •  

Вопрос

Мне нужно найти способ просканировать одно из веб-приложений нашей компании и создать на его основе статический сайт, который можно будет записать на компакт-диск и использовать коммивояжерами для демонстрации веб-сайта.Внутреннее хранилище данных распределено по множеству систем, поэтому простой запуск сайта на виртуальной машине на ноутбуке продавца не сработает.И у них не будет доступа к интернету при некоторых клиентах (нет интернета, сотовый телефон....примитивно, я знаю).

Есть ли у кого-нибудь хорошие рекомендации для сканеров, которые могут обрабатывать такие вещи, как очистка ссылок, flash, немного ajax, css и т. д.?Я знаю, что шансы невелики, но я решил задать этот вопрос здесь, прежде чем приступить к написанию собственного инструмента.

Это было полезно?

Решение

wget или curl могут рекурсивно переходить по ссылкам и зеркально отображать весь сайт, так что это может быть хорошим выбором.Вы не сможете использовать по-настоящему интерактивные части сайта, такие как поисковые системы или что-либо, что изменяет данные.

Возможно ли вообще создать фиктивные серверные службы, которые могут работать с ноутбуков продавцов и с которыми может взаимодействовать приложение?

Другие советы

С помощью Веб-краулер, напримеродин из них:

  • DataparkSearch — это сканер и поисковая система, выпущенная под лицензией GNU General Public License.
  • GNU Wget — это сканер, управляемый из командной строки, написанный на C и выпущенный под лицензией GPL.Обычно он используется для зеркалирования веб-сайтов и FTP-сайтов.
  • HTTrack использует веб-сканер для создания зеркала веб-сайта для просмотра в автономном режиме.Он написан на языке C и выпущен под лицензией GPL.
  • ICDL Crawler — это кроссплатформенный веб-сканер, написанный на C++ и предназначенный для сканирования веб-сайтов на основе шаблонов анализа веб-сайтов, используя только свободные ресурсы процессора компьютера.
  • JSpider — это легко настраиваемый и настраиваемый движок веб-пауков, выпущенный под лицензией GPL.
  • Ларбен Себастьяна Айлере
  • Webtools4larbin от Андреаса Бедера
  • Metabot — это оптимизированный по скорости веб-сканер и утилита командной строки, написанная на C и выпущенная под лицензией BSD с двумя пунктами.Он имеет широкую систему конфигурации, систему модулей и поддержку целевого сканирования через локальную файловую систему, HTTP или FTP.
  • Jaeksoft WebSearch — это веб-сканер и индексатор, созданный на основе Apache Lucene.Он распространяется под лицензией GPL v3.
  • Nutch — это сканер, написанный на Java и выпущенный под лицензией Apache.Его можно использовать вместе с пакетом индексирования текста Lucene.
  • Pavuk — это инструмент веб-зеркала с командной строкой и дополнительным сканером X11 GUI, выпущенный под лицензией GPL.Он имеет множество расширенных функций по сравнению с wget и httrack, например.Правила фильтрации и создания файлов на основе регулярных выражений.
  • WebVac — это сканер, используемый Стэнфордским проектом WebBase.
  • WebSPHINX (Миллер и Бхарат, 1998) состоит из библиотеки классов Java, реализующей многопоточный поиск веб-страниц и анализ HTML, а также графического пользовательского интерфейса для установки начальных URL-адресов, извлечения загруженных данных и реализации базовой текстовой обработки. основанная поисковая система.
  • WIRE — среда поиска веб-информации [15] — это веб-сканер, написанный на C++ и выпущенный под лицензией GPL, включающий несколько политик для планирования загрузки страниц и модуль для создания отчетов и статистики по загруженным страницам, поэтому он использовался для веб-характеристики. .
  • LWP::RobotUA (Langheinrich, 2004) — это класс Perl для реализации хорошо работающих параллельных веб-роботов, распространяемых по лицензии Perl 5.
  • Веб-искатель Класс веб-искателя с открытым исходным кодом для .NET (написан на C#).
  • Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы...) как локально, так и по сети.Холмса спонсирует и коммерчески использует чешский веб-портал Centrum.Его также использует Onet.pl.
  • YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (под лицензией GPL).
  • Ruya Ruya — это высокопроизводительный и многоуровневый веб-сканер с открытым исходным кодом.Он используется для правильного сканирования английских и японских веб-сайтов.Он выпущен под лицензией GPL и полностью написан на языке Python.Реализация SingleDomainDelayCrawler подчиняется файлу robots.txt с задержкой сканирования.
  • Универсальный информационный сканер Быстро развивающийся веб-сканер.Сканирование Сохраняет и анализирует данные.
  • Ядро агента. Платформа Java для управления расписанием, потоками и хранилищем при сканировании.
  • Новости о пауках. Информация о создании паука на Perl.
  • Arachnode.NET — это беспорядочный веб-сканер с открытым исходным кодом для загрузки, индексирования и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы.Arachnode.net написан на C# с использованием SQL Server 2005 и распространяется под лицензией GPL.
  • Dine — это многопоточный HTTP-клиент/сканер Java, который можно запрограммировать на JavaScript, выпущенный под лицензией LGPL.
  • Crawljax — это сканер Ajax, основанный на методе, который динамически строит «граф потока состояний», моделирующий различные пути навигации и состояния в приложении Ajax.Crawljax написан на Java и распространяется под лицензией BSD.

Просто потому, что никто не копирует рабочую команду...Я пытаюсь ...десять лет спустя.:D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Для меня это сработало как заклинание.

Вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.

wget загрузит сайт для вас (используйте параметр -r для «рекурсивного»), но любой динамический контент, такой как отчеты и т. д., конечно, не будет работать должным образом, вы просто получите один снимок.

Если вам в конечном итоге придется запускать его с веб-сервера, возможно, вы захотите взглянуть на:

СерверToGo

Он позволяет запускать стек WAMPP с компакт-диска с поддержкой mysql/php/apache.При запуске базы данных копируются во временный каталог текущего пользователя и могут быть запущены полностью без установки пользователем чего-либо!

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top