Как превратить динамический сайт в статический, который можно просмотреть с компакт-диска?
-
02-07-2019 - |
Вопрос
Мне нужно найти способ просканировать одно из веб-приложений нашей компании и создать на его основе статический сайт, который можно будет записать на компакт-диск и использовать коммивояжерами для демонстрации веб-сайта.Внутреннее хранилище данных распределено по множеству систем, поэтому простой запуск сайта на виртуальной машине на ноутбуке продавца не сработает.И у них не будет доступа к интернету при некоторых клиентах (нет интернета, сотовый телефон....примитивно, я знаю).
Есть ли у кого-нибудь хорошие рекомендации для сканеров, которые могут обрабатывать такие вещи, как очистка ссылок, flash, немного ajax, css и т. д.?Я знаю, что шансы невелики, но я решил задать этот вопрос здесь, прежде чем приступить к написанию собственного инструмента.
Решение
wget или curl могут рекурсивно переходить по ссылкам и зеркально отображать весь сайт, так что это может быть хорошим выбором.Вы не сможете использовать по-настоящему интерактивные части сайта, такие как поисковые системы или что-либо, что изменяет данные.
Возможно ли вообще создать фиктивные серверные службы, которые могут работать с ноутбуков продавцов и с которыми может взаимодействовать приложение?
Другие советы
С помощью Веб-краулер, напримеродин из них:
- DataparkSearch — это сканер и поисковая система, выпущенная под лицензией GNU General Public License.
- GNU Wget — это сканер, управляемый из командной строки, написанный на C и выпущенный под лицензией GPL.Обычно он используется для зеркалирования веб-сайтов и FTP-сайтов.
- HTTrack использует веб-сканер для создания зеркала веб-сайта для просмотра в автономном режиме.Он написан на языке C и выпущен под лицензией GPL.
- ICDL Crawler — это кроссплатформенный веб-сканер, написанный на C++ и предназначенный для сканирования веб-сайтов на основе шаблонов анализа веб-сайтов, используя только свободные ресурсы процессора компьютера.
- JSpider — это легко настраиваемый и настраиваемый движок веб-пауков, выпущенный под лицензией GPL.
- Ларбен Себастьяна Айлере
- Webtools4larbin от Андреаса Бедера
- Metabot — это оптимизированный по скорости веб-сканер и утилита командной строки, написанная на C и выпущенная под лицензией BSD с двумя пунктами.Он имеет широкую систему конфигурации, систему модулей и поддержку целевого сканирования через локальную файловую систему, HTTP или FTP.
- Jaeksoft WebSearch — это веб-сканер и индексатор, созданный на основе Apache Lucene.Он распространяется под лицензией GPL v3.
- Nutch — это сканер, написанный на Java и выпущенный под лицензией Apache.Его можно использовать вместе с пакетом индексирования текста Lucene.
- Pavuk — это инструмент веб-зеркала с командной строкой и дополнительным сканером X11 GUI, выпущенный под лицензией GPL.Он имеет множество расширенных функций по сравнению с wget и httrack, например.Правила фильтрации и создания файлов на основе регулярных выражений.
- WebVac — это сканер, используемый Стэнфордским проектом WebBase.
- WebSPHINX (Миллер и Бхарат, 1998) состоит из библиотеки классов Java, реализующей многопоточный поиск веб-страниц и анализ HTML, а также графического пользовательского интерфейса для установки начальных URL-адресов, извлечения загруженных данных и реализации базовой текстовой обработки. основанная поисковая система.
- WIRE — среда поиска веб-информации [15] — это веб-сканер, написанный на C++ и выпущенный под лицензией GPL, включающий несколько политик для планирования загрузки страниц и модуль для создания отчетов и статистики по загруженным страницам, поэтому он использовался для веб-характеристики. .
- LWP::RobotUA (Langheinrich, 2004) — это класс Perl для реализации хорошо работающих параллельных веб-роботов, распространяемых по лицензии Perl 5.
- Веб-искатель Класс веб-искателя с открытым исходным кодом для .NET (написан на C#).
- Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы...) как локально, так и по сети.Холмса спонсирует и коммерчески использует чешский веб-портал Centrum.Его также использует Onet.pl.
- YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (под лицензией GPL).
- Ruya Ruya — это высокопроизводительный и многоуровневый веб-сканер с открытым исходным кодом.Он используется для правильного сканирования английских и японских веб-сайтов.Он выпущен под лицензией GPL и полностью написан на языке Python.Реализация SingleDomainDelayCrawler подчиняется файлу robots.txt с задержкой сканирования.
- Универсальный информационный сканер Быстро развивающийся веб-сканер.Сканирование Сохраняет и анализирует данные.
- Ядро агента. Платформа Java для управления расписанием, потоками и хранилищем при сканировании.
- Новости о пауках. Информация о создании паука на Perl.
- Arachnode.NET — это беспорядочный веб-сканер с открытым исходным кодом для загрузки, индексирования и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы.Arachnode.net написан на C# с использованием SQL Server 2005 и распространяется под лицензией GPL.
- Dine — это многопоточный HTTP-клиент/сканер Java, который можно запрограммировать на JavaScript, выпущенный под лицензией LGPL.
- Crawljax — это сканер Ajax, основанный на методе, который динамически строит «граф потока состояний», моделирующий различные пути навигации и состояния в приложении Ajax.Crawljax написан на Java и распространяется под лицензией BSD.
Просто потому, что никто не копирует рабочую команду...Я пытаюсь ...десять лет спустя.:D
wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org
Для меня это сработало как заклинание.
Вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.
wget загрузит сайт для вас (используйте параметр -r для «рекурсивного»), но любой динамический контент, такой как отчеты и т. д., конечно, не будет работать должным образом, вы просто получите один снимок.
Если вам в конечном итоге придется запускать его с веб-сервера, возможно, вы захотите взглянуть на:
Он позволяет запускать стек WAMPP с компакт-диска с поддержкой mysql/php/apache.При запуске базы данных копируются во временный каталог текущего пользователя и могут быть запущены полностью без установки пользователем чего-либо!