Вопрос

Я собираюсь начать свою работу в экстракции статьи.

Задача, которую я буду делать, состоит в том, чтобы извлечь отзывы о размере отелей, которые размещены на разных веб-страницах (например, 1. http://www.tripadvisor.ca/hotel_review-g32643-d1097955-Reviews-san_mateo_county_memorial_park_campground-loma_mar_california.html., 2. http://www.travelpod.com/hotel/comfort_suites_sfo_airport-san_mateo.html. )

Мне нужно сделать задачу в Java, и я просто работаю с Java за последние пару месяцев только ...

И вот мои вопросы относительно них.

  1. Есть ли возможность извлечь отзывы в одиночку с разных веб-страниц в общем уровне.

  2. Пожалуйста, дайте мне знать, если есть API, который поддерживает задачу в Java.

  3. Кроме того, дайте мне знать о ваших мыслях / источниках, которые будут более полезными для меня, чтобы достичь задачи, упомянутой выше.

ОБНОВИТЬ

Если какие-либо виды связанных примеров доступны в сети, пожалуйста, опубликуйте то же самое, так как это может иметь большое использование.

Это было полезно?

Решение

Вам, вероятно, нужен утилита Scraping экрана для Java, как Tagsoup или НеохТМЛ. Jsououp. также популярен.

Тем не менее, у вас также есть более высокое правовое соображение здесь при извлечении данных с 3-го веб-сайта, такого как TripAdvisor. Позвольте ли их политика?

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top