Pregunta

Voy a comenzar mi trabajo en la extracción de artículo.

La tarea que voy a hacer es extraer los comentarios de los huéspedes que se puede encontrar en diferentes páginas web (por ejemplo. 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html , 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

Necesito hacer la tarea en Java y sólo estoy trabajando con Java para el último par de meses solo ..

Y aquí viene mi pregunta con respecto a estos.

  1. ¿Hay posibilidad de revisión de extracto solos de diferentes páginas web de una manera genérica.

  2. Por favor, hágamelo saber si hay cualquier API que soporta el trabajo en Java.

  3. Además, me hizo saber de sus pensamientos / fuentes que serán más útiles para mí para lograr la tarea mencionada anteriormente.

Actualizar

Si cualquier tipo de ejemplos disponibles en la red, por favor, puesto el mismo desde que podrían ser de gran utilidad.

¿Fue útil?

Solución

Es probable que tenga una pantalla de raspado de utilidad para Java como TagSoup o NekoHTML . JSoup también es popular.

Sin embargo, también tiene una consideración legal más grande aquí en la extracción de datos de un sitio web tercero partido como Tripadvisor. Hace su política permite?

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top