Question

je vais commencer mon travail dans l'extraction de l'article.

La tâche que je vais faire est d'extraire les commentaires de l'hôtel qui est écrit dans différentes pages Web (par exemple. 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html , 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

Je dois faire la tâche en Java et je suis en train de travailler avec Java pour les deux derniers mois seulement ..

Et ici vient à mes questions concernant ces derniers.

  1. Y at-il possibilité de commentaires extraire seulement de différentes pages Web de façon générique.

  2. bien vouloir me faire savoir s'il y a une API qui prend en charge les tâches en Java.

  3. Aussi, laissez-moi savoir vos pensées / sources qui seront plus utiles pour moi d'atteindre la tâche mentionnée ci-dessus.

UPDATE

Si toute sorte d'exemples connexes disponibles en net, s'il vous plaît poster le même car cela pourrait être d'une grande utilité.

Était-ce utile?

La solution

Vous avez probablement besoin d'un utilitaire de grattage écran pour Java comme TagSoup ou NekoHTML . JSoup est également populaire.

Cependant, vous avez également une plus grande considération juridique ici lors de l'extraction des données à partir d'un site web 3ème partie comme tripadvisor. Est-ce que leur politique permet-il?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top