Générique Article Extraction des pages Web
-
08-10-2019 - |
Question
je vais commencer mon travail dans l'extraction de l'article.
La tâche que je vais faire est d'extraire les commentaires de l'hôtel qui est écrit dans différentes pages Web (par exemple. 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html , 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )
Je dois faire la tâche en Java et je suis en train de travailler avec Java pour les deux derniers mois seulement ..
Et ici vient à mes questions concernant ces derniers.
-
Y at-il possibilité de commentaires extraire seulement de différentes pages Web de façon générique.
-
bien vouloir me faire savoir s'il y a une API qui prend en charge les tâches en Java.
-
Aussi, laissez-moi savoir vos pensées / sources qui seront plus utiles pour moi d'atteindre la tâche mentionnée ci-dessus.
UPDATE
Si toute sorte d'exemples connexes disponibles en net, s'il vous plaît poster le même car cela pourrait être d'une grande utilité.
La solution
Vous avez probablement besoin d'un utilitaire de grattage écran pour Java comme TagSoup ou NekoHTML . JSoup est également populaire.
Cependant, vous avez également une plus grande considération juridique ici lors de l'extraction des données à partir d'un site web 3ème partie comme tripadvisor. Est-ce que leur politique permet-il?