Domanda

ho intenzione di iniziare il mio lavoro nell'estrazione articolo.

Il compito che io cercherò di fare è quello di estrarre le recensioni di hotel che è scritto in diverse pagine web (ad es. 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html , 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

ho bisogno di fare il compito in Java e sto solo lavorando con Java da un paio di mesi da solo ..

E qui arriva mie domande riguardanti questi.

  1. C'è la possibilità di estrarre solo recensioni da diverse pagine web in modo generico.

  2. Si prega di farmi sapere se ci sono qualsiasi API che supporta il compito in Java.

  3. Inoltre, fatemi sapere i vostri pensieri / fonti che sarà più utile per me per raggiungere il compito di cui sopra.

Aggiorna

Se qualsiasi tipo di esempi relativi disponibili in rete, si prega di inviare la stessa in quanto ciò potrebbe essere di grande utilità.

È stato utile?

Soluzione

Probabilmente bisogno di un programma di utilità screen scraping per Java come TagSoup o NekoHTML . JSoup è anche popolare.

Tuttavia, è anche una considerazione legale più grande qui durante l'estrazione dei dati da un sito web 3rd party come TripAdvisor. Fa la loro politica permette?

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top