Frage

Am werde meine Arbeit in Artikel Extraktion beginnen.

Die Aufgabe, die ich tun, ist die Hotelbewertungen zu extrahieren, die in verschiedenen Web-Seiten geschrieben wird (zB. 1 http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html , 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

Ich brauche die Aufgabe in Java zu tun, und ich arbeite nur mit Java für die letzten paar Monate allein ..

Und hier kommt meine Fragen dieses in Bezug auf.

  1. Gibt es die Möglichkeit zu extrahieren Bewertungen allein aus verschiedenen Web-Seiten in allgemeiner Weise.

  2. Bitte lassen Sie mich wissen, ob es irgendwelche API, dass unterstützt die Aufgabe in Java.

  3. Auch, lassen Sie mich wissen, Ihre Gedanken / Quellen, die hilfreich mehr sein wird für mich die Aufgabe zu erreichen oben erwähnt.

UPDATE

Wenn jede Art von ähnlichen Beispielen in Netz, schreiben Sie bitte die gleiche, da die von großem Nutzen sein könnte.

War es hilfreich?

Lösung

Sie müssen wahrscheinlich ein Screen-Scraping-Dienstprogramm für Java wie tagsoup oder NekoHTML . JSoup ist ebenfalls sehr beliebt.

Sie haben jedoch auch eine größere rechtliche hier Überlegung, wenn Daten aus einer 3rd-Party-Website wie tripadvisor zu extrahieren. Hat ihre Politik es erlauben?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top