質問

記事抽出で私の仕事を始めます。

私がしているタスクは、異なるWebページに投稿されたホテルのレビューを抽出することです(例:1。 http://www.tripadvisor.ca/hotel_review-g32643-d1097955-reviews-san_mateo_county_memorial_park_campground-loma_mar_california.html, 2. http://www.travelpod.com/hotel/comfort_suites_sfo_airport-san_mateo.html )

私はJavaでタスクを行う必要があり、私は過去数か月間だけでJavaと仕事をしています。

そして、これらに関する私の質問があります。

  1. さまざまなWebページから一般的な方法でレビューを単独で抽出する可能性はありますか?

  2. JavaのタスクをサポートするAPIがあるかどうかを教えてください。

  3. また、上記のタスクを達成するのに役立つあなたの考え/情報源を教えてください。

アップデート

ネットで利用できる関連例のある場合は、それが非常に役立つ可能性があるため、同じことを投稿してください。

役に立ちましたか?

解決

あなたはおそらくJavaのようにスクリーンスクレイピングユーティリティが必要です Tagsoup また nekohtml. jsoup また、人気があります。

ただし、TripAdvisorのようなサードパーティのWebサイトからデータを抽出する際には、ここでより大きな法的考慮事項もあります。彼らのポリシーはそれを許可していますか?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top