我将在文章提取中开始我的工作。

我要做的任务是提取在不同网页中发布的酒店评论(例如1。 http://www.tripadvisor.ca/hotel_review-g32643-d1097955-reviews-san_mateo_county_county_memorial_park_camp_camp_camp_mar_mar_mar_california.html, 2. http://www.travelpod.com/hotel/comfort_suites_sfo_airport-san_mateo.html )

我需要在Java完成任务,仅在过去的几个月中,我才与Java合作。

这是我对这些的问题。

  1. 是否有可能单独以通用方式从不同的网页中提取评论。

  2. 请让我知道是否有任何API支持Java中的任务。

  3. 另外,让我知道您的想法/来源,这对我有助于完成上述任务更有帮助。

更新

如果网络中有任何相关示例,请发布相同的内容,因为这可能很有用。

有帮助吗?

解决方案

您可能需要像Java这样的屏幕刮擦实用程序 标签 或者 Nekohtml. jsoup 也很受欢迎。

但是,从TripAdvisor等第三方网站提取数据时,您在这里也有更大的法律考虑。他们的政策允许吗?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top