我有一个严重的问题。忽略网站上的abots.txt文件的存在是否符合道德?这些是我想到的一些考虑因素:

  1. 如果有人在网站上放置网站,他们期待会访问。当然,Web爬网正在使用带宽而没有单击可能支持该站点的广告,但是网站所有者将其网站放在网上,所以他们希望他们永远不会被bot访问的合理性吗?

  2. 某些网站显然使用机器人.txt,以防止其网站被Google爬行或其他一些可能会抓住价格的实用程序,从而使人们可以轻松进行价格比较。他们在网站上有私人搜索引擎,因此他们显然希望人们能够搜索该网站。显然,他们只是不希望人们能够轻松地将其信息与其他供应商进行比较。

正如我所说,我并不是想争论性。我想知道是否有人曾经提出过在道德上允许忽略机器人的存在的情况?我想不出可以忽略机器人的情况。TXT主要是因为人们(或企业)正在付钱来建立网站,以便他们应该能够告诉Google/Yahoos/Yahoos/Yahoos/Yahoos/其他SE。不想在他们的索引上。

为了将讨论置于上下文中,我想创建一个价格比较网站,其中一位主要供应商拥有一个机器人。txt,基本上阻止任何人抓住价格。我想能够获取他们的信息,但是,正如我所说,我不能简单地忽略网站所有者的愿望。

我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听遵循Stack Overflow的开发人员的意见。

顺便说一下,关于这个话题的讨论 黑客新闻问题 但是他们似乎主要关注这一点的法律方面。

有帮助吗?

解决方案

参数:

  1. robots.txt文件是隐含的许可证,尤其是因为您知道它。因此,继续刮擦他们的网站可以被视为未经授权的访问(即黑客攻击)。很烂,但是最近在其他法律案件中提出了这样的论点(与robots.txt直接相关,但与其他“被动控制”有关。)
  2. 抢购价格违反了包括DMCA在内的版权法,因为版权不包括事实信息,只有创意。
  3. 从道德上讲,您不应该收取价格,因为供应商应该具有更改价格的能力,而不必担心被您网站的人指控诱饵/转换。
  4. 您是否走上了大路,向他们解释了该网站,并说您很想将它们包括在您的供应商名单中?也许他们会喜欢这个想法,并实际上以一种易于消费和资源密集型生产的方式来揭露数据。
  5. 没有直接写有关robots.txt的法律,因为通常遵循Netiquette。不要成为“坏人”之一。
  6. 有些人过滤机器人是因为他们使用URL链接执行“动作”,例如向购物车添加东西,而机器人在其数据库中留下了大量废弃的购物车。
  7. 有些人过滤机器人,因为他们的独家价格无法根据与供应商的协议公开广告。您可能会通过在网站上公开这些价格来使它们处于不良状态。
  8. 在这种经济中,如果一家公司不想尽一切可能宣传自己,那么您不包括它们是他们自己的错。

其他提示

另一个用途 robots.txt 是为了帮助保护网络蜘蛛免受自己的影响。对于网络蜘蛛来说,相对容易陷入无限深的链接森林中,并且构造得当 robots.txt 文件会告诉蜘蛛“您不需要去这里”。

许多人试图建立企业,以建立刮擦主要网站的“价格比较”引擎。

一旦您开始获得任何类型的流量/收入,您就可以 将要 收到一个 停止和停止. 。碰巧发生在数十个项目,即使不是数百个项目。我什至从事一个从Craigslist收到C&D的小型项目。

您知道他们怎么说:“问宽恕比获得许可更容易”?页面刮擦并不成真。获得许可,否则您将收到律师的来信。

如果您幸运的话,那将是早期的,当您没有任何损失时。如果迟到了,您可能会在一夜之间失去业务和所有工作。

获得许可并不难。除非您在做偷偷摸摸的事情,否则您可能会驾驶它们 额外的 交通。地狱,一旦您的产品起飞,网站可能会乞求您,甚至付钱给您添加他们的数据。

“不就是不”。

为了回答狭窄的问题,对于价格比较网站,您可能最好实时获取价格,而不是事先取消数据库。很难想象这是一个问题。

我们允许机器人毫无抱怨地挖掘网络的原因之一是,如果我们愿意,我们有办法阻止它们。保护双方。

还记得当Cuil的机器人被指控过高时的骚动,在某些情况下显然像DOS攻击并使用一些小网站的带宽津贴吗?

如果太多的人违反了机器人。txt,我们可能会变得更糟。

一个有趣的IRL版本,涉及哈佛大学:Coop呼叫Cops on ISBN复印机.

简短答案:不。

在狭窄的问题上:如果卖方说他们的价格是秘密的,我认为您必须尊重这一点。我会与他们联系,并询问他们是否真的不希望像您这样的价格比较引擎包括它们,或者出于技术原因而“无侵入”标志。如果后者,也许他们会为您提供替代方案。如果前者,那么我会说太糟糕了,他们不会被包括在内,他们会失去一些生意,这是他们的问题。

切线咆哮:就我个人而言,我对使我跳过篮球的公司感到非常烦恼,以找出他们的产品价格,让我打电话给我与推销员交谈的地方,这样他就可以给我一个辛苦的球场,或者更糟,或者更糟,或者更糟的是让我给他们我的电话号码,以便他们的推销员可以打电话并骚扰我。我认为,如果他们害怕告诉我价格,那可能意味着它太高了。

通常:abots.txt文件就像“无侵入”符号。所有者有权说出谁被允许进入其财产。如果您认为他们的原因很愚蠢,您可以礼貌地建议他们放下登录。但是您无权无视他们的愿望。如果有人在他的院子里没有一个侵入的标志,我说:“嘿,我只想快速捷径,这有什么大不了的?” - 也许我正在踏上他珍贵的保加利亚紫罗兰灯泡,并破坏了宝贵的投资。也许我正在跨越他人民的神圣墓地并冒犯他们的宗教敏感性。也许他只是一个荒谬的混蛋。但这仍然是他的财产和权利。哦,如果我忽略了没有侵入的标志后,我陷入了危险的污水坑,谁应该归咎于谁? (在美国,尽管他警告了我,但我仍然可以为他的一切起诉,但这是对吗?)

我在这里表现出一些无知,但我一直认为一个机器人只是搜索引擎发送的东西。喜欢Google或Yahoo。

因此,如果您编写了一个在Internet上搜索内容的应用程序,我不会考虑一个搜索引擎机器人,据我所知,这是Robots.txt试图阻止的。

但这可能只是选择性的无知,因为我可能会这样做,直到该网站的网站管理员与我联系并要求我停止:)

如果人们可以将其用于公众访问,则他们不应尝试对其施加限制。在您的网站上添加一个robots.txt文件等同于在草坪上放一个标志,上面写着“请不要看我”。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top