我想知道什么是最佳的采样方法,说1000个问题,完全从Yahoo!中随机随机!回答。我想实现这种完整的随机性,在这种情况下,我将完全忽略发布的类别或日期等。手动执行此操作可能会导致偏见,因此任何人都可以在这里提出一些建议,例如使用Yahoo!回答API或STH。非常感谢。

有帮助吗?

解决方案

我不知道从正式的角度来看是否是正确的解决方案,但我会使用 雅虎老板搜索 要检索4000个问题,而不是随机提取1000。使用搜索引擎让您检索最重要的(高度排名/链接)问题。您可以探讨搜索引擎的查询以获取各种问题 - 最受欢迎和最糟糕的问题...也有 雅虎回答API, ,它提供了搜索功能,但我没有使用它,所以我不能说它有多好。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top