K近邻算法疑问

https://stackoverflow.com/questions/694982

22-08-2019
|

题

我是新来的人工智能。我明白K近邻算法和如何实现它。但是，你怎么计算的东西，是不是分的距离或重量？

例如，年龄距离可以很容易地计算出，但是你怎么计算如何附近是红色到蓝色？也许是颜色一个坏榜样，因为你仍然可以说使用的频率。如何汉堡包比萨饼薯条例如？

我有一种感觉，有一个聪明的办法来做到这一点。

感谢您提前为您的亲切关怀。

编辑：谢谢大家非常好的答案。这真的帮助，我很欣赏它。但我想一定有出路。

我可以做这种方式？比方说，我用我的KNN算法来一个人他/她是否会在我的餐厅，提供以上三种食物吃做一个预测。当然，还有其他因素，但保持它的简单，对于喜欢的食物领域，走出了300人，150热爱汉堡，100爱吃比萨饼和50喜欢薯条。常识告诉我最喜爱的食物会影响是否吃还是人民的决定。

所以，现在一个人进入他/她最喜欢的食物是汉堡包，我会预测他/她会在我的餐厅吃。忽略了其他因素的影响，并根据我的（培训）以前的知识基础，常识告诉我，有k个最近的邻居这一特定领域的距离最喜欢的食物是靠近相比，如果他进入比萨饼或薯条的机会较高。

与唯一的问题是，我使用的概率，因为我不知道，可能无法计算实际距离我可能是错的。我也担心这个领域投入太多/太少压在了我的预测，因为距离可能不与其他因素的比例（价格，一天的时间，餐厅是否已满，等我可以轻松地量化），但我我想我也许能绕过它的一些参数整定。

呵呵，大家提出了一个伟大的答案，但我只能接受一个。在这种情况下，我就接受一个与得票最高的明天。再次谢谢大家。

解决方案

代表要为其收集数据作为一个“尺寸”（或在表中的列）中的所有食物。

录制“喜欢”每个人在他们那里你可以收集数据，并将其放置在一个表中的结果：

          Burger  |    Pizza  |   Fries   | Burritos |  Likes my food
person1     1     |        0  |       1   |     1    |      1
person2     0     |        0  |       1   |     0    |      0
person3     1     |        1  |       0   |     1    |      1
person4     0     |        1  |       1   |     1    |      0

现在，赋予了新的人，大约有一些他喜欢的食物的信息，您可以使用一个简单的评估与衡量相似的其他人，如的 Pearson相关系数或所述余弦相似度等

现在你有办法找到K最近邻居，并做出一些决定..

有关这个更高级的信息，查找“协同过滤”（但我会提醒你，它得到数学-Y）。

其他提示

好了，“最近”意味着你有一些指标上的东西可多可少“遥远”。 “汉堡”，“比萨”和“薯条”的量化与其说是一个KNN问题，因为它是关于基本的系统建模。如果你有，你正在做的分析，其中“汉堡”，“比萨”和“薯条”是项的系统，该系统存在的原因是要确定他们是如何量化的 - 比如，你要试图找出如何获得最佳的口感和热量最少的金钱给定的量，然后当当，你知道你的衡量标准是什么。（当然，“最好的味道”是主观的，但是另一组问题。）

这是达不到这些方面具有固有quantifiability，从而告诉你如何设计分析系统;它是由你来决定你想从那里完成和设计指标是什么。

这是在AI知识表示的问题之一。主观上起着重要作用。你会和我同意，例如，在一个汉堡，比萨和薯条的“亲密”？

您可能会需要比较包含项目查找矩阵。您可能能够减少这种基质，如果你可以假设传递，但我认为，即使这将是你的榜样不确定的。

在关键可能是尝试并确定您要比较的功能。例如，如果你是比较健康的食物，你可以得到的东西更客观。

如果你看一下 “集体智慧” ，你会看到他们分配一个规模和价值。这是Netflix的是如何比较电影和排名等。

您必须通过起一个规模并为每个指定值来定义“亲近”。

我将实际存在的对这些属性的用户，并要求他们定义其附近。你会用规模，由[synonym..very国外]或类似到达呈现出来。有很多人都这样做，你最终会与非线性的属性值被广泛接受的接近功能。

有没有“最好”的方式来做到这一点。最后，你需要拿出任意比例。

好的答案。你可以只作出了一个指标，或者像毛洛奇暗示，问了一些人。要真正这样做的权利，这听起来像你需要贝叶斯分析。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow