有部电影,名字记不清了。这是关于一个嘉年华或游乐园,有一个恐怖屋和一群青少年被戴着小丑面具的东西一一谋杀的故事。我大约20年前看过这部电影,它是续集,但具体记得不太清楚了。(也忘记了它的标题。)因此,我开始想知道如何解决一些技术问题。

假设我有一个数据库,其中包含每部电影的故事情节和其他数据。(类似于 互联网医学数据库。)我会有一个编辑字段,用户可以在其中以纯文本形式输入描述。然后系统将开始分析该文本以查找符合该描述的电影。

例如(不同的电影),我在编辑字段中输入:“一些关于埃及国王的电影,他在马背上袭击了一群印第安人,但他的马力严重,他的马在失去这场战斗时死亡。”然后,该系统应从2004年开始将电影“亚历山大”报告为答案,但可能还有一些。(即使描述中存在一些错误。)

要创建这样一个系统,通过搜索描述来分析描述以找到匹配的记录,对于如此复杂的事情我应该需要什么技术?并不是说我现在就想构建类似的东西,而是更多地出于好奇,如果我想选择一些有趣的新项目的话。

(我想为那些认识我在开头提到的电影的人奖励额外的积分。但后来谷歌一试,我自己就找到了!)

顺便说一句,我感兴趣的不是搜索引擎本身,而是分析描述以获得搜索引擎能够理解的内容!对于示例电影,人类逻辑帮助我找到了标题。(令人恼火的是,这部电影不在荷兰出售。)人类逻辑始终是一个要求,但它是关于分析用户输入,该输入采用故事或描述的形式,可能存在错误。

有帮助吗?

解决方案

你应该检查一下 文档分类。

一些文档分类技术

其他提示

根据您自己的评论我可以说出来,谷歌是一种可以使用的技术。 ;-)但是,老实说,我认为任何搜索引擎或多或少都会这样做。

修改嘿,您删除了自己的评论,但我确实记得您曾将Google视为值得加分的

编辑+:好吧,你再次提到谷歌,但我不想删除我的第一次编辑。 ; - )

纯粹的推测:在描述“埃及,印度,马战等”的描述中,可能会有一些微不足道的事情,比如说每个字数超过4个字母。和这种摘要数据库的模糊匹配工作?也许有一些正常化,例如。国王==领导==皇帝?

嗯......年轻人,女朋友,游泳池,母亲,婚礼是否让我们成为毕业生?嗯,我想用少量的细节“罗宾逊”它可能。

你可以使用imdb关键字搜索做很多有趣的事情:

http://akas.imdb.com/keyword/carnival/clown/谋杀/

您可以指定多个关键字,它会建议电影和更多关键字,这些关键字与您指定的关键字具有相似的上下文。

imdb中包含的数据是公开的,可用于非商业用途,可以已下载作为文本文件。您可以从中构建数据库。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top