NLP 中专有名词识别策略

https://stackoverflow.com/questions/608743

03-07-2019
|

题

我有兴趣了解更多自然语言处理（NLP）并且我很好奇目前是否有任何不基于字典识别的策略来识别文本中的专有名词？另外，任何人都可以解释或链接到解释当前基于字典的方法的资源吗？谁是 NLP 领域的权威专家，或者该主题的权威资源有哪些？

解决方案

确定文本中某个词的正确词性的任务称为词性标注。例如， Brill tagger 使用字典（词汇）单词和上下文规则的混合。我相信这个任务的一些重要的初始词典单词是停用词。一旦你的话语（大部分是正确的）词性，你就可以开始构建更大的结构。这本面向行业的书籍区分识别名词短语（NP）和识别命名实体。关于教科书：艾伦的自然语言理解是一本很好的，但有点过时的书。统计自然语言处理基础是统计NLP的一个很好的介绍。语音和语言处理更加严谨，可能更具权威性。计算语言学协会是计算语言学领域的领先科学界。

其他提示

除了基于字典的方法之外，我还想到了另外两种方法：

基于模式的方法（简单形式：任何大写的都是专有名词）
机器学习方法（在训练语料库中标记专有名词并训练分类器）

该字段大多被称为 命名实体提取 通常被认为是一个子领域 信息提取. 。NLP 不同领域的一个很好的起点通常是本书中的相应章节。牛津计算语言学手册:

_{（来源：欧普网)}

尝试搜索“命名实体识别” - 这是NLP文献中用于此类事物的术语。

这取决于您所说的基于字典的含义。

例如，一种策略是采取以下措施：不是在字典中并尝试假设它们是专有名词。如果这导致了合理的解析，请考虑暂时验证的假设并继续进行，否则得出结论：它们不是。

其他想法：

在主语位置上，任何没有限定词的简单主语都是不错的候选者。
介词短语中也是如此
在任何位置，所有格限定词的基础（例如《鲍勃的妹妹》中的鲍勃）是一个不错的候选人

——马库斯Q

一些工具包建议： 1. Opennlp：您的任务有一个命名实体识别组件 2. LingPipe：也是它的NER组件 3.斯坦福NLP套餐：学术用途的优秀套餐，可能不是商业友好。 4. nltk：Python NLP包

如果您有诸如“谁是比尔门”之类的句子？如果您将词性标注器应用于它。它会给出答案

“谁/ WP是/ VBZ bill / NN gate / NNS？/。＆QUOT;

你可以在线试试这个 http://cst.dk/online/pos_tagger/uk/

所以你得到这句话中的所有名词。现在，您可以使用某种算法轻松提取此名词。如果您使用自然语言处理，我建议使用python。它有NLTK（自然语言工具包），您可以使用它。

如果您对自然语言处理的实现感兴趣并且python是您的编程语言，那么这可以是一个信息丰富的资源： http://www.youtube.com/watch?v=kKe4M4iSclc

虽然这是针对孟加拉语的，但它可以绘制一个识别专有名词的通用程序。所以我希望这对你有所帮助。请查看以下链接： http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow