Стратегии распознавания имен собственных в НЛП

https://stackoverflow.com/questions/608743

03-07-2019
|

Вопрос

Мне интересно узнать больше о Обработка естественного языка (НЛП) и мне любопытно, существуют ли в настоящее время какие-либо стратегии распознавания имен собственных в тексте, которые не основаны на распознавании по словарю?Кроме того, может ли кто-нибудь объяснить или дать ссылку на ресурсы, которые объясняют текущие методы, основанные на словаре?Кто является авторитетным экспертом по НЛП или каковы окончательные источники по этому вопросу?

Решение

Задача определения соответствующей части речи для слова в тексте называется Пометка части речи.Тот Самый Маркировщик Брилла, например, использует смесь словарных (vocabulary) слов и контекстуальных правил.Я считаю, что некоторыми из важных начальных словарных слов для этой задачи являются стоп-слова.Как только у вас появятся (в основном правильные) части речи для ваших слов, вы можете приступать к созданию более крупных структур. Эта книга, ориентированная на отрасль проводит различие между распознаванием именных фраз (NPS) и распознаванием именованных объектов.Об учебниках: Понимание Естественного языка Алленом это хорошая, но немного устаревшая книга. Основы статистической обработки естественного языка это хорошее введение в статистическое НЛП. Обработка речи и языка немного более строгий и, возможно, более авторитетный. Ассоциация компьютерной лингвистики является ведущим научным сообществом по компьютерной лингвистике.

Другие советы

Помимо словарного подхода, мне приходят на ум два других:

Подходы, основанные на шаблонах (в простой форме:все, что пишется с заглавной буквы, является существительным собственным)
Подходы к машинному обучению (выделять имена собственные в учебном корпусе и обучать классификатор)

Это поле в основном называется извлечение именованных объектов и часто рассматривается как подполе извлечение информации.Хорошей отправной точкой для изучения различных областей НЛП обычно является соответствующая глава в Оксфордский справочник по компьютерной лингвистике:

_{(источник: oup.com)}

Попробуйте поискать "распознавание именованных сущностей" - это термин, который используется в литературе по НЛП для обозначения подобных вещей.

Это зависит от того, что вы подразумеваете под словарем.

Например, одна из стратегий состояла бы в том, чтобы использовать то, что не являются загляните в словарь и попытайтесь исходить из предположения, что это имена собственные.Если это приводит к разумному анализу, считайте предположение предварительно подтвержденным и продолжайте, в противном случае сделайте вывод, что это не так.

Другие идеи:

В позиции субъекта хорошим кандидатом является любой простой субъект без определителя.
То же самое в предложных фразах
В любой позиции основа притяжательного детерминанта (например,Боб в "Сестре Боба") - хороший кандидат

-- МаркусК

предложены некоторые наборы инструментов:1.Opennlp:для вашей задачи существует именованный компонент распознавания сущностей 2.ЛингПайп:также является более тонким компонентом для этого 3.Стэнфордский пакет НЛП:отличный пакет для академического использования, возможно, не пригодный для коммерческого использования.4.нлтк:пакет Python NLP

если у вас есть предложение типа "кто такой Билл Гейтс" И если вы примените к нему тегер части речи.Это даст ответ следующим образом

"кто такой/WP/VBZ Билл/NN Гейтс/NNS?/."

Вы можете попробовать это онлайн на http://cst.dk/online/pos_tagger/uk/

Итак, вы получаете значение всех существительных в этом предложении.Теперь вы можете легко извлечь эти существительные с помощью некоторого алгоритма.Я предлагаю использовать python, если вы используете обработку на естественном языке.В нем есть NLTK (Natural Language toolkit), с которым вы можете работать.

Если вы заинтересованы в реализации обработки на естественном языке и python является вашим языком программирования, то это может быть очень информативным ресурсом: http://www.youtube.com/watch?v=kKe4M4iSclc

Хотя это и для бенгальского языка, но на нем можно нарисовать общую процедуру определения имени собственного.Поэтому я надеюсь, что это будет полезно для вас.Пожалуйста, проверьте следующую ссылку:http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow