НЛП:Качественно «положительное» и «отрицательное» предложение

StackOverflow https://stackoverflow.com/questions/122595

  •  02-07-2019
  •  | 
  •  

Вопрос

Мне нужна ваша помощь в определении наилучшего подхода к анализу предложений, специфичных для отрасли (т. е.рецензии на фильмы) для «положительных» и «негативных».Раньше я видел такие библиотеки, как OpenNLP, но они слишком низкоуровневые — они просто дают мне базовую композицию предложений;мне нужна структура более высокого уровня:- Надеюсь, с словесными списками - надеюсь, обучение на моем наборе данных

Спасибо!

Это было полезно?

Решение

То, что вы ищете, обычно называют Анализ настроений.Обычно анализ настроений не способен справиться с такими тонкими тонкостями, как сарказм или ирония, но он работает очень хорошо, если вы используете большой набор данных.

Анализ настроений обычно требует немалой предварительной обработки.По крайней мере, токенизация, определение границ предложения и тегирование частей речи.Иногда синтаксический анализ может быть важен.Правильное выполнение этой задачи — это целая отрасль исследований в области компьютерной лингвистики, и я бы не советовал вам придумывать собственное решение, если вы сначала не потратите время на изучение этой области.

В OpenNLP есть несколько инструментов для анализа настроений, но если вы хотите чего-то более серьезного, вам следует изучить Линпайп Инструментарий.Он имеет встроенную SA-функциональность и приятный руководство.И вы можете обучить его на своем собственном наборе данных, но не думайте, что это совсем тривиально :-).

Поиск этого термина в Google, вероятно, также даст вам некоторые ресурсы для работы.Если у вас есть более конкретный вопрос, спрашивайте, я внимательно слежу за тегом nlp ;-)

Другие советы

Некоторые подходы к анализу настроений используют стратегии, популярные в других задачах классификации текста.Самый распространенный из них — преобразование рецензии на фильм в вектор слов и подача его в алгоритм классификатора в качестве обучающих данных.Здесь вам могут помочь самые популярные пакеты интеллектуального анализа данных.Вы могли бы взглянуть на это учебник по классификации настроений иллюстрирующий, как провести эксперимент с использованием открытого исходного кода Набор инструментов RapidMiner.

Кстати, есть хороший набор данных предоставлены для исследовательских целей, связанных с выявлением мнений о рецензиях на фильмы.Он основан на отзывах пользователей IMDB, и вы можете проверить множество соответствующая исследовательская работа о районе и о том, как они используют набор данных.

Стоит иметь в виду, что об эффективности этих методов можно судить только со статистической точки зрения, поэтому вы можете в значительной степени предположить, что будут неправильные классификации и случаи, когда мнение будет трудно обнаружить.Как уже отмечалось в этой теме, обнаружить такие вещи, как ирония и сарказм, действительно может быть очень сложно.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top