Неконтролируемый анализ настроений
-
29-09-2019 - |
Вопрос
Я читал много статей, которые объясняют необходимость в первоначальном наборе текстов, которые классифицируются как «положительные» или «отрицательные» до того, как система анализа настроений действительно сработает.
Мой вопрос: кто -нибудь пытался просто провести заправочной проверки «позитивных» прилагательных против «негативных» прилагательных, принимая во внимание какие -либо простые негаторы, чтобы избежать классификации «не счастливого» как позитивного? Если так, есть ли какие -нибудь статьи, в которых обсуждаются, почему эта стратегия не реалистична?
Решение
А Классическая бумага Питера Терни (2002) объясняет метод для проведения анализа неконтролируемых настроений (положительная/отрицательная классификация), используя только слова превосходно и бедных как набор семян. Терни использует взаимная информация и другие слова с этими двумя прилагательными для достижения точности 74%.
Другие советы
Я не пробовал провести не обученный анализ настроения, такой как вы описываете, но вне моей головы я бы сказал, что вы упрощаете проблему. Простого анализа прилагательных недостаточно, чтобы получить хорошее представление о настроении текста; Например, рассмотрим слово «глупый». В одиночку вы бы классифицировали это как негативное, но если бы обзор продукта должен был иметь «... [x] продукт заставляет своих конкурентов выглядеть глупым за то, что сначала не думал об этой функции ...» Тогда настроение там определенно будет положительным Анкет Больший контекст, в котором, кажутся слова, определенно имеет значение в чем -то подобном. Вот почему неподготовленный подход к пакетам слов (не говоря уже о еще более ограниченном мешке-привязках) недостаточно, чтобы адекватно решить эту проблему.
Предварительно классифицированные данные («Данные обучения») помогают в том, что проблема меняется от попытки определить, является ли текст положительного или отрицательного настроения с нуля, пытаясь определить, более ли текст более похож на положительные тексты или отрицательные тексты, и классифицируйте это таким образом. Другой большой момент заключается в том, что текстовый анализ, такой как анализ настроений, часто сильно влияет на различия характеристик текстов в зависимости от домена. Вот почему наличие хорошего набора данных для обучения (то есть точные данные изнутри домена, в котором вы работаете, и, как мы надеемся, репрезентативен для текстов, которые вам придется классифицировать) так же важно, как и создание хорошего система для классификации с.
Не совсем статья, но надеюсь, что это поможет.
Бумага Терни (2002), упомянутая Ларсмансом, является хорошей базовой. В более новом исследовании, Ли и он [2009 ввести подход, используя Скрытое распределение дирихле (LDA) для обучения модели, которая может классифицировать общее настроение и тему статьи одновременно полностью без присмотра. Точность, которую они достигают, составляет 84,6%.
Я пытался обнаружить ключевые слова, используя словарь аффекта, чтобы предсказать метку настроений на уровне предложения. Учитывая общность словарного запаса (не доменного зависимости), результаты составляли всего около 61%. Бумага доступна на моей домашней странице.
В несколько улучшенной версии были рассмотрены наречия отрицания. Вся система, названная Emolib, доступна для демонстрации:
http://dtminredis.housing.salle.url.edu:8080/emolib/
С уважением,
Дэйвид,
Я не уверен, что это поможет, но вы можете захотеть заглянуть в Джейкоб Перкин Сообщение блога При использовании NLTK для анализа настроений.
Я попробовал несколько методов анализа настроений для добычи мнений в обзорах. Для меня лучше всего сработало метод, описанный в книге Liu: http://www.cs.uic.edu/~liub/webminingbook.html В этой книге Лю и другие сравнивали многие стратегии и обсуждали различные документы по анализу настроений и добыче мнений.
Хотя моей главной целью было извлечение функций в мнениях, я внедрил классификатор настроений для обнаружения позитивной и отрицательной классификации этих функций.
Я использовал NLTK для предварительной обработки (токенизация слов, тегинга) и создание триграмм. Затем я также использовал байесовские классификаторы внутри этого, чтобы сравнить с другими стратегиями, которые Лиу определил.
Один из методов зависит от помечения как POS/ONG, каждая триграмма, выражающая эту информацию, и использование некоторого классификатора на этих данных. Другой метод, который я попробовал, и работал лучше (около 85% точности в моем наборе данных), вычислял сумму баллов PMI (пунктуальная взаимная информация) для каждого слова в предложении и словах Отлично/беден как семена класса POS/нег.
В анализе настроений нет магических «ярлыков», как и в случае любого другого вида текстового анализа, который стремится открыть для себя базовую «об этом», кусок текста. Попытка кратко сократить проверенные методы анализа текста с помощью упрощенной «прилагательной» проверки или аналогичных подходов приводит к неоднозначности, неправильной классификации и т. Д., Которые в конце дня дают вам плохую точность, прочитанную на настроении. Чем больше источник (например, Twitter), тем сложнее проблема.