НЛП классифицирует предложения / абзац как смешные
-
23-08-2019 - |
Вопрос
Есть ли способ классифицировать конкретное предложение / абзац как смешное?Есть очень мало указаний относительно того, куда следует двигаться дальше в этом направлении.
Решение
Есть исследование по этому поводу, оно называется Вычислительный Юмор.Это междисциплинарная область, которая использует элементы компьютерной лингвистики, психолингвистики, искусственного интеллекта, машинного обучения и т.д.Они пытаются выяснить, что именно делает истории или шутки смешными (напримернеожиданная связь или неожиданное использование запретной темы и т.д.) и примените это к тексту (либо для создания забавной истории, либо для измерения "смешности" текста).
Есть такие Книги и статьи об этом (например,Автор: Грэм Ричи).
Другие советы
Да, вам следует использовать Обучающий корпус для построения прогностической модели, способной распознавать смешные предложения.Иногда в литературе это известно как "Анализ настроений".Взгляните на эту статью о Анализ настроений с помощью LingPipe.
Если вы умеете использовать Java, вы можете воспользоваться их библиотекой (см. лицензионная матрица).Я нашел это очень полезным, но не совсем в том же контексте, что и вы.
Единственный способ осуществить это - заставить пару тысяч человек (обезьяны не подойдут, извините) просмотреть тысячи забавных предложений / историй, оценить их, а затем создать на их основе своего рода экспертную систему / нейронную сеть.Учитывая масштаб проблемы и ее субъективность (вещь, смешная для одного человека, может быть не смешной - даже оскорбительной - для другого), я бы сказал, что это невыполнимая задача.
Вы можете использовать тот же метод, что и фильтры спама.Вместо "спам" / "не-спам" вы классифицируете на "смешное" / "не-смешное".Для получения дополнительной информации загляните в наивные байесовские классификаторы.
Кроме того, попробуйте Вычислительный юмор @ Google Scholar если ты серьезно относишься к тому, чтобы выйти на поле боя.Анализ настроений также упоминался, см. википедия на этом.
Конечно, все это зависит от того, каковы ваши масштабы и цели...