Обнаружение текста по теме?

https://stackoverflow.com/questions/1151347

18-09-2019
|

Вопрос

Я хотел бы просеять текст (в частности, сообщения в Твиттере), чтобы увидеть, связаны ли они с конкретной темой. Вы были по этой дороге? Если так, я бы хотел услышать, какой подход вы бы использовали.

Для моего случая просто поиск ключевых слов темы дает мне полезный текст в 7% случаев; Ключевые слова имеют несколько значений, некоторые из которых не на теме. Для моего использования автоматическая фильтрация не должна быть идеальной; Я был бы счастлив, если бы извлеченные сообщения, связанные с темой, 80% случаев. Я также готов потерять 10-30% на тематических сообщениях.

Сделав первый проход от руки, есть некоторые характеристики, которые делают сообщения довольно хорошими, как некоторые английские фразы. Другие характеристики дают высокую вероятность отказа, таких как URL, множественные хэш -теги и другие фразы. Другие сложнее оценить.

Я мог бы вручную сделать кучу режимов и связанных весов и настраивать вещи вручную, пока мне не понравился выход. Это вполне может сработать. Но я могу назвать несколько других возможных подходов, и мне интересно, какие читатели из переполнения стеков повезло.

Спасибо!

Решение

Это целое поле само по себе! Я рекомендую провести некоторые исследования в литературе по обработке естественного языка.

Существуют специальные способы сделать это, но эти методы были бы очень подвержены ошибкам: многие ложные срабатывания и ложные отрицательные. Это может быть хорошим началом, хотя.

Если вы используете ключевое слово, вы можете попытаться устранение значения ключевого слова (если оно имеет несколько значений), используя слова вокруг рассматриваемого ключевого слова. Но для этого неоднозначности потребовалось бы обработанное корпус (группа документов), чтобы определить, какие слова появляются вместе чаще всего, и может означать одно и то же.
Вы можете измерить расстояние между текстом, который вы анализируете, и документом, который, как известно, похож. Вам нужно будет использовать словесное количество из обоих текстовых источников, а затем сравнить векторы термина/документа. Посмотрите «модель вектора документов» для более тщательного лечения.

Это хороший проект для работы, но это не просто.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow