Текстовая классификация / алгоритм категоризации [Закрыто

https://stackoverflow.com/questions/3584472

01-10-2019
|

Вопрос

Моя цель состоит в том, чтобы [полу] автоматически назначать тексты другим категориям. Существует набор пользовательских категорий и набор текстов для каждой категории. Идеальный алгоритм должен быть в состоянии учиться из человеческой классификации, а затем автоматически классифицировать новые тексты. Может кто-нибудь предложить такой алгоритм и, возможно, .NET Библиотека, которая реализует Ше?

Решение

Делать это не тривиально. Очевидно, вы можете построить словарь, который отображает определенные ключевые слова к категориям. Просто поиск ключевого слова предполагает определенную категорию.

Тем не менее, в тексте естественного языка ключевые слова обычно не будут в их форме стебля. Вам понадобится некоторые морфологические инструменты для поиска формы ствола и используют его в словаре.

Но тогда кто-то мог написать что-то вроде: «Эта статья не о ...». Это представит необходимость в синтаксическом и семантическом анализе.

И тогда вы обнаружите, что определенные ключевые слова могут быть использованы в нескольких категориях: «Band» можно использовать в Musics, техниках или даже работах по ремеслу. Поэтому вам нужна онтология и статистические или другие методы, чтобы взвесить вероятность категории, чтобы выбрать, если не определенно.

Некоторые из ключевых слов могут даже нелегко вписаться в онтологию: это ближе к математике к программисту или садовнику? Но вы сказали в своем вопросе, что категории построены мужчин, поэтому они также могут помочь построить онтологию.

Посмотреть Вычислительная лингвистика здесь и в Википедия Для дальнейших исследований.

Теперь, чем более узкое поле, из ваших текстов, тем более структурированным они являются, а тем меньше словарный запас, тем легче проблема становится.

Снова некоторые ключевые слова для дальнейших исследований: морфология, анализ синтаксиса, семантика, онтология, вычислительная лингвистика, индексация, ключевые слова

Другие советы

Существует несколько подходов к автоматической классификации текста. Наивный классификатор Bayes, возможно, самый простой из них. Другой - ближайший к ближайшему соседу, которое вы можете использовать. Этот Google отвечает на категоризация текста может помочь вам.

Смотрите мою видео серии точно в этой теме.

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html.

Классификация в видео 5, но другие видео могут помочь вам встать на скорость.

Все это основано на программе FOSS Rapidminer.

Машина опорных векторов. Все любят поддерживать векторные машины. Вам нужно будет сделать довольно много читать, и, возможно, даже купить книгу. Но вы могли бы начать с чтения бумага чтобы увидеть, нравится ли вам идею.

Проверить Этот пример из Scikit учится. Отказ Существует целая куча различных алгоритмов, применяемых в примере, чтобы вы могли сравнить результаты.

Общий термин для этих методов - «многомерные методы». То, что с поиском на «текстовую классификацию» или «текстовую классификацию» должно поднять некоторые полезные заявки. Удачи !

Я искал ответ на этот вопрос довольно долго. Сегодня я нашел свой ответ.

Существует программа с открытым исходным кодом под названием «DBACL», которая делает это. Он классифицирует документы в столько категорий, сколько вам нравится (до определенного максимума).

Другие ответы, которые говорят такие вещи, как «не тривиальные», все правда, но имеющие простое в использовании пакет, который много трудолюбия помогает сделать его управляемым.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow