Деревья решений для классификации документов

https://stackoverflow.com/questions/3114734

29-09-2019
|

Вопрос

Привет, я хотел знать, можно ли использовать деревья решений для классификации документов, и если да, то каким должно быть представление данных?Я знаю использование пакета R вечеринка для деревьев решений.

Решение

Один из способов — создать огромную матрицу, где каждая строка — это документ, а каждый столбец — слово.А значения в ячейках — это количество раз, которое это слово появлялось в этом документе.

Затем, если вы имеете дело со случаем «контролируемого обучения», у вас должен быть еще один столбец для классификатора, и оттуда вы можете использовать команду типа «rpart» (из пакета rpart) для создания дерева классификации.Команда будет вводить формулу для rpart так же, как и для линейной модели (lm).

Если вы хотите, вы также можете попробовать сначала сгруппировать ваши слова в «группы слов», а затем каждый столбец будет принадлежать к отдельной группе слов с числом, указывающим, сколько слов в документе принадлежит этой группе.Для этого я бы взглянул на пакет «tm».(Если вы в конечном итоге что-то с этим сделаете, пожалуйста, подумайте о том, чтобы опубликовать об этом здесь, чтобы мы могли извлечь из этого уроки)

Лучший, Тал

Другие советы

В этой статье дается обзор различных методов категоризации текста и их точности. Короче говоря, вы можете классифицировать текст с деревьями решений, но есть и другие алгоритмы, которые намного лучше.

Себастьяни Ф. (2002). Машинное обучение в автоматической категоризации текста. ACM Computing Surveys, CS.IR/0110053V1. Доступна с: http://arxiv.org/abs/cs.ir/0110053v1.

Я сомневаюсь в этом-по крайней мере, как обычно определено, дерево решений использует один критерий для указания подсчета. В классификационных документах вы можете редко основывать многое из всего на одном критерии-вам нужны несколько критериев, и даже тогда вы не получите четкое решение, похожее на деревьев, но «это немного ближе к этому, чем Другая вещь «вроде результата.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow