Классификация типа веб-сайта с веб-страниц
-
09-10-2019 - |
Вопрос
Существуют ли какие-либо надежные / развертываемые подходы, алгоритмы или инструменты для помечения типа веб-страницы путем разбора некоторых веб-страниц.
Для экс: форумы, блоги, сайты прессуля, новости, E-Comm и т. Д.
Я ищу некоторые четко определенные характеристики (статические правила), из которых это можно определить. Если нет, то я надеюсь, что модель обучения машины может помочь.
Предложения / идеи?
Решение
Если вы подходите к этому с точки зрения машинного обучения, Naive Bayes Classier, вероятно, имеет наибольшее отношение работы / выплат. Версия его используется в Прохождение классифицировать новостные статьи.
Вам понадобится коллекция страниц, каждый с меткой с его правильной категорией. Затем вы извлекаете слова или другие соответствующие элементы с каждой страницы и используете их как функции
Доктор Доббс имеет Ан статья На внедрении наивных байесов
Другие советы
Если вы заинтересованы в прозрении наивных байсовских подходов (в конце концов, есть другие варианты обучения машины), то я предлагаю следующий документ, который следует за охватом этой темы в «Добычах данных: практические инструменты и методики обучения машину», Виттен и Фрэнк:
http://www.coli.uni-sb.de/~crocker/teaching/connection/lecture10_4up.pdf.