Классификация типа веб-сайта с веб-страниц

https://stackoverflow.com/questions/4649625

09-10-2019
|

Вопрос

Существуют ли какие-либо надежные / развертываемые подходы, алгоритмы или инструменты для помечения типа веб-страницы путем разбора некоторых веб-страниц.

Для экс: форумы, блоги, сайты прессуля, новости, E-Comm и т. Д.

Я ищу некоторые четко определенные характеристики (статические правила), из которых это можно определить. Если нет, то я надеюсь, что модель обучения машины может помочь.

Предложения / идеи?

Решение

Если вы подходите к этому с точки зрения машинного обучения, Naive Bayes Classier, вероятно, имеет наибольшее отношение работы / выплат. Версия его используется в Прохождение классифицировать новостные статьи.

Вам понадобится коллекция страниц, каждый с меткой с его правильной категорией. Затем вы извлекаете слова или другие соответствующие элементы с каждой страницы и используете их как функции

Доктор Доббс имеет Ан статья На внедрении наивных байесов

Другие советы

Если вы заинтересованы в прозрении наивных байсовских подходов (в конце концов, есть другие варианты обучения машины), то я предлагаю следующий документ, который следует за охватом этой темы в «Добычах данных: практические инструменты и методики обучения машину», Виттен и Фрэнк:

http://www.coli.uni-sb.de/~crocker/teaching/connection/lecture10_4up.pdf.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow