Удалить HTML с веб-страницы и вычислить частоту слов?

https://stackoverflow.com/questions/207404

03-07-2019
|

Вопрос

Как в Groovy получить веб-страницу и удалить HTML-теги и т. д., оставив только текст документа?Я бы хотел, чтобы результаты были сохранены в коллекции, чтобы я мог построить счетчик частоты слов.

Наконец, позвольте мне еще раз упомянуть, что я хотел бы сделать это в Groovy.

Решение

Предполагая, что вы хотите сделать это с помощью Groovy (догадавшись на основе тега groovy), ваши подходы, скорее всего, будут либо сильно ориентированы на сценарии оболочки, либо с использованием библиотек Java.В случае сценариев оболочки я бы согласился с мугами: использование Lynx или Elinks, вероятно, является самым простым способом сделать это.В противном случае посмотрите HTMLПарсер и посмотреть Обработка каждого слова в файле (прокрутите вниз, чтобы найти соответствующий фрагмент кода)

Вы, вероятно, застряли в поиске библиотек Java для использования с Groovy для анализа HTML, поскольку, похоже, для этого не существует библиотек Groovy.Если вы не используете Groovy, укажите желаемый язык, поскольку существует множество Инструменты преобразования HTML в текст там, в зависимости от того, на каком языке вы работаете.

Другие советы

Если вам нужна коллекция токенизированных слов из HTML, не можете ли вы просто проанализировать ее как XML (должен быть действительный XML) и захватить весь текст между тегами?Как насчет чего-то вроде этого:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

Вы можете использовать Веб-браузер Lynx чтобы выплюнуть текст документа и сохранить его.

Хотите сделать это автоматически?Хотите ли вы отдельное приложение, которое сделает это?Или вам нужна помощь в кодировании его в вашем приложении?На каких платформах (рабочий стол Windows, веб-сервер и т. д.) он будет работать?

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow