Вопрос

Я хотел бы разбирать HTML-страницу и извлечь содержащий текст из него. Кто-нибудь знает несколько хороших алгоритмов для этого?

Я разрабатываю свои заявки на рельсы, но я думаю, что Ruby немного медленно в этом, поэтому я думаю, что существует ли какая-то хорошая библиотека в C для этого, это будет уместно.

Спасибо!!

PD: пожалуйста, не рекомендую ничего с Java

Обновление: я нашел это Ссылка текста

К сожалению, в Python

Это было полезно?

Решение

Использовать Нокогири, который быстро и написан в C, для Ruby.

(Использование Regexp для разбора рекурсивных выражений, таких как HTML Очень сложно и ошибка И я бы не пошел по этому пути. Я только упоминаю об этом в ответ, так как этот вопрос, кажется, обременяет снова и снова.)

С реальным анализатором, например, например, Nokogiri упомянутым выше, вы также получаете дополнительную выгоду, что структура и логика HTML-документа сохраняются, а иногда вам действительно нужны эти подсказки.

Другие советы

Решения, интегрирующие с Ruby

Внешние растворы

Рысь умеет это сделать. Это открытый источник, если вы хотите взглянуть на него.

Вы должны распределить все сконструировать угла из текста, а затем свернуть белые пробелы. Теоретически < и > не должен быть там в других случаях. Страницы содержат &lt; и &gt; Везде вместо них.

Расширяющие пробелы: конвертируйте всю вкладку, новую строку и т. Д. в пробелы, затем заменить каждую последовательность пространств в одно пространство.

Обновление: и вы должны начать после поиска <body> ярлык.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top