Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста?

StackOverflow https://stackoverflow.com/questions/4589323

Вопрос

Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста?

Я хотел бы найти способ извлечения ссылок, которые находятся в теле текста.

1.) Я использую читабельность в Python https://github.com/gfxmonk/python-readability

2.) Я хотел бы каким -то образом сравнить извлеченный текст с исходным HTML -текстом, чтобы извлечь ссылки в фактическом теле статьи.

Это было полезно?

Решение

Ну, похоже, он возвращает красивое дерево. Итак, вы должны быть в состоянии сделать что -то вроде:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top