Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста?
-
14-10-2019 - |
Вопрос
Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста?
Я хотел бы найти способ извлечения ссылок, которые находятся в теле текста.
1.) Я использую читабельность в Python https://github.com/gfxmonk/python-readability
2.) Я хотел бы каким -то образом сравнить извлеченный текст с исходным HTML -текстом, чтобы извлечь ссылки в фактическом теле статьи.
Решение
Ну, похоже, он возвращает красивое дерево. Итак, вы должны быть в состоянии сделать что -то вроде:
article = page.summary() # Extract article using readability
article.findAll("a") # Return a list of all links in the article
Не связан с StackOverflow