読みやすさ(テキスト抽出アルゴリズム)とPythonのカスタムアルゴリズムを使用して、テキストからリンクを抽出する方法はありますか?
-
14-10-2019 - |
質問
読みやすさ(テキスト抽出アルゴリズム)とPythonのカスタムアルゴリズムを使用して、テキストからリンクを抽出する方法はありますか?
テキストの本文にあるリンクを抽出する方法を見つけたいと思います。
1.)Pythonで読みやすさを使用します https://github.com/gfxmonk/python-readability
2.)記事の実際の本文でリンクを抽出するために、抽出されたテキストを元のHTMLテキストと何らかの形で比較したいと思います。
解決
まあ、それは美しいsoupの木を返しているようです。だからあなたは次のようなことをすることができるはずです:
article = page.summary() # Extract article using readability
article.findAll("a") # Return a list of all links in the article
所属していません StackOverflow