読みやすさ(テキスト抽出アルゴリズム)とPythonのカスタムアルゴリズムを使用して、テキストからリンクを抽出する方法はありますか?

StackOverflow https://stackoverflow.com/questions/4589323

質問

読みやすさ(テキスト抽出アルゴリズム)とPythonのカスタムアルゴリズムを使用して、テキストからリンクを抽出する方法はありますか?

テキストの本文にあるリンクを抽出する方法を見つけたいと思います。

1.)Pythonで読みやすさを使用します https://github.com/gfxmonk/python-readability

2.)記事の実際の本文でリンクを抽出するために、抽出されたテキストを元のHTMLテキストと何らかの形で比較したいと思います。

役に立ちましたか?

解決

まあ、それは美しいsoupの木を返しているようです。だからあなたは次のようなことをすることができるはずです:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top