BeautifulSoupを使用してコンテンツ値に基づいてタグコンテンツを抽出します
-
29-10-2019 - |
質問
次の形式のHTMLドキュメントがあります。
<p> 1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>
斜体タグと太字の内容を含むが、アンカータグの内容を含む段落タグの内容を抽出したい。また、最初は数値を無視する可能性があります。
予想される出力は次のとおりです。斜体の段落の内容ですが、強くはありません。
それを行うための最良の方法は何ですか?
また、次のコードスニペットが返されます typeRerr:タイプの「noneType」の引数は反復性がありません
soup = BSoup(page)
for p in soup.findAll('p'):
if ' ' in p.string:
print p
提案をありがとう。
正しい解決策はありません
所属していません StackOverflow