BeautifulSoupを使用してコンテンツ値に基づいてタグコンテンツを抽出します

StackOverflow https://stackoverflow.com/questions/8909481

質問

次の形式のHTMLドキュメントがあります。

<p>&nbsp;&nbsp;&nbsp;1. Content of the paragraph <i> in italic </i> but not <b> strong </b> <a href="url">ignore</a>.</p>

斜体タグと太字の内容を含むが、アンカータグの内容を含む段落タグの内容を抽出したい。また、最初は数値を無視する可能性があります。

予想される出力は次のとおりです。斜体の段落の内容ですが、強くはありません。

それを行うための最良の方法は何ですか?

また、次のコードスニペットが返されます typeRerr:タイプの「noneType」の引数は反復性がありません

soup = BSoup(page)
for p in soup.findAll('p'):
    if '&nbsp;&nbsp;&nbsp;' in p.string:
        print p

提案をありがとう。

正しい解決策はありません

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top