Thunderbirdによってエクスポートされた.emlファイルから古いメッセージを削除する必要があります
質問
私が処理しなければならないこの非常に手に負えないスレッドがあります。これらの電子メールはそれぞれ正常に返信されたばかりなので、数百のメールに到達するまで、それぞれが完全な履歴を持っていたことはそれほど重要ではありませんでした。
それで、私はそれらすべてをThunderbirdに開き、それらをエクスポートしました。今、私は各電子メールを独自のコンテンツのみに削除する方法を見つけなければなりません。返信を維持しますが、他のメールの実際の内容を取り除いてください。
現在、Pythonを使用しています。なぜなら、私はそれに精通しており、以前にXML解析に使用したことがあるからです。 3D「Gmail_Quote」Div Elementsを取り除くのに最適なBeautifulSoupを試しましたが、そうすることで、他の要素にさまざまなビットを包むことで、残りの.EMLファイルを理解しようとしたようです。フォーマットを台無しにします。
したがって、純粋なXMLではなく、特定のDIVクラスとその子供のすべてのインスタンスが多くの有効なXMLが含まれているファイルから、プレーンテキストに触れることなく、剥奪する方法を見つける必要があります。私が操作したいセクションはすべて有効なXMLです(または、属性に奇妙な引用があるBeautifulSoupに十分近い)。
私はまた、体内で返事を取り除く必要があることを知っていますが、それは十分に簡単です。
解決
サンプルを見なければ、必要なものを達成する方法を確実に言うことはできませんが、 メールモジュール .emlファイルの解析を処理する必要があります。
所属していません StackOverflow