Müssen alte Nachrichten aus von Thunderbird exportierten .eml -Dateien ausziehen

https://stackoverflow.com/questions/9322354

27-10-2019
|

Frage

Es gibt diesen massiv widerspenstigen Faden, den ich damit umgehen muss. Jede dieser E -Mails wurde nur normalerweise beantwortet, daher war es egal, dass jeder die vollständige Geschichte damit hatte, bis er einige hundert E -Mails erreichte.

Also öffnete ich sie alle in Thunderbird und exportierte sie. Jetzt muss ich einen Weg finden, jede E -Mail nur auf ihren eigenen Inhalt zu ziehen. Behalten Sie die Antwort auf Bits, aber lassen Sie sich einfach den tatsächlichen Inhalt dieser anderen E-Mails los.

Ich benutze Python im Moment, weil ich damit vertraut bin und es schon früher für XML -Parsen verwendet habe. Ich habe die BeautifulSoup ausprobiert, die großartig zu funktionieren schien, um die Divelemente "gmail_quote" von 3D zu entfernen, aber es scheint damit versucht zu haben, den Rest der .eml -Datei zu verstehen, indem es verschiedene Bits in andere Elemente und in anderen Elementen einwickelt und ein Wickeln und ein Verständnis für den Verständnis hat. das Format ruinieren.

Ich muss also einen Weg zum Streifen finden, aus einer Datei, die nicht reine XML ist, sondern viele gültige XML enthält, jede Instanz einer bestimmten Div -Klasse und ihrer Kinder, ohne den einfachen Text zu berühren. Der Abschnitt, mit dem ich arbeiten möchte, ist alles gültig XML (oder für BeautifulSoup mit den ungeraden Zitaten auf den Attributen nahe genug).

Ich weiß, dass ich auch die Antwort im Körper ausziehen muss, aber das ist leicht genug.

Lösung

Ohne ein Beispiel zu sehen, kann ich nicht sicher sagen, wie Sie das erreichen können, was Sie brauchen, aber der Parser von der E -Mail -Modul sollte das Parsen der .eml -Dateien verarbeiten.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow