Nécessité de dépouiller les anciens messages des fichiers .eml exportés par Thunderbird

https://stackoverflow.com/questions/9322354

27-10-2019
|

Question

Il y a ce fil massivement indisciplinés que je dois poignée. Chacun de ces e-mails était juste répondu à normalement, donc il n'a pas beaucoup d'importance que chacun avait l'histoire complète avec elle, jusqu'à ce qu'elle atteigne quelques centaines de courriels.

Alors, je les ai ouvert tous dans Thunderbird, et les a exportés. Maintenant, je dois trouver un moyen de dépouiller chaque bas de courrier électronique à seulement son propre contenu. Gardez la réponse à des bits, mais juste se débarrasser du contenu réel de ces autres e-mails.

J'utilise Python pour le moment, parce que je suis familier avec elle, et l'ai utilisé pour l'analyse XML avant. J'ai essayé BeautifulSoup, qui semblait grand travail à priver les éléments div « de gmail_quote » 3D, mais ce faisant, il semble avoir essayé de comprendre le reste du fichier .eml en enveloppant différents bits dans d'autres éléments, et ruiner le format.

Alors, je dois trouver un moyen de bande, à partir d'un fichier XML qui n'est pas pur, mais contient beaucoup de XML valide, chaque instance d'une classe particulière de div et de ses enfants, sans toucher le texte brut. La section que je veux travailler avec est tout XML valide (ou, assez proche pour BeautifulSoup avec les guillemets impairs sur les attributs).

Je sais que je vais devoir aussi dépouiller la réponse dans le corps, mais c'est assez facile.

La solution

Sans voir un échantillon, je ne peux pas dire avec certitude comment accomplir ce dont vous avez besoin, mais l'analyseur de la Module email doit gérer les fichiers .eml analyse syntaxique.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow