Necessità di togliere i vecchi messaggi da file .eml esportati da Thunderbird

StackOverflow https://stackoverflow.com/questions/9322354

  •  27-10-2019
  •  | 
  •  

Domanda

C'è questa discussione in maniera massiccia indisciplinati che ho avuto modo di manico. Ognuno di questi messaggi di posta elettronica è stata appena risposto al solito, quindi non importa tanto che ognuno ha avuto la storia completa con esso, fino a raggiungere a poche centinaia di messaggi di posta elettronica.

Quindi, io li aprì in Thunderbird, e li esportate. Ora, ho avuto modo di trovare un modo per togliere ogni giù e-mail a solo i propri contenuti. Mantenere la risposta-a pezzi, ma solo sbarazzarsi del contenuto effettivo di queste altre email.

sto usando Python in questo momento, perché ho familiarità con esso, e lo hanno utilizzato per l'analisi XML prima. Ho provato BeautifulSoup, che sembrava grande opera presso escludendo gli elementi div 3D "gmail_quote", ma in questo modo, sembra che abbia cercato di dare un senso al resto del file .eml avvolgendo vari pezzi di altri elementi, e rovinando il formato.

Così, ho bisogno di trovare un modo per striscia, da un file XML che non è pura, ma contiene un sacco di XML valido, ogni istanza di una particolare classe div e dei suoi figli, senza toccare il testo in chiaro. La sezione Voglio lavorare con è tutti validi XML (o, abbastanza vicino per BeautifulSoup con le virgolette dispari sugli attributi).

So che dovrò anche per togliere la risposta nel corpo, ma questo è abbastanza facile.

È stato utile?

Soluzione

Senza vedere un campione, non posso dire con certezza come eseguire ciò che è necessario, ma il parser dal modulo e-mail dovrebbe gestire l'analisi dei file .eml.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top