Necesita quitar los mensajes antiguos de los archivos .Eml exportados por Thunderbird

StackOverflow https://stackoverflow.com/questions/9322354

  •  27-10-2019
  •  | 
  •  

Pregunta

Hay un hilo enormemente rebelde que tengo que manejar. Cada uno de estos correos electrónicos se respondió normalmente, por lo que no importaba mucho que cada uno tuviera el historial completo con él, hasta que llegó a unos cientos de correos electrónicos.

Entonces, los abrí a todos en Thunderbird y los exporté. Ahora, tengo que encontrar una manera de despojar a cada correo electrónico solo a su propio contenido. Mantenga la respuesta a los bits, pero simplemente elimine el contenido real de esos otros correos electrónicos.

Estoy usando Python en este momento, porque estoy familiarizado con él y lo he usado para análisis XML antes. Probé BeautifulSoup, que parecía funcionar muy bien para eliminar los elementos Div "gmail_quote" 3D, pero al hacerlo, parece haber tratado de dar sentido al resto del archivo .Eml envolviendo varios bits en otros elementos, y arruinando el formato.

Por lo tanto, necesito encontrar una manera de desnudarse, de un archivo que no es un XML puro pero contiene una gran cantidad de XML válido, cada instancia de una clase DIV en particular y sus hijos, sin tocar el texto sin formato. La sección con la que quiero trabajar es todo XML válido (o, lo suficientemente cerca para Beautifulsoup con las citas impares en los atributos).

Sé que también tendré que eliminar la respuesta en el cuerpo, pero eso es bastante fácil.

¿Fue útil?

Solución

Sin ver una muestra, no puedo decir con certeza cómo lograr lo que necesita, pero el analizador del módulo de correo electrónico debe manejar el análisis de los archivos .Eml.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top