Нужно лишить старые сообщения из файлов .eml, экспортируемых Thunderbird

https://stackoverflow.com/questions/9322354

27-10-2019
|

Вопрос

Есть эта огромная непослушная нить, с которой я должен был справиться. Каждое из этих электронных писем было только что ответило нормально, поэтому не имело большого значения, что у каждого была полная история с ним, пока не достигли нескольких сотен электронных писем.

Итак, я открыл их все в Thunderbird и экспортировал их. Теперь мне нужно найти способ разбить каждое электронное письмо только до его собственного содержимого. Держите ответ на ответ, но просто избавьтесь от фактического содержания этих других электронных писем.

Я использую Python в данный момент, потому что я знаком с ним и раньше использовал его для анализа XML. Я попробовал BeautifulSoup, которая, казалось, отлично работала над исключением трехмерных элементов div "gmail_quote", но при этом он, похоже, пытался разобраться в остальной части файла. разрушая формат.

Таким образом, мне нужно найти способ лишить, из файла, который не является чистым XML, но содержит много достоверного XML, каждого экземпляра определенного класса DIV и его детей, не касаясь простого текста. Раздел, с которым я хочу поработать, является действительным XML (или, достаточно близко для BeautifulSoup с нечетными кавычками на атрибутах).

Я знаю, что мне также придется разбить ответ в теле, но это достаточно легко.

Решение

Не видя образец, я не могу точно сказать, как сделать то, что вам нужно, но анализатор из модуль электронной почты должен обрабатывать анализ файлов .eml.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow