Нужно лишить старые сообщения из файлов .eml, экспортируемых Thunderbird
Вопрос
Есть эта огромная непослушная нить, с которой я должен был справиться. Каждое из этих электронных писем было только что ответило нормально, поэтому не имело большого значения, что у каждого была полная история с ним, пока не достигли нескольких сотен электронных писем.
Итак, я открыл их все в Thunderbird и экспортировал их. Теперь мне нужно найти способ разбить каждое электронное письмо только до его собственного содержимого. Держите ответ на ответ, но просто избавьтесь от фактического содержания этих других электронных писем.
Я использую Python в данный момент, потому что я знаком с ним и раньше использовал его для анализа XML. Я попробовал BeautifulSoup, которая, казалось, отлично работала над исключением трехмерных элементов div "gmail_quote", но при этом он, похоже, пытался разобраться в остальной части файла. разрушая формат.
Таким образом, мне нужно найти способ лишить, из файла, который не является чистым XML, но содержит много достоверного XML, каждого экземпляра определенного класса DIV и его детей, не касаясь простого текста. Раздел, с которым я хочу поработать, является действительным XML (или, достаточно близко для BeautifulSoup с нечетными кавычками на атрибутах).
Я знаю, что мне также придется разбить ответ в теле, но это достаточно легко.
Решение
Не видя образец, я не могу точно сказать, как сделать то, что вам нужно, но анализатор из модуль электронной почты должен обрабатывать анализ файлов .eml.