Pergunta

Posso ler e -mails no Microsoft Exchange usando um cliente IMAP da Lumisoft. Definei as configurações do Exchange Server para converter qualquer email em texto sem formatação. No entanto, quando li nas informações, ela ainda parece conter HTML/CSS.

Qual é a melhor maneira de remover o HTML/CSS do corpo de um email? Ou há uma configuração no servidor Exchange que eu parecia ter perdido?

Foi útil?

Solução

Eu costumo adotar uma dessas abordagens ...

  1. Usando expressões regulares. Pode ser um pouco difícil acertar se você tiver que encontrar uma solução que também funcione com todos os tipos de marcação inválida, mas aposto que alguém já fez isso antes de você (dica: google ou pesquisa assim).

  2. Usando uma biblioteca de analisador HTML. Você pode encontrar um para qualquer linguagem de programação popular por aí. Eu recomendo o uso do pacote de agilidade HTML.

Outras dicas

Não tenho certeza de exatamente como sua configuração funciona, se você pode executar scripts, etc. Um analisador HTML seria a melhor maneira de analisar o HTML, obviamente. Por exemplo, com HPRICOT (uma biblioteca rubi html-parsing), você pode fazer puts doc.find_element('body').inner_text E isso imprimiria o conteúdo de texto do documento.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top