Pergunta

I d gostaria de ser capaz de ler o conteúdo de documentos de escritório (por um rastreador personalizado).

A versão de escritório que precisam ser lidos são de 2000 a 2007. Eu quero principalmente para ser rastejando palavras, documentos Excel e PowerPoint.

Eu não quero para recuperar a formatação, apenas o texto nele.

O rastreador é baseado em lucene.NET se que podem ser de alguma ajuda e está em c #.

Eu já utilizado iTextSharp para analisar PDF

Foi útil?

Solução

Aqui está um pouco agradável post no c-charpcorner por Krishnan LN que dá código básico para agarrar o texto de um documento do Word usando as assembleias Palavra de interoperabilidade primários.

Basicamente, você obter a propriedade "WholeStory" fora do documento do Word, colá-lo para a área de transferência, em seguida, puxe-o da área de transferência, enquanto convertendo-a em formato de texto. O passo área de transferência é presumivelmente feito para retirar a formatação.

Para o PowerPoint, você fazer uma coisa semelhante, mas você precisa para percorrer os slides, em seguida, para cada loop de slides através das formas, e agarrar a propriedade "TextFrame.TextRange.Text" em cada forma.

Para o Excel, uma vez que Excel pode ser uma fonte de dados OleDb, é mais fácil de usar ADO.NET. Aqui está um bom post por Laurent Bugnion que anda através desta técnica.

Outras dicas

Se você já está usando Lucene.NET você pode apenas querer tirar vantagem dos vários IFilters já disponíveis para fazer isso. Dê uma olhada no código-fonte aberto SeekAFile projeto. Ela vai mostrar como usar um IFilter para abrir e extrair essas informações de qualquer tipo de arquivo em que um IFilter está disponível. Há IFilters para Word, Excel, PowerPoint, pdf, ea maioria dos outros tipos de documentos comuns.

Há um projeto open source excelente POI , único inconveniente - está escrito para Java . A porta .net é algo muito beta.

Aqui é uma lista boa de várias ferramentas para converter documentos do Word para texto simples, que você pode, então, fazer o que com.

Você também pode considerar verificar dtSearch (www.DtSearch.com). Embora seja essencialmente uma ferramenta de busca, ele faz um grande trabalho de extração de texto a partir de um grande número de tipos de arquivos e é consideravelmente mais barato do que outras opções como a tecnologia Oracle / Stellent Outsidein ou o equivalente de Autonomia.

Estou usando o dtSearch durante anos e encontrá-lo indispensável para este tipo de tarefa.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top