Comment indexer et les fichiers .doc de recherche

https://stackoverflow.com/questions/1148760

18-09-2019
|

Question

J'ai une application qui a besoin d'avoir des fichiers .doc téléchargés sur elle. Ces documents devraient ensuite être index et toute la collection de documents devraient être consultables. Cela fonctionne sur un serveur Windows, sans Word est installé, en utilisant IIS et SqlServer, mais je préfère ne pas être lié à une indexation complète du texte SqlServer.

Je pensais à l'aide Lucene.Net pour la partie d'indexation et je me demandais quelle est la meilleure façon d'obtenir le texte sur les fichiers .doc serait. Je pourrais probablement extraire le texte en lisant dans le flux entier et puis en utilisant une expression régulière pour retirer tous les caractères réguliers, mais qui semble lourde et sujette à erreur.

J'ai vu un article sur l'utilisation iFilters qui semble prometteur, mais je pensais que je mettrais ce là-bas car il est pas quelque chose que je connais.

P.S. S'il importe, ces fichiers .doc auront des champs de fusion et publipostage en eux et il n'y a pas d'autre alternative actuelle au format .doc.

La solution

En ce qui concerne une solution qui ne nécessite pas un programme externe, il ressemble à la solution iFilter est la voie à suivre (même si vous pouvez compter que comme un programme externe).

Voici un simple article CodePlex et le code sur la façon dont il peut être fait: http: / /www.codeproject.com/KB/cs/IFilter.aspx

Autres conseils

Dans nos applications PHP nous des programmes externes utilisés toujours similaires à celui-ci: Doc2Txt . Ensuite, nous avons pris le texte et sauvé dans la base de données. Si vous effectuez une recherche sur Google pour « Doc2Txt » vous trouverez de nombreux programmes différents qui font exactement la même chose. Il suffit de prendre celui qui vous convient le mieux.

Peut-être que vous voulez à la caisse Solr .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow