Ce qui est une bonne méthode pour l'extraction de texte à partir d'un fichier PDF à l'aide de C# ou classique ASP (VBScript)?[fermé]

https://stackoverflow.com/questions/46869

09-06-2019
|

Question

Est-il une bonne bibliothèque pour l'extraction de texte à partir d'un fichier PDF?Je suis prêt à payer pour cela si je dois le faire.

Quelque chose qui fonctionne avec C# ou classique ASP (VBScript) serait l'idéal et j'ai aussi besoin d'être en mesure de séparer les pages du fichier PDF.

Cette question avait des trucs intéressant, surtout pdftotext mais j'aimerais éviter d'appeler à une commande externe-application en ligne si je peux.

La solution

Vous pouvez utiliser l'interface IFilter intégré à Windows pour extraire le texte et les propriétés (auteur, titre, etc.) à partir de n'importe quel type de fichier.C'est une interface COM de sorte que vous devez utiliser l' .NET de l'interopérabilité des équipements.

Vous pouvez également télécharger gratuitement le PDF IFilter pilote à partir d'Adobe.

Autres conseils

Voici une bonne liste:Open Source Libs pour PDF/C#

La plupart de ces sont orientés vers la création des fichiers Pdf, mais ils devraient avoir fonctionnalité de lecture ainsi.

Il y a celle-ci ainsi: iText

J'ai seulement joué avec iText avant.Rien de majeur.

Nous avons utilisé Aspose avec de bons résultats.

Docotic.Pdf library peut être utilisé pour extraire formaté ou texte brut à partir de documents PDF.

La bibliothèque pouvez lire des documents PDF de la version (jusqu'à la dernière publication du standard).L'Extraction de pages est également pris en charge par la bibliothèque.

Liens vers des exemples de code:

Avertissement:Je travaille pour le vendeur de la bibliothèque.

Outre le à la a approuvé réponse:il existe également d'autres solutions commerciales pour remplacer Adobe IFilter pour l'indexation de texte (en fournissant la même API, mais aussi en offrant une prime supplémentaire de la fonctionnalité):

Foxit PDF IFilter:fournit beaucoup plus rapide indexation de texte comparant pour le plugin d'Adobe.
PDFLib PDF iFilter:inclut le support pour les documents PDF avec en plus l'API pour exécuter vos propres requêtes.

Si vous êtes à la recherche pour le seul outil qui peut être utilisé de deux gérés .NET applications et de l'héritage des langages de programmation comme ASP classique ou VB6, puis c'est là le commercial ByteScout PDF Extractor SDK serait la forme car il fournit à la fois .NET et ActiveX/COM d'API.

Avertissement:Je travaille pour ByteScout

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow