TIFF IFilter pas correctement la lecture du texte dans la colonne VARBINARY

https://stackoverflow.com/questions/3539908

30-09-2019
|

Question

texte du lien Je veux utiliser le TIFF IFilter intégré à Windows 2008 Server R2 avec Recherche en texte intégral dans SQL Server 2008 R2 ... aussi.

J'ai installé le filtre via le gestionnaire de serveur et mis à jour la « force TIFF IFilter pour effectuer OCR pour chaque page dans un document TIFF » paramètre de stratégie de groupe local dans Configuration ordinateur -> Modèles d'administration - «Activé »> OCR

J'ai aussi créé un catalogue de texte intégral et une table appelée « FileData » qui ressemble à ceci:

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

Quand insérer un fichier dans cette table, comme un fichier PDF ou Word DOC, je peux frapper des mots-clés dans les moments de fichier plus tard avec une recherche textuelle:

J'ai fait un gros énorme fichier TIFF avec un texte très clair (1024 x 768 ... environ 12 mots) et importés dans la table FileData. Je peux trouver chaque mot il.

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

Cependant, lorsque j'utilise un fichier TIFF « réel », comme une fiche d'un fabricant, je reçois ZERO résultats lors de la recherche des mots-clés. Je n'ai pas la moindre idée de pourquoi, et il n'y a pas beaucoup de dépannage en ligne avec ce SQL Server.

J'ai essayé d'enregistrer le fichier .TIFF avec différents types de compression, sans compression, etc ... et je suis tout simplement pas avoir de chance. Le texte dans mon fichier de test est Limpide et encore assez grande. Je ne peux pas imaginer la clarté de fichier est le problème, allthough je suppose que cela est possible.

Juste pour que vous auriez quelque chose à comparer, je pris les deux images suivantes et importées:

DE TRAVAIL Exemple de fichier BROKEN SAMPLE FILE

Les résultats de l'échantillon de travail sont vraiment bons. Ce sont les mots-clés de l'échantillon de travail dans l'index de texte intégral: 3,50 $ © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 abonde absorber abstrait accompagné acquis acte action avantages agence algorithme algorithmes déjà les montants amsterdam analyser Ann apparu applications tonnelle arnficioj artficia1 affectation B.V. basé base booker la brigade seau bâtiment bv capacités soigneusement en changeant caractéristiques jeu de dames classificateur classtfier fermeture cognitif comparant concurrence complexe complexité complexité ordinateur Faire face embrouiller considérer continuel continuellement en continu artificiel crédit cures d.e. Les données de décent défini définition conception conçu Concevoir Découverte discussion inquiétant pendant écologique économique Les CPE effort elsevier FIN DE FICHIER ingénierie environnement environnements se tromper même événements Exemple exposition expérience exprimé existant extensions visage visages réalisable fichier cuisson première couler Suivant format Jeu génère générique génétique donnant buts goldberg bien holiadd Hollande toutefois hypothèses image immergé immunitaire incidente implicitement sur exactement information intelligence intérêt intervenir introduction sans importance J. H. jh journal kg. grand kg apprendre apprentissage durée de vie longue machine mammifère mammifères de mammifères massivement message mi Michigan Nouveau nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 bruyant Nord nos roman nouveauté qu'on peut obtenir souvent une fonctionner option à l'origine à l'extérieur posséder papier parallèle qui passe modèle payer autorisation perpétuel perpétuellement jouer joueur pièces possible joli problèmes fournir éditeur éditeurs rapidement au hasard rarement réal réaliste renforcement à plusieurs reprises réédité exigences rétine avis réviser robotique règle règles science séquences ensembles significativement simple simplement petit clairsemé système systèmes étiquetée techniques théorie thor querelle temps tt2135 deux fois torsions deux typiquement Etats-Unis. Université sur nous Etats-Unis visuel vol sans pour autant merveille monde

Mais les résultats de l'échantillon brisé sont juste ... eh bien, vacants. Pas un seul word de l'image TIFF réelle: 08 2010 21 21:49:22 FIN DE FICHIER fichier format image nn08 nn2010 nn21 étiquetée querelle tt2149

Si quelqu'un a des idées sur ce qu'il faut essayer la prochaine, je suis toutes les oreilles.

La solution 3

Eh bien, il se trouve le problème réel était la taille de l'image. L'OCR dans le ITFF IFilter juste ne cherche pas même à les traiter ... trop grand. Je devais découvrir ce par essais et erreurs, et ne pouvait pas trouver toute la documentation indiquant la taille maximale / DPI du TIFF entrant. Quelqu'un sait-il ces spécifications? Cet article semble avoir quelques informations: support.microsoft.com/kb/837847 Mais est spécifique à Sharepoint, et je n'ai pas eu le temps de jouer avec les paramètres pour voir si cela fonctionne. , Je vraiment besoin aussi juste enlever le bouchon de taille. Idées-t-il?

Autres conseils

Essayez convertir l'image non-travail en noir et blanc, et voir si plus de mots faire reconnaître.

Ajouté

Utiliser IrfanView (ou tout autre outil d'image) pour définir le DPI de la deuxième image à 300. Ensuite, essayez à nouveau.

De toute évidence, ces étapes de dépannage ne sont pas des solutions permanentes, ils ont juste aider à isoler le problème.

rwong est correct. Vous devez isoler le problème.

Tous les moteurs OCR peut traiter des images couleur TIFF et préfèrent B / W. Je suppose que le moteur OCR ne traite pas même votre page non travail et émet juste un message d'erreur vous ne pouvez pas voir.

Comme par essayer d'enregistrer le fichier ci-dessus comme B / W images TIFF.
Enregistrez le fichier au format JPEG et essayer de reconnaître l'image au format JPEG.

J'ai couru l'image non de travail par mon OCR et a pu extraire la majeure partie du texte correctement si la résolution est pas un problème majeur.

Je trouve quelque chose d'intéressant

J'utilise C # do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

Et utiliser le mettre le nouveau fichier tiff dans la base de données, il est un travail, je ne sais pas pourquoi, mais résoudre mon problème

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow