Frage

Link-Text ich den TIFF-IFilter gebaut in Windows 2008 Server R2 verwenden will mit Volltextsuche in SQL Server 2008 ... auch R2.

Ich habe den Filter durch Server-Manager installiert und aktualisiert, um die „Force-TIFF-IFilter OCR durchzuführen für jede Seite in einem TIFF-Dokument“ für lokale Gruppenrichtlinieneinstellung in Computerkonfiguration -> Administrative Vorlagen - „Enabled“> OCR

Ich habe auch einen Volltextkatalog und eine Tabelle namens „Filedata“ Das sieht aus wie diese erstellt:

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

Wenn ich eine Datei in die Tabelle einfügen, wie ein PDF oder Word DOC, kann ich Keywords in der Datei Momenten getroffen später mit einer Volltextsuche:

Ich habe eine große große TIFF-Datei mit sehr klarem Text (1024 x 768 ... etwa 12 Worte) und importiert, die in die Filedata-Tabelle. Ich kann jedes Wort darin finden.

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

Allerdings, wenn ich eine „echte“ TIFF-Datei zu verwenden, wie ein Datenblatt von einem Hersteller, erhalte ich ZERO Ergebnisse, wenn nach Schlüsselwörtern suchen. Ich habe keine Ahnung, warum, und es gibt nicht viel Online-Fehlerbehebung dies mit SQL Server.

Ich habe versucht, die .TIFF Datei mit verschiedenen Arten von Komprimierung zu speichern, ohne Komprimierung, etc ... und ich habe einfach kein Glück. Der Text in meiner Testdatei ist kristallklar und immer noch ziemlich groß. Ich kann mir nicht vorstellen, die die Datei Klarheit ist das Problem, allthough Ich nehme an, dass ist möglich.

Nur damit Sie etwas hätten vergleichen zu können, nahm ich die folgenden zwei Bilder und importierte sie:

ARBEITSBeispielDatei BROKEN SAMPLE FILE

Die Ergebnisse für die Arbeitsprobe sind wirklich gut. Dies sind die Schlüsselwörter aus der Arbeitsprobe in dem Volltextindex: $ 3.50 © 0004 08 1989 2010 21 21.35.42 235 282 3116 3702 40 48109 89 Abounds absorbieren abstrakt begleitet erworben Handlung Aktion Vorteile Agentur Algorithmus Algorithmen bereits Beträge amsterdam analysieren Anna erschienen Anwendungen Laube arnficioj artficia1 Zuordnung B.V. basierend Basis booker Brigade Eimer Gebäude bv Fähigkeiten vorsichtig Ändern Eigenschaften Dame Sichter classtfier Schließen kognitiv Vergleichen Wettbewerb Komplex Komplexitäten Komplexität Computer Konfrontations verwechseln Erwägen ständig ständig ständig gekünstelt Anerkennung Kuren d.e. Daten de anständig definiert Definition Design entworfen Planen Entdeckung Diskussion störend während ökologisch wirtschaftlich eecs Anstrengung Elsevier ENDE DER DATEI Ingenieurwesen Umgebung Umgebungen irren sogar Veranstaltungen Beispiel Ausstellungsstück Erfahrung ausgedrückt noch vorhanden Erweiterungen Gesicht Gesichter möglich Datei Brennen zuerst fließen folgende Format Spiel erzeugt generisch genetisch Angabe Tore Goldberg gut holiadd Holland jedoch Hypothesen Bild versunken immun auftreffende implizit in genau Information Intelligenz Interesse eingreifen Einführung irrelevant J. H. jh Tagebuch Pfund. groß Pfund lernen Lernen Lebensdauer lange Maschine Säugetier Säugetier Säugers massiv Botschaft mi Michigan Neu nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 laut Norden nos Roman Neuheit erhältlich häufig einer arbeiten Möglichkeit ursprünglich draußen besitzen Papier parallel Vorbeigehen Muster auszahlen Genehmigung unaufhörlich ständig abspielen Spieler Theaterstücke möglich ziemlich Probleme zur Verfügung stellen Verleger Verlag schnell nach dem Zufallsprinzip selten echt realistisch Verstärkung wiederholt nachgedruckt Anforderungen Retina Bewertungen überarbeiten Roboter Regel Regeln Wissenschaft Sequenzen Sets bedeutend einfach einfach klein spärlich System Systeme getaggten Techniken Theorie thor tiff Zeit tt2135 zweimal Drehungen zwei typisch USA. Universität auf uns USA visuell vol ohne Wunder Welt

Aber die Ergebnisse aus der zerbrochenen Probe sind nur ... na ja, frei. Nicht ein einziger word vom eigentlichen TIFF-Bild: 08 2010 21 21.49.22 ENDE DER DATEI Datei Format Bild nn08 nn2010 nn21 getaggten tiff tt2149

Wenn jemand eine Idee hat, was als nächstes zu versuchen, ich bin ganz Ohr.

War es hilfreich?

Lösung 3

Nun stellt sich das eigentliche Problem der Größe des Bildes war aus. Die OCR im ITFF IFilter war gerade nicht einmal versucht, sie zu verarbeiten ... zu groß. Ich hatte dies durch Versuch und Irrtum zu entdecken, und konnte keine Dokumentation finden Sie die maximale Größe / DPI des eingehenden TIFF Angabe. Kennt jemand diese Spezifikationen? Dieser Artikel erscheint einige Informationen zu haben: support.microsoft.com/kb/837847 Aber ist spezifisch für Sharepoint, und ich habe keine Zeit zu Chaos mit den Einstellungen hatte, um zu sehen, ob es funktioniert. Auch würde ich wirklich brauchen, um nur die Größe Kappe zu entfernen. Ideen gibt?

Andere Tipps

Versuchen Sie wandeln die nicht arbeitende Bild in Schwarz-Weiß, und sehen, ob mehr Worte anerkannt zu bekommen.

hinzugefügt

Versuchen Verwendung Irfanview (oder ein beliebiges Bild-Tool), um die DPI des zweiten Bildes auf 300. Dann versuchen Sie es erneut.

Offensichtlich sind diese Schritte zur Fehlerbehebung nicht dauerhafte Lösungen, sie nur helfen, das Problem zu isolieren.

rwong ist richtig. Sie müssen das Problem isolieren.

Nicht alle OCR-Engines können Farbe TIFF-Bilder verarbeiten und B / W bevorzugen. Ich vermute, dass die OCR-Engine nicht einmal Sie nicht arbeiten Seite Verarbeitung und gibt nur eine Fehlermeldung, die Sie nicht sehen können.

  1. Wie pro oben try Speichern Sie die Datei als B / W TIFF-Bild.
  2. Speichern Sie die Datei als JPEG und versucht, das Bild als JPEG zu erkennen.

Ich lief Sie nicht arbeiten Bild durch meine OCR und war in der Lage die meisten der Text korrekt zu extrahieren so Auflösung kein großes Problem ist.

Ich finde etwas interessant

Ich verwende C # do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

Und verwenden Sie das setzte die neue TIFF-Datei in der Datenbank, ist es Arbeit, ich weiß nicht warum, aber mein Problem lösen

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top