TIFF IFilter no leer correctamente el texto en la columna VARBINARY

https://stackoverflow.com/questions/3539908

30-09-2019
|

Pregunta

texto del enlace Quiero usar el formato TIFF IFilter integrado en Windows 2008 Server R2 con búsqueda de texto completo en SQL Server 2008 R2 también ....

He instalado el filtro a través del Administrador de servidores y actualizada la "Fuerza TIFF IFilter para realizar OCR para cada página de un documento TIFF" directiva de grupo local en Configuración del equipo -> Plantillas administrativas - "Enabled"> OCR a

También han creado un catálogo de texto y una tabla llamada "FileData" que es similar al siguiente:

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

Al insertar un archivo en esa mesa, como un PDF o Word DOC, que puede golpear palabras clave en los momentos de archivos más tarde con una búsqueda de texto completo:

Hice un enorme archivo TIFF grande con el texto muy claro (1024 x 768 ... alrededor de 12 palabras) y importados que en la tabla FileData. No puedo encontrar todas las palabras en el mismo.

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

Sin embargo, cuando se utiliza un archivo TIFF "real", como una hoja de datos del fabricante, consigo cero resultados en la búsqueda de palabras clave. No tengo la menor idea de por qué, y no hay mucho en línea con la solución de este SQL Server.

He tratado de guardar el archivo .TIFF con varios tipos de compresión, sin compresión, etc ... y yo no estoy teniendo suerte. El texto en mi archivo de prueba es cristalina y aún así es bastante grande. No me puedo imaginar la claridad del archivo es el problema, acabase supongo que es posible.

Para que lo tendría algo para comparar, me tomó las dos imágenes siguientes y los importados:

TRABAJO DE LA MUESTRA ARCHIVO ROTO ARCHIVO DE MUESTRA

Los resultados para la muestra de trabajo son muy buenos. Estas son las palabras clave de la muestra de trabajo en el índice de texto: $ 3.50 © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 abunda absorber resumen acompañado adquirido Actuar acción ventajas agencia algoritmo algoritmos ya cantidades Ámsterdam analizar Ana aparecido aplicaciones cenador arnficioj artficia1 asignación B.V. establecido base Booker brigada Cubeta edificio bv capacidades cuidadosamente cambiando características juego de damas clasificador classtfier clausura cognitivo comparar compitiendo complejo complejidades complejidad computadora confrontación confundir considerar continuo continuamente continuamente artificial crédito curas Delaware. datos Delaware bueno definido definición diseño diseñado concepción descubrimiento discusión perturbador durante ecológico económico Ingeniería Eléctrica e Informática esfuerzo Elsevier FIN DEL DOCUMENTO Ingenieria ambiente entornos errar incluso eventos ejemplo exposición experiencia expresado existente extensiones cara caras factible archivo disparo primero fluir siguiendo formato juego genera genérico genético dando metas Goldberg bueno holiadd Holanda sin embargo hipótesis imagen inmerso inmune que incide implícitamente exactamente información inteligencia interesar intervenir Introducción irrelevante J h. J h diario L. B. grande lb aprender aprendizaje esperanza de vida largo máquina mamífero mamífero mamíferos macizamente mensaje mi Michigan nuevo nn0004 NN08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 ruidoso norte nn novela novedad asequible a menudo uno funcionar opción originalmente fuera de propio papel paralelo paso modelo saldar permiso perpetuo perpetuamente jugar jugador obras de teatro posible bonito problemas proporcionar editor editores con rapidez azar raramente real realista reforzamiento repetidamente reimpreso requisitos retina opiniones revisar robótico regla reglas Ciencias secuencias conjuntos significativamente sencillo simplemente pequeño escaso sistema sistemas etiquetado técnicas teoría thor pelea hora tt2135 dos veces torceduras dos típicamente Estados Unidos. Universidad sobre nosotros Estados Unidos visual vol sin preguntarse mundo

Sin embargo, los resultados de la muestra rotas son sólo ... bueno, vacante. Ni una sola word de la imagen TIFF real: 08 2010 21 21:49:22 FIN DEL DOCUMENTO archivo formato imagen NN08 nn2010 nn21 etiquetado pelea tt2149

Si alguien tiene alguna idea de qué probar siguiente, soy todo oídos.

Solución 3

Bueno, resulta que el problema real era el tamaño de la imagen. El OCR en el ITFF IFilter simplemente no estaba aún tratando de procesarlo ... demasiado grande. Tenía que descubrir esta por ensayo y error, y no podía encontrar ninguna documentación que indica el tamaño máximo / DPI del TIFF entrante. Alguien sabe estas especificaciones? Este artículo parece tener alguna información: support.microsoft.com/kb/837847 Pero es específico de Sharepoint, y no he tenido tiempo para meterse con la configuración para ver si funciona. Además, me gustaría realmente necesidad de eliminar sólo la tapa de tamaño. Las ideas allí?

Otros consejos

Trate de convertir la imagen que no funcione al blanco y negro, y ver si hay más palabras se reconocieron.

añadido

Trate uso IrfanView (o cualquier herramienta de imagen) para ajustar el DPI de la segunda imagen a 300. A continuación, intente de nuevo.

Obviamente, estos pasos para solucionar problemas no son soluciones permanentes, que acaba de ayudar a aislar el problema.

rwong es correcta. Es necesario aislar el problema.

No todos los motores de OCR puede procesar imágenes TIFF en color y prefieren B / W. Supongo que el motor OCR no está aún procesando su página que no es de trabajo y apenas emite un mensaje de error que no se puede ver.

Como por encima de guardar el archivo como un B try / W TIFF imagen.
Guarde el archivo como un archivo JPEG y tratar de reconocer la imagen como un archivo JPEG.

Me encontré con la imagen activada no a través de mi OCR y era capaz de extraer la mayor parte del texto correctamente para resolución no es un problema importante.

Me parece algo interesante

Yo uso C # Do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

Y utilizar el poner el nuevo archivo TIFF en la base de datos, es un trabajo, no sé por qué, pero resuelvo mi problema

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow