Tiff ifilter لا يقرأ النص بشكل صحيح في عمود Varbinary

https://stackoverflow.com/questions/3539908

30-09-2019
|

سؤال

نص الارتباطأرغب في استخدام tiff ifilter المضمّن في Windows 2008 Server R2 مع البحث عن النص الكامل في SQL Server 2008 ... أيضًا R2.

لقد قمت بتثبيت الفلتر من خلال Server Manager وقمت بتحديث "Force Tiff Ifilter لتنفيذ OCR لكل صفحة في مستند TIFF" إعداد سياسة المجموعة المحلية في تكوين الكمبيوتر -> القوالب الإدارية -> OCR إلى "تمكين".

لقد قمت أيضًا بإنشاء كتالوج نص كامل وجدول يسمى "FileData" يبدو هكذا:

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

عندما أقوم بإدراج ملف في هذا الجدول ، مثل PDF أو Word Doc ، يمكنني الضغط على الكلمات الرئيسية في لحظات الملف في وقت لاحق مع البحث عن النص الكامل:

لقد صنعت ملف TIFF ضخمًا كبيرًا بنص واضح جدًا (1024 × 768 ... حوالي 12 كلمة) واستيرادها إلى جدول FileData. يمكنني العثور على كل كلمة فيه.

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

ومع ذلك ، عندما أستخدم ملف TIFF "الحقيقي" ، مثل ورقة البيانات من الشركة المصنعة ، أحصل على نتائج صفرية عند البحث عن الكلمات الرئيسية. ليس لدي أدنى فكرة عن السبب ، وليس هناك الكثير من استكشاف الأخطاء وإصلاحها عبر الإنترنت باستخدام SQL Server.

لقد حاولت حفظ ملف .tiff بأنواع مختلفة من الضغط ، دون ضغط ، إلخ ... وأنا لا أحظ بأي حظ. النص في ملف الاختبار الخاص بي واضح بلوري ولا يزال كبيرًا جدًا. لا أستطيع أن أتخيل أن وضوح الملف هو المشكلة ، على الرغم من أنني أفترض أن هذا ممكن.

فقط حتى يكون لديك شيء يمكن مقارنته ، التقطت الصورتين التاليتين واستوردتهما:

عمل عينة العمل ملف عينة مكسور

نتائج عينة العمل جيدة حقًا. هذه هي الكلمات الرئيسية من عينة العمل في فهرس النص الكامل:$ 3.50 © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 Abounds Accorb Absorb المصاحب لها ACT Action Active Advantage Assistrage Gendatment Bivability Bivability Bivability Bipaze Bipability bivable BipaDe BipaDe BipaDe Bivable BipaDe BivAder BivAder الخصائص المتغيرة بعناية ، مصنف المدقق ، المصنف Classtfier ، إغلاق الإدراك المعرفي مقارنة بالتعقيد المعقد المتنافس ، التعقيد التعقيد ، وهو مواجهة إرباك ، مراعاة النظر بشكل مستمر في علاجات الائتمان المستمرة بشكل مستمر ، DE DATION DATION مثال على ذلك خبرة معروضة معبر عنها امتدادات موجودة وجوهًا ممكنة ، ملف إطلاق ملفًا أولًا ، تولد لعبة First Format Game أهدافًا وراثية عامة للعطاء Goldberg Good Holiadd Holland ولكن الفرضيات التي تنغمس في Immersing Immons ضمنيًا ضمنيًا ، تدخل الاهتمام بالاستخبارات ، مقدمة ، JH JH JH JOURNAL LB كبيرة LB تعلم التعلم مدى الحياة الطويلة للثدييات الثديية ، والرسالة بشكل كبير MI MICHIGAN NEN NN0004 NN08 NN1989 NN2010 NN21 NN235 nn282 nn3116 nn3702 nn19n19 nn19n19 nn19 nn19 nn19 nn19n الخيار في الأصل خارج الورق الخاص بالورق الخاص بالورقة الخاصة بالمرور ، فإن الإذن المردود الدائم للاعبين يلعبون المشاكل المحتملة ، مما يوفر الناشرين الناشرين بسرعة نادرًا ما يكون ذلك عشوائيًا تعزيزًا واقعيًا حقيقيًا أعيد طبعه مراجعات مراجعة RETINA RISE قواعد ROBOTION ، تسلسل العلوم ، وهي عبارة TIFF TIT TT2135 مرتين تحولات اثنين عادة جامعة الولايات المتحدة الأمريكية على الولايات المتحدة الأمريكية Visual Vol

لكن نتائج العينة المكسورة هي فقط ... حسنا ، شاغر. ليست كلمة واحدة من صورة TIFF الفعلية:08 2010 21 21:49:22 End of File Format Image NN08 NN2010 NN21 Tagged Tiff TT2149

إذا كان لدى أي شخص أي أفكار حول ما يجب تجربته بعد ذلك ، فأنا كل آذان.

المحلول 3

حسنًا ، اتضح أن المشكلة الفعلية كانت حجم الصورة. لم يكن OCR في Ifilter Ifilter فقط يحاول معالجته ... كبير جدًا. اضطررت إلى اكتشاف ذلك عن طريق التجربة والخطأ ، ولم أتمكن من العثور على أي وثائق توضح الحد الأقصى لحجم/نقطة في البوصة من TIFF الواردة. أي شخص يعرف هذه المواصفات؟ يبدو أن هذه المقالة تحتوي على بعض المعلومات: support.microsoft.com/kb/837847 ولكنها خاصة بـ SharePoint ، ولم يكن لدي وقت للعبث مع الإعدادات لمعرفة ما إذا كان يعمل. أيضا ، سأحتاج حقًا إلى إزالة غطاء الحجم. الأفكار هناك؟

نصائح أخرى

حاول تحويل الصورة غير العمل إلى الأسود والأبيض ، ومعرفة ما إذا كان يتم التعرف على المزيد من الكلمات.

وأضاف

حاول استخدام irfanview (أو أي أداة صورة) لتعيين DPI للصورة الثانية إلى 300. ثم حاول مرة أخرى.

من الواضح أن خطوات استكشاف الأخطاء وإصلاحها ليست حلولًا دائمة ، فهي تساعد فقط في عزل المشكلة.

Rwong صحيح. تحتاج إلى عزل المشكلة.

لا يمكن لجميع محركات OCR معالجة صور TIFF اللون ويفضل B/W. أظن أن محرك OCR لا يعالج حتى صفحة غير العمل الخاصة بك وتصدر رسالة خطأ لا يمكنك رؤيتها.

حسب أعلاه ، حاول حفظ الملف كصورة B/W TIFF.
احفظ الملف كـ JPEG وحاول التعرف على الصورة كـ JPEG.

قمت بتشغيل صورتك غير العاملة من خلال OCR الخاص بي وتمكنت من استخراج معظم النص بشكل صحيح ، لذا فإن الدقة ليست مشكلة رئيسية.

أجد شيئًا مثيرًا للاهتمام

أنا أستخدم C# do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

واستخدم ملف TIFF الجديد في قاعدة البيانات ، إنه عمل ، لا أعرف السبب ، ولكن حل مشكلتي

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow