Вопрос
Как распознать файл TIFF, используя интерфейс Tesseract на С#?
В настоящее время я знаю, как это сделать только с помощью исполняемого файла.
Решение
Исходный код, похоже, предназначен для исполняемого файла, возможно, вам придется немного перемонтировать его, чтобы вместо этого он собирался как DLL.У меня нет большого опыта работы с Visual C++, но я думаю, что некоторые исследования не должны вызвать особых затруднений.Я предполагаю, что кто-то уже мог создать версию библиотеки, вам следует попробовать Google.
После того как у вас есть код tesseract-ocr в файле DLL, вы можете затем импортировать этот файл в свой проект C# через Visual Studio, создать классы-оболочки и выполнить за вас всю работу по маршалингу.Если вы не можете импортировать, то Дллимпорт позволит вам вызывать функции в DLL из кода C#.
Затем вы можете взглянуть на исходный исполняемый файл, чтобы найти подсказки о том, какие функции следует вызывать для правильного распознавания изображения в формате tiff.
Другие советы
Взгляни на Тесснет
Программа C# запускает tesseract.exe, а затем считывает выходной файл tesseract.exe.
Process process = Process.Start("tesseract.exe", "out");
process.WaitForExit();
if (process.ExitCode == 0)
{
string content = File.ReadAllText("out.txt");
}
Сегодня я обнаружил, что ЭМГУ теперь включает оболочку Tesseract.Хотя количество неуправляемых библиотек библиотеки opencv может показаться немного устрашающим, нет ничего такого, чего нельзя было бы вылечить быстрым копированием в выходной каталог.Отсюда фактический процесс OCR прост и состоит из трех строк:
Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY);
this.ocr.Recognize(clip);
optOCR.Text = this.ocr.GetText();
«робоматика» в сборе очень хорошее видео на ютубе это демонстрирует простое, но эффективное решение.
Отказ от ответственности:Я работаю в Atalasoft
Наш Модуль OCR поддерживает Tesseract. и если этого окажется недостаточно, вы можете перейти на более совершенный механизм и просто изменить одну строку кода (мы предоставляем общий интерфейс для нескольких механизмов OCR).