OCR с интерфейсом Tesseract

https://stackoverflow.com/questions/30328

09-06-2019
|

Вопрос

Как распознать файл TIFF, используя интерфейс Tesseract на С#?
В настоящее время я знаю, как это сделать только с помощью исполняемого файла.

Решение

Исходный код, похоже, предназначен для исполняемого файла, возможно, вам придется немного перемонтировать его, чтобы вместо этого он собирался как DLL.У меня нет большого опыта работы с Visual C++, но я думаю, что некоторые исследования не должны вызвать особых затруднений.Я предполагаю, что кто-то уже мог создать версию библиотеки, вам следует попробовать Google.

После того как у вас есть код tesseract-ocr в файле DLL, вы можете затем импортировать этот файл в свой проект C# через Visual Studio, создать классы-оболочки и выполнить за вас всю работу по маршалингу.Если вы не можете импортировать, то Дллимпорт позволит вам вызывать функции в DLL из кода C#.

Затем вы можете взглянуть на исходный исполняемый файл, чтобы найти подсказки о том, какие функции следует вызывать для правильного распознавания изображения в формате tiff.

Другие советы

Взгляни на Тесснет

Программа C# запускает tesseract.exe, а затем считывает выходной файл tesseract.exe.

Process process = Process.Start("tesseract.exe", "out");
process.WaitForExit();
if (process.ExitCode == 0)
{
    string content = File.ReadAllText("out.txt");
}

Сегодня я обнаружил, что ЭМГУ теперь включает оболочку Tesseract.Хотя количество неуправляемых библиотек библиотеки opencv может показаться немного устрашающим, нет ничего такого, чего нельзя было бы вылечить быстрым копированием в выходной каталог.Отсюда фактический процесс OCR прост и состоит из трех строк:

Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY);
this.ocr.Recognize(clip);
optOCR.Text = this.ocr.GetText();

«робоматика» в сборе очень хорошее видео на ютубе это демонстрирует простое, но эффективное решение.

Отказ от ответственности:Я работаю в Atalasoft

Наш Модуль OCR поддерживает Tesseract. и если этого окажется недостаточно, вы можете перейти на более совершенный механизм и просто изменить одну строку кода (мы предоставляем общий интерфейс для нескольких механизмов OCR).

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow