OCR com o Tesseract interface
Pergunta
Como você OCR um arquivo tiff usando o Tesseract da interface em c#?
Atualmente eu só sei como fazê-lo utilizando o executável.
Solução
O código-fonte parecia ser orientada para um executável, você pode precisar refazer tudo um pouco, de modo que seria construir como uma DLL em vez disso.Eu não tenho muita experiência com o Visual C++, mas eu acho que ele não deve ser demasiado duro com um pouco de pesquisa.Meu palpite é que alguém poderia ter feito uma versão de biblioteca, já que você deve experimentar o Google.
Uma vez que você tenha tesseract-ocr de código em um arquivo DLL, em seguida, você pode importar o arquivo para o seu projeto C# com o Visual Studio e tem que criar classes de wrapper e faça todos os materiais de empacotamento para você.Se você não pode importar, em seguida, DllImport vai deixar você chamar as funções na DLL a partir de código C#.
Em seguida, você pode ter um olhar para o executável original para encontrar pistas sobre o que funciona para chamar corretamente OCR uma imagem tiff.
Outras dicas
Dê uma olhada no tessnet
C# programa lança tesseract.exe e, em seguida, lê o arquivo de saída tesseract.exe.
Process process = Process.Start("tesseract.exe", "out");
process.WaitForExit();
if (process.ExitCode == 0)
{
string content = File.ReadAllText("out.txt");
}
Eu descobri hoje que EMGU agora inclui um Tesseract wrapper.Enquanto o número de não-gerenciado dlls do opencv lib pode parecer um pouco assustador, não é nada que uma rápida copiar para o diretório de saída não cure.A partir daí o real processo de OCR é tão simples como três linhas:
Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY);
this.ocr.Recognize(clip);
optOCR.Text = this.ocr.GetText();
"robomatics" juntos muito bom o vídeo do youtube que demonstra uma solução simples, mas eficaz.
Isenção de responsabilidade:Eu trabalho para Atalasoft
Nossa Módulo de OCR suporta Tesseract e se o que prova não ser bom o suficiente, você pode atualizar para uma melhor motor e mudar apenas uma linha de código (nós fornecemos uma interface comum para vários motores de OCR).