来自 澳门威尼斯人平台 2020-03-22 17:58 的文章
当前位置: 澳门威尼斯人平台 > 澳门威尼斯人平台 > 正文

Tesseract OCR

本文由码农网 – 邱康原创翻译,转载请看清文末的转载要求,欢迎参与我们的付费投稿计划!

Tesseract OCR Tuitor

Optical Character Recognition (OCR)即光学字符辨识是把打印文本转换成一个数字表示的过程。它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录,到车牌识别甚至破解基于图像的验证码。

environment preparement

  1. get the tesseract dll, nuget from vs.
  2. get the test data, we can get it from github

图片 1

Start to write a hello world

See code below.

 //  var image = new Bitmap(@"C:LearningSpaceTessnetOCRTestscreenshot.bmp");
            var image = Pix.LoadFromFile(@"C:LearningSpaceTessnetOCRTestscreenshot.bmp");
            var ocr = new TesseractEngine(@"C:LearningSpaceTessnetOCRTest","eng");
         //   ocr.SetVariable("tessedit_char_whitelist", "0123456789");
            var result = ocr.Process(image, Rect.Empty);
            Console.WriteLine(result.GetText());

Tesseract是一个能实现OCR的开源项目。你能在*Nix系统,Mac系统和Windows系统上运行这个项目,但是只要使用一个库,我们就能在PHP项目中使用它了。本教程的目的是教你如何使用。

安装

准备

为了让事情变得简单和一致的, 我们将使用虚拟机(本文使用Vagrant)来运行应用程序,这会涉及到安装PHP和Nginx,我们将安装Tesseract来分别演示过程。如果你想自己基于现有Debian-based系统安装Tesseract,你可以跳过下一部分—或者查看the README来获得在其他*nix上,Mac系统或者Windows的安装指导.

本文由澳门威尼斯人平台发布于澳门威尼斯人平台,转载请注明出处:Tesseract OCR

关键词: