1141-C# Winform識別圖片文字源碼 tesseract OCR
關于軟件的使用:在win7及一下的電腦上運行時需要安裝.net framework4.0,另外該程序對只包含文本,且文本清晰的圖片識別率較高,另外隨著文字的增多識別的成功率會下降。
該軟件采用的是Tesseract及其配套的訓練庫來實現圖片中的文字識別(包括中文)。
如果讀者要自己創建同樣的識別程序需要注意的地方有以下幾點:
1、 需要的文件有:Tesseract.dll和chi_sim.traineddata。這兩個文件在該項目目錄下均可以找到。
2、 項目目標處理器必須設置為x86,不然運行不通過
3、 使用時,將Tesseract.dll添加到項目引用中。如果準備使用.net4.0框架主要修改app.config與本文件中的app.config一致。如果不想修改app.config,請將項目.net框架降低3.5版本,否則編譯時出錯。
4、 主要的識別過程如下:
Bitmap bmp = new Bitmap(textBox_Path.Text);
TesseractProcessor process = new TesseractProcessor();
process.SetPageSegMode(ePageSegMode.PSM_SINGLE_LINE);
process.Init(System.Environment.CurrentDirectory+"\\","chi_sim", (int)eOcrEngineMode.OEM_DEFAULT);
string result = process.Recognize(bmp);
MessageBox.Show("識別結果為:"+result);
其中process.Init函數的第一個參數為chi_sim.traineddata的路徑,本項目中為軟件運行目錄下(記著把文件放在指定目錄下,不然運行會出錯的),記得最后還有反斜杠。第二個參數為訓練庫名不帶擴展名的。第三個參數不用管,原封抄下就可以了。
5、 另外注意文件chi_sim.traineddata是訓練庫文件,如果覺得識別率不高可以自己再網上找Tesseract的訓練庫,替換該文件。

本源碼地址:http://m.bmm520.net/vip/net/2019/0801/19738.html