研发中心OCR技术应用部
“汉王标准印刷体OCR SDK开发工具包”介绍
一、功能介绍
A 基础功能模块
1.输入图像格式:
可识别彩色(24BITS)、灰度(256阶)和黑白二值图像。支持TIFF、BMP、JPG、PDF格式的图像文件,对于合并后PDF和TIF,我们可以提供技术解决方案。 2.输入版面格式:
能自动分析出横排文本、竖排文本、表格和图像等区域,并对文本和表格区域的文字进行识别。 3.输入字体格式:
可识别中文简体、台湾繁体、香港繁体、英文及中英混排、简繁混排等印刷文本。 4.输入字体:
可识别宋、仿宋、楷、黑、魏碑、隶书、行楷、幼圆等一百多种中文字体,识别字号介于“小六号”和“初号”。 5.输出文本字符集
可输出GB、GBK、BIG5、unicode码结果文本。 6.标准印刷体汉字识别:可达到99.7%; 7.印刷体数字识别:
具有4个独立的识别引擎,识别率可达到99.5%。 8.输出识别结果
可输出TXT、XLS、RTF、PDF、HTML等格式文本文件,RTF、PDF格式支持版面还原。 9.开发环境
提供VC开发的DLL动态库,支持C++、VC、VB、JAVA、.Net、Delphi等语言。 10.支持系统平台
支持Windows平台。
11.表格识别: 自动判断、识别各种通用型印刷体表格。电子表格还原准确精美,输出的电子表格可随意编辑。在国家级评比中荣获第一名。
12.可以准确识别公文的题头、正文、公章等区域,并将识别结果按原版面精确还原。 13.识别速度: 在PIV-2.0计算机上,印刷文稿识别速度达1000字/秒。
第1页,共1页
研发中心OCR技术应用部
B 可选功能模块
1.多国文字识别
支持日、韩、法、意、德、西班牙、瑞典、葡萄牙、丹麦、荷兰、挪威等国文字的识别,
标准印刷体字符识别率达到96%以上。 2.手写体数字识别:
具有3个独立的识别引擎,识别率达99%以上。 3.支持有规律的复杂表单、票据的识别。
二、应用方式
1.单机版(在服务器端应用): 。。。。。。。。。。。。。。。。。。。。。。 客户端1 此种模式的实现方式: 客户端2 客户端3 客户端4 客户端5 客户端n 单机加密狗 服务器 ① 将“汉王标准印刷体OCR SDK开发工具包”装载在服务器端,识别工作在服务器上进行;
② 通过客户端和服务器端的交互,实现对客户端图像文件的识别,实现方式如下:
客户端将需要识别的图像上传至服务器
服务器根据文件上传时间对所需图像进行排序并逐一识别
第2页,共1页
研发中心OCR技术应用部
服务器将识别结果发回给相对应的客户端
客户端对识别结果加以利用
2.单机版(在客户端应用):
如果用户在B/S网络环境下,希望利用“汉王标准印刷体OCR SDK开发工具包”单机版实现多台客户终端同时识别,可以采用如下方式(如图例所示): 服务器 。。。。。。。。。。。。。。。。。。。。。。 客户端1 客户端2 客户端3 客户端4 客户端5 客户端n ① 在需要进行识别的客户端安装识别程序,每个客户端的识别程序配以加密狗共同使用;
② 在客户端对需要识别的图像文件进行识别; ③ 将识别结果上传至服务器端,实现网络共享; 优点:
① 识别环节在各个客户端进行,识别工作不受网络容量的限制; ② 各客户端的识别环节彼此分离,一个客户端识别程序如果出错不会影响到其他客户端识别工作的进行;
③ 降低服务器的工作负荷;
第3页,共1页