在实际工作或生活中,经常需要将打印稿的内容转换成电子稿,虽然可以用五笔字型或其他输入法完成,但如果使用OCR软件,在可以快速识别录入的同时,操作既方便快捷又省时省力。OCR软件在现代化办公中起着举足轻重的作用,OCR软件的操作看似简单,但其中有很多技巧,熟练掌握其操作技巧对于提高OCR软件的识别能力十分重要。本文只讲述 Microsoft Office Document Imaging 的实际使用。
一、OCR 知识介绍:
光学字符识别(Optical Character Recognition)简称OCR,是通过扫描仪将数字、符号和文字以图形信息的形式输入计算机,再由相应的软件进行识别处理,将原稿上的每一个字符变为正确的标准代码,让计算机自动完成字符的录入工作。
OCR的基本处理过程可以分为三个步骤:扫描输入、自动识别、整理输出。1、在扫描仪上输入的原稿只是一页图形信息,识别时先将各个字符相互分离开,再逐字做特征向量分析。2、在自动识别的过程中,相似的字符可能不只一个,需要根据字词关系、语句关系、词意关系进行比较,最终找出字符的正确代码。3、将所有扫描输入的信息全部转换为正确的代码文件,存储在计算机内。
OCR分为印刷文本识别和手写文本识别两大类。由于每个人的笔迹不同,即使同一个人由于场合和时间不同笔迹也会有很大差异,这样就给手写文本的自动识别造成很大困难,因此手写稿OCR识别的正确率还未达到能实际应用的程度。
二、OCR 实际使用:
1、操作准备
将扫描仪连接到计算机,接通电源以后安装扫描仪驱动程序。单击“Microsoft Office 工具”中的“Microsoft Office Document Imaging”,将纸质文档放入扫描仪,准备将其中的汉字输入Word中。Microsoft Office Document Imaging 是候选组件,默认是没有安装,使用前请先安装好。
2、扫描设置
打开 Microsoft Office Document Imaging 窗口以后,单击工具栏中的“扫描新文档”按钮,即可看到对话框。首先单击其中的“扫描仪”按钮打开选择扫描仪对话框,查看当前扫描仪的型号是否在里面。如果对话框或下拉列表中没有当前扫描仪,就要检查驱动程序安装和电源连接是否正确。
接下来要根据文档的特点选择扫描预设。如果是彩色纸张上的黑色或彩色文本,或者是白色纸张上的彩色文本,可以选择“将彩色页面扫描为黑白图片”;对常见的白色纸张上的黑色文本而言,可以选择“黑白模式”或“灰度模式”。
Microsoft Office Document Imaging 提供的扫描预设功能可以满足大多数文档的要求。如果文档使用的字体太小,或者由于纸张等缘故导致文字不太清楚,就要适当调整扫描预设中的分辨率。用户只要选中要调整的某种扫描预设,单击“预设选项”按钮打开菜单,选择其中的“编辑所选预设”,就可以看到“预设选项”对话框的“常规”选项卡。单击其中的“高级”按钮打开对话框,可将默认的分辨率(DPI)值由200修改为300。当扫描文档中的文字是彩色或具有彩色背景时,选中“自动设置对比度,保存为单色”,让扫描的图像具有较高的对比度,这样可以获得更好的文字识别效果。
除此之外,“预设选项”对话框还有三个选项卡。其中“页面”选项卡设置扫描仪的幅面,常见的A4扫描仪应该选择“A4”(默认);“输出”选项卡可以设置扫描文件的保存位置,还可以设置扫描文件的命名方式,可以根据自己的需要进行调整;“处理”选项卡控制OCR的工作设置,一般采用其中的默认值就可以了。
3、扫描文档
文档放入扫描仪以后,根据其特点选择某一个扫描预设方式,单击“扫描”按钮开始扫描文档。与大多数OCR软件不同,Microsoft Office Document Imaging 扫描结束即开始文字识别,完成后即可在窗口中显示结果。
显示窗口分为“缩略图窗格”和“页面窗格”左右两部分。如果用户连续扫描了多页文档,缩略图窗格显示各页的缩略图,页面窗格显示当前文档的图像。
如果用户有多页文档需要扫描和识别,可以在一页扫描结束后再次扫描下一页,完成后会弹出一个对话框。单击“继续”按钮可以放入下一页文档,继续进行扫描,但不识别和保存当前文档;单击“完成”按钮则停止扫描,执行识别并保存文件。再次扫描新文档时只要将它放入扫描仪,单击“扫描”按钮即可;单击“取消”按钮会停止扫描,不进行识别也不保存文件。
提示:
①、Microsoft Office Document Imaging 具有自动旋转功能,文档放入扫描仪时无论位置正、倒都可以,软件在扫描过程中会自动识别并旋转到正确的方位。
②、扫描文档主要是为了获取包含文字的图片,如果有现成图片则不需要扫描了,直接选择打开。软件支持TIF格式的图片,如果不是TIF格式则需要用看图软件或图像处理软件转换。
③、获取包含文字图片的方法有很多种。例如使用数码相机拍。如果是在电脑上显示的图片无法保存,我们可以采用屏幕拷贝的方法或者利用虚拟打印机打印成图片格式。
4、获取文本
扫面完毕后从表面上看,页面窗格显示的是文档图像。其实不然,被识别的文本已经被隐藏在层中了(与文档图像分离)。我们可以采取两种方法获取该层中的文本。
如果你只需要某页文档中的部分文字,只要按下工具栏中的“选择”按钮,拖动光标选中页面窗格中需要的文本,单击鼠标右键选择快捷菜单中的“复制”,就可以将这部分文本放入剪贴板,再粘贴到你的文档中编辑了。如果单击工具栏中的“将文本发送到Word”按钮,软件就会自动新建一个Word文档,将所选中的识别文字放入其中。以上操作完成后,在页面窗格中的任意位置单击鼠标,就可以取消已经选中的文本,再次获取其它位置的文本了。
当你需要某页或几页文档中的所有文本时,可以直接打开工具栏中的“将文本发送到Word”按钮,选择添加到Word的文本范围以及输出版式和保存位置。完成后单击“确定”按钮,即可在指定位置自动保存一个HTM文档。使用“文件”菜单下的“另存为”命令,很容易将它转存为doc文档。
提示:Microsoft Office Document Imaging 能保留原文档的段落结构,这给你的文档编辑工作带来了很多方便。
后记:OCR软件的种类非常多,例如紫光、尚书、汉王等。不过 Microsoft Office Document Imaging 具有良好的易用性,并和Word紧密结合,大家不妨体验一下。