知软善用---（51软件）: 五月 2009

　　在实际工作或生活中，经常需要将打印稿的内容转换成电子稿，虽然可以用五笔字型或其他输入法完成，但如果使用OCR软件，在可以快速识别录入的同时，操作既方便快捷又省时省力。OCR软件在现代化办公中起着举足轻重的作用，OCR软件的操作看似简单，但其中有很多技巧，熟练掌握其操作技巧对于提高OCR软件的识别能力十分重要。本文只讲述 Microsoft Office Document Imaging 的实际使用。

　　一、OCR 知识介绍：

　　光学字符识别（Optical Character Recognition）简称OCR，是通过扫描仪将数字、符号和文字以图形信息的形式输入计算机，再由相应的软件进行识别处理，将原稿上的每一个字符变为正确的标准代码，让计算机自动完成字符的录入工作。

　　OCR的基本处理过程可以分为三个步骤：扫描输入、自动识别、整理输出。1、在扫描仪上输入的原稿只是一页图形信息，识别时先将各个字符相互分离开，再逐字做特征向量分析。2、在自动识别的过程中，相似的字符可能不只一个，需要根据字词关系、语句关系、词意关系进行比较，最终找出字符的正确代码。3、将所有扫描输入的信息全部转换为正确的代码文件，存储在计算机内。

　　OCR分为印刷文本识别和手写文本识别两大类。由于每个人的笔迹不同，即使同一个人由于场合和时间不同笔迹也会有很大差异，这样就给手写文本的自动识别造成很大困难，因此手写稿OCR识别的正确率还未达到能实际应用的程度。

　　二、OCR 实际使用：

　　1、操作准备

　　将扫描仪连接到计算机，接通电源以后安装扫描仪驱动程序。单击“Microsoft Office 工具”中的“Microsoft Office Document Imaging”，将纸质文档放入扫描仪，准备将其中的汉字输入Word中。Microsoft Office Document Imaging 是候选组件，默认是没有安装，使用前请先安装好。

　　2、扫描设置

　　打开 Microsoft Office Document Imaging 窗口以后，单击工具栏中的“扫描新文档”按钮，即可看到对话框。首先单击其中的“扫描仪”按钮打开选择扫描仪对话框，查看当前扫描仪的型号是否在里面。如果对话框或下拉列表中没有当前扫描仪，就要检查驱动程序安装和电源连接是否正确。

　　接下来要根据文档的特点选择扫描预设。如果是彩色纸张上的黑色或彩色文本，或者是白色纸张上的彩色文本，可以选择“将彩色页面扫描为黑白图片”；对常见的白色纸张上的黑色文本而言，可以选择“黑白模式”或“灰度模式”。

　　Microsoft Office Document Imaging 提供的扫描预设功能可以满足大多数文档的要求。如果文档使用的字体太小，或者由于纸张等缘故导致文字不太清楚，就要适当调整扫描预设中的分辨率。用户只要选中要调整的某种扫描预设，单击“预设选项”按钮打开菜单，选择其中的“编辑所选预设”，就可以看到“预设选项”对话框的“常规”选项卡。单击其中的“高级”按钮打开对话框，可将默认的分辨率（DPI）值由200修改为300。当扫描文档中的文字是彩色或具有彩色背景时，选中“自动设置对比度，保存为单色”，让扫描的图像具有较高的对比度，这样可以获得更好的文字识别效果。

　　除此之外，“预设选项”对话框还有三个选项卡。其中“页面”选项卡设置扫描仪的幅面，常见的A4扫描仪应该选择“A4”（默认）；“输出”选项卡可以设置扫描文件的保存位置，还可以设置扫描文件的命名方式，可以根据自己的需要进行调整；“处理”选项卡控制OCR的工作设置，一般采用其中的默认值就可以了。

　　3、扫描文档

　　文档放入扫描仪以后，根据其特点选择某一个扫描预设方式，单击“扫描”按钮开始扫描文档。与大多数OCR软件不同，Microsoft Office Document Imaging 扫描结束即开始文字识别，完成后即可在窗口中显示结果。

　　显示窗口分为“缩略图窗格”和“页面窗格”左右两部分。如果用户连续扫描了多页文档，缩略图窗格显示各页的缩略图，页面窗格显示当前文档的图像。

　　如果用户有多页文档需要扫描和识别，可以在一页扫描结束后再次扫描下一页，完成后会弹出一个对话框。单击“继续”按钮可以放入下一页文档，继续进行扫描，但不识别和保存当前文档；单击“完成”按钮则停止扫描，执行识别并保存文件。再次扫描新文档时只要将它放入扫描仪，单击“扫描”按钮即可；单击“取消”按钮会停止扫描，不进行识别也不保存文件。

　　提示：

　　①、Microsoft Office Document Imaging 具有自动旋转功能，文档放入扫描仪时无论位置正、倒都可以，软件在扫描过程中会自动识别并旋转到正确的方位。

　　②、扫描文档主要是为了获取包含文字的图片，如果有现成图片则不需要扫描了，直接选择打开。软件支持TIF格式的图片，如果不是TIF格式则需要用看图软件或图像处理软件转换。

　　③、获取包含文字图片的方法有很多种。例如使用数码相机拍。如果是在电脑上显示的图片无法保存，我们可以采用屏幕拷贝的方法或者利用虚拟打印机打印成图片格式。

　　4、获取文本

　　扫面完毕后从表面上看，页面窗格显示的是文档图像。其实不然，被识别的文本已经被隐藏在层中了（与文档图像分离）。我们可以采取两种方法获取该层中的文本。

　　如果你只需要某页文档中的部分文字，只要按下工具栏中的“选择”按钮，拖动光标选中页面窗格中需要的文本，单击鼠标右键选择快捷菜单中的“复制”，就可以将这部分文本放入剪贴板，再粘贴到你的文档中编辑了。如果单击工具栏中的“将文本发送到Word”按钮，软件就会自动新建一个Word文档，将所选中的识别文字放入其中。以上操作完成后，在页面窗格中的任意位置单击鼠标，就可以取消已经选中的文本，再次获取其它位置的文本了。

　　当你需要某页或几页文档中的所有文本时，可以直接打开工具栏中的“将文本发送到Word”按钮，选择添加到Word的文本范围以及输出版式和保存位置。完成后单击“确定”按钮，即可在指定位置自动保存一个HTM文档。使用“文件”菜单下的“另存为”命令，很容易将它转存为doc文档。

　　提示：Microsoft Office Document Imaging 能保留原文档的段落结构，这给你的文档编辑工作带来了很多方便。

　　后记：OCR软件的种类非常多，例如紫光、尚书、汉王等。不过 Microsoft Office Document Imaging 具有良好的易用性，并和Word紧密结合，大家不妨体验一下。

现在网上的许多资料都是以CAJ、PDF等文件格式提供的，其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件，但是它们不是效率低，就是只能提取其中部分文本。本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法，简便快捷，效率很高。

　从不同格式的文件中提取文本前需要做好以下准备工作，安装CAJViewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装Office2003，并完全安装Of?鄄fice工具Microsoft Office Document Imaging，然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。

　　一、CAJ文件的识别

　　（一）首先，从网上下载CAJ格式的资料文件保存到本地硬盘上。

　　（二）然后，启动CAJViewer浏览器程序，并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后，不要关闭CAJ浏览器程序。

　　（三）在CAJ浏览器程序窗口中，选择“文件”→“打印”，并选择打印机为Microsoft Office Document Image Writer打印机，勾选打印到文件选项和确定打印页数。

　　（四）保存打印文件（*.prn）到适当位置。等待打印完成后，Microsoft Office Document Image 自动打开刚才保存的打印文件。

　　（五）在Microsoft Office Document Image窗口中，选择“页面”菜单中的“选择所有页面”菜单项，然后选择“工具”菜单中的“使用OCR识别文本”提取文本。

　　（六）选择“工具”下的 “将文本发送到word”，最后将把整个CAJ文件识别输出到word文件中。

　　二、PDF文件的识别

　　（一）以文本形式保存的PDF文件，用acrobat 5 专业版，识别整个文件。直接打开从网上下载的PDF格式文件另存为RTF文件，或者选择工具栏上的文字选择按钮，然后选择文字区域，然后复制到Word中即可。

　　（二）以图片形式保存的PDF文件，将PDF文件打印到Microsoft Office Document Image Writer打印机，选择打印形成的文件的保存位置，然后会自动形成一个MDI文件，并且自动用Microsoft Office Document Image打开此文件，然后在Microsoft Office Document Im?鄄age中选择“工具”菜单中的“使用OCR识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”，最后将把整个PDF文件识别输出到word文件中。

　　（三）加密的PDF文件先下载解密软件，解密后在参照上述步骤1),2) 进行。

　　（四）繁体PDF文件用上述步骤2)的方法识别到word后，用word中的“工具”→“语言”→“中文繁简转换”

　　三、超星文件的识别

　（一）全文件识别打印到Microsoft Office Document Image Writer打印机，然后按上述PDF文件的识别步骤中第二点操作，要注意的是，超星打印功能有点区别，因为超星是目录和全文分开的，所以打印时，需要分别把目录和正文识别到Word中，再合并到一起。打印时要填入打印页码从1到最后一页，不要选择打印全部。在打印选项中，要将页面比例设成真实大小，而不是整宽。注意识别速度比其他格式要慢很多，请保持耐心。一般一本200多页的书，识别需要几分钟的时间。

　　（二）超星文件识别相对比较麻烦一些，如果还有问题，可以先把超星打印成完整的PDF文件，然后再用上述识别PDF文件的方法转成Word。

　　四、后记

　　经过试验，发现Microsoft Office Document Image 存在一些不稳定的问题，如在用CAJ打印到Microsoft Office Document Image Writer时，发现用CAJ5.5版本比较快，而CAJ5.0有时出现假死机。页面显示大时，转化的识别率较高。如果页数多的文件，包括超星，可以分多次转化。

　　由于虚拟打印到Microsoft Office Document Image Writer 比较慢，并且形成的虚拟文件很大，1本200多页的书大约是60M，因此会严重影响机器的运行速度、C盘和内存空间。建议配置好的机器一次转化不要超过200页，配置差的不要超过100页，同时打印时在任务栏中会出现打印机图标，可以双击，看到打印任务的进度，避免误以为死机。转化完成后请删除c:\windows\temp目录下的虚拟打印文件，否则C盘很快会被用光。

知软善用---（51软件）

2009年5月15日星期五

图片转文本的OCR识别方法

教你把pdf或CAJ转成OCR（word可复制格式）!

标签

博客归档

相关链接