2009年5月15日星期五

图片转文本的OCR识别方法


 
  在实际工作或生活中,经常需要将打印稿的内容转换成电子稿,虽然可以用五笔字型或其他输入法完成,但如果使用OCR软件,在可以快速识别录入的同时,操作既方便快捷又省时省力。OCR软件在现代化办公中起着举足轻重的作用,OCR软件的操作看似简单,但其中有很多技巧,熟练掌握其操作技巧对于提高OCR软件的识别能力十分重要。本文只讲述 Microsoft Office Document Imaging 的实际使用。


  一、OCR 知识介绍:

  光学字符识别(Optical Character Recognition)简称OCR,是通过扫描仪将数字、符号和文字以图形信息的形式输入计算机,再由相应的软件进行识别处理,将原稿上的每一个字符变为正确的标准代码,让计算机自动完成字符的录入工作。

  OCR的基本处理过程可以分为三个步骤:扫描输入、自动识别、整理输出。1、在扫描仪上输入的原稿只是一页图形信息,识别时先将各个字符相互分离开,再逐字做特征向量分析。2、在自动识别的过程中,相似的字符可能不只一个,需要根据字词关系、语句关系、词意关系进行比较,最终找出字符的正确代码。3、将所有扫描输入的信息全部转换为正确的代码文件,存储在计算机内。

  OCR分为印刷文本识别和手写文本识别两大类。由于每个人的笔迹不同,即使同一个人由于场合和时间不同笔迹也会有很大差异,这样就给手写文本的自动识别造成很大困难,因此手写稿OCR识别的正确率还未达到能实际应用的程度。


  二、OCR 实际使用:

  1、操作准备

  将扫描仪连接到计算机,接通电源以后安装扫描仪驱动程序。单击“Microsoft Office 工具”中的“Microsoft Office Document Imaging”,将纸质文档放入扫描仪,准备将其中的汉字输入Word中。Microsoft Office Document Imaging 是候选组件,默认是没有安装,使用前请先安装好。

  2、扫描设置

  打开 Microsoft Office Document Imaging 窗口以后,单击工具栏中的“扫描新文档”按钮,即可看到对话框。首先单击其中的“扫描仪”按钮打开选择扫描仪对话框,查看当前扫描仪的型号是否在里面。如果对话框或下拉列表中没有当前扫描仪,就要检查驱动程序安装和电源连接是否正确。

  接下来要根据文档的特点选择扫描预设。如果是彩色纸张上的黑色或彩色文本,或者是白色纸张上的彩色文本,可以选择“将彩色页面扫描为黑白图片”;对常见的白色纸张上的黑色文本而言,可以选择“黑白模式”或“灰度模式”。

  Microsoft Office Document Imaging 提供的扫描预设功能可以满足大多数文档的要求。如果文档使用的字体太小,或者由于纸张等缘故导致文字不太清楚,就要适当调整扫描预设中的分辨率。用户只要选中要调整的某种扫描预设,单击“预设选项”按钮打开菜单,选择其中的“编辑所选预设”,就可以看到“预设选项”对话框的“常规”选项卡。单击其中的“高级”按钮打开对话框,可将默认的分辨率(DPI)值由200修改为300。当扫描文档中的文字是彩色或具有彩色背景时,选中“自动设置对比度,保存为单色”,让扫描的图像具有较高的对比度,这样可以获得更好的文字识别效果。

  除此之外,“预设选项”对话框还有三个选项卡。其中“页面”选项卡设置扫描仪的幅面,常见的A4扫描仪应该选择“A4”(默认);“输出”选项卡可以设置扫描文件的保存位置,还可以设置扫描文件的命名方式,可以根据自己的需要进行调整;“处理”选项卡控制OCR的工作设置,一般采用其中的默认值就可以了。

  3、扫描文档

  文档放入扫描仪以后,根据其特点选择某一个扫描预设方式,单击“扫描”按钮开始扫描文档。与大多数OCR软件不同,Microsoft Office Document Imaging 扫描结束即开始文字识别,完成后即可在窗口中显示结果。

  显示窗口分为“缩略图窗格”和“页面窗格”左右两部分。如果用户连续扫描了多页文档,缩略图窗格显示各页的缩略图,页面窗格显示当前文档的图像。

  如果用户有多页文档需要扫描和识别,可以在一页扫描结束后再次扫描下一页,完成后会弹出一个对话框。单击“继续”按钮可以放入下一页文档,继续进行扫描,但不识别和保存当前文档;单击“完成”按钮则停止扫描,执行识别并保存文件。再次扫描新文档时只要将它放入扫描仪,单击“扫描”按钮即可;单击“取消”按钮会停止扫描,不进行识别也不保存文件。

  提示:

  ①、Microsoft Office Document Imaging 具有自动旋转功能,文档放入扫描仪时无论位置正、倒都可以,软件在扫描过程中会自动识别并旋转到正确的方位。
  ②、扫描文档主要是为了获取包含文字的图片,如果有现成图片则不需要扫描了,直接选择打开。软件支持TIF格式的图片,如果不是TIF格式则需要用看图软件或图像处理软件转换。
  ③、获取包含文字图片的方法有很多种。例如使用数码相机拍。如果是在电脑上显示的图片无法保存,我们可以采用屏幕拷贝的方法或者利用虚拟打印机打印成图片格式。

  4、获取文本

  扫面完毕后从表面上看,页面窗格显示的是文档图像。其实不然,被识别的文本已经被隐藏在层中了(与文档图像分离)。我们可以采取两种方法获取该层中的文本。

  如果你只需要某页文档中的部分文字,只要按下工具栏中的“选择”按钮,拖动光标选中页面窗格中需要的文本,单击鼠标右键选择快捷菜单中的“复制”,就可以将这部分文本放入剪贴板,再粘贴到你的文档中编辑了。如果单击工具栏中的“将文本发送到Word”按钮,软件就会自动新建一个Word文档,将所选中的识别文字放入其中。以上操作完成后,在页面窗格中的任意位置单击鼠标,就可以取消已经选中的文本,再次获取其它位置的文本了。

  当你需要某页或几页文档中的所有文本时,可以直接打开工具栏中的“将文本发送到Word”按钮,选择添加到Word的文本范围以及输出版式和保存位置。完成后单击“确定”按钮,即可在指定位置自动保存一个HTM文档。使用“文件”菜单下的“另存为”命令,很容易将它转存为doc文档。

  提示:Microsoft Office Document Imaging 能保留原文档的段落结构,这给你的文档编辑工作带来了很多方便。


  后记:OCR软件的种类非常多,例如紫光、尚书、汉王等。不过 Microsoft Office Document Imaging 具有良好的易用性,并和Word紧密结合,大家不妨体验一下。

教你把pdf或CAJ转成OCR(word可复制格式)!


现在网上的许多资料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法,简便快捷,效率很高。
    从不同格式的文件中提取文本前需要做好以下准备工作,安装CAJViewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装Office2003,并完全安装Of?鄄fice工具Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。
  一、CAJ文件的识别
  (一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
  (二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。
  (三)在CAJ浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
  (四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。
  (五)在Microsoft Office Document Image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用OCR识别文本”提取文本。
  (六)选择“工具”下的 “将文本发送到word”,最后将把整个CAJ文件识别输出到word文件中。
  二、PDF文件的识别
  (一)以文本形式保存的PDF文件,用acrobat 5 专业版,识别整个文件。直接打开从网上下载的PDF格式文件另存为RTF文件,或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word中即可。
  (二)以图片形式保存的PDF文件,将PDF文件打印到Microsoft Office Document Image Writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后在Microsoft Office Document Im?鄄age中选择“工具”菜单中的“使用OCR识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。
  (三)加密的PDF文件先下载解密软件,解密后在参照上述步骤1),2) 进行。
  (四)繁体PDF文件用上述步骤2)的方法识别到word后,用word中的“工具”→“语言”→“中文繁简转换”
  三、超星文件的识别
    (一)全文件识别打印到Microsoft Office Document Image Writer打印机,然后按上述PDF文件的识别步骤中第二点操作,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,再合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。在打印选项中,要将页面比例设成真实大小,而不是整宽。注意识别速度比其他格式要慢很多,请保持耐心。一般一本200多页的书,识别需要几分钟的时间。
  (二)超星文件识别相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的PDF文件,然后再用上述识别PDF文件的方法转成Word。
  四、后记
  经过试验,发现Microsoft Office Document Image 存在一些不稳定的问题,如在用CAJ打印到Microsoft Office Document Image Writer时,发现用CAJ5.5版本比较快,而CAJ5.0有时出现假死机。页面显示大时,转化的识别率较高。如果页数多的文件,包括超星,可以分多次转化。
  由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度、C盘和内存空间。建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在任务栏中会出现打印机图标,可以双击,看到打印任务的进度,避免误以为死机。转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则C盘很快会被用光。

标签