background image

                               扫描输入经验谈
  随着计算机技术的发展和普及,键盘输入不再是惟一的文字输入法,手写输入、语音输
入、扫描输入等新的文字输入手段正受到越来越多人的青睐。语音输入技术以

IBM 公司开发

Viavoice 为代表,这种输入法受环境的影响较大,对机器性能的要求也比较高,目前尚

不够成熟,但显然是将来的一个发展方向。手写输入以汉王笔、蒙恬笔等为代表,输入速度
较慢,这两种输入法对于办公室和出版部门来说,暂时都不是现实的文字输入手段。随着扫
描仪和数码相机的不断降价,扫描输入(

OCR,意即光学字符识别)凭借其较高的准确率

和输入速度,正成为一种方便实用的文字输入方法,正日益在单位和家庭中普及应用。
  

OCR 软件的种类很多,国内较有名气的是尚书 6 号、丹青文字识别软件、清华文通 OCR

软件等,很多扫描仪生产厂商在随机光盘中都附赠了

OCR 软件。OCR 的安装过程、设置方

法基本相同,笔者在

6 年前就开始将扫描输入法应用于报社实际工作,先后接触过多种文

字识别软件,在此以应用较广的尚书

6 号文字识别软件为例,介绍 OCR 软件的注意事项和

使用心得,希望这些心得体会能对那些想充分利用扫描输入的人有所帮助。
  一般来说,由报纸杂志或打印文件上的原稿最终变成能在计算机上编辑的文件,要经

4 个阶段。

  前期准确  

1.原稿要求。原稿最好是电脑排版或铅印的印刷文本,如果是手写稿但书

写工整的话可以一试,如果字迹潦草则识别率较低。扫描前,尽量保持原稿干净整洁(如果
原稿需要删改,可在扫描之后进行),用橡皮擦去文字区(识别部分)的脏污,尽量不要
有折痕,否则会影响识别效果。
  

2.应保持扫描仪清洁,扫描前对扫描仪玻璃板进行擦拭,去除灰尘和脏点,若脏点存

在,则会出现在扫描后的图像上,影响后面的识别效果。
  

3.对扫描仪和数码相机的要求。入门级的扫描仪(600dpi×1200dpi)和数码相机(200

万像素)即可,当然高级的更佳。目前入门级扫描仪只需

300 余元,入门级数码相机也只要

千元左右,但数码相机要有微距拍摄功能。
  图像输入  

1.使用数码相机翻拍原稿时,尽量在自然光下拍摄,不要选择彩色模式,

设为黑白照片再拍,照片分辨率一般用

768dpi×1024dpi(至少要 600dpi×800dpi),可多拍

摄几张,从中挑选最好的。
  

2.扫描仪参数设置。大部分 OCR 软件都支持黑白图像( BMP)和灰度图像格式

TIFF 、JPG)。扫描分辨率不求最高,合适即可,如果分辨率太高,扫描的时间将会大大

增加,图形所需的空间也会成倍地增长;如果分辨率太低,给

OCR 软件的信息量不足,识

别率就不会太高。根据经验,普通五号印刷体采用

300dpi 或 400dpi 比较合适;若字号比较

大(四号以上),用

150~200dpi 就足够了;如果是六号或七号字,就要考虑使用 400~

600dpi 了。当然,这也不是绝对的,如果印刷字迹比较模糊,或者笔划较多的识别文本,应
适当提高扫描的分辨率。
  设置合理的亮度。有一些印刷品会因纸质发黄或是有较多的油墨点而影响识别质量,因
此在扫描时适当地调整亮度,使扫描文件黑白分明,有利于软件的识别。扫描亮度的设定以
观察扫描后的图像中汉字的笔画较细但又不断开为原则。对于扫描后图像存在黑点或黑斑时,
应该适当减小亮度;如果当扫描后图像中汉字轮廓严重残缺时,则可以适当增加亮度。
  扫描仪参数中,需特别注意调整去网(

descreen)功能。扫描报纸或杂志上有背景(底

纹或图片)的稿件(非白底黑字)时,要用到去网功能。因为文字的背景是通过挂网才印出
来的,拿这些挂过网的东西进行二次扫描,如果不使用去网功能,那么原来加挂的网目连
同图像本身一起被扫入,通过输出设备输出时,图像再次被加网,第二次加上的网目就会
同扫描进来的网目相互重叠,产生干扰,使输出的图像产生糊版、龟纹等情况。使用

OCR 软

件扫描杂志或报纸上有背景的文字时,要根据待扫描的原稿情况决定去网选项的设置,以