background image

便于后面字符的识别。如果能恰到好处地设置好去网功能,可以大大提高文字的识别率。在
去网选 项中,一般有

Artprint(艺术品)175 线/英寸、Magzine(杂志)133 线/英寸 、

Newspaper(报纸)85 线/英寸、None(无)等几项,可根据原稿情况进行选择。
  

3.图像处理。扫描/翻拍生成原始图像只是第一步,下一步要对图像进行适当处理,使得

图像黑白分明,提高

OCR 软件的识别率。①检查图像上是否有多余的黑点、黑线、黑块,如

有必须擦去,以免发生误识别的现象,但注意不要把字擦掉了。②若图像歪斜,应适当进行
纠正,尽量使文字保持在水平位置。③用阶调曲线或亮度调节命令提高图像对比度,尽量使
图像黑白分明。④如果图像中包含了其他文章中的部分内容,将其去除。
  分割阶段  在尚书

6 号中打开对比分明、无脏点的图像,先选好相应的字符集(简体

字集、繁体字集、纯英文识别),然后设置好文字的排列方式(横排或竖排)。选择工具栏上

“切分”命令后,识别软件自动对图像进行分析,根据图像中文字的分布情况将其划分为

若干块,并分别用数字进行标识。需要注意以下两点。
  

1.在识别前一定要做版面分析和倾斜校正。尚书 OCR 允许文稿有细微的倾斜,但倾斜

得太厉害了就要做倾斜校正。校正的方法是,按住鼠标右键拖出直线使之平行于倾斜的文本,
这样,识别软件会自动地将文本放正。标准版的尚书

OCR 提供了自动的版面分析和倾斜校

正,但它对复杂版面的分析往往不太准确,需要再做人工的校正。
  

2.简繁混排和中英文混排的文稿在识别时往往会出问题,如果文稿中简繁混杂或中英

文混杂,则必须用设定识别区工具划出不同的识别区,否则易出错。为保险起见,可以采用
图形处理软件把块与块分开成独立的文件,然后分别打开,选择相应的语言,分别识别。
  识别阶段  按下工具栏上的

“识别”按钮后,会出现一个识别框,框里的内容飞速变

化。识别完成后,保存文件时,文件保存格式有

rtf、txt、htm 等几种,txt 文件可以很好地与

其他文字处理软件或排版系统兼容。尚书

6 号是汉字表格识别软件,不仅可识别文字,还可

识别表格,表格识别后保存为

rtf 格式,可以 word 软件中进行修改输出。值得注意的是,计

算机硬件越好,识别速度越快,内存最好大些,识别的时候不要同时运行其他大型软件,
以免发生冲突。
  其他
  

1.充分使用识别软件的用户自学习功能。OCR 识别软件内一般都含有用户自学习功能,

如果个别字在扫描比较清楚的情况下,软件识别得不正确,就可以把这个字加到用户自定
义库中。以后再碰到这个字,系统就聪明了,不会识别错了,这样可以逐渐地提高识别的正
确性。
  

2.对繁体字,竖排版,非宋、黑、楷、仿字体的原稿,推荐用尚书 6 号,但缺点是只能输

GB2312 字集(6763 字);对简体字,横排版,宋、黑、楷、仿字体、原文是繁体汉字原稿,

可用清华紫光

OCR(THOCR2000 版),其缺点是在识别率等方面不如前者。