便于后面字符的识别。如果能恰到好处地设置好去网功能，可以大大提高文字的识别率。在
去网选项中，一般有

Artprint（艺术品）175 线/英寸、Magzine（杂志）133 线/英寸、

Newspaper（报纸）85 线/英寸、None（无）等几项，可根据原稿情况进行选择。
　　

3.图像处理。扫描/翻拍生成原始图像只是第一步，下一步要对图像进行适当处理，使得

图像黑白分明，提高

OCR 软件的识别率。①检查图像上是否有多余的黑点、黑线、黑块，如

有必须擦去，以免发生误识别的现象，但注意不要把字擦掉了。②若图像歪斜，应适当进行
纠正，尽量使文字保持在水平位置。③用阶调曲线或亮度调节命令提高图像对比度，尽量使
图像黑白分明。④如果图像中包含了其他文章中的部分内容，将其去除。
　　分割阶段　　在尚书

6 号中打开对比分明、无脏点的图像，先选好相应的字符集（简体

字集、繁体字集、纯英文识别），然后设置好文字的排列方式（横排或竖排）。选择工具栏上
的

“切分”命令后，识别软件自动对图像进行分析，根据图像中文字的分布情况将其划分为

若干块，并分别用数字进行标识。需要注意以下两点。
　　

1.在识别前一定要做版面分析和倾斜校正。尚书 OCR 允许文稿有细微的倾斜，但倾斜

得太厉害了就要做倾斜校正。校正的方法是，按住鼠标右键拖出直线使之平行于倾斜的文本，
这样，识别软件会自动地将文本放正。标准版的尚书

OCR 提供了自动的版面分析和倾斜校

正，但它对复杂版面的分析往往不太准确，需要再做人工的校正。
　　

2.简繁混排和中英文混排的文稿在识别时往往会出问题，如果文稿中简繁混杂或中英

文混杂，则必须用设定识别区工具划出不同的识别区，否则易出错。为保险起见，可以采用
图形处理软件把块与块分开成独立的文件，然后分别打开，选择相应的语言，分别识别。
　　识别阶段　　按下工具栏上的

“识别”按钮后，会出现一个识别框，框里的内容飞速变

化。识别完成后，保存文件时，文件保存格式有

rtf、txt、htm 等几种，txt 文件可以很好地与

其他文字处理软件或排版系统兼容。尚书

6 号是汉字表格识别软件，不仅可识别文字，还可

识别表格，表格识别后保存为

rtf 格式，可以 word 软件中进行修改输出。值得注意的是，计

算机硬件越好，识别速度越快，内存最好大些，识别的时候不要同时运行其他大型软件，
以免发生冲突。
　　其他
　　

1.充分使用识别软件的用户自学习功能。OCR 识别软件内一般都含有用户自学习功能，

如果个别字在扫描比较清楚的情况下，软件识别得不正确，就可以把这个字加到用户自定
义库中。以后再碰到这个字，系统就聪明了，不会识别错了，这样可以逐渐地提高识别的正
确性。
　　

2.对繁体字，竖排版，非宋、黑、楷、仿字体的原稿，推荐用尚书 6 号，但缺点是只能输

出

GB2312 字集（6763 字）；对简体字，横排版，宋、黑、楷、仿字体、原文是繁体汉字原稿，

可用清华紫光

OCR（THOCR2000 版），其缺点是在识别率等方面不如前者。