从中国知网下载而来的资料,大都是.CAJ、.NH、.KDH、.PDF 等格式,需使用
CAJViewer 全文浏览器进行查看。现在网上的许多资料都是以 CAJ、PDF 等文件
格式提供的,其中的文本不能被直接编辑。 网上提供了许多处理这种情况的软件,
但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的
OCR 识别技术从 CAJ、PDF 等文件中提取全部文本的方法,简便快捷,效率很高。
一、CAJ 文件的识别
方法一、
(一)首先,从网上下载 CAJ 格式的资料文件保存到本地硬盘上。
(二)然后,启动 CAJViewer 浏览器程序,并在该程序中打开刚才保存的 CAJ 格
式的文件。浏览文件到最后一页后,不要关闭 CAJ 浏览器程序。
(三)在 CAJ 浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为 Microsoft
Office Document Image Writer 打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office
Document Image 自动打开刚才保存的打印文件。
(五)在 Microsoft Office Document Image 窗口中,选择“页面”菜单中的“选择所
有页面”菜单项,然后选择“工具”菜单中的“使用 OCR 识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到 word”,最后将把整个 CAJ 文件识别输出到
word 文件中。
方法二、
CAJ 文件直接可以复制、粘贴获得,打开文件→工具→文本选择、选择图像→
复制、粘贴就可以了。
方法三、
首先,启动 CAJViewer 浏览器程序,用 CAJViewer7.02 打开刚才保存的 CAJ
格式的文件,然后在每页的左右两边分区域选取文字,再在选取区域内,单击右键
“文字识别”,这时会出现“文字识别结果”对话框,单击“复制到剪贴板”或“发送到