PDF 文件、caj 文件、超星文件转化为 Word 文档
现在网上许多资料都是以 CAJ、PDF 等文件格式提供的,其中
的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但
是它们不是效率低,就是只能提取其中部分文本。本文所述利用微
软提供的 OCR 识别技术从 CAJ、PDF 等文件中提取全部文本的方法,
简便快捷,效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作,安装
CAJViewer5.5 浏览器软件和 acrobat 5 专业版浏览器软件安装
Oce2003 , 并 完 全 安 装 Of? 鄄 ce 工 具 Microsoft Oce
Document Imaging,然后在打印机里面会增加 Microsoft Oce
Document Image Writer 打 印 机 。 Microsoft Oce
Document Image 可以非常准确的全文件识别转化中文、英文、
表格。
一、CAJ 文件的识别
(一)首先,从网上下载 CAJ 格式的资料文件保存到本地硬盘
上。
(二)然后,启动 CAJViewer 浏览器程序,并在该程序中打开
刚才保存的 CAJ 格式的文件。浏览文件到最后一页后,不要关闭
CAJ 浏览器程序。
(三)在 CAJ 浏览器程序窗口中,选择“文件”→“打印”,并选择
打印机为 Microsoft Oce Document Image Writer 打印机,勾