本科毕设:Python实现doc到docx转换与文档格式审查

需积分: 9 0 下载量 161 浏览量 更新于2024-07-09 收藏 128KB DOCX 举报
"毕设日记记录了作者在本科毕业设计期间开发Word文档格式审查系统的过程,涉及Python编程、文件格式转换、XML处理以及使用python-docx库读取docx文档格式的信息。" 这篇毕设日记详细记录了作者在2021年1月到2月期间进行毕业设计的日程与进展。作者首先提到了实现了一个功能,即通过Python程序,当用户点击按钮选择一个doc文件时,程序会自动将其转换为docx文件。这一过程可能涉及到Python的文件操作和文件类型判断。 接着,作者实现了使用Python对zip文件的解压缩和重命名功能,以便于将docx文件转换为zip格式,并且进一步访问其中的XML数据。这显示了作者对Python文件操作和压缩库的运用,例如使用`zipfile`模块。 在2月8日的记录中,作者讨论了在处理XML文件时遇到的问题。他们参考了一篇论文,了解到Apache POI是一个适用于Java的库,虽然可以与Python结合使用,但过程复杂,需要Java运行环境(JRE)。相比之下,Python有一个名为`docx`的库,能够直接读取docx文件的格式信息,无需先将其转换为XML。作者意识到只需要将doc文件转换为docx,就可以利用python-docx来处理,而这个转换已经在之前的日志中完成。 为了实现这一目标,作者在PyCharm中下载了`python-docx`组件。这是一个用于创建、修改Microsoft Word .docx文件的Python库,提供了读取和写入docx文件的能力,包括段落、表格、图片等元素的处理。通过这个库,作者可以方便地获取和检查文档的格式信息,以满足毕业设计的需求。 从这部分内容可以看出,作者在毕设过程中不仅学习了Python编程,还涉及到了文件操作、文件格式转换、XML处理以及Python库的使用。这些技能对于进行文档处理和格式检查系统的开发至关重要。同时,作者也展示了自我管理和时间规划的能力,尽管在过程中有短暂的放松,但总体上保持着学习和项目的进度。