面向Word和PDF文档的图像提取软件 |
| |
引用本文: | 陈毅铧,张瀚匀.面向Word和PDF文档的图像提取软件[J].信息技术,2023(4):8-12+17. |
| |
作者姓名: | 陈毅铧 张瀚匀 |
| |
作者单位: | 1. 广西师范大学计算机科学与工程学院;2. 广西师范大学图书馆 |
| |
基金项目: | 国家自然科学基金项目(61962008); |
| |
摘 要: | 针对文档图像查重、以图搜索文档等应用对于文档图像提取的需求,文中归纳和总结了Word和PDF文档图像的提取方法。这两类文档图像的提取方法都是从文件结构出发,定位并提取出图像数据,然后将数据保存成指定格式的图像。在PyCharm环境下采用Python语言对提取方法进行封装,设计并实现了一个面向Word和PDF文档的图像提取软件,实验验证了文档图像提取方法的有效性。
|
关 键 词: | 文档图像 图像提取软件 Word PDF Python |
|
|