PDF 处理初级
扫描 PDF OCR 与文献整理流程
把扫描版 PDF、旧文献和档案资料转为可搜索、可复制、可管理的文献文件。
预计耗时:30 分钟-2 小时 5 个步骤
操作步骤
1
整理 PDF 文件
PDFsam / Stirling PDF合并、拆分、旋转或重新排序扫描 PDF,确保每个文件结构清楚。
先处理页面顺序和方向,再进行 OCR。
2
执行 OCR
OCRmyPDF / Tesseract OCR为扫描版 PDF 添加文本层,使其支持搜索、复制和全文索引。
中文、日文或英文文献要选择对应 OCR 语言包。
3
压缩与优化
Stirling PDF对 OCR 后的 PDF 进行压缩、去空白页、加书签或格式优化。
压缩时注意不要过度降低图像质量,影响后续阅读。
4
导入文献库
Zotero将处理后的 PDF 导入 Zotero,补全题名、作者、年份和期刊信息。
扫描版老文献可能需要手动补充元数据。
5
建立标签与笔记
Zotero根据研究主题添加标签和阅读笔记,方便后续检索。
建议按主题、方法、地区和重要程度建立少量核心标签。
流程完成