PDF 处理初级

扫描 PDF OCR 与文献整理流程

把扫描版 PDF、旧文献和档案资料转为可搜索、可复制、可管理的文献文件。

预计耗时:30 分钟-2 小时 5 个步骤

操作步骤

1

整理 PDF 文件

PDFsam / Stirling PDF

合并、拆分、旋转或重新排序扫描 PDF,确保每个文件结构清楚。

先处理页面顺序和方向,再进行 OCR。

2

执行 OCR

OCRmyPDF / Tesseract OCR

为扫描版 PDF 添加文本层,使其支持搜索、复制和全文索引。

中文、日文或英文文献要选择对应 OCR 语言包。

3

压缩与优化

Stirling PDF

对 OCR 后的 PDF 进行压缩、去空白页、加书签或格式优化。

压缩时注意不要过度降低图像质量,影响后续阅读。

4

导入文献库

Zotero

将处理后的 PDF 导入 Zotero,补全题名、作者、年份和期刊信息。

扫描版老文献可能需要手动补充元数据。

5

建立标签与笔记

Zotero

根据研究主题添加标签和阅读笔记,方便后续检索。

建议按主题、方法、地区和重要程度建立少量核心标签。

流程完成