对于需要归档收集的人而言,PDF 无疑是一个绝佳的选择,但有些我们转换或下载的 PDF 可能出现没有目录的情况,这对于快速查找十分的不便。
本文针对影印版文件无效,一个简单的测试方式是打开文件尝试选择/复制,如果不可以选择或复制出来有错字或多余的空格则本文无效
准备
本次使用的工具是 pdf.tocgen,这是一个能够为 PDF 自动生成目录的开源命令行工具集,其由 pdfxmeta、pdftocgen、pdftocio 三个工具组成。
这是来自官网的介绍图,in.pdf 是我们原始没有目录的 pdf 文件,而 out.pdf 是经过工具处理后增加了目录的新文件。
pdf.tocgen 工具集的原理是 PDF 中的「标题」与「正文」的格式一般是不一样的,同样,标题的不同层级格式一般也是不一样的,pdf.tocgen 则提供了一套工具来利用这一差异半自动的生成目录。该工具集有三个软件组成,pdfxmeta 可以利用文字来查找对应的格式信息,pdftocgen 则是利用 pdfxmeta 输出的格式信息生成目录的描述,而 pdftocio 则是利用 pdftocgen 生成的目录描述为我们的原始 pdf 增加目录并输出新的 pdf 文件。当然,这么说过于抽象了一点,本文中我将使用一个真实例子(就发生在昨天,还很热乎)进行演示,相信你看完会发现听起来虽然很麻烦,但是真的上手操作起来既简单又强大灵活,可以覆盖几乎全部的需要目录的场景。