08-PDF读取与合并：处理PDF只需3行代码

大家好，这里是程序员晚枫，正在all in AI编程实战。

工作中 PDF 无处不在——合同、报告、手册、论文……

今天教你怎么用 python-office 处理 PDF。

1、PDF读取：提取文字内容

假设有一个 合同.pdf，想提取里面的文字：

import office

# 1行代码读取PDF
text = office.pdf.read(path='合同.pdf')

# 打印内容
print(text)

🎉 Done！PDF 文字全部提取出来了！

2、PDF合并：把多个PDF合并成一个

假设有三个 PDF 要合并：

import office

# 合并多个PDF
office.pdf.merge(
    file_list=['合同1.pdf', '合同2.pdf', '合同3.pdf'],
    output_file='合并合同.pdf'
)

运行后，合并合同.pdf 包含了所有内容。

3、PDF拆分：把一个大PDF拆成多个

想把一个 PDF 的某些页面单独拆出来：

import office

# 拆分PDF：提取第1-3页和第5页
office.pdf.split(
    path='长文档.pdf',
    page_list=[1, 2, 3, 5],
    output_file='提取页面.pdf'
)

4、PDF转Word：把PDF内容转成Word

想把 PDF 内容转成可编辑的 Word：

import office

# PDF转Word
office.pdf.pdf2docx(path='报告.pdf', output_file='报告.docx')

⚠️ 这个功能需要较新的 python-office 版本，如果没有先更新：
1
pip install python-office -U

5、PDF转图片：把PDF页面转成图片

import office

# 把PDF每一页转成图片
office.pdf.pdf2img(path='演示文稿.pdf', output_folder='图片文件夹')

每个页面会生成一张 PNG 图片。

6、实战案例：批量提取合同关键信息

财务每月要提取所有合同的金额和日期：

import office
import os
import re

# 合同文件夹
folder = 'C:\\合同'

# 遍历所有PDF
results = []
for file in os.listdir(folder):
    if file.endswith('.pdf'):
        path = os.path.join(folder, file)
        text = office.pdf.read(path=path)
        
        # 提取金额（正则匹配）
        amounts = re.findall(r'¥(\d+\.?\d*)', text)
        
        # 提取日期
        dates = re.findall(r'(\d{4}年\d{1,2}月\d{1,2}日)', text)
        
        results.append({
            '文件名': file,
            '金额': amounts[0] if amounts else '未找到',
            '日期': dates[0] if dates else '未找到'
        })

# 写入Excel
office.excel.write(path='合同汇总.xlsx', data=results)
print('合同汇总完成！')