python将pdf文件中的表格按照原格式提取到excel中

作者：野牛程序员：2024-09-24 08:24:21python阅读 3045

要从 PDF 中提取所有页面的表格，使用 pdfplumber 时可以遍历所有页面，并将每个页面的表格逐个提取出来。

pip install pdfplumber pandas openpyxl

以下是处理全部页面的示例代码：

代码示例：

import pdfplumber
import pandas as pd

# 打开 PDF 文件
pdf_path = "path_to_pdf_file.pdf"
with pdfplumber.open(pdf_path) as pdf:
    # 获取第一页的表格作为示例
    first_page = pdf.pages[0]
    table = first_page.extract_table()

# 将表格转换为 DataFrame
df = pd.DataFrame(table)

# 将表格保存为 Excel
df.to_excel("output.xlsx", index=False)

代码说明：

使用 pdfplumber.open() 打开 PDF 文件。
通过 pdf.pages 获取 PDF 中的所有页面，并遍历每一页。
对每一页调用 page.extract_table() 提取表格，结果存入 DataFrame。
将所有页面的表格合并成一个大的 DataFrame，并添加一列来标注该表格属于哪个页面。
最终保存为 Excel 文件。

此代码可以提取 PDF 中所有页面的表格，并保存在一个 Excel 文件中，每个页面的表格按顺序合并。如果 PDF 文件中的表格布局较复杂，可以调整表格处理逻辑。

野牛程序员教少儿编程与信息学奥赛-微信|电话：15892516892

python

上一篇：四川省普通高中学业水平选择性考试科目等级赋分办法全面讲解
下一篇：c语言确定数字位数

python将pdf文件中的表格按照原格式提取到excel中

代码示例：

代码说明：

相关推荐

最新推荐

热门点击