camelot.read_pdf参数介绍
时间: 2023-09-10 18:09:27 浏览: 315
camelot.read_pdf 是一个 Python 的 PDF 表格数据抽取工具,其参数介绍如下:
1. filepath:要读取的 PDF 文件路径。
2. pages:要读取的页码,可以是字符串或列表形式,例如:"1,3,5" 或 [1, 3, 5]。
3. flavor:指定 PDF 渲染引擎,可选值有"lattice"、"stream"和"exact",默认为"lattice"。
4. suppress_stdout:是否抑制标准输出,可选值为 True 或 False,默认为 True。
5. layout_kwargs:指定 PDF 渲染引擎的布局参数,是一个字典类型,可设置的参数包括线宽、间距等。
6. split_text:是否拆分单元格中的文本,可选值为 True 或 False,默认为 False。
7. flag_size:指定 PDF 渲染引擎的大小标记,是一个整数类型,可选值为 0 或 1,默认为 1。
8. edge_tol:指定 PDF 渲染引擎的边缘容差,是一个浮点数类型,可选值为 0 到 1 之间的任意值,默认为 0.1。
9. row_tol:指定 PDF 渲染引擎的行容差,是一个浮点数类型,可选值为 0 到 1 之间的任意值,默认为 0.1。
10. strip_text:是否移除单元格中的空格和换行符,可选值为 True 或 False,默认为 True。
11. password:若 PDF 文件有密码保护,则需要指定密码。
12. columns:指定表格的列数,若不指定则自动识别。
13. split_lines:是否拆分表格中的多行文本,可选值为 True 或 False,默认为 True。
14. table_areas:指定表格的位置范围,是一个列表类型,例如:["10,10,300,800"]。
15. process_background:是否处理 PDF 文件中的背景色,可选值为 True 或 False,默认为 False。
16. copy_text:是否把 PDF 文件中的文本复制到中间文件中,可选值为 True 或 False,默认为 True。
17. output_format:输出的文件格式,可选值有"csv"、"json"和"excel",默认为"csv"。
18. output_path:输出文件的路径,若不指定则输出到当前目录。
阅读全文