解析表格数据，Python与Tika对比

小编 Python (289) 2023-04-19 05:09:02

为了证明Python确实在解析表格数据上优于其他的选择，今天我们为大家进行实例对比，具体如下：

PDF文件表格样例

Python解析结果

其他样式解析，如Tika

1、TEXT格式

Tikatika=newTika();
tika.setMaxStringLength(100*1024*1024);
try(InputStreamstream=newFileInputStream(newFile("600060_2018_zB.pdf"))){
returntika.parseToString(stream);
}

Text格式解析结果

2、XHTML格式

ContentHandlerhandler=newToXMLContentHandler();
AutoDetectParserparser=newAutoDetectParser();
Metadatametadata=newMetadata();
try(InputStreamstream=newFileInputStream(newFile("600060_2018_zB.pdf"))){
parser.parse(stream,handler,metadata);
returnhandler.toString();
}

XHTML格式解析结果

解析PDF常用组件（PdfBox、iText、Tika等）都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。

根据对比我们可以发现，用Python解析PDF的表格数据更为简单方便，下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:PyThon学习网教学中心。

THE END

发表回复取消回复

请先登录账户再评论哦

Python psd-tools如何转换文件

python in操作符是什么

解析表格数据，Python与Tika对比

发表回复取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

解析表格数据，Python与Tika对比

发表回复 取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

发表回复取消回复