版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
使用取余pythonn抽取PDF文件内容,包括文本、图像、线条等对象
摘要:这篇文章主要介绍如哬使用取余pythonn【3.6版本】中的PDFminer3k
模块来抽取PDF内容包括文本、图像、曲线等。
- 你可以在这里获得官方参考:
- 如果你不喜欢看英文的官方文档这裏的翻译也许对你有帮助:
下面的程序,我拓展了官方给出的例子你可以通过这个例子统计出来你的pdf文件一共包含哪些内容,比如文本框曲线,图片等
解析pdf文件获取文件中包含的各种对象
其实在上面的layout
对象中有更多的内容可提取,这个自己按需来写就好然后对曲线,文本框等对象都会有位置属性,可直接获取,自己debug
查看以下对象属性获取即可