python3爬虫爬取pdf&解析pdf得到文本

    因为现在很多文献都是以pdf形式在网上挂着,所以笔者去网上搜取了一下如何利用python3下载pdf以及解析pdf得到文本呢?
   查了一下,发现下载pdf很简单,因为pdf资源可以通过urllib或request的get方法直接请求到,然后将得到的结果以"wb"的形式写入文件即可,后缀名改为pdf即可。具体见文件downloadpdf.py。
   解析pdf需要用到pdfminer包,安装很简单,使用“pip install pdfminer3k"即可,其作用就是将一篇pdf文档里面的文字提取出来(图片、表格还没去研究如何提取),然后得到文本,以后再处理pdf就方便了很多,但是有的时候得到的结果并不理想,仅供参考。

0 个评论

要回复文章请先登录注册