失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > linux pdf to txt PDF转换为TXT

linux pdf to txt PDF转换为TXT

时间:2023-06-16 21:08:30

相关推荐

linux pdf to txt PDF转换为TXT

手上有一批pdf的文件大约6万份需要转成txt,尝试了很多方法。列出来供参考:

1. 利用付费软件转换

使用了迅捷PDF转换器,买了永久会员,该转换方法的好处是操作简单,缺点在于免费一次只能转5页,买了会员之后也一次只能转换200个文件,小批量文件比较适合。

2. 利用python进行转换

python转换主要利用了王树义老师提供的方法PDF批量转换,该方法基于python3中的pdfminer.six包进行提取,可以做到批量转换。但是由于我的PDF文件可能有点问题总是报错说文件格式不是PDF。也查了一些其他的转换包,好像对中文支持都不好,没有进一步尝试。

anaconda在装上pdfminer.six包之后按照王树义老师给出的代码导入包时出现ModuleNotFoundError,检查后发现以前装了pdfminer3k的包,其实两个包代码功能都差不多,但是个别模块名字有差异。如果一直出现ModuleNotFoundError,可以尝试卸载两个包后再重新按照。

3. 在linux系统中转换

实在走投无路之后,偶然在知乎上看到一个方法,并利用这种方法成功转换。

由于我使用的是windows10系统,因此首先安装了vmware以及ubuntu的虚拟机,之后在终端执行以下命令即可:

```

for f in `ls *.pdf`

do pdftotext "$f"

done

```

以上为尝试的三种比较方便的转换方法,当然如果只是转单个文件直接右击PDF文件利用word以上版本打开,即可转换。

如果觉得《linux pdf to txt PDF转换为TXT》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。