首页 / 知识

用于将PDF转换为文本的Python模块

2023-04-13 02:16:00

Python module for converting PDF to text

哪些是将PDF文件转换为文本的最佳Python模块？

自Codeape发布以来，PDFMiner软件包已更改。

编辑(再次)：

PDFMiner已在版本20100213中再次更新。

您可以使用以下方法检查已安装的版本：

1
2
3

>>> import pdfminer
>>> pdfminer.__version__
'20100213'

这是更新的版本(带有有关我更改/添加的内容的注释)：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

def pdf_to_csv(filename):
from cStringIO import StringIO #<-- added so you can copy/paste this to try it
from pdfminer.converter import LTTextItem, TextConverter
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

class CsvConverter(TextConverter):
def __init__(self, *args, **kwargs):
TextConverter.__init__(self, *args, **kwargs)

def end_page(self, i):
from collections import defaultdict
lines = defaultdict(lambda : {})
for child in self.cur_item.objs:
if isinstance(child, LTTextItem):
(_,_,x,y) = child.bbox #<-- changed
line = lines[int(-y)]
line[x] = child.text.encode(self.codec) #<-- changed

for y in sorted(lines.keys()):
line = lines[y]
self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
self.outfp.write("
")

# ... the following part of the code is a remix of the
# convert() function in the pdfminer/tools/pdf2text module
rsrc = PDFResourceManager()
outfp = StringIO()
device = CsvConverter(rsrc, outfp, codec="utf-8") #<-- changed
# becuase my test documents are utf-8 (note: utf-8 is the default codec)

doc = PDFDocument()
fp = open(filename, 'rb')
parser = PDFParser(fp) #<-- changed
parser.set_document(doc) #<-- added
doc.set_parser(parser) #<-- added
doc.initialize('')

interpreter = PDFPageInterpreter(rsrc, device)

for i, page in enumerate(doc.get_pages()):
outfp.write("START PAGE %d
" % i)
interpreter.process_page(page)
outfp.write("END PAGE %d
" % i)

device.close()
fp.close()

return outfp.getvalue()

编辑(再次)：

这是pypi 20100619p1中最新版本的更新。简而言之，我将LTTextItem替换为LTChar，并将LAParams实例传递给CsvConverter构造函数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

def pdf_to_csv(filename):
from cStringIO import StringIO
from pdfminer.converter import LTChar, TextConverter #<-- changed
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

class CsvConverter(TextConverter):
def __init__(self, *args, **kwargs):
TextConverter.__init__(self, *args, **kwargs)

def end_page(self, i):
from collections import defaultdict
lines = defaultdict(lambda : {})
for child in self.cur_item.objs:
if isinstance(child, LTChar): #<-- changed
(_,_,x,y) = child.bbox
line = lines[int(-y)]
line[x] = child.text.encode(self.codec)

for y in sorted(lines.keys()):
line = lines[y]
self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
self.outfp.write("
")

# ... the following part of the code is a remix of the
# convert() function in the pdfminer/tools/pdf2text module
rsrc = PDFResourceManager()
outfp = StringIO()
device = CsvConverter(rsrc, outfp, codec="utf-8", laparams=LAParams()) #<-- changed
# becuase my test documents are utf-8 (note: utf-8 is the default codec)

doc = PDFDocument()
fp = open(filename, 'rb')
parser = PDFParser(fp)
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')

interpreter = PDFPageInterpreter(rsrc, device)

for i, page in enumerate(doc.get_pages()):
outfp.write("START PAGE %d
" % i)
if page is not None:
interpreter.process_page(page)
outfp.write("END PAGE %d
" % i)

device.close()
fp.close()

return outfp.getvalue()

编辑(再过一次)：

已针对版本20110515更新(感谢Oeufcoque Penteano！)：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

def pdf_to_csv(filename):
from cStringIO import StringIO
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

class CsvConverter(TextConverter):
def __init__(self, *args, **kwargs):
TextConverter.__init__(self, *args, **kwargs)

def end_page(self, i):
from collections import defaultdict
lines = defaultdict(lambda : {})
for child in self.cur_item._objs: #<-- changed
if isinstance(child, LTChar):
(_,_,x,y) = child.bbox
line = lines[int(-y)]
line[x] = child._text.encode(self.codec) #<-- changed

for y in sorted(lines.keys()):
line = lines[y]
self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
self.outfp.write("
")

# ... the following part of the code is a remix of the
# convert() function in the pdfminer/tools/pdf2text module
rsrc = PDFResourceManager()
outfp = StringIO()
device = CsvConverter(rsrc, outfp, codec="utf-8", laparams=LAParams())
# becuase my test documents are utf-8 (note: utf-8 is the default codec)

doc = PDFDocument()
fp = open(filename, 'rb')
parser = PDFParser(fp)
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')

interpreter = PDFPageInterpreter(rsrc, device)

for i, page in enumerate(doc.get_pages()):
outfp.write("START PAGE %d
" % i)
if page is not None:
interpreter.process_page(page)
outfp.write("END PAGE %d
" % i)

device.close()
fp.close()

return outfp.getvalue()

尝试使用PDFMiner。它可以从PDF文件中以HTML，SGML或"标记的PDF"格式提取文本。

Tagged PDF格式似乎是最干净的格式，而去掉XML标签只会留下纯文本。

Python 3版本在以下位置可用：

https://github.com/pdfminer/pdfminer.six

由于这些解决方案都不支持最新版本的PDFMiner，因此我编写了一个简单的解决方案，该解决方案将使用PDFMiner返回pdf文本。这对于那些因process_pdf出现导入错误的用户而工作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO

def pdfparser(data):

fp = file(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
# Create a PDF interpreter object.
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.

for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()

print data

if __name__ == '__main__':
pdfparser(sys.argv[1])

请参阅以下适用于Python 3的代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
import io

def pdfparser(data):

fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
# Create a PDF interpreter object.
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.

for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()

print(data)

if __name__ == '__main__':
pdfparser(sys.argv[1])

Pdftotext一个开放源代码程序(Xpdf的一部分)，您可以从python调用它(不是您所要求的，但可能有用)。我使用它没有问题。我认为Google在Google桌面中使用它。

pyPDF可以正常工作(假设您使用的是格式正确的PDF)。如果您只需要文本(带空格)，则可以执行以下操作：

1
2
3
4

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename,"rb"))
for page in pdf.pages:
print page.extractText()

您还可以轻松访问元数据，图像数据等。

extractText代码中的注释说明：

Locate all text drawing commands, in
the order they are provided in the
content stream, and extract the text.
This works well for some PDF files,
but poorly for others, depending on
the generator used. This will be
refined in the future. Do not rely on
the order of text coming out of this
function, as it will change if this
function is made more sophisticated.

这是否是一个问题取决于您对文本的处理方式(例如，顺序无关紧要，就可以了，或者如果生成器按显示顺序将文本添加到流中，就可以了) 。我在日常使用中有pyPdf提取代码，没有任何问题。

您也可以很容易地将pdfminer用作库。您可以访问pdf的内容模型，并且可以创建自己的文本提取。我这样做是使用以下代码将pdf内容转换为以分号分隔的文本。

该函数仅根据TextItem内容对象的y和x坐标对它们进行排序，并输出与一条文本行具有相同y坐标的项目，并用';'将同一行上的对象分隔开字符。

使用这种方法，我能够从pdf提取文本，而其他工具无法提取适合进一步解析的内容。我尝试过的其他工具包括pdftotext，ps2ascii和在线工具pdftextonline.com。

pdfminer是pdf抓取的宝贵工具。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

def pdf_to_csv(filename):
from pdflib.page import TextItem, TextConverter
from pdflib.pdfparser import PDFDocument, PDFParser
from pdflib.pdfinterp import PDFResourceManager, PDFPageInterpreter

class CsvConverter(TextConverter):
def __init__(self, *args, **kwargs):
TextConverter.__init__(self, *args, **kwargs)

def end_page(self, i):
from collections import defaultdict
lines = defaultdict(lambda : {})
for child in self.cur_item.objs:
if isinstance(child, TextItem):
(_,_,x,y) = child.bbox
line = lines[int(-y)]
line[x] = child.text

for y in sorted(lines.keys()):
line = lines[y]
self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
self.outfp.write("
")

# ... the following part of the code is a remix of the
# convert() function in the pdfminer/tools/pdf2text module
rsrc = PDFResourceManager()
outfp = StringIO()
device = CsvConverter(rsrc, outfp,"ascii")

doc = PDFDocument()
fp = open(filename, 'rb')
parser = PDFParser(doc, fp)
doc.initialize('')

interpreter = PDFPageInterpreter(rsrc, device)

for i, page in enumerate(doc.get_pages()):
outfp.write("START PAGE %d
" % i)
interpreter.process_page(page)
outfp.write("END PAGE %d
" % i)

device.close()
fp.close()

return outfp.getvalue()

更新：

上面的代码是针对API的旧版本编写的，请参见下面的评论。

slate是一个使使用库中的PDFMiner非常简单的项目：

1
2
3
4
5
6
7

>>> with open('example.pdf') as f:
... doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'

我需要在python模块中将特定的PDF转换为纯文本。在阅读了他们的pdf2txt.py工具之后，我使用了PDFMiner 20110515，我编写了以下简单代码段：

1
2
3
4
5
6
7
8
9
10
11
12
13
14

from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

def to_txt(pdf_path):
input_ = file(pdf_path, 'rb')
output = StringIO()

manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
process_pdf(manager, converter, input_)

return output.getvalue()

重新利用pdfminer随附的pdf2txt.py代码；您可以使函数采用pdf路径； (可选)输出类型(txt | html | xml | tag)，并选择类似命令行pdf2txt {'-o'：'/path/to/outfile.txt'...}。默认情况下，您可以调用：

1	convert_pdf(path)

将创建一个文本文件，该文件在文件系统上为原始pdf的同级文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79

def convert_pdf(path, outtype='txt', opts={}):
import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, TagExtractor
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfdevice import PDFDevice
from pdfminer.cmapdb import CMapDB

outfile = path[:-3] + outtype
outdir = '/'.join(path.split('/')[:-1])

debug = 0
# input option
password = ''
pagenos = set()
maxpages = 0
# output option
codec = 'utf-8'
pageno = 1
scale = 1
showpageno = True
laparams = LAParams()
for (k, v) in opts:
if k == '-d': debug += 1
elif k == '-p': pagenos.update( int(x)-1 for x in v.split(',') )
elif k == '-m': maxpages = int(v)
elif k == '-P': password = v
elif k == '-o': outfile = v
elif k == '-n': laparams = None
elif k == '-A': laparams.all_texts = True
elif k == '-D': laparams.writing_mode = v
elif k == '-M': laparams.char_margin = float(v)
elif k == '-L': laparams.line_margin = float(v)
elif k == '-W': laparams.word_margin = float(v)
elif k == '-O': outdir = v
elif k == '-t': outtype = v
elif k == '-c': codec = v
elif k == '-s': scale = float(v)
#
CMapDB.debug = debug
PDFResourceManager.debug = debug
PDFDocument.debug = debug
PDFParser.debug = debug
PDFPageInterpreter.debug = debug
PDFDevice.debug = debug
#
rsrcmgr = PDFResourceManager()
if not outtype:
outtype = 'txt'
if outfile:
if outfile.endswith('.htm') or outfile.endswith('.html'):
outtype = 'html'
elif outfile.endswith('.xml'):
outtype = 'xml'
elif outfile.endswith('.tag'):
outtype = 'tag'
if outfile:
outfp = file(outfile, 'w')
else:
outfp = sys.stdout
if outtype == 'txt':
device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)
elif outtype == 'xml':
device = XMLConverter(rsrcmgr, outfp, codec=codec, laparams=laparams, outdir=outdir)
elif outtype == 'html':
device = HTMLConverter(rsrcmgr, outfp, codec=codec, scale=scale, laparams=laparams, outdir=outdir)
elif outtype == 'tag':
device = TagExtractor(rsrcmgr, outfp, codec=codec)
else:
return usage()

fp = file(path, 'rb')
process_pdf(rsrcmgr, device, fp, pagenos, maxpages=maxpages, password=password)
fp.close()
device.close()

outfp.close()
return

我已经将pdftohtml与-xml参数一起使用，并用subprocess.Popen()读取了结果，这将为您提供pdf中每个文本片段的x坐标，y坐标，宽度，高度和字体。我认为这也是"证据"可能使用的原因，因为出现了相同的错误消息。

如果您需要处理柱状数据，由于必须发明一种适合pdf文件的算法，它会变得稍微复杂一些。问题在于制作PDF文件的程序实际上不一定以任何逻辑格式对文本进行布局。您可以尝试使用简单的排序算法，该算法有时会起作用，但是可能很少出现"散乱"和"杂散"的情况，这些文字不会按照您认为的顺序排列。所以你必须要有创造力。

我花了大约5个小时才找到一份我正在研究的pdf文件。但现在效果很好。祝好运。

另外，还有PDFTextStream，这是一个商业Java库，也可以从Python使用。

PDFminer在我尝试使用的pdf文件的每一页上可能给了我一行[第1页，共7页...]。

到目前为止，我最好的答案是pdftoipe或基于Xpdf的c ++代码。

请参阅我的问题，了解pdftoipe的输出是什么样的。

今天找到了该解决方案。对我来说很棒。甚至将PDF页面呈现为PNG图像。
http://www.swftools.org/gfx_tutorial.html

文本模块用于文件