Как лучше всего импортировать/читать данные из файлов PDF?

StackOverflow https://stackoverflow.com/questions/25550

  •  09-06-2019
  •  | 
  •  

Вопрос

Мы получаем большой объем данных от наших клиентов в файлах PDF в различных форматах [с точки зрения макета], эти файлы обычно представляют собой выходные данные отчетов и обычно правильно аннотированы [обычно им не требуется распознавание текста], но не отформатированы достаточно хорошо, чтобы просто скопировать несколько сотен страниц текста из Acrobat не получится.

Лучший подход, который я нашел на данный момент, — это написать сценарий для анализа почти корректного вывода XML (комментарии недействительны, многие символы экранируются по-разному, é становится [[[e9]]]é, $ становится \ $, % становится \%...) утилиты командной строки pdftoipe (для преобразования файлов PDF для программы под названием ипе), что дает мне текстовые элементы с их положением на каждой странице [см. пример ниже], что работает достаточно хорошо для отчетов, в которых одни и те же значения находятся в одном и том же месте на каждой интересующей меня странице, но для импорта матрицы потребуются дополнительные усилия по написанию сценария. [перекрестная таблица] PDF-файлы.pdftoipe совершенно не предназначен для этого и в лучшем случае его можно скомпилировать вручную с помощью cygwin для windows.

Существуют ли библиотеки, которые упрощают это с помощью какого-либо языка сценариев, который я могу терпеть?Графический инструмент тоже был бы замечательным.И пони.

вывод pdftoipe этот образец выглядит так:

<ipe creator="pdftoipe 2006/10/09"><info media="0 0 612 792"/>
<-- Page: 1 1 -->
<page gridsize="8">
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 181.8 707.88">This is a sample PDF fil</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 356.28 707.88">e.</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 368.76 707.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 692.4"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 677.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 663.36"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 648.84"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 634.32"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 619.8"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 605.28"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 590.76"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 576.24"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 561.72"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 547.2"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 532.68"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 518.16"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 503.64"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 489.12"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 474.6"> </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 456.24">If you can read this</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 214.92 456.24">,</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 219.48 456.24"> you already have A</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 370.8 456.24">dobe Acrobat </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 437.64">Reader i</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 131.28 437.64">n</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 141.12 437.64">stalled on your computer.</text>
<text stroke="0 0 0" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 337.92 437.64"> </text>
<text stroke="0 0.502 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 342.48 437.64"> </text>
<image width="800" height="600" rect="-92.04 800.64 374.4 449.76" ColorSpace="DeviceRGB" BitsPerComponent="8" Filter="DCTDecode" length="369925">
feedcafebabe...
</image>
</page>
</ipe>
Это было полезно?

Решение

Мы используем Xpdf в одном из наших приложений.Это библиотека C++, которая в основном используется для рендеринга PDF-файлов, хотя в ней есть экстрактор текста, который может быть полезен для этого проекта.

Другие советы

Если вас устраивает вызов чего-то внешнего, вы можете использовать скрипт-призрак — посмотрите скрипт ps2ascii, включенный в дистрибутив.Я не уверен, чего вы хотите от графического инструмента - большой кнопки, которую вы нажимаете, чтобы выбирать входные и выходные файлы?Предварительный просмотр?Возможно, вы сможете использовать GSView, в зависимости от того, что вы хотите.

pdftohtml -xml

хотя pdftoipe кажется более подробным!!

Вы смотрели Aspose?Мы используем его для приложения ASP.net, и я также видел несколько примеров его использования в vbscript.Это тоже не особо дорого.

http://www.aspose.com/

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top