태그 보관물: adobe-acrobat

adobe-acrobat

OCR의 내장 텍스트를 유지하면서 Tesseract로 인코딩 된 PDF를 압축하는 방법은 무엇입니까? 같은 파일을 얻을 이 하나

PDF를 OCR에 Tesseract를 사용하여 실험 해 왔으며 특히 Adobe Acrobat과 같은 도구가 제대로 인식 할 수없는 독일어 Fraktur 텍스트 (구식 고딕 양식 인쇄)를 사용하는 경우에 대부분 성공했습니다.

문제는 Tesseract의 출력 파일이 다소 커서 OCR 후 압축하고 싶습니다. 그러나 Ghostscript를 사용하여 파일을 압축하면 포함 된 OCR 텍스트가 엉망이됩니다. 마찬가지로 ImageMagick을 사용하면 포함 된 텍스트가 제거됩니다. 이 주위에 방법이 있습니까? 이론적으로 OCRing 전에 압축 할 수는 있지만 OCR 정확도가 떨어집니다.

일반적으로 내 목표는 출력 PDF 파일에 고품질 OCR 포함 텍스트를 포함하고 파일이 거의 많은 공간을 차지하지 않도록 포함 된 이미지를 압축하는 것입니다. Adobe Acrobat Pro 기능인 “다른 이름으로 저장> 축소 크기 PDF”는 이미지를 압축하지만 OCR의 텍스트를 고정시키는 것으로 나타났습니다. 파일이 Acrobat에서 OCR로 작성되었는지 또는 Tesseract와 같은 도구를 사용하는지에 관계없이 적용됩니다.

다음은 샘플 pdf를 사용하는 현재 워크 플로 입니다.

TIFF 파일로 PDF 분할

pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf

각 TIFF 파일에서 Tesseract를 실행하십시오 ( 샘플 파일의 출력 참조 ).

language=deu_frak
parallel tesseract {} {} -l $language pdf ::: temp/*.tiff
  • 내가 고스트 스크립트로 출력 PDF 파일을 결합 할 때, 나는 같은 파일을 얻을 이 하나 , 포함 된 텍스트까지 나사를
  • 내가 PDFtk (예 : pdftk 온도 / *. PDF 고양이 출력 outfile.pdf`)와 조합 할 때, 나는 같은 파일을 얻을 이 하나 포함 된 텍스트를 유지하지만 어떻게 든 파일 큰 수
  • 그런 다음 ImageMagic (예 :)을 사용하여 해당 파일을 압축하려고 convert -density 130x130 -quality 5 -compress jpeg outfile-pdftk.pdf outfile-pdftk-imagemagick.pdf하면 포함 된 OCR 텍스트 ( 출력 )를 제거합니다

Tesseract는 출력 PDF의 이미지를 압축하지 않는 것 같습니다. 출력은 압축하지 않고 파일을 OCR로 만드는 것입니다.

예를 들어, 초기 Tesseract OCR 파일에서 다음을 pdfimages -list temp/page_001.pdf.tiff.pdf생성합니다.

page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1067  1508  rgb     3   8  jpeg   no        11  0   129   130  318K 6.7%

… PDF의 이미지 객체가 정확하게 최적으로 저장되지 않았 음을 나타냅니다. 여전히 흑백이 아니라 RGB입니다. 이와 달리 ImageMagick으로 압축하면 다음과 같은 이점 pdfimages -list이 있습니다.

  pdfimages -list outfile-pdftk-imagemagick.pdf
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1075  1520  gray    1   8  jpeg   no         8  0   130   131 54.0K 3.4%
   1     1 smask    1075  1520  gray    1   8  image  no         8  0   130   131 25.1K 1.6%
   2     2 image    1075  1520  gray    1   8  jpeg   no        22  0   130   131 59.9K 3.8%
   2     3 smask    1075  1520  gray    1   8  image  no        22  0   130   131 25.1K 1.6%
   3     4 image    1075  1520  gray    1   8  jpeg   no        36  0   130   131 45.2K 2.8%
   3     5 smask    1075  1520  gray    1   8  image  no        36  0   130   131 25.1K 1.6%
   4     6 image    1075  1520  gray    1   8  jpeg   no        50  0   130   131 62.8K 3.9%
   4     7 smask    1075  1520  gray    1   8  image  no        50  0   130   131 25.1K 1.6%
   5     8 image    1075  1520  gray    1   8  jpeg   no        64  0   130   131 61.1K 3.8%
   5     9 smask    1075  1520  gray    1   8  image  no        64  0   130   131 25.1K 1.6%
   6    10 image    1075  1520  gray    1   8  jpeg   no        78  0   130   131 63.4K 4.0%
   6    11 smask    1075  1520  gray    1   8  image  no        78  0   130   131 25.1K 1.6%
   7    12 image    1075  1520  gray    1   8  jpeg   no        92  0   130   131 65.1K 4.1%
   7    13 smask    1075  1520  gray    1   8  image  no        92  0   130   131 25.1K 1.6%
   8    14 image    1075  1520  gray    1   8  jpeg   no       106  0   130   131 61.0K 3.8%
   8    15 smask    1075  1520  gray    1   8  image  no       106  0   130   131 25.1K 1.6%
   9    16 image    1075  1520  gray    1   8  jpeg   no       120  0   130   131 66.8K 4.2%
   9    17 smask    1075  1520  gray    1   8  image  no       120  0   130   131 25.1K 1.6%
  10    18 image    1075  1520  gray    1   8  jpeg   no       134  0   130   131 65.6K 4.1%
  10    19 smask    1075  1520  gray    1   8  image  no       134  0   130   131 25.1K 1.6%

우리가 볼 수 있듯이 이미지는 공간을 덜 차지하지만 OCR이 포함 된 텍스트는 제거되었고 어떻게 든 파일은 적습니다. 이에 비해 OCR 내장 텍스트없이 원본 파일을 가져와 Adobe Acrobat의 “다른 이름으로 저장> 축소 크기 PDF”를 사용하여 압축하면 다음과 같은 이점이 있습니다.

  pdfimages -list infile-adobe.pdf
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1000  1499  gray    1   8  jpx    no        38  0   129   129 78.1K 5.3%
   2     1 image    1000  1499  gray    1   8  jpx    no         3  0   129   129 89.1K 6.1%
   3     2 image    1000  1499  gray    1   8  jpx    no         6  0   129   129 65.6K 4.5%
   4     3 image    1000  1499  gray    1   8  jpx    no         9  0   129   129 97.7K 6.7%
   5     4 image    1000  1499  gray    1   8  jpx    no        12  0   129   129 95.4K 6.5%
   6     5 image    1000  1499  gray    1   8  jpx    no        15  0   129   129 98.7K 6.7%
   7     6 image    1000  1499  gray    1   8  jpx    no        18  0   129   129  102K 6.9%
   8     7 image    1000  1499  gray    1   8  jpx    no        21  0   129   129 94.6K 6.5%
   9     8 image    1000  1499  gray    1   8  jpx    no        24  0   129   129  105K 7.2%
  10     9 image    1000  1499  gray    1   8  jpx    no        27  0   129   129  103K 7.1%

… 보시다시피, Adobe Acrobat은 특허 문제로 인해 Ghostscript 또는 ImageMagick에서 사용할 수없는 JPEG2000 (JPX)을 사용하여 이미지를 압축하는 것 같습니다.

전체적으로 Tesseract-OCR의 PDF 파일을 압축하는 방법에 대한 제안 사항이 있습니까?



답변