Fujitsu ScanSnap S500 문서 스캐너를 사용하여 종이 문서를 검색 가능한 PDF로 스캔하는 워크 플로우가 있습니다. 번들 소프트웨어의 열렬한 팬은 아니지만 사용하기가 간단합니다. 용지 더미를 맨 위에 놓고 녹색 버튼을 누르면 검색 가능한 PDF가 나옵니다.
이제 Linux (Ubuntu 10.10)에서 비슷한 작업을하고 싶습니다. 스캐너는 기본적으로 지원됩니다.
내가 검토 한 gscan2pdf
및 XSane
:
XSane
강력 해 보이지만 워크 플로 솔루션으로는 적합하지 않습니다.gscan2pdf
“버튼 누름, PDF 가져 오기”에 이상적이지만 여전히 100 %는 아닙니다.
추천 할 수있는 다른 소프트웨어가 있습니까 (무료 또는 기타)?
답변
올해 초에 조사 할 때 찾은 것들이 있습니다. 죄송합니다. 등급이 제한되어 하이퍼 링크를 두 개 이상 게시 할 수 없으므로 Google에 연결해야합니다.
gscan2pdf
백엔드에 다양한 OCR 엔진을 사용할 수있는 정말 좋은 GUI 시스템. 이것은 아마도 원터치 솔루션을 충족시킬 것입니다 (그리고 digitxp는 이미 언급했습니다).
Tesseract OCR 엔진
gscan2pdf와 함께 사용할 수 있습니다.
오크로 푸스
나는 광범위한 훈련없이 텍스트를 인식하지 못했기 때문에 문어에 그리 멀지 않았습니다. 아마도 책에는 좋을지 모르지만 청구서 등으로는 효과가 없었습니다. YMMV.
설형 문자
Cuneiform으로 최고의 성공을 거두었으며 다음 워크 플로와 유사한 명령을 스크립팅하여 검색 가능한 PDF를 만들 수있었습니다.
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
정확한 이미지 패키지도 설치해야합니다.
OCR’ing PDF의 Cuniform 및 hocr2pdf 사용을위한 다양한 오픈 소스 프로젝트 :
- 손목 시계
- 아르 키 비스타
무엇을 알게되었는지 알려주세요!