OCR-Text in PDF- und Bilddateien in Adobe Acrobat

Gescannte Dokumente sind großartig. Sie ermöglichen das Archivieren von Papierstapeln in Ordnern auf Ihrem Computer. Dadurch wird weitaus weniger Speicherplatz benötigt und es lässt sich unendlich viel einfacher organisieren, verschieben und kopieren. Was nicht so toll ist, ist das Finden von Inhalten in einem Ihrer Hunderte gescannter Dokumente. Standardmäßig sind sie kaum mehr als ein Bild Ihres Dokuments. Wenn Sie Informationen darin suchen möchten, müssen Sie jedes Dokument öffnen und es selbst lesen.

Oder Sie lassen Ihren Computer für sich beanspruchen, indem Sie Ihr Bild in Text umwandeln und Ihre gescannten Dokumente so einfach durchsuchen wie andere Dokumente. Das ist was OCR ist-Optical Character RErkenntnis tut. Mithilfe der intelligenten Funktionen Ihres Computers werden Buchstabenformen in einem Bild oder in einem gescannten Dokument erkannt und in digitalen Text umgewandelt, den Sie je nach Bedarf kopieren und bearbeiten können.

So können Sie das in Adobe Acrobat integrierte OCR-Tool verwenden, um Ihre gescannten Dokumente und Bilder in echten digitalen Text umzuwandeln.

OCR ein Dokument oder ein Bild in Acrobat

Adobe Acrobat ist das ursprüngliche Standardprogramm zum Erstellen, Bearbeiten und Anzeigen von PDF-Dateien. Es wird häufig in Unternehmen verwendet und ist in der Adobe Creative Suite und der Vollversion von Creative Cloud enthalten. Es besteht also eine gute Chance, dass Ihr Computer bereits installiert ist. Alternativ können Sie es kostenlos von Ihrem Creative Cloud-Abonnement aus installieren. Wenn ja, ist dies ein großartiges Werkzeug, um Dokumente schnell auf einem Mac oder PC zu OCR zu machen.

Hinweis: Dieses Tutorial erfordert Adobe Akrobat, nicht Adobe Leser. Letzteres ist eine kostenlose App nur zum Anzeigen von PDFs. Wenn Sie über alles verfügen, können Sie am Ende dieses Tutorials weitere großartige OCR-Tools aufrufen, die Sie verwenden können.

Öffnen Sie Ihr Bild oder PDF und lassen Sie Acrobat Ihren Text erkennen 

Acrobat kann Text in jeder PDF- oder Bilddatei in Dutzenden von Sprachen erkennen. Sie müssen nur das gescannte Dokument oder Bild öffnen, das Sie für die OCR verwenden möchten, und dann auf das blaue Symbol klicken Werkzeuge Schaltfläche oben rechts in der Symbolleiste. Wählen Sie in dieser Seitenleiste die Option Text erkennen Klicken Sie auf die Registerkarte In dieser Datei Taste.

Sie erhalten nun einige Optionen zur Optimierung Ihrer OCR. Wenn Sie ein Dokument in den Standardsprachen Ihres Computers (in meinem Fall Englisch (USA)) erkennen, klicken Sie einfach auf OK um Ihren Text zu erkennen. Andernfalls klicken Sie auf Bearbeiten… Mit dieser Schaltfläche können Sie Ihre OCR-Sprache auswählen, Ihren PDF-Ausgabestil und die Auflösung auswählen, die Acrobat verwenden soll, während Sie Ihren Text erkennen.

Passen Sie Ihre OCR-Einstellungen an

Nach einer kurzen Pause, die durch einen Fortschrittsbalken am unteren Rand des Fensters angezeigt wird, wird Ihr Text vollständig erkannt. Das Erkennen von Text in einem gescannten 1-seitigen Formular auf meinem MacBook Air 2012 dauerte nur etwa 15 Sekunden, in einem 30-seitigen, vollfarbigen PDF-Textbuch jedoch nur wenige Minuten. Anschließend können Sie einen beliebigen Text im Dokument auswählen und ihn wie gewohnt kopieren oder nach Text im Dokument suchen. Standardmäßig speichert Acrobat den erkannten Text in der Originaldatei, wenn Sie eine PDF-OCR erstellen. Wenn Sie ein OCR-Dokument erstellen, wird das Bild mit seinem Text in einer neuen PDF-Datei gespeichert. In jedem Fall wird der erkannte Text anschließend in jedem PDF-Reader angezeigt, als wäre es ein digitales Originaldokument.

Kopieren Sie Text aus einem gescannten Dokument als reinen Text oder mit Formatierung - oder verwenden Sie das PDF einfach als normales PDF

Wenn der Text erkannt wurde, können Sie die PDF-Datei jetzt mit allen normalen Markierungswerkzeugen kennzeichnen. Sie können Text markieren und durchstreichen und vieles mehr. Sie können den Text sogar mit der erkannten Formatierung kopieren, obwohl dies oft weniger genau ist als die Texterkennung.

Exportieren Sie Ihre OCR-Dokumente

Wenn Sie Ihre gescannten Originaldokumente bearbeiten oder die darin enthaltenen Informationen in einem neuen Dokument wiederverwenden möchten, benötigen Sie mehr als nur auswählbaren Text in einer PDF-Datei. Sie möchten das vollständige Dokument konvertieren. Acrobat macht dies ebenfalls einfach: Der Text wird in OCR-Text geschrieben und in einem Schritt als neues Dokument exportiert.

Öffnen Sie einfach das gewünschte Dokument und konvertieren Sie es, klicken Sie auf DateiSpeichern als… und wählen Sie das gewünschte Format. Sie können als Word- oder Rich-Text-Dokument, Excel- oder CSV-Tabelle oder als HTML-Datei exportieren. Fügen Sie den gewünschten Dateinamen und den Ort hinzu, an dem Sie Ihre neue Datei speichern möchten, und klicken Sie auf sparen. Acrobat zeigt am unteren Rand des Fensters dieselbe Fortschrittsleiste an, wie der Text und die Formatierung in Ihrem Dokument erkannt werden, und speichert dann die exportierte Kopie.

Exportieren Sie Ihre Bilder und PDFs mit unterschiedlichen Ergebnissen aus Acrobat.

Acrobat-Exporte aus gescannten Dokumenten sind überraschend gut und frustrierend schlecht. Es erkennt den Großteil des Textes und der Formatierung und Sie werden wahrscheinlich überrascht sein, wie schön das fertige exportierte Dokument aussieht, wenn es nicht zu komplex ist. Aber es ist immer noch nicht das Originaldokument. Es wird Fehler geben, Formatierungen müssen korrigiert werden und vieles mehr. Der beste Weg ist immer, das digitale Originaldokument zu verwenden. Dies ist jedoch eine gute Möglichkeit, eine digitale Kopie eines Dokuments wiederzuerlangen, wenn Sie nur einen Scan haben.

Während OCR nicht perfekt ist, ist die OCR von Acrobat ziemlich gut. In dieser gescannten Form wurde fast jedes Wort richtig erkannt, jedoch nur eine Instanz des Wortes Name wurde als erkannt N "e. Das ist vollkommen gut genug, wenn Sie Ihre Dokumente nur grob mit dem Suchwerkzeug Ihres PDF-Readers durchsuchen möchten. Wenn Sie jedoch die OCR verwenden, um eine Kopie des Originaltexts zu erstellen, sollten Sie einen Korrekturvorgang durchführen -Lesen Sie es zuerst und stellen Sie sicher, dass Sie offensichtliche Fehler korrigieren.

OCR Mehrere Dokumente gleichzeitig

Haben Sie eine Menge Dokumente, die Sie sofort OCR machen möchten? Akrobat ist auch dafür großartig. Öffnen Sie einfach ein beliebiges Dokument in Acrobat und dann das Text erkennen Seitenleistenfenster wie zuvor. Wähle diesmal aus In mehreren Dateien und Sie sehen ein Fenster, in dem Sie alle Ihre gewünschten Dateien auf OCR ziehen können. Sie können auch hier PDF- oder Bilddateien hinzufügen. Acrobat erkennt den Text und speichert sie im PDF-Format. Es gibt auch einige zusätzliche Optionen, mit denen Sie auswählen können, wo die fertigen Dateien gespeichert werden sollen und wie sie benannt werden sollen.

Andere OCR-Werkzeuge

Natürlich ist Acrobat nicht die einzige Möglichkeit, Text aus Ihren gescannten Dokumenten zu OCR zu machen. Wenn Sie noch keine Kopie davon haben, gibt es eine Menge anderer Tools, die Sie verwenden können. Wir haben bereits die besten Tools für OCR auf Ihrem Mac behandelt: Prizmo, FineReader, die Doxie-App, PDFPen und Evernote. Prizmo und PDFPen funktionieren auch auf Ihren iOS-Geräten für OCR, und die Doxie-App funktioniert auch auf PCs. Evernote lässt Sie keinen Text herauskopieren, aber es funktioniert überall - und auf dem PC ist die OCR von OneNote großartig und kostenlos.

Es gibt auch die kostenlose Tesseract-OCR-Bibliothek mit einer schrecklich einfachen kostenlosen Mac-App, die Text für Sie erkennt. Ein weiteres budgetfreundliches OCR-Tool ist Pica-Text für 3,99 US-Dollar. In jedem Fall müssen Sie, wenn Sie nur OCR benötigen, keine Kopie von Acrobat erhalten. Wenn Sie jedoch über Acrobat verfügen, ist das OCR-Tool eine hervorragende Ergänzung.

Fazit

Sie brauchen nur ein paar Minuten, um Ihre PDF-Dokumente zu OCR zu kopieren, um aus einfachen Bildern Ihrer Papierdokumente bis hin zu vollwertigen digitalen Dokumenten zu gelangen, die Sie durchsuchen, kopieren und in Office-Formate exportieren können. Acrobat wurde wegen seines PDF-Readers beschimpft, bietet aber immer noch eine Menge toller Funktionen, und OCR ist eine davon.

Wenn Sie über eine Kopie von Acrobat oder ein Creative Cloud-Abonnement verfügen, probieren Sie es aus und lassen Sie Ihre gescannten Dokumente als OCR anzeigen. Sie werden sofort viel wertvoller für Sie sein, als dies bei einfachen Scans der Fall wäre.