TEXTERKENNUNG

OCR — Text aus Scans

aeroPDF erkennt Text in gescannten Seiten automatisch. Powered by Tesseract OCR — kostenlos, offline, ohne Cloud-Upload.

GRUNDLAGEN

Was ist OCR?

Viele PDFs enthalten nur gescannte Bilder — kein eingebetteter Text, keine Suchbarkeit. OCR (Optical Character Recognition) analysiert diese Bilder und extrahiert den lesbaren Text, sodass er kopiert, durchsucht und weiterverarbeitet werden kann.

aeroPDF erkennt automatisch, welche Seiten eines Dokuments nur Bildinhalte sind (Scan-Only-Detection) und bietet gezielte OCR für einzelne Seiten oder das gesamte Dokument.

FUNKTIONSÜBERSICHT

OCR-Features im Detail

Scan-Erkennung

aeroPDF erkennt automatisch, ob eine Seite ausschließlich Bildinhalte ohne eingebetteten Text enthält — und kennzeichnet diese für OCR.

Deskewing (Schieflage)

Schräg eingelegte Scans werden automatisch ausgerichtet. Der Deskewing-Algorithmus basiert auf Projektionsprofil-Varianz und sucht den optimalen Winkel im ±15°-Bereich.

10 Sprachen

Unterstützte Sprachen: Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Russisch und Chinesisch (vereinfacht).

Strukturierte Ausgabe (hOCR)

Neben dem reinen Text liefert aeroPDF eine hOCR-Ausgabe mit Positionen und Bounding-Boxes — ideal für Weiterverarbeitung in Workflows.

Text durchsuchen

Der erkannte Text wird direkt in die Volltextsuche eingespeist. Regex-Suche über OCR-Ergebnisse ist vollständig unterstützt.

Text kopieren

Erkannter Text kann direkt in die Zwischenablage kopiert werden — inklusive Seitenauswahl bei mehrseitigen Dokumenten.

SO FUNKTIONIERT'S

OCR in 4 Schritten

Dokument öffnen

PDF drag & drop, per Datei-Dialog oder über die zuletzt geöffneten Dateien laden.
OCR starten

In der Toolbar auf „OCR" klicken. aeroPDF erkennt Scan-Seiten automatisch.
Sprache & Optionen wählen

Sprache aus der Dropdown-Liste auswählen, Deskewing aktivieren (Standard: an).
Ergebnis nutzen

Text kopieren, im Dokument suchen oder als hOCR-Ausgabe für Workflows exportieren.

aeroPDF nutzt Tesseract OCR — eine der führenden Open-Source-Engines für Texterkennung. Alle Daten bleiben lokal auf deinem Gerät.

Jetzt testen — kostenlos

MEHRSPRACHIG

Unterstützte OCR-Sprachen

Deutsch Englisch Französisch Spanisch Italienisch Portugiesisch Niederländisch Polnisch Russisch Chinesisch (vereinf.)

TECHNIK

Technische Details

Engine

Tesseract OCR via leptess (Rust-Binding). Bilder werden mit 300 DPI gerendert.

Deskewing-Algorithmus

Horizontales Projektionsprofil mit Varianzmaximierung. Suchbereich ±15°, Schrittweite 0,5°, 4× Downscaling für Geschwindigkeit.

Strukturierte Ausgabe

hOCR-Format (HTML mit Koordinaten-Metadaten), kompatibel mit ALTO XML und gängigen OCR-Workflows.

Offline & Datenschutz

Alle OCR-Berechnungen laufen lokal. Keine Daten werden an Server gesendet.

OCR jetzt ausprobieren

Lade aeroPDF kostenlos herunter und erkenne Text in deinen gescannten Dokumenten — ohne Cloud, ohne Abo.

Jetzt herunterladen Alle Features