TEXTERKENNUNG
OCR — Text aus Scans
aeroPDF erkennt Text in gescannten Seiten automatisch. Powered by Tesseract OCR — kostenlos, offline, ohne Cloud-Upload.
GRUNDLAGEN
Was ist OCR?
Viele PDFs enthalten nur gescannte Bilder — kein eingebetteter Text, keine Suchbarkeit. OCR (Optical Character Recognition) analysiert diese Bilder und extrahiert den lesbaren Text, sodass er kopiert, durchsucht und weiterverarbeitet werden kann.
aeroPDF erkennt automatisch, welche Seiten eines Dokuments nur Bildinhalte sind (Scan-Only-Detection) und bietet gezielte OCR für einzelne Seiten oder das gesamte Dokument.
FUNKTIONSÜBERSICHT
OCR-Features im Detail
Scan-Erkennung
aeroPDF erkennt automatisch, ob eine Seite ausschließlich Bildinhalte ohne eingebetteten Text enthält — und kennzeichnet diese für OCR.
Deskewing (Schieflage)
Schräg eingelegte Scans werden automatisch ausgerichtet. Der Deskewing-Algorithmus basiert auf Projektionsprofil-Varianz und sucht den optimalen Winkel im ±15°-Bereich.
10 Sprachen
Unterstützte Sprachen: Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Russisch und Chinesisch (vereinfacht).
Strukturierte Ausgabe (hOCR)
Neben dem reinen Text liefert aeroPDF eine hOCR-Ausgabe mit Positionen und Bounding-Boxes — ideal für Weiterverarbeitung in Workflows.
Text durchsuchen
Der erkannte Text wird direkt in die Volltextsuche eingespeist. Regex-Suche über OCR-Ergebnisse ist vollständig unterstützt.
Text kopieren
Erkannter Text kann direkt in die Zwischenablage kopiert werden — inklusive Seitenauswahl bei mehrseitigen Dokumenten.
SO FUNKTIONIERT'S
OCR in 4 Schritten
-
Dokument öffnen
PDF drag & drop, per Datei-Dialog oder über die zuletzt geöffneten Dateien laden.
-
OCR starten
In der Toolbar auf „OCR" klicken. aeroPDF erkennt Scan-Seiten automatisch.
-
Sprache & Optionen wählen
Sprache aus der Dropdown-Liste auswählen, Deskewing aktivieren (Standard: an).
-
Ergebnis nutzen
Text kopieren, im Dokument suchen oder als hOCR-Ausgabe für Workflows exportieren.
aeroPDF nutzt Tesseract OCR — eine der führenden Open-Source-Engines für Texterkennung. Alle Daten bleiben lokal auf deinem Gerät.
Jetzt testen — kostenlosMEHRSPRACHIG
Unterstützte OCR-Sprachen
TECHNIK
Technische Details
Engine
Tesseract OCR via leptess (Rust-Binding). Bilder
werden mit 300 DPI gerendert.
Deskewing-Algorithmus
Horizontales Projektionsprofil mit Varianzmaximierung. Suchbereich ±15°, Schrittweite 0,5°, 4× Downscaling für Geschwindigkeit.
Strukturierte Ausgabe
hOCR-Format (HTML mit Koordinaten-Metadaten), kompatibel mit ALTO XML und gängigen OCR-Workflows.
Offline & Datenschutz
Alle OCR-Berechnungen laufen lokal. Keine Daten werden an Server gesendet.
OCR jetzt ausprobieren
Lade aeroPDF kostenlos herunter und erkenne Text in deinen gescannten Dokumenten — ohne Cloud, ohne Abo.