PDF · 11

OCR · Texterkennung

Q: Welche Sprachen werden unterstützt?

Deutsch und Englisch (auch gemischt). Das passende Sprachmodell wird einmalig vom Tesseract-Daten-CDN geladen und im Browser gecacht — danach läuft alles lokal.

Q: Werden meine PDFs hochgeladen?

Nein. Die Texterkennung selbst läuft via WebAssembly (Tesseract.js) komplett im Browser. Lediglich die OCR-Engine und die Sprachmodelle werden einmalig vom offiziellen Tesseract-CDN geladen — die PDF-Datei verlässt das Gerät zu keinem Zeitpunkt.

Q: Wie lange dauert OCR?

Etwa 3–10 Sekunden pro Seite — abhängig von Geräte-Geschwindigkeit, Seitengröße und Schrift-Qualität. Das erste Mal dauert es länger, weil das Sprachmodell einmalig in den Cache geladen wird.

Q: Funktioniert OCR auch bei schiefen Scans?

Ja, leichte Schiefstellungen (bis ca. 5°) erkennt Tesseract automatisch. Stark verzerrte oder sehr unscharfe Scans liefern aber unbrauchbare Ergebnisse — am besten zuerst neu scannen.

PDF-Werkzeuge · DE

PDF hier ablegen

oder klicken zum Auswählen

Hintergrund

Texterkennung (OCR) — wann brauche ich sowas?

Viele PDFs aus dem Studienbetrieb sind gescannte Bilder: Beck-Akten, Klausur-Sammlungen vom Kopierer, Mitschriften aus dem PDF-Reader. Solche PDFs sehen aus wie Text, sind aber nur Bilder — kein Suchen, kein Markieren, kein Kopieren möglich.

Dieses Werkzeug erkennt den Text auf den Seiten via Tesseract.js (das Open-Source-OCR-System hinter Adobe und Google) und gibt ihn als plain text aus — durchsuchbar, kopierbar, weiterverwertbar.

Für PDFs, die bereits Textebene haben (typisch bei Word- oder LaTeX-Exports), ist PDF zu Text schneller und exakter — kein OCR nötig.

Sprachen

Deutsch und Englisch sind eingebaut. „Deutsch + Englisch“ aktiviert beide Modelle gleichzeitig — sinnvoll bei Mischtexten (z. B. Studienliteratur mit englischen Zitaten).

Datenschutz

Tesseract läuft als WebAssembly im Browser. Die OCR-Engine und das Sprachmodell werden einmalig vom offiziellen Tesseract-CDN (jsDelivr und tessdata.projectnaptha.com) geladen und vom Browser gecacht — danach geht jeder weitere Lauf vollständig lokal. Deine PDF-Datei verlässt das Gerät zu keinem Zeitpunkt.

Tipps für bessere Ergebnisse

Schräge oder schiefe Scans bis ca. 5° werden automatisch korrigiert.
Kontrastreiche Schwarz-auf-Weiß-Scans funktionieren am besten.
Handschrift wird nicht erkannt — Tesseract ist auf Druckschrift trainiert.
Sehr kleine Schrift (< 8pt) oder verschmierte Faxe liefern unzuverlässige Ergebnisse.

Geschwindigkeit

OCR ist rechenintensiv — rechne mit etwa 3–10 Sekunden pro Seite. Bei 30-seitigen Akten lieber einen Kaffee holen. Das Sprachmodell wird beim ersten Lauf in den Browser-Cache geladen, danach geht es schneller.

Häufige Fragen

Welche Sprachen werden unterstützt?