PDF hier ablegen
oder klicken zum Auswählen
Einstellungen
Fertig —
Viele PDFs aus dem Studienbetrieb sind gescannte Bilder: Beck-Akten, Klausur-Sammlungen vom Kopierer, Mitschriften aus dem PDF-Reader. Solche PDFs sehen aus wie Text, sind aber nur Bilder — kein Suchen, kein Markieren, kein Kopieren möglich.
Dieses Werkzeug erkennt den Text auf den Seiten via Tesseract.js (das Open-Source-OCR-System hinter Adobe und Google) und gibt ihn als plain text aus — durchsuchbar, kopierbar, weiterverwertbar.
Für PDFs, die bereits Textebene haben (typisch bei Word- oder LaTeX-Exports), ist PDF zu Text schneller und exakter — kein OCR nötig.
Deutsch und Englisch sind eingebaut. „Deutsch + Englisch“ aktiviert beide Modelle gleichzeitig — sinnvoll bei Mischtexten (z. B. Studienliteratur mit englischen Zitaten).
Tesseract läuft als WebAssembly im Browser. Die OCR-Engine und das Sprachmodell werden einmalig vom offiziellen Tesseract-CDN (jsDelivr und tessdata.projectnaptha.com) geladen und vom Browser gecacht — danach geht jeder weitere Lauf vollständig lokal. Deine PDF-Datei verlässt das Gerät zu keinem Zeitpunkt.
OCR ist rechenintensiv — rechne mit etwa 3–10 Sekunden pro Seite. Bei 30-seitigen Akten lieber einen Kaffee holen. Das Sprachmodell wird beim ersten Lauf in den Browser-Cache geladen, danach geht es schneller.
Deutsch und Englisch (auch gemischt). Das passende Sprachmodell wird einmalig vom Tesseract-Daten-CDN geladen und im Browser gecacht — danach läuft alles lokal.
Nein. Die Texterkennung selbst läuft via WebAssembly (Tesseract.js) komplett im Browser. Lediglich die OCR-Engine und die Sprachmodelle werden einmalig vom offiziellen Tesseract-CDN geladen — die PDF-Datei verlässt das Gerät zu keinem Zeitpunkt.
Etwa 3–10 Sekunden pro Seite — abhängig von Geräte-Geschwindigkeit, Seitengröße und Schrift-Qualität. Das erste Mal dauert es länger, weil das Sprachmodell einmalig in den Cache geladen wird.
Ja, leichte Schiefstellungen (bis ca. 5°) erkennt Tesseract automatisch. Stark verzerrte oder sehr unscharfe Scans liefern aber unbrauchbare Ergebnisse — am besten zuerst neu scannen.