Open-Source OCR und HTR mit OCR4all
Termin: 23.11.2023 (Donnerstag), von 09.00 Uhr bis 13.0 Uhr
Referenten: Dr. Christian Reul und Florian Langhanki aus der Universität Würzburg.
Der Workshop findet online via Zoom statt. Zugangsdaten werden per Email mit der Anmeldebestãtigung mitgeteilt.
Die Teilnahme am Workshop ist kostenlos. Es wird um Anmeldung unter dh.wkt@uni-rostock.de bis zum 22. November gebeten.
OCR (Optical Character Recognition) und HTR (Handwritten Text Recognition) stellen in den Geistes- und Kulturwissenschaften nach wie vor eine Herausforderung dar. OCR4all bietet allen Nutzer:innen eine frei verfügbare und einfach zu bedienende Möglichkeit, eigene OCR/HTR-Workflows durchzuführen. Dieser Workshop wird die allgemeinen Grundlagen und Konzepte der automatischen Texterkennung vorstellen sowie in die Software OCR4all einführen.
Im Rahmen des Workshops wird weiterhin geklärt werden, welche Daten und Dateitypen erforderlich sind, wie sich je nach Ausgangsmaterial die Anwendung des in OCR4all integrierten OCR- bzw. HTR-Workflows verändert, mit welchem (manuellen) Aufwand zu rechnen ist und inwiefern sich der Workflow automatisieren lässt. Zusätzlich wird thematisiert, was Modelle sind, wie diese eigenständig trainiert werden können und welche Erkennungsgenauigkeiten zu erwarten sind.
Nach Abschluss des Workshops, werden alle Teilnehmer:innen in der Lage sein, selbstständig komplexe OCR/HTR-Projekte zu bearbeiten.
Eine Auswahl von Arbeitsmaterial und Beispieltexten wird zur Verfügung gestellt.
Der Workshop ist für Teilnehmer:innen aller Wissensstände geeignet!
Programm:
1. Allgemeine Einführung in die automatische Texterkennung
2. Vorstellung der neuen OCR4all-Version
3. Hands-On-Phase
4. Einführung in Transkription und Transkriptionsrichtlinien
5. Einführung in LAREX
6. Hands-On-Phase
7. Abschluss