Zugang zu digitalen, rechtebewährten Objekten zur automatisierten Analyse in Form abgeleiteter Textformate

Die Digitalisierung immer umfangreicherer Bestände, etwa in Kultureinrichtungen, führt nicht zwangsläufig zu einer verbesserten Zugänglichkeit und Nutzbarkeit. Neben technischen Aspekten sind es vor allem rechtliche Gründe, die dies einschränken und zu einer systematischen Unterrepräsentierung im digitalen Zeitalter führen. Dies gilt insbesondere für neuere Bestände wie aktuelle Zeitungen und literarische Texte, die in der Regel (noch) unter das Urheberrecht fallen. Solche Informationen sind auch in den entsprechenden Suchmaschinen nicht vorhanden und drohen unsichtbar zu bleiben und im „Schwarze Loch des Informationszeitalters“ [1] verschwinden.

Davon sind auch aktuelle Entwicklungen wie die Grundlage großer Sprachmodelle betroffen. Umgekehrt zeigt diese Entwicklung sehr deutlich, dass die Bereitstellung von Wissen in digitaler Form eine wesentliche Grundlage für neue Forschungsmethoden ist. Sie verweisen zudem auf die Notwendigkeit, Daten und Textbestände lokaler Infrastrukturen auch überregional zugänglich zu machen. Welches Potential in diesen Daten steckt, zeigen eine Reihe von spannenden Projekten, z.B. an der DNB. Solche Projekte zeigen aber sehr deutlich die Einschränkungen sowohl für die Forschenden, wie auch die datenhaltenden Einrichtungen. Aktuell wird innerhalb des NFDI Konsortiums Text+ [2] die Idee verfolgt und konkretisiert, solche Bestände über abgeleitete Textformate [3] zugänglich zu machen. Diese entstehen aus den ursprünglichen Texten durch eine gezielte Informationsreduktion mit dem Ziel, Formate zu erzeugen, die frei verfügbar gemacht werden können, sich aber dennoch für viele Verfahren der automatischen Textanalyse eignen. In wie weit sich abgeleitete Textformate (und welche) für das Training großer Sprachemodelle eignen, ist eine aktuelle Forschungsfrage.

[1] Niggemann, Elisabeth. 2008. „Das Schwarze Loch“ des 20. Jahrhunderts oder Wie bringt man Kultur und Wissenschaft in das Bewusstsein einer Suchmaschinen-Informationsgesellschaft? In: Parallelwelten des Buches. Beiträge zu Buchpolitik, Verlagsgeschichte, Bibliophilie und Buchkunst. Wiesbaden: Harrassowitz, S. 155–165. 

[2] text-plus.org

[3] Schöch, Christof, Frédéric Döhl, Achim Rettinger, Evelyn Gius, Peer Trilcke, Peter Leinen, Fotis Jannidis, Maria Hinzmann, Jörg Röpke. 2020. „Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten Textbeständen“. Zeitschrift für digitale Geisteswissenschaften 5. doi.org/10.17175/2020_006.

 

Wir möchten Sie nach der Veranstaltung dazu einladen mit allen Interessierten in der Innenstadt zum gemütlichen Austausch essen zu gehen (auf Selbstkosten). Damit wir vorher reservieren können, freuen wir uns über eine kurze Rückmeldung per E-Mail dazu.

 

Alles auf einem Blick:

Referent:  Dr. Peter Leinen (Deutsche Nationalbibliothek / Nationale Forschungsdateninfrastruktur)

Wann & Wo: 13.11.2024 um 17:15 Uhr | SR 113, Universitätshauptgebäude | Universitätsplatz 1, 18055 Rostock

Zoom Online-Zugang:  uni-rostock-de.zoom-x.de/j/67864606402

Kontakt: dh.wkt@uni-rostock.de

 


Zurück zu allen Meldungen