Unter den Begriffen Text- und Data-Mining (TDM) werden verschiedene Forschungsmethoden zusammengefasst. Beim Data Mining liegt der Fokus auf Daten, die in der Regel bereits strukturiert vorliegen. Beim Text Mining liegt der Fokus auf textuellen Daten, also z. B. auf Volltexten aus wissenschaftlichen Zeitschriften oder der gesamten Romanproduktion eines Jahrhunderts.
Diese Datenmengen und Textsammlungen werden zunächst systematisch und maschinenlesbar aufbereitet, um anschließend mittels computergestützter Analysen automatisiert Muster oder Zusammenhänge zu erkennen oder z. B. größere Dokumentenmengen mit ihren zentralen Aussagen zusammenfassen.
Das Text- und Datamining ist für Forschende seit der Novelle des Urheberrechtsgesetzes (UrhG) im Jahr 2018 mit § 60d UrhG gesetzlich erlaubt. Zu beachten sind jedoch weiterhin gesetzliche und lizenzrechtliche Vorgaben.
Das Recht zum TDM umfasst hierfür auch die Speicherung und Bearbeitung der Daten und Texte für die Analyse sowie die dafür notwendige Digitalisierung, Normalisierung, Strukturierung, Kategorisierung, Annotation, Kombination etc. Das zugrundeliegende Korpus darf wiederum nach Abschluss der Forschung zur Sicherung und Qualitätsprüfung zur dauerhaften Aufbewahrung (siehe auch Forschungsdatenmanagement) übergeben werden.
Auch wenn TDM grundsätzlich erlaubt sind, gibt es bestimmte Grenzen:
Da ein derartiger Massendownload zur Sperrung des Verlagsangebots für die ganze Universität führen kann, informieren Sie sich bitte im Vorfeld über alternative Schnittstellen und nehmen Sie Kontakt mit dem Verlag oder mit uns über ub-publizieren@uni-passau.de auf.
Die DOI-Registrierungsstelle Crossref sowie einige Verlage bieten besondere Schnittstellen an, wo Sie Volltexte für Ihre TDM-Vorhaben erhalten:
Neben den Inhalten, die eine Lizenzierung erfordern, gibt es auch frei zugängliche Datenbanken, die den Einsatz von TDM erlauben, u. a.: