Wenn Sie diesen Text sehen, ist auf ihrem Gerät noch nicht das neue Layout geladen worden. Bitte laden Sie diese Seite neu (ggf. mit gedrückter 'Shift'- oder 'Alt'-Taste) oder in einem 'privaten Fenster'.
Weitere Hinweise unter https://www.uni-hildesheim.de/wiki/lsf/faq/fehler.im.layout.

Zur Seitennavigation oder mit Tastenkombination für den accesskey-Taste und Taste 1 
Zum Seiteninhalt oder mit Tastenkombination für den accesskey und Taste 2 
  1. SucheSuchen         
  2. SoSe 2021
  3. Hilfe
  4. Sitemap
Switch to english language
Startseite    Anmelden     

Die Erschließung heterogener Textquellen für die Digital Humanities (Buch / Monographie / Herausgeberschaft) - Einzelansicht


  • Funktionen:



Grunddaten

Titel der Arbeit (title) Die Erschließung heterogener Textquellen für die Digital Humanities
Erscheinungsjahr 2020
Verlag (publisher) Universitätsverlag Hildesheim
Seitenzahl (pages) 314
Bemerkung (note) Hildesheim, Univ., Diss. 2020
Publikationsart Buch / Monographie / Herausgeberschaft
Digital Object Identifier (DOI) 10.18442/152

Link

Beschreibung Link QR-Code
Download von unserem Dokumentenserver HilDok https://hildok.bsz-bw.de/frontdoor/index/index/docId/1138
Inhalt
Abstract

Zusammenfassung

Sammlungen von Textdaten können oft als semi-strukturierte Daten beschrieben werden, die sich in strukturelle Einheiten segmentieren lassen, in denen Elemente eines impliziten Schemas erkannt und in ein strukturiertes Format überführt werden können. Für diese Erschließung wird eine Software vorgestellt, die Funktionen für indikatorbasierte Regeln sowie zur Konsistenzprüfung und Bereinigung (z. B. von Textdubletten) der entstehenden Korpusdaten anbietet. Die Ergebnisse können in acht Formate exportiert werden, womit die Software als Bindeglied zwischen verfügbaren Textdaten und dem Einsatz aktueller Verfahren der Digital Humanities fungiert.
Für die Erschließung schwächer strukturierter Daten, die über keine eindeutigen und einheitlichen Indikatoren für die Felder des impliziten Schemas verfügen, wird eine Methode auf Grundlage von Conditional Random Fields (CRF) in Verbindung mit einem Active Learning-Ansatz vorgeschlagen. Die Elemente der verarbeiteten Daten werden anhand der vom CRF erkannten Wahrscheinlichkeiten für die zugeordneten Bezeichner in acht Cluster eingeteilt, woraus den Anwendern Instanzen für eine iterative Erweiterung der Trainingsdaten dargeboten werden. Gleichzeitig können Elemente, deren Bezeichner mit einer hohen Wahrscheinlichkeit vergeben werden, als "richtig" markiert werden, womit sie in den darauffolgenden Iterationen übersprungen werden. Eine Fallstudie zeigt, dass sich die Ergebnisse mit den ersten Iterationen verbessern, während sich die Werte der als »richtig« markierten Elemente nach einigen Iterationen verschlechtern, woraus sich Empfehlungen für die Anwendung von CRFs mit wenigen Trainingsdaten ergeben.


Summary

Collections of text data can often be described as semi-structured data which can be segmented into structural units containing elements of an implicit schema which can be converted into a structured format. For this processing pipeline a software is presented which includes functions for indicator-based rules as well as consistency checks and data cleansing methods (e.g., removal of duplicate entries) for the generated corpus data. The results can be exported into eight data formats. Thus, the software is a link between available text data and the application of current tools and methods in the field of the Digital Humanities.
For processing text data with less explicit and consistent indicators for the fields of the implicit schema a method based on Conditional Random Fields (CRF) including an Active Learning approach is proposed. Based on the probabilities for the labels assigned by the CRF, the processed elements are clustered into eight sets from which instances are displayed to the users for iteratively augmenting the set of training data. Additionally, elements with a high probability for the attributions of their labels can be marked as "correct", in order to skip them in the next iterations. A case study shows that the results improve with the first iterations, while the results of the elements marked as »correct« decrease after a number of iterations, resulting in recommendations for the application of CRFs with few training data.


Beteiligte Personen

Kliche, Fritz, Dr.  

Einrichtung

Universitätsbibliothek

Schlüsselwörter

Außer der Reihe
Elektronische Publikationen
Gesamtprogramm
Qualifikations- und Verfasserschriften
Sprach- und Informationswissenschaften

Externe Dokumente

Name Dateiname
cover_kliche.jpg
Impressum      Datenschutzerklärung     Datenschutz      Datenschutzerklärung     Erklärung zur Barrierefreiheit