Research

Research Topics

Computational historical linguistics

We work on developing methods and tools for analyzing historical language data. More information on the resources and results from several research projects that deal with data from Middle High German (1050–1350 CE) and Early New High German (1350–1650 CE) is provided here.

Automatic analysis of learner data

We also work on another type of non-standard data: texts produced by children in primary school. The goal is to automatically analyze spelling and grammatical errors in these texts but also to consider the words that the children produced correctly. We finally want to come up with linguistic profiles of each child, reflecting their (implicit and explicit) knowledge of spelling patterns and morphosyntax. More information here.

Corpora

Funded Projects

  • Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition
    (VolkswagenStiftung, Förderinitiative Schlüsselthemen für Wissenschaft und Gesellschaft, 2015–2018; Kooperationsprojekt mit Eva Belke/Bochum, Sonia Kandel/Grenoble, Claudia Müller/Bochum)

    Literacy is a key to participation in society: It enables readers and writers to understand and produce written texts and hence forms the basis for a successful school career. Acquiring orthography is an important aspect of becoming literate, because orthography is a code for grammatical relations in texts, enabling beginning readers/writers to process increasingly complex, literate texts. In this research project, we investigate orthography acquisition and instruction from a psycholinguistic perspective.
    The project comprises four different sub-projects, focussing on (i) corpus analysis, (ii) a writing study, (iii) artificial language learning, and (iv) children’s books and songs project website for researcher.
    In my project (i), we test the hypothesis that implicitly acquired morphosyntactic and orthographic skills are an essential fundament of a strong proficiency in reading and writing and should be reflected in solid knowledge about the statistical properties of orthography. We assume that spelling errors of more proficient writers are more strongly correlated with the orthographic properties of German words than those of less proficient writers project website.

  • Linguistische Annotation von Nichtstandardvarietäten — Guidelines und “Best Practices”
    (CLARIN-D-Kurationsprojekt, 2012-2013; Kooperationsprojekt mit Anke Lüdeling/HU Berlin)

    In diesem Projekt, einem Kurationsprojekt von CLARIN-D, ging es um die Erstellung annotierter Daten aus neuen Domänen, sogenannter “Nichtstandardvarietäten”. Ziel des Projektes war es, gängige Annotationsschemata und Tagsets auf ihre Tauglichkeit für Nichtstandardvarietäten zu überprüfen, für ausgewählte Problembereiche die Performanz von aktuellen Analysetools auf diesem Datentyp zu evaluieren und ein kleines Set an Golddaten zu annotieren. Konkret wurden folgende Annotationsebenen im Detail behandelt: Dependenzanalyse, Named Entities, Koreferenz. Da für das Deutsche im Vergleich zum Englischen wenig Ressourcen existieren, sollten dafür Daten der deutschen Sprache analysiert werden. Ergebnisse des Projekts waren zum einen ein (kleines) Varietätenkorpus des Deutschen mit Goldstandard-Annotationen auf den genannten Ebenen, zum andern Guidelines und “Best-Practice”-Empfehlungen für die Annotation solcher Daten und Ebenen, bestehend aus Erweiterungen vorhandener Guidelines um Sammlungen von Problemfällen, die sich aus den Nichtstandardvarietäten ergeben, und Vorschlägen zu deren Behandlung.

    Die Projektergebnisse sind hier dokumentiert. Über diese Seite können auch die Guidelines sowie das annotierte Korpus heruntergeladen werden.

  • St. Anselmi Fragen an Maria — digitale Erschließung, Auswertung und Edition der gesamten deutschsprachigen Überlieferung (14.-16. Jh.)
    (DFG-Projekt, seit 2011)

  • Referenzkorpus Mittelhochdeutsch (1050–1350)
    (DFG-Projekt, 2009–2015, Kooperationsprojekt mit Klaus-Peter Wegera/Bochum, Thomas Klein/Bonn, Claudia Wich-Reif/Bonn)

  • Referenzkorpus Frühneuhochdeutsch (1350–1650)
    (DFG-Projekt, seit 2011, Kooperationsprojekt mit Hans-Joachim Solms/Halle, Ulrike Demske/Saarbrücken und Klaus-Peter Wegera/Bochum)

Further Projects

  • Annotation and analysis of abstract anaphora
    (Cooperation with Heike Zinsmeister and Varada Kolhatkar)

    In this project, we investigate the use of abstract anaphora in German (and English). Abstract anaphors (e.g. this, that) are used to refer to abstract objects such as events or facts: Each fall, penguins migrate to Fiji. That’s why I’m going there next month (example from Byron 2002). In this example, an event (the penguins’ migration) is the abstract antecedent. Interestingly, the anaphor that refers to the event as a fact: that fact is why I’m going there next month. This phenomenon is called “type coercion”.

    We focus on different aspects: (i) how to determine the exact scope/boundaries of the antecedent; (ii) which types of semantic coercion do occur, see Dipper/Zinsmeister (2012). Recently, we started cross-linguistic annotation in German and English, to compare the strategies in both languages, see Dipper et al. (2011, 2012), Zinsmeister et al. (2012).