|
Corpora
- A parallel corpus of text variants from Early New High German (for more information in German, see below)
- A reference corpus of Middle High German (for more information in German see below, for more information in English click here)
- Annotation and analysis of discourse-structural information (abstract anaphora) (more information)
Corpus standards and tools
- Annotation interchange format PAULA ("Potsdamer Austauschformat für linguistische Annotationen"), designed for corpora with multi-level annotations
- PAULA is used by the database ANNIS
Historical linguistics
- Development of (semi-)automatic tools for historical languages (normalizer, POS and morphological taggers, chunker), e.g. OTTO, a transcription tool designed for diplomatic transcription of historical language data
- Computation of similarity between dialects from Early New High German
| Funded Projects (in German) |
St. Anselmi Fragen an Maria --- digitale Erschließung, Auswertung und Edition der gesamten deutschsprachigen Überlieferung (14.-16. Jh.)
(DFG-Projekt, 2010-2012; parallel dazu läuft ein mediävistisch-philologisches DFG-Projekt von Dr. Schultz-Balluff und Prof. Wegera/Bochum)
Mitarbeiter: Marcel Bollmann, Florian Petran
Mehr Informationen...
Die deutschsprachige Überlieferung des Passionstraktats "St. Anselmi Fragen an Maria", die in einer ungewöhnlich breiten Form vorliegt (36 Handschriften und 8 Drucke des 14.-16. Jahrhunderts), wird erstmals in ihrer Gesamtheit untersucht und gemäß ihrer zeitlichen, räumlichen und überlieferungsgeschichtlichen Zugehörigkeit eingeordnet werden. Für diese Einordnung werden philologische, linguistische und computerlinguistische Methoden eingesetzt, die sich gegenseitig ergänzen. Dazu werden alle Texte handschriftengetreu transkribiert und semi-automatisch annotiert mit bibliographischer Information, linguistischen Merkmalen und einer Alignierung der parallel überlieferten Texte auf Paragraphen-, Satz- und Wortebene.
Um diesen neuartigen interdisziplinären Ansatz umzusetzen, werden zwei Einzelprojekte eng kooperieren. Im parallel beantragten germanistisch-mediävistischen Projekt wird die Datengrundlage mit manuellen Transkriptionen und Annotationen erstellt, unterstützt durch automatische Methoden, die in diesem computerlinguistischen Projekt entwickelt werden. Die annotierten Daten werden in einer linguistischen Datenbank bereitgestellt, die wiederum dem Parallelprojekt als Basis für die Erstellung einer kritischen Buchedition dienen wird. Zusätzlich wird eine digitale Edition erstellt, die über einen Webbrowser verfügbar gemacht wird. Außerdem wird die sprachliche Variation zwischen den Parallelüberlieferungen durch Berechnung von Ähnlichkeiten auf verschiedenen linguistischen Ebenen (graphematisch, lexikalisch, syntaktisch) untersucht.
In einer Pilotstudie haben wir Experimente mit der computerlinguistischen Auswertung der Texte vorgenommen (Dipper/Schrader 2008). Aktuell beschäftigen wir uns mit der automatischen Normalisierung der frühneuhochdeutschen Überlieferungen, bei der die Wortformen auf entsprechende moderne Wortformen abgebildet werden (Bollmann et al., 2011).
- Marcel Bollmann, Florian Petran, and Stefanie Dipper (2011). Applying Rule-Based Normalization to Different Types of Historical Texts --- An Evaluation. In Proceedings of the 5th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. Poznan, Poland. PDF
- Marcel Bollmann, Florian Petran, and Stefanie Dipper (2011) Rule-Based Normalization of Historical Texts. In Proceedings of the RANLP Workhop on Language Technologies for Digital Humanities and Cultural Heritage, Hissar, Bulgaria.
PDF
- Stefanie Dipper and Bettina Schrader (2008). Computing Distance and Relatedness of Medieval Text Variants from German In Angelika Storrer, Alexander Geyken, Alexander Siebert, and Kay-Michael Würzner (eds.): Text Resources and Lexical Knowledge. Proceedings of KONVENS-08 (Konferenz zur Verarbeitung natürlicher Sprache), pp. 39-51. Berlin: Mouton de Gruyter. PDF (preprint)
Referenzkorpus Mittelhochdeutsch (1050-1350)
(DFG-Projekt, 2009-2012, Kooperationsprojekt mit Prof. Wegera/Bochum und Prof. Klein/Bonn)
Mehr Informationen...
Im Projekt "Referenzkorpus Mhd" geht es um die Erstellung eines Referenzkorpus für die mittelhochdeutsche Sprachstufe (1050-1350). Ziel ist es, eine hinlänglich umfangreiche, verlässliche und handschriftengetreue Datenbasis des Mittelhochdeutschen zu schaffen, die historiolinguistische und mediävistische Recherchen in einem Maße erlaubt, das weit über das bisher Mögliche hinausgeht. Dafür wird eine ausgewogene Auswahl an mittelhochdeutschen Texte digital erfasst und mit der folgenden Information annotiert: normalisierte Wortform, Lemma, Wortart, Morphologie. Projekt-Webseite (in Englisch)
Referenzkorpus Frühneuhochdeutsch (1350-1650)
(DFG-Projekt, 2011-2013, Kooperationsprojekt mit Prof. Solms/Halle, Prof. Demske/Saarbrücken und Prof. Wegera/Bochum)
Mehr Informationen...
Das Projekt "Referenzkorpus Fnhd" schließt zeitlich direkt an das laufende Referenzkorpus "Mittelhochdeutsch" an. Außerdem werden dieselben Kriterien für die Auswahl der Texte angelegt: eine balancierte Verteilung nach Zeit (in Blöcken à 50 Jahre), Ort (7 Großräume) und Überlieferungsform (Handschrift vs. Druck, Vers vs. Prosa). Damit liegt, zusammen mit den Referenzkorpora "Altdeutsch" und "Mittelhochdeutsch", ein historisches Korpus des Deutschen vor, das Recherchen zur deutschen Sprachgeschichte von ihren Anfängen bis in die Neuzeit hinein erlaubt.
Annotation and analysis of abstract anaphora
(Cooperation with Heike Zinsmeister and Melanie Seiss/Konstanz)
In this project, we investigate the use of abstract anaphora in German (and English). Abstract anaphors (e.g. this, that) are used to refer to abstract objects such as events or facts: Each fall, penguins migrate to Fiji. That's why I'm going there next month (example from Byron 2002). In this example, an event (the penguins' migration) is the abstract antecedent. Interestingly, the anaphor that refers to the event as a fact: that fact is why I'm going there next month. This phenomenon is called "type coercion".
We focus on two aspects: (i) how to determine the exact scope/boundaries of the antecedent; (ii) which types of semantic coercion do occur, see Dipper/Zinsmeister (2011a). Recently, we started cross-linguistic annotation in German and English, to compare the strategies in both languages.
We also organized a DGfS workshop on "Beyond Semantics: Corpus-based investigations of pragmatic and discourse phenomena". Workshop proceedings have been published as Dipper/Zinsmeister (2011b), the workshop's website can be found here. As a follow-up to the workshop, we are editing a Special Issue of Dialogue and Discourse, see the Call for Papers.
- Stefanie Dipper, Christine Rieger, Melanie Seiss, and Heike Zinsmeister (To Appear). Abstract Anaphors in German and English. In: Selected Papers from the 8th Discourse Anaphora and Anaphor Resolution Colloquium, DAARC 2011.
- Stefanie Dipper and Heike Zinsmeister (2011a) Annotating Abstract Anaphora. In Language Resources and Evaluation. PDF (preprint) (The final publication is available at www.springerlink.com)
- Stefanie Dipper and Heike Zinsmeister (eds.) (2011b). Beyond Semantics: Corpus-based Investigations of Pragmatic and Discourse Phenomena. Proceedings of the DGfS Workshop, Göttingen. Volume 3 of BLA (Bochumer Linguistische Arbeiten). URL
|