Momentane Interessen

Ich interessiere mich für theoretische Sprachwissenschaft und Computerlinguistik im Allgemeinen und für die mehr praktische Frage, wie man computerlinguistische Methoden verwenden kann, um theoretisch arbeitenden oder Feldforschung betreibenden Linguisten oder auch Sprechern bedrohter Sprachen zu helfen. Ich versuche auch selbst etwas für die Erhaltung bedrohter Sprachen zu tun und bin deshalb Mitglied der Gesellschaft für bedrohte Sprachen e.V. geworden, wo ich mich im Moment als Beirat um die Webseite kümmere.

Dissertationsprojekt

Meine Dissertation wird von Prof. Dr. Tibor Kiss an der Ruhr-Universität Bochum betreut. In meiner Dissertation beschäftige ich mich sowohl theoretisch als auch praktisch-computerlinguistisch mit dem Phänomen der Relativsatzextraktion im Deutschen. Ich möchte an Hand großer Korpora des Deutschen ein (statistisches) Modell erstellen, das mit hoher Genauigkeit vorhersagen kann, ob ein Relativsatz extraponiert oder nicht-extraponiert realisiert wird. Außerdem möchte ich eine weitere empirische Untersuchung durchführen, um Faktoren zu identifizieren, die dabei helfen können, die Anbindung von (extraponierten Relativsätzen) zu disambiguieren. Aufbauend auf den Ergebnissen dieser Korpusstudien möchte ich ein effizientes Parsing-System implementieren, das in der Lage ist, mit einer hohen Treffgenauigkeit das korrekte Antezedens von extraponierten Relativsätzen zu ermitteln.

Die folgende Wortwolke ist eine gute Darstellung des Themas meiner Dissertation:

Dissertation word cloud

Präposition-Nomen-Konstruktionen (Projekt von Tibor Kiss)

Zur Zeit arbeite ich als Mitarbeiter in einem von Prof. Dr. Tibor Kiss geführten Projekt zu sogenannten Präposition-Nomen-Konstruktionen (PNKen) mit. In diesem Projekt untersuchen wir die Eigenschaften dieser Konstruktionen, die aus einer Präposition und ihrem nominalen Komplement mit einem zählbaren Nomen im Singular ohne begleitenden Determinator bestehen, obwohl zählbare Nomina im Singular normalerweise immer mit einem Determinator vorkommen müssen. Wir bauen ein sehr großes Korpus auf, das teilweise automatisch und teilweise händisch annotiert wird, um PNKen und normale PPen miteinander zu vergleichen und die Frage zu klären, warum und unter welchen Umständen PNKen möglich sind. Meine Aufgabe in diesem Projekt besteht hauptsächlich in der computerlinguistischen Unterstützung des Aufbaus, der Pflege und der Auswertung des Korpus.

Theoretische Sprachwissenschaft

Ich interessiere mich für nominale Koordination und deren Interaktion mit Attributiv- und Possessivkonstruktionen in verschiedenen germanischen Sprachen und dem Kurdischen. Das Faszinierende an diesen Konstruktionen ist das häufige Vorkommen von Klammerungsparadoxen und Nichtübereinstimmungen zwischen Morphologie, Syntax und Semantik. Besonders interessiere ich mich dabei für sogenannte Linker-Konstruktionen (z.B. die Ezafe-Konstruktion im Kurdischen), bei denen ein Gelenkselement zwischen einem modifizierten Nomen und dem Modifikator stehen muss.

Aufgrund meiner beiden ehemaligen Nebenfächer, der Germanistischen Linguistik und der Skandinavistik, interessiere ich mich sehr für die vergleichende Syntax und Morphologie der germanischen Sprachen. Die beiden germanischen Sprachen, mit denen ich mich besonders intensiv beschäftige, sind Niederdeutsch (auch Plattdeutsch oder Niedersächsisch genannt) und die regionale Umgangssprache des Ruhrgebiets, die auf niederdeutschem Substrat entstanden ist. Daher arbeite ich auch am Bochumer Arbeitskreis Ruhrdeutsch mit.

Ein weiteres Thema, das mich sehr interessiert, ist der Grenzbereich zwischen Morphologie und Syntax, was insbesondere Phänomene wie Klitika und sogenannte schwache Pronomina einschließt.

Ich bin schon seit längerer Zeit der Ansicht, dass Sprachwissenschaftler möglichst Daten aus größeren Korpora verwenden sollten, anstatt ihre Theorien nur auf ihre eigenen Grammatikalitätsurteile oder die von ein oder zwei Informanten zu stützen. Darüber hinaus glaube ich, dass das grammatische System im Kopf menschlicher Sprachbenutzer nicht durch und durch kategorisch ist und dass sogar auch erwachsene Sprachbenutzer, die den kindlichen Spracherwerb schon hinter sich haben, noch durch irgendeine Art von stochastischem Lernen ihre mentale Grammatik an den Sprachgebrauch ihrer Umgebung anpassen. Deshalb habe ich auch keine grundsätzliche Abneigung gegen eher quantitativ-orientierte Grammatiktheorien. In letzter Zeit beschäftige ich mich auch mit syntaktischen Alternationen und den Faktoren, die die Wahl der einen oder anderen in der Alternation involvierten Konstruktion beeinflussen. In meiner an der Universität Stanford verfassten Magisterarbeit, die von Prof. Dr. Joan Bresnan betreut wurde, untersuche ich unter anderem den Einfluss verschiedener Faktoren auf die Wahl zwischen verschiedenen Possessivkonstruktionen im Neuniederdeutschen.

Seit meiner Teilnahme an einem von Prof. Dr. Nikolaus Himmelmann unterrichteten Feldforschungskurs an der Ruhr-Universität Bochum interessiere ich mich auch für die kurdische Sprache und ihre diversen Dialekte.

Computerlinguistik

An der Ruhr-Universität Bochum habe ich mich intensiv mit den Problemen Tokenisierung, automatische Abkürzungserkennung und Satzgrenzenerkennung und deren Lösung mittels statistischer Algorithmen beschäftigt. Zusammen mit Prof. Dr. Tibor Kiss habe ich einen längeren Artikel zu diesem Thema in der Zeitschrift Computational Linguistics veröffentlicht. Unser Ansatz ist auch in das Tokenisierungsmodul des Natural Language Processing Toolkits integriert worden.

Ein anderes Thema, zu dem ich an der Universität Stanford ein Projekt durchgeführt habe und an dem ich auch gerne in Zukunft noch weiter arbeiten würde, ist Information Retrieval für nichtstandardisierte Sprachen, d.h. Sprachen, die keine normierte Orthographie besitzen. Das Hauptproblem dabei ist, akkurate und schnelle Algorithmen für das “Fuzzy Matching” von Anfragetermen und Indextermen zu finden. Dabei geht es vor Allem darum, linguistisch plausible Stringähnlichkeitsmaße und einen graphemischen Parser zu entwickeln, der ein Wort in seine einzelnen Grapheme aufspalten kann.

Ich interessiere mich außerdem auch für das automatische Lernen von Grammatiken und für statistische Lernalgorithmen im Allgemeinen. Allerdings habe ich in diesem Bereich noch nicht selbst gearbeitet.

Während meines ersten Semesters in Stanford habe ich ein wenig an Tools zur Gewinnung von sprachlichen Daten aus dem Internet gearbeitet. Ein kleines in Perl geschriebenes Toolkit, das das Google API benutzt, kann man sich hier herunterladen.

Und last but not least interessiere ich mich dafür, wie man computerlinguistische Methoden und Werkzeuge in die theoretische Linguistik integrieren oder sie für die Erhaltung von bedrohten Sprachen einsetzen kann.

Jan Strunks Homepage