eBooks

Korpuslinguistik

2015
978-3-8233-7886-0
Gunter Narr Verlag 
Lothar Lemnitzer
Heike Zinsmeister

Die linguistische Arbeit mit digitalen Textsammlungen hat sich in den letzten Jahren von einer Methode zu einer eigenen Disziplin der Linguistik entwickelt. Im Zentrum des Buches stehen methodische Fragen, die Darstellung deutschsprachiger Korpora und die Diskussion jüngerer Arbeiten mit korpuslinguistischem Bezug. Die Autoren wenden sich dabei insbesondere an Lehrende und Studierende der Germanistik, die Korpora in ihre eigenen Forschungsarbeiten einbeziehen möchten, und an theoretische Linguisten, die ihre Theorien an authentischen Sprachdaten überprüfen wollen. Die 3. Auflage diskutiert die Nutzung von Korpora als linguistische Evidenz, führt an ihre quantitative Auswertung heran und enthält neue Fallstudien zur internetbasierten Kommunikation und historischen Texten. Pressestimmen: "Während Einführungstexte zu Recht neutral in neue Themengebiete einführen müssen, wird hier zusätzlich die Möglichkeit genutzt, die Korpuslinguistik als ein spannendes und lebendiges Gebiet innerhalb der Sprachwissenschaft zu zeigen." - Zeitschrift für Sprachwissenschaft 26,2 (2007) "allen Interessierten, seien es Studierende oder Linguisten, zu empfehlen." - Info DAF Nr. 2/3, April/Juni (2008)

Lothar Lemnitzer / Heike Zinsmeister Eine Einführung Lothar Lemnitzer / Heike Zinsmeister Korpuslinguistik Eine Einführung 3., überarbeitete und erweiterte Auflage Dr. Lothar Lemnitzer ist Wissenschaftlicher Mitarbeiter am Digitalen Wörterbuch Sprache des 20. Jahrhunderts (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften. Prof. Dr. Heike Zinsmeister lehrt Linguistik des Deutschen und Korpuslinguistik am Institut für Germanistik der Universität Hamburg. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. © 2015 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Internet: www.narr-studienbuecher.de E-Mail: info@narr.de Printed in the EU ISSN 0941-8105 ISBN 978-3-8233-6886-1 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. 3., überarbeitete und erweiterte Auflage 2015 2., durchgesehene und aktualisierte Auflage 2010 1. Auflage 2006 Inhalt Vorwort zur 3. Auflage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Vorwort zur 1. Auflage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Zum Geleit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.1 Was ist Korpuslinguistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 Wer sollte dieses Buch lesen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Aufbau des Buchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 Die Quellen linguistischer Erkenntnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1 Empirismus und Rationalismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Die Position der generativen Grammatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Die Position des Kontextualismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4 Korpusbasierte Ans¨ atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3 Linguistische Korpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.1 Definition und Abgrenzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2 Prim¨ ardaten und Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Methodische Probleme und ihre L¨ osung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.4 Aufbau eines Korpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4 Linguistische Annotationsebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3 Annotationsebenen im Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.4 Normalisierung und Fehlerannotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5 Annotation im praktischen Einsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.1 Suche in Korpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Eigenes Annotieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3 Entwicklung eines Annotationsschemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4 Annotationstools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6 Quantitative Auswertung von Korpusdaten . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.1 Korpuslinguistik und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.2 Operationalisierung und Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 6.3 Variablen und ihre Auspr¨ agungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6 Inhalt 6.4 Zwei Auswertungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7 Deutschsprachige Korpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2 Korpustypologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 7.3 Deutsche Korpuslandschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7.4 Neue Korpusinitiativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.5 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8 Korpuslinguistik in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.1 ¨ Ubersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.2 Orthographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.3 Wortbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 8.4 Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8.5 Lexikologie und Lexikographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.6 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 8.7 Fremdspracherwerb und -vermittlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 8.8 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 8.9 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 8.10 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 9 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 Vorwort zur 3. Auflage Durch den Wechsel auf das moderne Layout der Reihe narr Studienb¨ ucher konnten wir die alten Inhalte kompakter darstellen. Zus¨ atzlich bedanken wir uns beim Verlag f¨ ur die Option, die Gesamtseitenzahl etwas zu erh¨ ohen, sodass Sie nun eine gr¨ undlich durchgesehene, aktualisierte und erweiterte Version unseres Buches in H¨ anden halten. In das zweite Kapitel zu den theoretischen Grundlagen der Korpuslinguistik haben wir die Arbeiten von Andr´ as Kertesz und Csilla R´ akosi aufgenommen. Die Arbeiten der beiden Autoren scheinen uns der interessanteste Beitrag der letzten Jahre zur wissenschaftstheoretischen Begr¨ undung der Korpuslinguistik zu sein. Im dritten Kapitel haben wir neuere Entwicklungen bei den Standards f¨ ur Metadaten ber¨ ucksichtigt, die sich aus der Arbeit sprachressourcen-bezogener Projekte wie CLARIN ergeben haben. Kapitel 4 wurde grundlegend ¨ uberarbeitet und um ein Unterkapitel zur manuellen Annotation und der Entwicklung von Annotationsschemata erweitert, sodass wir uns entschlossen, die Inhalte in der neuen Auflage auf zwei Kapitel zu verteilen. Das neue Kapitel 5 endet mit vier praktischen ¨ Ubungen zur Suche auf Online-Korpora. F¨ ur die vorliegende Auflage haben wir eine Anregung von Markus Hundt (2006) aus seiner Rezension zu unserer Erstauflage aufgegriffen und ein zus¨ atzliches Kapitel zur quantitativen Auswertung von Korpusdaten erg¨ anzt. Das neue Kapitel 6 hat daher keine Entsprechung in den alten Auflagen. Es soll die Leser daf¨ ur sensibilisieren, wie linguistische Fragestellungen ”korpustauglich“ gemacht und in eine quantitativ ¨ uberpr¨ ufbare Hypothese ¨ uberf¨ uhrt werden k¨ onnen. Dar¨ uber hinaus f¨ uhrt das Kapitel in die deskriptive Statistik ein, in der Verteilungen durch statistische Kennwerte beschrieben und grafisch dargestellt werden. Kapitel 7 (ehemals Kapitel 5) ist im Vergleich mit den alten Auflagen geschrumpft, da wir die tabellarische Beschreibung von Einzelkorpora, die bisher ein Bestandteil dieses Kapitels war, komplett auf die begleitende Webseite ausgelagert haben. Daf¨ ur haben wir einige Abschnitte hinzugef¨ ugt, in denen neue Korpora und Korpusinitiativen beschrieben werden. In Kapitel 8 (ehemals 6) wurden die Kategorien, unter die die Fallstudien eingeordnet sind, weitgehend beibehalten, aber anders angeordnet. Innerhalb der einzelnen Fallstudien wurden wichtige neuere Forschungsarbeiten erg¨ anzt. Das abschließende Kapitel (Erfahrungen von Linguistinnen mit der Verwendung von Korpora) wurde komplett auf die Webseite ausgelagert. Es konnte im Rahmen dieser ¨ Uberarbeitung nicht aktualisiert werden und hat in unseren Augen eher historischdokumentarischen Wert. Wir empfehlen stattdessen die Lekt¨ ure des Artikels von Detmar Meurers und Stefan M¨ uller (2008), der viele hilfreiche Erkenntnisse liefert. Als Services stehen weiterhin das aktualisierte Literaturverzeichnis, das Glossar und das ebenfalls aktualisierte Sachregister zur Verf¨ ugung. Ferner wurden wichtige Textstellen mit Marginalsymbolen versehen: Ein Buch markiert weiterf¨ uhrende Literatur, ein Bleistift Aufgaben, ein Ausrufezeichen Hinweise und eine Gedankenblase Anregungen zum Weiterdenken. Die buchbegleitende Webseite finden Sie unter www.narrstudienbuecher.de/ 9783823378860. Wir bedanken uns ganz herzlich bei unserem neuen Lektor Tillmann Bub f¨ ur seine beharrliche und sehr konstruktive Betreuung der Neuauflage. Berlin und Hamburg, im September 2015 Lothar Lemnitzer & Heike Zinsmeister Vorwort zur 1. Auflage Im Fr¨ uhjahr 2005 wurden wir gefragt, ob wir eine Einf¨ uhrung in die Korpuslinguistik f¨ ur Germanisten schreiben wollten. Wir stellten uns dieser Aufgabe gerne, da es bis jetzt kein deutsches Lehrwerk f¨ ur die korpuslinguistische Lehre oder f¨ ur das Selbststudium gibt. Andererseits zeigt die große Zahl an korpuslinguistischen Seminaren in der Germanistik und allgemeinen Sprachwissenschaft, dass Bedarf an einem Lehrwerk besteht. Bei der Recherche f¨ ur dieses Thema waren wir ¨ uberrascht, wie viele korpuslinguistische Untersuchungen mit einem weiten thematischen Spektrum mittlerweile ver¨ offentlicht wurden. Es war eine Freude, diese Arbeiten mit einer korpuslinguistischen Brille zu lesen und auszuwerten. Wir sind sicher, dass auch Sie als Leser von dieser Zusammenschau profitieren werden. Wenn Sie sich durch dieses Buch zu eigener korpuslinguistischer Arbeit ermutigt f¨ uhlen, dann haben wir unser wichtigstes Ziel erreicht. Wir nutzen die Gelegenheit, um uns bei unserem Lektor J¨ urgen Freudl f¨ ur die Anregung zu diesem Buch und f¨ ur die Unterst¨ utzung bei unserer Arbeit zu bedanken. Dank geb¨ uhrt auch den Testlesern der Vorversionen dieses Buches: Karin Pittner und Judith Berman haben eine Vorversion des Buches in ihrem Seminar getestet; Stefanie Dipper, Stefan Engelberg, Michael G¨ otze, Anke L¨ udeling, Sabine Schulte im Walde und Elke Zinsmeister haben wertvolle Kommentare zu einzelnen Kapiteln gegeben. Die verbleibenden Fehler gehen nat¨ urlich auf unsere Kappe. Wir danken allen Kolleginnen und Kollegen, die sich spontan zu einem Interview oder einer schriftlichen Stellungnahme zu unseren Fragen bereit erkl¨ art haben. Das Ergebnis k¨ onnen Sie in Kapitel 7 nachlesen. Unser Dank gilt nat¨ urlich auch unseren Familien, Freunden, Kolleginnen und Kollegen, die unser eigent¨ umliches Verhalten vor allem in der Abschlussphase dieses Buches mit Geduld ertragen haben. Ohne ihre Unterst¨ utzung w¨ are dieses Buch nicht das geworden, was es ist. Schließlich m¨ ochten wir Ihnen danken, wenn Sie dieses Buch k¨ auflich erworben haben. Wir freuen uns auf Ihre kritische Begleitung und auf Ihre Kommentare. Schreiben Sie uns! Unsere Adressen finden Sie auf der begleitenden Webseite. T¨ ubingen, im Februar 2006 Lothar Lemnitzer & Heike Zinsmeister Zum Geleit Bis vor einigen Jahren schien es fast so, also wolle die germanistische Linguistik in Deutschland die M¨ oglichkeiten der Korpuslinguistik verschlafen. Es gab zwar einige computerlinguistische Zentren, die mit zum Teil sehr großen Korpora arbeiteten, und auch die Korpora des IDS in Mannheim, aber korpuslinguistische Methoden wurden an den germanistischen Instituten an den Universit¨ aten kaum unterrichtet und zum Teil immer noch kritisch be¨ augt. Das hat sich in den letzten Jahren gr¨ undlich ge¨ andert. An vielen Stellen gibt es inzwischen korpuslinguistische Seminare, Projekte und Sonderforschungsbereiche. Dabei hat sich der alte Streit zwischen der Theorie und der Empirie l¨ angst entsch¨ arft und zu einem konstruktiven Miteinander gewandelt. Wir haben verstanden, dass unterschiedliche Fragestellungen auch unterschiedliche Daten erfordern und dass wir gemeinsame Ressourcen, Verfahren und Standards brauchen und diese deshalb entwickeln und evaluieren m¨ ussen. F¨ ur viele Fragestellungen, zum Beispiel zu historischen Untersuchungen oder zu Erwerbsprozessen im Erst- und Zweitspracherwerb, liegen schlicht keine anderen Daten vor, gerade hier ist man auf allgemein zug¨ angliche und standardisierte Ressourcen und Werkzeuge angewiesen. Eine Grundlage f¨ ur gute korpusbasierte Arbeit ist gute korpuslinguistische Lehre. Es gibt eine Reihe von englischsprachigen Einf¨ uhrungsb¨ uchern, die sich mit Korpora besch¨ aftigen - diese konzentrieren sich jedoch auf englischsprachige Ressourcen und Studien. Bisher fehlte ein korpuslinguistisches Einf¨ uhrungsbuch f¨ ur Germanistikstudierende ohne informatische Vorkenntnisse, das sich speziell auf die deutschen Korpora und Fragestellungen bezieht. Lothar Lemnitzer und Heike Zinsmeister haben nun eine solche interessante, fundierte und klar geschriebene Einf¨ uhrung in die Korpuslinguistik vorgelegt. Das Buch besch¨ aftigt sich zun¨ achst mit den linguistischen Grundlagen der Korpuslinguistik und lotet dabei die Chancen und Grenzen der Arbeit mit Korpora aus. Zus¨ atzlich werden Methoden der Datengewinnung und Annotation erl¨ autert und diskutiert. Konkrete Studien aus ganz unterschiedlichen linguistischen Bereichen zeigen anschaulich, wie breit korpuslinguistische Verfahren in der linguistischen Forschung eingesetzt werden k¨ onnen. Ich freue mich darauf, mit diesem Buch arbeiten zu k¨ onnen. Berlin, im Februar 2006 Anke L¨ udeling Professorin f¨ ur Korpuslinguistik Humboldt-Universit¨ at zu Berlin 1 Einleitung 1.1 Was ist Korpuslinguistik? Die Folklore der Sprachwissenschaft 1 kennt zwei Forschertypen: • Der Denker 2 verbringt die meiste Zeit in seinem Sessel und denkt nach. Die Sprachtheorie, die er sich mit den Jahren in seinem Kopf zurechtgelegt hat, wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, best¨ atigt oder widerlegt. Hin und wieder notiert sich der Denker besonders komplizierte und abwegige Beispiele, die durch eine Grammatik, die dieser Sprachtheorie entspricht, hergeleitet werden k¨ onnen. Diese S¨ atze legt er Sprechern der untersuchten Sprache mit der Frage vor, ob diese S¨ atze denn wohlgeformt seien. Daraus, ob die befragten kompetenten Sprecher seine Beispiele gutheißen oder ablehnen, zieht der Denker weit reichende Schl¨ usse ¨ uber den Aufbau der Grammatik dieser Sprache und der zugrunde liegenden Sprachtheorie. Was f¨ ur den Denker alleine z¨ ahlt, ist das Urteil kompetenter Sprecher, das auf deren Sprachgef¨ uhl und sprachlichem Wissen fußt. Der Denker h¨ alt sich an den R¨ andern der Sprache auf, in Bereichen, die wenig mit dem allt¨ aglichen Sprachgebrauch zu tun haben. Im Gegenteil, der Denker ist an den ¨ Außerungen, die tagt¨ aglich produziert werden, herzlich wenig interessiert. Sie sind wenig erleuchtend f¨ ur seine Theorie. • Der Beobachter ist an authentischen Sprachdaten interessiert: je mehr Daten, desto besser. Die Theorien, die er entwickelt, sind auf die Beobachtung dieser Daten gest¨ utzt. Seine Aussagen und Hypothesen werden durch immer neue Daten best¨ atigt oder verworfen. Mit seinen Kollegen spricht der Beobachter vor allem dar¨ uber, welche interessanten Beobachtungen er gemacht hat. Ansonsten h¨ alt er sich ¨ uberwiegend an seinem Computer auf. Das Bild, das er durch diese Beobachtungen gewinnen m¨ ochte, sollte m¨ oglichst vollst¨ andig sein, deshalb ist er vor allem an den Ph¨ anomenen interessiert, die in unserem allt¨ aglichen Sprachgebrauch vorkommen. 1 Wer nicht glaubt, dass es eine Folklore der Sprachwissenschaft gibt, der m¨ oge sich einmal Pullum (1991) ansehen. Auch allen anderen Lesern m¨ ochten wir dieses vergn¨ uglich zu lesende Buch empfehlen. 2 Wir verwenden in diesem Buch das generische Maskulinum bei Bezeichnungen von Personen und schließen damit selbstverst¨ andlich alle weiblichen Personen mit ein. Die Wahl dieser Form hat einzig und allein den Grund, dass ihre Verwendung das Lesen des Textes etwas einfacher macht. 12 1 Einleitung Der Denker erweist sich als scharfsinniger Theoretiker, der die Grundlagen des Sprachverm¨ ogens erforscht, das allen Menschen gemeinsam ist, und dies Universalgrammatik nennt. F¨ ur seine Forschungen muss er seinen Sessel nur ¨ außerst selten verlassen. Den Beobachter hingegen findet man h¨ aufig dort, wo es um die m¨ oglichst umfassende Beschreibung einer Sprache in ihrer allt¨ aglichen Verwendung und die Vermittlung dieses Sprachgebrauchs, z.B. in Lexikographie und Fremdsprachunterricht, geht. Diese plastische Beschreibung zweier Typen von Forschern in der Linguistik ist nicht neu. Sie findet sich so ¨ ahnlich schon bei Charles Fillmore (Fillmore, 1992). Fillmore hat in den achtziger Jahren das Lager gewechselt und sich vom theoretisierenden Linguisten zum Beobachter gewandelt. Es ist jedoch keinesfalls so, dass die Entscheidung f¨ ur eine Richtung die andere Richtung ausschließt: Wer sammelt, hat damit das Denken nicht aufgegeben, und auch der Denker profitiert hin und wieder von den Erkenntnissen der Beobachter. Wir werden Beispiele daf¨ ur noch kennen lernen. Eine Einf¨ uhrung in die Korpuslinguistik wendet sich in erster Linie an die Beobachter unter den Sprachwissenschaftlern. Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Ph¨ anomene. Wir wenden uns aber auch an die Denker und werden zeigen, dass und wie sie von den Beobachtungen und Erkenntnissen der Korpuslinguisten profitieren k¨ onnen. Eine enge Zusammenarbeit zwischen Denkern und Beobachtern, also zwischen theoretischen Linguisten und empirisch arbeitenden Linguisten, erscheint uns fruchtbar f¨ ur beide Seiten. Eine solche Haltung ist in der Zunft aber keinesfalls selbstverst¨ andlich. Randy Allen Harris hat sein Buch ¨ uber die Sprachwissenschaft in den sechziger und siebziger Jahren des letzten Jahrhunderts ”Linguistic Wars“ genannt, und dies ist sicher nicht allzu stark ¨ ubertrieben. Charles Hockett, ein Vertreter der empirischen Arbeitsweise, bezeichnete die Methode, Selbstausk¨ unfte von Sprechern ¨ uber ihr sprachliches Wissen heranzuziehen, als im g¨ unstigsten Fall ¨ uberfl¨ ussig (superfluous) und im ung¨ unstigsten Fall als widerw¨ artig (obnoxious) 3 . Viele theoretische Sprachwissenschaftler im Umfeld der generativen Sprachtheorie, allen voran Noam Chomsky, bezeichnen das Werk der Korpuslinguistik als irrelevant und nutzlos 4 . Es gibt, wie gesagt, Berichte von ”Lagerwechseln“ 5 , was auch nicht gerade f¨ ur ein friedliches Zusammenleben spricht. Wir werden im zweiten Kapitel zeigen, dass mindestens ein Teil der Kritik, die von Sprachtheoretikern gegen¨ uber empirisch arbeitenden Linguisten ge¨ außert wurde, berechtigt ist. Sie betrifft Annahmen, die von der Korpuslinguistik in der Zeit vor dem Entstehen der generativen Grammatik in den f¨ unfziger Jahren getroffen wurden. Die moderne Korpuslinguistik hat daraus gelernt. Es ist aber auch heute noch so, dass jeder, der korpuslinguistisch arbeitet, eine Antwort auf die Kritik aus dem sprachtheoretischen Lager haben sollte. Wir werden auf diese Antworten ausf¨ uhrlicher im dritten Kapitel eingehen. Zun¨ achst jedoch wollen wir eine Antwort auf die Frage geben, was Korpuslinguistik eigentlich ist. Das Wort ist ein Kompositum, es setzt sich aus den Bestandteilen Korpus 3 Vgl. Hockett (1964), zitiert nach McEnery und Wilson (1996). Wir werden in Abschnitt 2.2 auf die Probleme eingehen, die Selbstausk¨ unfte von Sprechern tats¨ achlich mit sich bringen. 4 Z.B. Chomsky (1986), S. 27. 5 Vgl. zum Beispiel Fillmore (1992) und Sampson (1996). 1.1 Was ist Korpuslinguistik? 13 und Linguistik zusammen. Eine Antwort auf die Frage f¨ uhrt also zun¨ achst ¨ uber diese beiden Begriffe. Definition 1 (Korpus 6 ). Ein Korpus ist eine Sammlung schriftlicher oder gesprochener ¨ Außerungen. Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus bestehen aus den Daten selber sowie m¨oglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind 7 . Die Sammlung von ¨ Außerungen ist meist das Ergebnis sorgf¨ altiger Planung 8 , was nicht ausschließt, dass auch ad hoc oder zu anderen als linguistischen Zwecken entstandene Textsammlungen einen Wert als Datenbasis haben k¨ onnen. Je besser ein Korpus geplant ist, um so n¨ utzlicher ist es f¨ ur die sp¨ atere Forschung. Heutzutage liegen Korpusdaten in maschinenlesbarer Form vor. Es gibt auch heute noch nicht digitalisierte Textsammlungen bzw. Recherchen, die sich auf solche beziehen. Wir werden in Kapitel 8 solche Untersuchungen vorstellen. Die Verwendung nicht digitalisierter Texte f¨ uhrt jedoch zu methodischen Problemen. Auch dies werden wir in Kapitel 8 zeigen. ”¨ Altere Texte werden heute in vielen Projekten nachtr¨ aglich digitalisiert. Das Gleiche gilt f¨ ur Tonaufzeichnungen von Interviews, Gespr¨ achen usw. Man tut gut daran, sich Gedanken zu machen, ob es digitalisierte Daten f¨ ur die eigenen Untersuchungen gibt bzw. ob und wie man die eigenen Daten digitalisieren kann. Wir betrachten hier das digitale Korpus als die Norm. Der Wert eines Korpus w¨ achst, wenn seine Prim¨ ardaten mit beschreibenden Daten versehen werden, die z.B. Auskunft geben ¨ uber die Autoren von Texten oder die Sprecher von Tonaufnahmen, ¨ uber den Zeitpunkt der Entstehung usw. Man spricht hierbei auch von Metadaten. Von diesen Daten, die ganze Texte oder zusammenh¨ angende ¨ Außerungsfolgen beschreiben, unterscheiden wir die Annotationen, die sich auf Teile von Texten bezieht, also auf W¨ orter, S¨ atze, Paragraphen usw. Annotationen markieren und klassifizieren bestimmte Einheiten, zum Beispiel W¨ orter mit ihrer Wortart. Von anderen Medien außer Text oder Ton sehen wir ab, wollen aber darauf hinweisen, dass es interessante Korpora gibt, in denen Text und Ton mit stehenden oder bewegten Bildern verbunden werden. Man spricht dann von multimedialen oder multimodalen Korpora 9 . Der zweite konstituierende Begriff ist Linguistik. Diese Disziplin wird im deutschen Sprachraum meistens als Sprachwissenschaft bezeichnet. Damit ist der Gegenstand dieser Disziplin im weitesten Sinn umschrieben. Das Wort Sprache ist aber mehrdeutig, wie die folgenden Beispiele zeigen: 6 Im Deutschen wird das Neutrum verwendet, es heißt also das Korpus, wenn von einer Sammlung von ¨ Außerungen die Rede ist. In allen anderen Bedeutungen wird das Wort im Maskulinum verwendet. 7 In diesem Buch wird es ¨ uberwiegend um Korpora geschriebener Texte gehen. Eine gute Einf¨ uhrung in Korpora gesprochener Sprache liegt nun mit Draxler (2008) vor. 8 Vgl. hierzu ausf¨ uhrlich Hunston (2008). 9 Einen guten ¨ Uberblick ¨ uber multimodale Korpora gibt Jens Allwood (2008). 14 1 Einleitung (1) . . . weil Deutsch die Sprache ist, in der ich meine Gedanken am sch¨ onsten darlegen kann. (taz, 25.6.1993) (2) . . . als ich die ersten Bilder sah, verschlug es mir die Sprache. (taz, 15.11.1996) (3) Aber auch der Kosovo, Afghanistan und der Kaukasus kamen zur Sprache. (taz, 5.2.1999) (4) Sie verzichten darauf, H¨ olderlins Sprache mit Bedeutung aufzuladen. (taz, 6.8.1990) In Beispiel (1) ist mit Sprache eine konkrete nat¨ urliche Sprache, zum Beispiel das Deutsche, gemeint. In Beispiel (2) geht es allgemeiner um das Sprachverm¨ ogen und den Zugang zu diesem, welcher bei dem entgeisterten Betrachter momentan blockiert ist. Er w¨ are weder in der Lage sich in Deutsch, noch in irgendeiner anderen Sprache zu ¨ außern. In Beispiel (3) ist mit zur Sprache kommen ein konkretes sprachliches Ereignis gemeint. In Beispiel (4) schließlich bezieht sich der Autor auf die Eigensprache einer einzelnen Person. Dass mit Sprache Unterschiedliches bezeichnet werden kann, hat Auswirkungen auf die Wissenschaft von der Sprache bzw. den Sprachen. All die in diesen Beispielen dargestellten Aspekte k¨ onnen Gegenstand der wissenschaftlichen Betrachtung sein. Ein Grund f¨ ur den Streit zwischen den verschiedenen sprachwissenschaftlichen Lagern ist, dass der Gegenstand der eigenen wissenschaftlichen Betrachtung verabsolutiert wird und die anderen Gegenst¨ ande nicht der wissenschaftlichen Untersuchung wert befunden werden. Korpuslinguisten haben es mit Sprache in dem Sinn zu tun, der in Beispiel (3) zum Ausdruck kommt. Die Korpora, die untersucht werden, stellen Sammlungen konkreter sprachlicher ¨ Außerungen dar. Nat¨ urlich werden diese in einer bestimmten Sprache get¨ atigt, z.B. im Deutschen, Spanischen oder Chinesischen. Wir werden uns in diesem Buch auf deutsche Korpora und die korpuslinguistische Untersuchung der deutschen Sprache konzentrieren 10 . Inwieweit von ¨ Außerungen als Gegenstand der Untersuchung auf das Sprachverm¨ ogen der Sprecher geschlossen werden kann, ist umstritten. Es ist sogar umstritten, ob dies ein wissenschaftliches Ziel der Korpuslinguistik sein sollte 11 . Nach diesen Begriffsbestimmungen wollen wir nun versuchen, eine Antwort auf die Eingangsfrage zu geben: Was ist Korpuslinguistik? Definition 2 (Korpuslinguistik). Man bezeichnet als Korpuslinguistik die Beschreibung von ¨ Außerungen nat¨ urlicher Sprachen, ihrer Elemente und Strukturen, und die darauf aufbauende Theoriebildung auf der Grundlage von Analysen authentischer Texte, die in Korpora zusammengefasst sind. Korpuslinguistik ist eine wissenschaftliche Disziplin, d.h. sie muss wissenschaftlichen Prinzipien folgen und wissenschaftlichen Anspr¨ uchen gen¨ ugen. Korpusbasierte Sprachbeschreibung kann verschiedenen Zwecken dienen, zum Beispiel dem 10 Nat¨ urlich ist der Begriff deutsche Sprache selbst eine Abstraktion, die von Dialekten wie dem Schw¨ abischen, nationalen Varianten wie dem ¨ Osterreichischen oder Fachsprachen wie der Sprache der Informatik abstrahiert. Von diesen Variet¨ aten kann man zu Recht fragen, in wie weit diese noch deutsche Sprache sind. Das Konstrukt deutsche Sprache ist jedoch den meisten Sprechern vertraut und hat sich als ¨ ubergeordneter Begriff auch in der Sprachwissenschaft bew¨ ahrt. 11 ”. . . the task of corpus linguists is to exemplify the dominant structural patterns of the language without recourse to abstraction, or indeed to generalization“ (Sinclair, 1991, S. 103). 1.2 Wer sollte dieses Buch lesen? 15 Fremdsprachunterricht, der Sprachdokumentation, der Lexikographie oder der maschinellen Sprachverarbeitung bzw. Computerlinguistik. Gegenstand von Korpora und damit der Korpuslinguistik sind nat¨ urliche Sprachen, nicht formale Sprachen wie z.B. Programmiersprachen. Das schließt die Untersuchung von ¨ alteren Sprachstadien nat¨ urlicher Sprachen, wie etwa des Althochdeutschen oder des Mittelhochdeutschen, ein. Eine Vorbedingung ist allerdings, dass die ¨ uberlieferten Texte dieser Sprachdenkm¨ aler in digitalisierter Form vorliegen. In den letzten Jahren werden solche Texte in verst¨ arktem Maße digitalisiert, man spricht dabei von Retrodigitalisierung 12 . Eine St¨ arke der Korpuslinguistik ist es, dass auf Grund der Datenbasis nicht nur die Struktur einer Sprache, sondern auch deren Verwendung untersucht werden kann. Die Einhaltung gewisser Prinzipien ist die Grundvoraussetzung jeder wissenschaftlichen T¨ atigkeit. Dazu geh¨ ort, dass die Ergebnisse von Untersuchungen nachpr¨ ufbar oder sogar reproduzierbar sein m¨ ussen. Im Falle der Korpuslinguistik bedeutet dies, dass die Ergebnisse von Untersuchungen durch andere Personen am selben Korpus nachvollziehbar sein sollten. Idealerweise sollte es zus¨ atzlich m¨ oglich sein, die Untersuchungen auch an vergleichbaren, anderen Korpora als denen, auf die sie sich urspr¨ unglich st¨ utzen, nachzupr¨ ufen. Die gemeinsame Nutzung eines Korpus f¨ ur verschiedene Untersuchungen gew¨ ahrleistet, dass Forschungsergebnisse miteinander verglichen werden k¨ onnen. Die Methoden der Untersuchung sollten den anerkannten wissenschaftlichen Standards entsprechen, und es muss Klarheit bestehen ¨ uber die Reichweite und Sicherheit von Aussagen, die auf Grund von Beobachtungen getroffen werden. Dies trifft gleichermaßen f¨ ur statistische ¨ uber Regularit¨ aten wie f¨ ur Gesetzesaussagen zu. Statistische Aussagen benennen Tendenzen in den Daten, die durch einzelne Gegenbeispiele nicht widerlegt werden k¨ onnen. Bei dieser Art von Aussagen sollte aber die Sicherheit angegeben werden k¨ onnen, mit der die Aussage zutrifft. Hierf¨ ur gibt es in der Statistik etablierte Verfahren. Gesetzesaussagen hingegen sind absoluter - sie bezeichnen Regeln und Zusammenh¨ ange, die immer zutreffen. Deshalb sind sie leichter, n¨ amlich bereits durch ein einziges Gegenbeispiel, widerlegbar. Korpuslinguistik ist st¨ arker als andere Richtungen der Sprachwissenschaft zweckorientiert. Die Erkenntnisse der Korpuslinguistik beeinflussen u.a. die ¨ Ubersetzungswissenschaft, die Lexikografie und den Sprachunterricht. 1.2 Wer sollte dieses Buch lesen? Diese Einf¨ uhrung wendet sich an Studierende und Forscher der Sprachwissenschaft, die empirisch die deutsche Sprache untersuchen wollen. Wir wollen ihnen mit diesem Buch das Wissen und die Mittel an die Hand geben, die f¨ ur die Planung und Durchf¨ uhrung korpuslinguistischer Untersuchungen ben¨ otigt werden. Sie sollen mit diesem Buch in die Lage versetzt werden, ein f¨ ur ihre Fragestellung geeignetes Korpus auszuw¨ ahlen oder ein eigenes Korpus zu erstellen. Das Buch ist auch zum Selbststudium geeignet. Wir werden lediglich die Kenntnisse voraussetzen, die in einer allgemeinen Einf¨ uhrung in die (germanistische) Linguistik erworben werden k¨ onnen 13 . 12 Vgl. hierzu Altrichter (2001) und Claridge (2008). 13 Zum Beispiel die allgemeine Einf¨ uhrung herausgegeben von Jacob Ossner und Heike Zinsmeister (2014) oder - f¨ ur die syntaktische Analyse - das bew¨ ahrte Arbeitsbuch von Karin Pittner und Judith Berman (2013). 16 1 Einleitung 1.3 Aufbau des Buchs Im zweiten Kapitel werden wir ausf¨ uhrlicher auf die Kritik, die von sprachtheoretischer Seite gegen die Korpuslinguistik vorgebracht wurde, eingehen. Der Gegensatz zwischen Generativer Grammatik und Korpuslinguistik ist grunds¨ atzlich. Er wurzelt in einer unterschiedlichen Auffassung von Gegenstand und Methode der Linguistik, wie wir darstellen werden. Wir stellen die im positiven wie negativen Sinne f¨ ur die Korpuslinguistik einflussreichen linguistischen Str¨ omungen der Generativen Grammatik und des Kontextualismus vor. Am Ende dieses Kapitels werden wir drei Ans¨ atze korpuslinguistischer Forschung gegen¨ uberstellen: einen korpusbasierten, rein quantitativen Ansatz, einen korpusbasierten, quantitativ wie auch qualitativ ausgerichteten Ansatz und einen korpusgest¨ utzten, qualitativen Ansatz. Im dritten Kapitel werden wir ausf¨ uhrlicher darstellen, was linguistische Korpora sind, in Abgrenzung zu anderen Arten linguistischer Datensammlungen. Wir werden drei f¨ ur linguistische Korpora relevante Datenebenen unterscheiden: die Prim¨ ardaten, die Metadaten und die linguistische Annotation. F¨ ur die Beschreibung linguistischer Korpora haben sich auf internationaler Ebene Standards durchgesetzt. Diese Standards werden wir vorstellen. Der abschließende Teil ist methodischen Problemen gewidmet, die man l¨ osen sollte, bevor man Korpora f¨ ur eine linguistische Untersuchung heranzieht. Wir werden die folgenden Fragen beantworten: K¨ onnen Korpora repr¨ asentativ sein? Wie findet man sprachliche Ph¨ anomene in großen Mengen von Sprachdaten? Was macht man, wenn ein zu untersuchendes Ph¨ anomen nicht im Korpus gefunden wird und was, wenn man etwas findet, das auf Grund einer entwickelten Theorie eigentlich nicht vorkommen d¨ urfte? Linguistische Annotationen helfen, relevante Vorkommnisse in gr¨ oßeren Datenmengen (wieder) zu finden. Hierzu werden die Daten linguistisch voranalysiert und mit Annotationen wie zum Beispiel Wortarten oder grammatischen Funktionen versehen. Wir werden im vierten Kapitel Mittel und Methoden der Annotation darstellen und dabei unter anderem syntaktisch annotierte Korpora vorstellen. Um die Leser an die eigene Nutzung solcher Ressourcen heranzuf¨ uhren, werden wir im f¨ unften Kapitel anschließend auf die linguistische Abfrage von Korpora eingehen, dar¨ uber hinaus Methoden f¨ ur das eigene Annotieren und eine Reihe von Abfrage- und Annotierwerkzeuge vorstellen. Im sechsten Kapitel werden wir die Leser an die quantitative Auswertung auf der Basis von Korpora heranf¨ uhren. Dort, wo wir grundlegende Konzepte von Mathematik und Statistik ben¨ otigen, werden wir diese informell einf¨ uhren und im ¨ Ubrigen auf vertiefende Literatur zu diesem Thema hinweisen. Wir, die Autoren dieses Buches, haben die Erfahrung gemacht, dass es durchaus auch Nicht-Mathematikern gelingen kann, sich das Handwerkszeug quantitativer Forschung anzueignen. Korpora unterscheiden sich in vielf¨ altiger Weise. Im siebten Kapitel werden wir anhand von konkreten Korpusbeispielen eine Typologie einf¨ uhren, in der verschiedene Korpustypen systematisch unterschieden werden. Am Schluss dieses Kapitels stellen wir einige vielversprechende neue Korpusinitiativen vor. Korpora sind die Materialgrundlage vielf¨ altiger qualitativer und quantitativer sprachwissenschaftlicher Untersuchungen. Im achten und letzten Kapitel werden wir einige ausgew¨ ahlte Untersuchungen pr¨ asentieren und damit die Vielfalt der Fragen sichtbar machen, die mit Hilfe von Korpora beantwortet werden k¨ onnen. 1.3 Aufbau des Buchs 17 Glossar und Index im Anhang werden sicherlich auch denen helfen, die das Buch zum Nachschlagen oder zum Lernen auf eine Pr¨ ufung verwenden wollen. Begleitet wird dieses Buch von einer Webseite, die unter www.narr-studienbuecher.de/ 9783823378860 erreichbar ist. Hier finden Sie: • Eine tabellarische Liste von Korpusprojekten. Diese Eintr¨ age werden nach den in Kapitel 7 eingef¨ uhrten Kriterien beschrieben; • Hinweise auf Werkzeuge, die die Arbeit mit Korpora erleichtern; • Handreichungen zu einigen der gebr¨ auchlicheren Korpuswerkzeuge; • L¨ osungsans¨ atze f¨ ur die ¨ Ubungsaufgaben; • weitere n¨ utzliche Links; • weitere Informationen zu den Autoren des Buchs. Diese Einleitung ist ein guter Ort, um ¨ uber weitere Einleitungen und Handb¨ ucher zu informieren, die unsere Leser auch interessieren k¨ onnten. Eine weitere deutsche Einf¨ uhrung in das Thema hat Carmen Scherer verfasst (Scherer, 2005). Dieser Text kann als eine etwas leichtgewichtigere, an Germanisten gerichtete Alternative zu diesem Buch betrachtet werden. Drei Mitarbeiter des Instituts f¨ ur Deutsche Sprache (IDS) haben eine methodisch ausgerichtete Einf¨ uhrung erarbeitet, die den Umgang mit großen Datenmengen und die speziellen Abfragem¨ oglichkeiten der IDS-Korpora in den Mittelpunkt stellt (Perkuhn et al., 2012). Eine in Deutsch verfasste, aber an Anglisten gerichtete Einf¨ uhrung ist die von Joybrato Mukherjee (Mukherjee, 2009). Korpora gesprochener Sprache, die hier nur am Rande behandelt werden, stehen im Mittelpunkt einer gut lesbaren Einf¨ uhrung von Christoph Draxler (Draxler, 2008). Aus dem angels¨ achsischen Raum ist unbedingt das Buch von Tony McEnery, Richard Xiao und Yukio Tono zu erw¨ ahnen (McEnery et al., 2006). Es ist zum einen die Fortschreibung von McEnery und Wilson (2001), zum anderen enth¨ alt sie, ¨ uber das ¨ altere Werk hinausgehend, eine Dokumentation ¨ uber wichtige methodische Diskussionen innerhalb der Korpuslinguistik (Teil B) und dreizehn Fallstudien, in denen beispielhaft Schritt f¨ ur Schritt korpuslinguistische Projekte entwickelt werden (Teil C). Eine weiterf¨ uhrende Auseinandersetzung mit den verschiedenen Str¨ omungen der Korpuslinguistik findet sich in McEnery und Hardie (2012). An Anf¨ anger hingegen richtet sich die Einf¨ uhrung von K¨ ubler und Zinsmeister (2015), die sich auf linguistisch annotierte Korpora konzentriert. Neben diesen Einf¨ uhrungen sind auch zwei Handb¨ ucher erschienen. Bei de Gruyter wurden 2008 und 2009 zwei B¨ ande des internationalen Handbuchs ”Corpus Linguistics“ ver¨ offentlicht (L¨ udeling und Kyt¨ o, 2008, 2009). Auf einige Aufs¨ atze aus diesem Handbuch werden wir im Laufe dieses Buches noch zur¨ uckkommen. 2010 erschien außerdem das ”Routledge Handbook of Corpus Linguistics“. Ebenfalls aus Großbritannien kommt ein Werk, in dem Grundbegriffe (Terms) der Korpuslinguistik erl¨ autert werden (Mahlberg und Brook O’Donnell, 2010). Schließlich m¨ ochten wir noch auf den sehr sch¨ onen Kurs hinweisen, den Noah Bubenhofer zusammengestellt und ¨ uber das Web verf¨ ugbar gemacht hat (Bubenhofer, 2001). Zun¨ achst und vor allem w¨ unschen wir Ihnen aber viel Spaß bei der Arbeit mit diesem Buch! 2 Die Quellen linguistischer Erkenntnis Nach dem Durcharbeiten dieses Kapitels werden Sie wissen, wie in zwei großen Str¨ omungen der Linguistik, in der generativen Grammatik und im Kontextualismus, mit Sprachdaten umgegangen wurde. Sie werden die unterschiedlichen erkenntnistheoretischen Positionen, auf die beide Str¨ omungen aufbauen, unterscheiden k¨ onnen und Sie werden erkl¨ aren k¨ onnen, welches Verh¨ altnis sie jeweils zu Sprachdaten haben und welche Arten von Sprachdaten Sie in ihrer Forschung verwenden. Sie werden verstehen, warum Noam Chomsky in einem Interview behauptete, dass es so etwas wie Korpuslinguistik nicht gebe. Sie werden aber auch gesehen haben, warum es sich dennoch lohnt, Korpuslinguistik zu betreiben. Außerdem werden Sie drei unterschiedliche Ans¨ atze, Korpuslinguistik zu betreiben, kennengelernt haben. Sie werden Ihre eigenen Arbeiten so besser einordnen k¨ onnen. Das unterschiedliche Verh¨ altnis von Korpuslinguisten einerseits und theoretisch arbeitenden Linguisten andererseits zu Korpusdaten geht auf einen grunds¨ atzlichen Unterschied in den erkenntnistheoretischen Grundlagen und Methoden beider Richtungen zur¨ uck. Die methodischen Grundlagen korpuslinguistischer Forschung sind empiristisch, die der theoretischen Linguistik rationalistisch. Wir wollen deshalb zun¨ achst die erkenntnistheoretischen Grundlagen und Methoden des Empirismus und des Rationalismus darstellen, da aus der jeweiligen erkenntnistheoretischen Position ein unterschiedliches Verst¨ andnis der Rolle von authentischen Korpusdaten 1 folgt. In den darauf folgenden Abschnitten werden wir zwei f¨ ur die Korpuslinguistik bedeutende sprachtheoretische Str¨ omungen, die generative Grammatik und den Kontextualismus, vorstellen. Es geht dabei in erster Linie um den Platz von Korpusdaten in diesen Theorien. Wir werden außerdem eine Arbeit bzw. einen Ansatz vorstellen, der dazu geeignet scheint, die Positionen dieser beiden Lager zu vers¨ ohnen und die Korpuslinguistik auf ein neues Fundament zu stellen. Am Schluss dieses Kapitels stellen wir drei Arten, Korpusdaten f¨ ur linguistische Untersuchungen zu gebrauchen, nebeneinander. Diese tabellarische ¨ Ubersicht kann als Einstieg in die Fallstudien der folgenden Kapitel verwendet werden. 1 Mit authentisch meinen wir, dass diese Daten im Rahmen linguistisch unreflektierter Kommunikationssituationen entstanden sein sollten. Es l¨ asst sich, vor allem bei Zeitungskorpora, nicht verhindern, dass Textproduzenten sich in diesen Texten ¨ uber Sprache allgemein oder einzelne sprachliche Ph¨ anomene auslassen, diese Situationen sollten allerdings eine deutliche Minderheit der ausgewerteten Belege ausmachen. Vgl. zu diesem Begriff auch Tognini- Bonelli (2001), S. 55-57. 2.1 Empirismus und Rationalismus 19 2.1 Empirismus und Rationalismus Es handelt sich bei Empirismus und Rationalismus um zwei erkenntnistheoretische Str¨ omungen, deren Urspr¨ unge bis in die antike Philosophie zur¨ uck reichen. Mit diesen Begriffen werden Ideologien bezeichnet, die vor allem in der philosophischen Debatte des 17. und 18. Jahrhunderts entschieden verfochten wurden. In der heutigen Wissenschaft spielen sie vor allem als Bedingungen der Erkenntnis eine Rolle und wirken so in den Wissenschaften, auch in der Sprachwissenschaft, weiter. Der Kern der empiristischen Auffassung ist die Behauptung, dass alle Erkenntnis in der sinnlichen Anschauung wurzelt. Alles, was wir wissen k¨ onnen, lernen wir durch Beobachtung. Der Kern der rationalistischen Auffassung ist die Behauptung, dass Erkenntnisse durch Begriffe und Urteile gewonnen werden. Zu diesen gelangt man mit Hilfe der Vernunft und ohne direkten Bezug zur sinnlichen Anschauung. Die empiristische Position l¨ asst sich durch die folgenden Aussagen charakterisieren 2 : • Allen Begriffen, die diesen Namen verdienen und die nicht bloß leere Worte sind, liegt Erfahrung zugrunde; • Aussagen, die nicht aus anderen Aussagen ableitbar sind, beruhen auf Erfahrung; • Alle Aussagen, die nicht unmittelbar auf Erfahrung beruhen, m¨ ussen aus Aussagen ableitbar sein, die dies tun. Das erkenntnistheoretische Programm des Empirismus erfasst also sowohl Begriffe als auch Aussagen und bindet diese, direkt oder indirekt, an das, was sinnlich wahrnehmbar ist (Erfahrung). Betrachten wir ein Beispiel: In der Korpuslinguistik wurde in den 90er Jahren der Begriff Kollokation 3 auf den Begriff der Kookkurenz (gemeinsames Vorkommen zweier linguistischer Einheiten, im Folgenden Kovorkommen genannt) zur¨ uckgef¨ uhrt. Dem liegt die Einsicht zu Grunde, dass der Begriff der Kollokation nicht direkt auf Beobachtungen an Sprachdaten zur¨ uckzuf¨ uhren ist. Es ist aber mittels Beobachtungen an Korpusdaten und statistischen Verfahren zu ermitteln, welche Paare von W¨ ortern signifikant h¨ aufiger miteinander vorkommen, als dies auf Grund einer zuf¨ alligen Verteilung von W¨ ortern in Texten zu erwarten w¨ are. Mit Hilfe dieses nun auf Beobachtungen r¨ uckf¨ uhrbaren Begriffs des (signifikanten) Kovorkommens wurde der Begriff Kollokation neu definiert. Anders ausgedr¨ uckt: Die Aussage, dass ein Wortpaar eine Kollokation ist, wird, da sie nicht direkt auf Erfahrung zur¨ uckzuf¨ uhren ist, auf die Aussage gest¨ utzt, dass zwei W¨ orter signifikant h¨ aufig gemeinsam vorkommen, eine Aussage also, die direkt auf Erfahrung zur¨ uckf¨ uhrbar ist 4 . 2 Wir folgen hier im Wesentlichen Engfer (1996), S. 12. 3 Beispiele f¨ ur Kollokationen sind: fieberhaft suchen, rotes Tuch, einen Antrag stellen. 4 Die Darstellung ist stark vereinfacht, um das Wesentliche dieses Beispiels hervorzuheben. Nat¨ urlich sind Kollokationen nicht ausschließlich durch ein quantitatives Merkmal gekennzeichnet. Wichtig ist hier, dass der Begriff Kollokation und Aussagen, die ihn verwenden, mittelbar auf direkte Beobachtung an Sprachdaten zur¨ uckf¨ uhrbar sind. Zum Verh¨ altnis von Kollokation und Kovorkommen und zur kritischen Diskussion dieser Begriffe vor allem in der lexikographischen Literatur siehe auch Lemnitzer (1997). 20 2 Die Quellen linguistischer Erkenntnis Die rationalistische Position l¨ asst sich durch die folgenden Aussagen charakterisieren 5 : • Es wird - unter dem Titel angeborener Ideen - die Existenz erfahrungsunabh¨ angiger Begriffe, wie Zahl, Substanz etc. angenommen; • Es wird die G¨ ultigkeit erfahrungsunabh¨ angiger Aussagen behauptet. Diese beruhen allein auf vern¨ unftiger Einsicht; • Gest¨ utzt auf solche Aussagen oder Prinzipien lassen sich weitere Aussagen erschließen, die, wie die urspr¨ ungliche Aussage, unabh¨ angig von aller Erfahrung gelten. Im rationalistischen Programm sind Begriffe und Aussagen, die sich auf Erfahrung st¨ utzen, keinesfalls ausgeschlossen. Ihnen wird aber gelegentlich gegen¨ uber aus Vernunfteinsicht gewonnenen Begriffen und Aussagen ein geringerer Stellenwert einger¨ aumt. Betrachten wir auch f¨ ur diese Position ein linguistisches Beispiel: Ein in der Sprachtypologie entwickeltes Prinzip besagt, dass man Sprachen, anhand ihrer Wortstellung, unter anderem in SOV-Sprachen (Subjekt vor Objekt vor Verb) und SVO-Sprachen (Subjekt vor Verb vor Objekt) einteilen kann. Aussagen zu diesen Sprachtypen gehen auf die sprachliche Universalienforschung zur¨ uck 6 . Aus der Aussage, dass eine bestimmte nat¨ urliche Sprache eine SOV-Sprache ist, lassen sich weitere Aussagen ableiten, zum Beispiel die, dass eine auf eine Nominalphrase bezogene Pr¨ apositionalphrase der Nominalphrase folgt und ein modifizierendes Adjektiv mit hoher Wahrscheinlichkeit dem Nomen vorangeht. Das Deutsche wird von generativen Grammatikern als SOV-Sprache klassifiziert 7 . Dies deckt sich nicht unmittelbar mit Beobachtungen an deutschen S¨ atzen. In Beispiel (1), einem Hauptsatz, geht das Verb dem Objekt voran. (1) Der Sprachwissenschaftler erfindet viele sprachliche Beispiele ... In Beispiel (2), einem Nebensatz, folgt das Verb tats¨ achlich dem Subjekt und Objekt (Verbendstellung): (2) ..., weil er Beispielen aus Korpora misstraut. Aus der reinen Beobachtung und der Tatsache, dass Haupts¨ atze h¨ aufiger vorkommen als Nebens¨ atze, k¨ onnte man nun schließen, dass das Deutsche tendenziell eine SVO- Sprache ist. In der generativen Grammatik wird statt dessen eine Tiefenstruktur angenommen, in der das Verb im Deutschen immer den Objekten folgt. In Haupts¨ atzen wird das finite Verb durch Transformationen oder vergleichbare Operationen an die zweite Position in der Oberfl¨ achenstruktur verschoben. Es spricht einiges f¨ ur eine solche Argumentation. Erstens kann auch in Haupts¨ atzen ein Teil des Verbalkomplexes hinter den Objekten stehen: 5 Vgl. Engfer (1996), S. 12. 6 Vgl. Greenberg (1963). Die Universalienforschung besch¨ aftigt sich mit den linguistischen Merkmalen, die allen Sprachen gemeinsam sind oder anhand derer sich Sprachtypen unterscheiden lassen, je nachdem, welchen Wert ein Merkmal annimmt. 7 Vgl. Grewendorf (1995): ”According to the standard view, German is a ’verb second‘ language whose basic (D-Structure) constituent order is verb-final.“. 2.1 Empirismus und Rationalismus 21 (3) Sie h¨ atte den Text auch einfach gr¨ undlicher lesen k¨onnen. Zweitens wird die Partikel von Partikelverben dort quasi zur¨ uckgelassen: (4) Sie hielt sich gestern mal wieder den ganzen Tag lang mit belanglosen Dingen auf. Drittens ist es richtig, dass das Deutsche einige Stellungsregularit¨ aten, zum Beispiel zwischen Adjektiv und Nomen, aufweist, die f¨ ur die SOV-Sprachen charakteristisch sind. Die Aussagen zu SOV- und SVO-Sprachen sind somit nicht auf Erfahrung zur¨ uckf¨ uhrbar, denn Tiefenstrukturen sind der unmittelbaren Beobachtung nicht zug¨ anglich. Auch Begriffe wie Subjekt und Objekt sind keine Erfahrungsbegriffe. Sie sind das Ergebnis vernunftgeleiteter ¨ Uberlegungen. Die St¨ arke der verwendeten Begriffe und Aussagen liegt darin, dass sie Zusammenh¨ ange zwischen Ph¨ anomenen erkl¨ aren k¨ onnen. Im Allgemeinen wird der Empirismus als Erkenntnistheorie mit der wissenschaftlichen Methode der Induktion und der Rationalismus mit der wissenschaftlichen Methode der Deduktion verbunden. Die Induktion l¨ asst sich als Schlussverfahren wie folgt charakterisieren: • ¨ Ubergang vom Besonderen zum Allgemeinen; • Schließen von einzelnen Beobachtungen auf Gesetzesaussagen; • M¨ oglichkeit der Widerlegung von Gesetzesaussagen durch Beobachtungen. Die Deduktion l¨ asst sich wie folgt charakterisieren: • ¨ Ubergang vom Allgemeinen zum Besonderen; • Schluss von Prinzipien und Axiomen auf Regeln; • M¨ oglichkeit der ¨ Uberpr¨ ufung der G¨ ultigkeit dieser Regeln durch Beobachtungen. Auch dies m¨ ochten wir an einem linguistischen Beispiel veranschaulichen: Aus der Beobachtung, dass einige finite Verbformen Bestandteile von Haupts¨ atzen sind, und der Beobachtung, dass diese finiten Verbformen an zweiter Stelle im Satz stehen, wird durch Induktion die Gesetzesaussage abgeleitet, dass finite Verben in Haupts¨ atzen immer an zweiter Stelle stehen. Diese kann an Beobachtungen ¨ uberpr¨ uft und falsifiziert 8 werden. So trifft die Aussage z.B. f¨ ur den Satz in Beispiel (5) nicht zu: (5) Bleib wo du bist! Auf Grund dieser und weiterer, der Gesetzesaussage widersprechender Evidenz kann diese verworfen oder modifiziert werden. Die Aussage kann z.B. eingeschr¨ ankt werden: finite Verben in den Haupts¨ atzen, die Aussages¨ atze sind, stehen immer an zweiter Stelle. Anders herum kann aus dem unabh¨ angig motivierten Prinzip der SOV- und SVO- Stellung von Konstituenten in S¨ atzen und der Feststellung, dass das Deutsche eine SOV- Sprache ist, deduktiv geschlossen werden, dass das finite Verb am Satzende steht. Die 8 Mit Falsifikation wird das Verfahren bezeichnet, eine Gesetzesaussage durch mindestens ein Gegenbeispiel zu widerlegen bzw. zu verwerfen. In statistischer Ausdrucksweise w¨ urde hierf¨ ur eine signifikante Anzahl von Gegenbeispielen ben¨ otigt. 22 2 Die Quellen linguistischer Erkenntnis beobachtbare Tatsache, dass im Deutschen in Aussages¨ atzen das Verb an zweiter Stelle steht, wird mit der Regel dadurch in Einklang gebracht, dass eine Transformation angenommen wird, die das finite Verb aus der Endstellung in einer Tiefenstruktur an die zweite Position in der Oberfl¨ achenstruktur bewegt. Im Rahmen rationalistisch orientierter sprachwissenschaftlicher Forschung kann ein Korpus zur ¨ Uberpr¨ ufung und Korrektur theoretischer Aussagen verwendet werden. Wir werden dies korpusgest¨ utzte Linguistik nennen, da das Korpus hier prim¨ ar f¨ ur die St¨ utzung von im Vorhinein entwickelten Hypothesen herangezogen wird. Im Rahmen empiristisch orientierter sprachwissenschaftlicher Forschung ist das Korpus die prim¨ are Quelle der Erkenntnis. Aus Beobachtungen an authentischen Sprachdaten werden Gesetzesaussagen abgeleitet, die durch weitere Beobachtungen best¨ atigt, modifiziert oder verworfen werden. Wir werden dies korpusbasierte Linguistik nennen, da das Korpus als die Basis der Erkenntnis, also auch der Bildung von Theorien und Hypothesen, herangezogen wird 9 . 2.2 Sprecherurteile statt Korpusdaten — Die Position der generativen Grammatik Alle sprachwissenschaftliche Forschung bezieht sich auf sprachliche Daten. Nur als eine Menge von gesprochenen oder geschriebenen ¨ Außerungen kann sich das Sprachverm¨ ogen als kognitive Leistung von Menschen oder das System einer nat¨ urlichen Sprache manifestieren. Schon Leonard Bloomfield stellte in den zwanziger Jahren des letzten Jahrhunderts in einem programmatischen Aufsatz fest, dass die Gesamtheit der ¨ Außerungen, die in einer Sprachgemeinschaft gemacht werden k¨ onnen, die Sprache dieser Sprachgemeinschaft sei 10 . Bei dieser und bei ¨ ahnlichen Formulierungen zur Gegenstandsbestimmung der Sprachwissenschaft setzt nun die Kritik der generativen Grammatik 11 an, die seit den f¨ unfziger Jahren das Forschungsprogramm der Sprachwissenschaft pr¨ agt. Die Gesamtheit der ¨ Außerungen sei eine fiktive Gr¨ oße, die im Fall einer lebenden, aktuell verwendeten Sprache durch keine Kollektion von ¨ Außerungen auch nur ann¨ ahernd repr¨ asentiert werden k¨ onne. Eine Sprache durch Aufz¨ ahlung aller ¨ Außerungen erfassen zu wollen, sei nicht nur ein ¨ außerst langweiliges, sondern auch ein m¨ ußiges Unterfangen. An dieser Stelle wird oft eine Analogie zum Schachspiel bem¨ uht: Man lernt und versteht dieses Spiel nicht, wenn man die Zugfolgen m¨ oglichst vieler Partien betrachtet, sondern nur, indem man einige wenige Regeln lernt und diese anwendet. In ¨ ahnlicher Weise wird in der generativen Grammatik als eigentlicher Gegenstand der Forschung die kognitive 9 Diese Unterscheidung geht im Wesentlichen auf Elena Tognini-Bonelli (2001) zur¨ uck. Diese verwendet den Ausdruck ’corpus-driven‘ f¨ ur den Ansatz, den wir hier korpusbasiert nennen und der an anderer Stelle auch ”korpusgeleitet“ genannt wird. F¨ ur das, was wir hier ”korpusgest¨ utzt“ nennen, verwendet sie den Ausdruck ’corpus-based‘ . Die Leser sollten sich hier nicht verwirren lassen. 10 Vgl. Bloomfield (1926), S. 153. 11 Als generative Grammatik wird ein Grammatikmodell bezeichnet, nach dem durch ein begrenztes Inventar von Regeln alle wohlgeformten S¨ atze einer Sprache generiert werden k¨ onnen. Der Begriff generative Grammatik bezeichnet außerdem eine sprachwissenschaftliche Schule, in der dieses Grammatikmodell eine zentrale Rolle spielt. 2.2 Die Position der generativen Grammatik 23 Maschinerie (’generative device‘ ) angesehen, die es Menschen erm¨ oglicht, mit einem begrenzten Inventar von Regeln eine theoretisch unbegrenzte Menge von ¨ Außerungen zu produzieren. Die Gesamtheit der bereits irgendwann get¨ atigten ¨ Außerungen sei f¨ ur die Beschreibung bzw. Erkl¨ arung dieser kognitiven Maschinerie irrelevant. Chomsky hat zwei Begriffspaare f¨ ur die Dichotomie von konkreten sprachlichen ¨ Außerungen einerseits, und der F¨ ahigkeit sich sprachlich zu ¨ außern andererseits, verwendet: zun¨ achst Performanz und Kompetenz, sp¨ ater E-Sprache und I-Sprache. Wir werden im Folgenden kurz die Dichotomie von Kompetenz und Performanz einf¨ uhren und dann ausf¨ uhrlicher auf die Argumentation Chomskys eingehen, mit der er den Unterschied von E-Sprache und I-Sprache begr¨ undet 12 . Betrachten wir zun¨ achst das Begriffspaar Kompetenz und Performanz 13 . Definition 1 (Performanz). Performanz, die auch Sprachverwendung genannt wird, ist der aktuelle Gebrauch der Sprache in konkreten Situationen. Definition 2 (Kompetenz). Die Kompetenz eines (idealen) Sprechers ist das ihm angeborene oder von ihm erworbene sprachliche Wissen. Dieses umfasst ein System von Prinzipien und Regeln. Dieses Wissen erm¨oglicht es dem Sprecher, eine im Prinzip unendliche Menge von ¨ Außerungen hervorzubringen und zu verstehen, Urteile ¨ uber die Wohlgeformtheit von ¨ Außerungen zu treffen sowie die Mehrdeutigkeit oder die Bedeutungsgleichheit von S¨ atzen zu erkennen. Die Kompetenz von Sprechern ist ein theoretisches Konstrukt, etwas, zu dem Forscher keinen unmittelbaren Zugang haben. Die Performanz hingegen ist als Menge von ¨ Außerungsereignissen der Beobachtung unmittelbar zug¨ anglich. Sprachwissenschaftler, die im theoretischen Rahmen der generativen Grammatik arbeiten, bestreiten, dass sich aus der beobachteten Sprachverwendung Schl¨ usse auf die Kompetenz ziehen lassen. Die sprachliche Leistung von Sprechern, ihre Performanz, wird durch vielf¨ altige Faktoren beeinflusst, die nichts mit dem Sprachverm¨ ogen zu tun haben, zum Beispiel durch Begrenzungen des Kurzzeitged¨ achtnisses, momentane Unaufmerksamkeit und ¨ außere Ablenkungen. So w¨ urde der tats¨ achlich belegte Satz: (6) Anstelle des alten Magazins entstand vor einem Jahr ein fensterloser Trumm, in dem erst das Großkino ”CinemaxX“ einzog und nun auch das ”¨ Ubermaxx“ residiert ... (taz, 30. April 1999) von den meisten deutschen Muttersprachlern, wenn er ihnen vorgelegt werden w¨ urde, als ungrammatisch empfunden - das Verb einziehen verlangt eine Pr¨ apositionalphrase mit einer Nominalphrase (NP) im Akkusativ als Komplement, nicht, wie im obigen Beispiel, einer NP im Dativ. Eine grammatische Beschreibung des Verbs einziehen w¨ urde aber, wenn sie sich auf diesen Beleg st¨ utzte, eine Pr¨ apositionalphrase mit einer NP im 12 Eine gr¨ undliche Analyse des Korpusbezugs in Chomskys fr¨ uheren Arbeiten, bis zu denen der sp¨ aten sechziger Jahre, hat Fred Karlsson (2008) vorgelegt. Seine Schlussfolgerungen entsprechen weitgehend den hier vorgestellten. 13 Wir beziehen uns im Folgenden auf Chomsky (1969), Kapitel 1, § 1. 24 2 Die Quellen linguistischer Erkenntnis Dativ als Komplement zulassen. Man k¨ onnte einwenden, dass die Beschreibung sprachlicher Ph¨ anomene sich nicht auf eine einzelne Beobachtung st¨ utzen sollte. Die Vorkommensh¨ aufigkeit eines Ph¨ anomens spielt also eine wichtige Rolle. Der Fehler im folgenden Beleg ist vermutlich kein Einzelfall: (7) Allerdings haben die Bremer am 11. Mai noch ein Nachholheimspiel gegen Schalke 04, daß aus Sicherheitsgr¨ unden abgesagt wurde. (taz. 4.5. 1999) Das Relativpronomen das und die subordinierende Konjunktion daß (dass in neuer Rechtschreibung) werden h¨ aufig verwechselt, in beide Richtungen. Aus Belegen wie in Beispiel (7) darf nun nicht der Schluss gezogen werden, dass das Lexem dass als Relativpronomen verwendet werden kann. F¨ ur unser Wissen als Muttersprachler des Deutschen stellt dies kein Problem dar, wohl aber f¨ ur eine Sprachbeschreibung, die sich ausschließlich auf die Produkte der Performanz st¨ utzt. Beispiele wie diese begr¨ unden die Skepsis vieler Sprachwissenschaftler gegen¨ uber authentischen Sprachdaten als Schl¨ ussel zur Erkenntnis des sprachlichen Wissens. Eine performanzorientierte Sprachwissenschaft muss deshalb die folgenden Fragen beantworten k¨ onnen: Ist eine Konstruktion grammatisch, obwohl sie nur selten vorkommt? Welche Konstruktionen sind ungrammatisch, obwohl sie h¨ aufig verwendet werden? Performanzdaten helfen, so die generativen Grammatiker, bei der Bestimmung der Sprachkompetenz nicht weiter, da sie durch die genannten Faktoren ”verunreinigt“ sein k¨ onnen. Nur Sprecherurteile, also Selbstausk¨ unfte von Sprechern ¨ uber ihr sprachliches Wissen, sind in diesem theoretischen Rahmen als Prim¨ ardaten zugelassen. Es k¨ onnte zum Beispiel Gegenstand der Untersuchung sein, herauszufinden, welche S¨ atze Sprecher des Deutschen als ungrammatisch charakterisieren w¨ urden. (8) *Peter wohnt. (9) ? Peter wohnt mal wieder. (10) Peter wohnt komfortabel. (11) Peter wohnt in Berlin. Das durch den Stern und das Fragezeichen markierte Sprecherurteil ist f¨ ur diese Zwecke erfunden, aber sicher leicht nachvollziehbar. Offenbar verlangt das Verb wohnen nach einem modalen oder lokalen Adverb als Erg¨ anzung (Beispiele (10) und (11)). Ein iteratives Adverb ist schon deutlich fragw¨ urdiger (Beispiel (9), das deshalb mit einem Fragezeichen gekennzeichnet ist). Ohne weitere Erg¨ anzung außer dem Subjekt ist der Satz aber ungrammatisch (Beispiel (8), der Stern markiert den Verstoß des Beispiels gegen grammatische Regeln). In sp¨ ateren Arbeiten f¨ uhrt Chomsky eine weitere Unterscheidung ein, die zwischen E-Sprache und I-Sprache. Wir beziehen uns im Folgenden auf Chomskys Essay Knowledge of Language. Its Nature, Origin, and Use 14 . Chomsky charakterisiert sein Forschungsprogramm als Abstraktion weg vom konkreten sprachlichen Verhalten bzw. von dessen 14 Vgl. Chomsky (1986). Die Zahlen in Klammern geben die Seitenzahlen an, auf die wir uns beziehen. 2.2 Die Position der generativen Grammatik 25 Produkten und hin zu den mentalen Zust¨ anden, die dieses Verhalten bestimmen. Die Aufgabe der Sprachwissenschaft ist es, Antworten auf die folgenden Fragen zu finden: 1. Woraus besteht unser Sprachwissen? 2. Wie wird es erworben? 3. Wie wird es angewendet? (3) Chomsky kritisiert explizit die beschreibende und strukturalistische Sprachwissenschaft und die Verhaltenspsychologie daf¨ ur, dass sie Sprache als eine Reihe von Sprachhandlungen oder als eine Menge sprachlicher Formen, gepaart mit Bedeutungen betrachtet haben (19). Diese Kritik trifft sicher auf die Form von empirischer Sprachwissenschaft zu, wie sie Bloomfield in dem oben dargestellten Sinn skizzierte. Die Menge der ¨ Außerungsereignisse oder Sprachhandlungen bezeichnet Chomsky als E-Sprache (’E-language‘ , 20), als externalisierte Sprache in dem Sinne, dass sie nicht in Zusammenhang mit mentalen Zust¨ anden der Sprecher betrachtet wird. Eine Grammatik, die aus diesen Daten abgeleitet werden w¨ urde, stelle nicht mehr als eine Sammlung von Beschreibungen dieser Ereignisse und Handlungen dar. Eine solche Grammatik w¨ are ein arbitr¨ ares Gebilde, deren einziges Qualit¨ atskriterium es ist, die beobachteten sprachlichen Ereignisse korrekt zu beschreiben (20). Dem stellt Chomsky die I-Sprache (’I-language‘ , 22) gegen¨ uber. Mit dem Ausdruck internalisierte Sprache bezeichnet Chomsky mentale Zust¨ ande der Sprecher, die eine Sprache beherrschen (22). Eine Grammatik ist eine Theorie ¨ uber diese I-Sprache und damit ¨ uber die mentalen Zust¨ ande der Sprecher. Grammatiken, verstanden als Theorien ¨ uber die I-Sprache, sollen so einfach wie m¨ oglich sein. Sie sind außerdem falsifizierbar wie jede andere wissenschaftliche Theorie. Dies sind die wissenschaftlichen Kriterien, nach denen Grammatiken bewertet werden k¨ onnen, wenn mehrere gleichermaßen die I-Sprache beschreiben. Die Konstruktion und Auswahl einer Theorie ist also keinesfalls willk¨ urlich. F¨ ur den Erkenntniswert der Korpuslinguistik bedeutet dies: Selbst wenn man, auf Grund eines ausreichend großen Korpus, zuverl¨ assige Aussagen ¨ uber die m¨ oglichen Ausdr¨ ucke einer nat¨ urlichen Sprache, also ¨ uber die E-Sprache, erlangen k¨ onnte, w¨ are dies nicht ausreichend f¨ ur die Bestimmung der I-Sprache, da es mehr als eine interne Sprache geben k¨ onnte, die exakt dieselben m¨ oglichen Ausdr¨ ucke erzeugt. Die konkret beobachtbaren ¨ Außerungen liefern außerdem keinen Schl¨ ussel zu den mentalen Zust¨ anden der Sprecher, die nach Chomsky der eigentliche (und ausschließliche) Gegenstand der Sprachwissenschaft sein sollen. Wie ist nun aber der Zugang zu den mentalen Zust¨ anden der Sprecher m¨ oglich? Chomsky schl¨ agt folgende Quellen vor: • Die wichtigste Quelle ist das Sprachgef¨ uhl bzw. Intuition (engl: ’intuition‘ ) der Sprecher, die direkt oder indirekt ¨ uber ihr Sprachwissen Auskunft geben 15 . Sprecher k¨ onnen direkt Auskunft geben, indem sie z.B. die Grammatikalit¨ at oder Akzeptabilit¨ at von S¨ atzen beurteilen, die ihnen vorgelegt werden, oder angeben, ob sie selber 15 ”Hill: If I took some of your statements literally, I would say that you are not studying language at all, but some form of psychology, the intuitions of native speakers. Chomsky: That is studying language.“, zit. nach Harris (1995), S. 54. 26 2 Die Quellen linguistischer Erkenntnis einen solchen Satz verwenden w¨ urden. Indirekte Auskunft kann dadurch eingeholt werden, dass Sprecher in Experimente einbezogen werden, in deren Verlauf ihnen bestimmte ¨ Außerungen entlockt (engl. ’elicit‘ ) werden 16 . • Dar¨ uber hinaus k¨ onnen die folgenden Quellen indirekt zu Erkenntnissen ¨ uber das Sprachverm¨ ogen beitragen 17 : - Befunde ¨ uber Sprachst¨ orungen (Stottern, Aphasien usw.); - Versprecher (Sehr geehrte Hamen und Derren) 18 ; - Neu gepr¨ agte Sprachen, z.B. die Kreolsprachen 19 . Sprachst¨ orungen sind ein indirekter Beleg f¨ ur den modularen Aufbau des Sprachverm¨ ogens, denn bei den meisten Sprachst¨ orungen sind nur einige Bereiche oder Aspekte des Sprechens gest¨ ort bzw. des Schreibens, wie im Falle der Legasthenie. Anhand von neurologischen Befunden, zum Beispiel Hirnl¨ asionen nach einem Unfall, die mit dem Ausfall bestimmter sprachlicher F¨ ahigkeiten korrespondieren, l¨ asst sich der Sitz des Sprachverm¨ ogens im Gehirn nachweisen. Versprecher deuten auf momentane Fehlfunktionen auf dem Wege von der Planung zur Realisierung einer ¨ Außerung hin. Die Art der Fehlfunktion erlaubt wiederum R¨ uckschl¨ usse auf den modularen Charakter des Sprachverm¨ ogens. Es kann gezeigt werden, dass bei Versprechern bestimmte Aspekte der Sprachproduktion in systematischer Weise gest¨ ort werden 20 . Kreolsprachen als eine Verfestigung des Vermischungsprozesses mehrerer Sprachen, unter deren Einfluss die Sprecher standen (z.B. indigene Sprache und Amtssprache), lassen prinzipiell Schl¨ usse auf die Erlernbarkeit von Sprachen zu. Gegen¨ uber diesen Quellen linguistischer Erkenntnis leiden Korpora unter den folgenden M¨ angeln: • Korpora enthalten eine nicht unerhebliche Anzahl von ¨ Außerungen, die von Sprechern, wenn sie diese ¨ Außerungen zu beurteilen h¨ atten, als nicht wohlgeformt eingestuft w¨ urden. Ursache f¨ ur diese Einstufungen k¨ onnen banale Dinge wie Kongruenzfehler oder Wortauslassungen sein. Es kann sich aber auch um sehr subtile Ph¨ anomene handeln, deren (Nicht-)Wohlgeformtheit nicht einfach und einhellig festgestellt werden kann. Es sind diese subtilen (Pseudo-)Fehler, die die Interpretation von Korpusdaten besonders erschweren. Eine Grammatik einer Sprache, die sich ausschließlich, ohne ein weiteres Korrektiv, auf Korpusdaten dieser Sprache st¨ utzen w¨ urde, m¨ usste solche S¨ atze wie in Beispiel (7) aufnehmen und grammatisch beschreiben 21 . 16 Labov (1975) stellt einige dieser Experimente vor, z.B. Seite 18ff. und Seite 49ff. 17 Vgl. Chomsky (1986), S. 37. 18 Vgl. Bierwisch (1970) und Leuninger (1996). 19 Kreolsprachen sind Mischsprachen in Zonen intensiven Austauschs zwischen zwei Sprachgemeinschaften. Im Gegensatz zum Pidgin haben diese Sprachen bereits den Charakter von Muttersprachen, d.h. es gibt bereits Sprecher, die mit dieser Sprache aufgewachsen sind; zu den Pidgin- und Kreolsprachen vgl. Camp und Hancock (1974) und Bickerton (1984). 20 F¨ ur eine detaillierte Analyse vgl. Leuninger (1996). 21 Ein weiteres, ber¨ uhmtes Beispiel ist der Satz Ich habe fertig, im Jahr 1998 ge¨ außert vom italienischen Trainer Giovanni Trappatoni, ehemals Trainer des FC Bayern M¨ unchen, auf einer Pressekonferenz. Die Ursachen f¨ ur diesen Fehler liegt in der mangelnden Beherrschung der 2.2 Die Position der generativen Grammatik 27 • Selbst in den gr¨ oßten Korpora wird man eine Menge sprachlicher Ph¨ anomene, die f¨ ur den Entwurf einer Grammatik der zu beschreibenden Sprache wichtig sind, nicht finden. Dies ist seit dem Aufkommen der generativen Grammatik eine Binsenweisheit. In jedem neuen Text wird man S¨ atze finden, die vorher noch nie ge¨ außert bzw. aufgeschrieben wurden. Was f¨ ur einzelne S¨ atze gilt, kann aber auch auf Konstruktionstypen zutreffen, und dieser Mangel ist f¨ ur die Beschreibung von Sprachen oder gar f¨ ur die Theoriebildung viel gravierender. Wenn in einem Korpus der deutschen Sprache keine Imperativform (wie z.B. Gib! ) oder keine sogenannte Mittelkonstruktion (wie z.B. Dieses Auto f¨ ahrt sich gut) auftauchte, dann k¨ onnten diese Konstruktionstypen auch nicht in einer rein empirischen, korpusbasierten Grammatik erfasst werden. Sprecher des Deutschen w¨ urden diese Konstruktionen, wenn man sie ihnen vorlegte, aber sicher als wohlgeformt einstufen und sie bei gegebenem Anlass auch selber verwenden. Ihr Fehlen im Korpus ist ein reines Zufallsprodukt. Generative Grammatiker bem¨ uhen lieber ihr eigenes Sprachgef¨ uhl, um ¨ uber die M¨ oglichkeit oder Wohlgeformtheit bestimmter Konstrukte in einer Sprache zu urteilen. So behauptete Chomsky selber in einer Diskussion, dass das Verb perform nicht mit unz¨ ahlbaren Substantiven (’mass nouns‘ ) verwendet werden kann (*perform labour), sondern nur mit z¨ ahlbaren Substantiven (’count nouns‘ - perform a task). Er beruft sich darauf, dass er dies als Muttersprachler des Englischen wisse. Tats¨ achlich ist diese Verallgemeinerung falsch. Ein Blick in das British National Corpus zeigt (als Gegenbeispiel) die Konstruktion (to) perform magic 22 . Labov 23 f¨ uhrt einen extremeren Fall eines irregeleiteten Sprecherurteils an. Sprecher des amerikanischen Englisch aus Philadelphia wurden zum (korrekten) Gebrauch des Wortes anymore befragt. Wurden die S¨ atze mit diesem Wort vorgelegt, gaben viele von ihnen an, dass sie das Wort so wie in Beispiel (12) verwendet noch nie geh¨ ort h¨ atten und dass sie dies nicht als korrektes Englisch akzeptieren k¨ onnten. (12) John is smoking a lot anymore. Einige interpretierten auch die Bedeutung dieses und ¨ ahnlicher S¨ atze falsch. Alle Kriterien deuteten also darauf hin, dass diese Konstruktionen nicht zur Sprachkompetenz dieser Sprecher geh¨ oren. Tats¨ achlich aber wurden diese Probanden beobachtet, wie sie dieses Wort in ¨ ahnlichen Konstruktionen verwendeten, zum Teil sogar in denselben Interviews, in denen sie zur Verwendung dieses Wortes befragt wurden 24 . Es gibt in der Literatur noch mehr Beispiele, die die Unzuverl¨ assigkeit von Sprecherurteilen eindr¨ ucklich belegen 25 . Auch wenn Sprachwissenschaftler als Fachleute, die den reflektierten Umgang mit Sprache ihr ganzes berufliches Leben ¨ uber trainieren, deutschen Sprache. Der Satz hat aber durch h¨ aufige Pressezitate mittlerweile den Status eines gefl¨ ugelten Wortes. Man wird ihm in Zeitungstexten dieser Zeit sicher h¨ aufig begegnen. Aber will man diesen Satz wirklich als wohlgeformt akzeptieren und beschreiben? 22 Das Beispiel stammt aus McEnery und Wilson (1996), S. 11. 23 Vgl. Labov (1975), S. 34f. 24 ¨ Ahnlich k¨ onnte es deutschen Sprechern, die aus dem Ruhrgebiet stammen, mit dem Satz Ich war meine Reise am Planen ergehen. 25 Einige wichtige Studien werden in Labov (1975) diskutiert. 28 2 Die Quellen linguistischer Erkenntnis wohl als die besseren Informanten gelten k¨ onnen, sind auch sie nicht vor Fehlurteilen sicher, wie das obige Beispiel zeigt 26 . Chomsky selber sch¨ atzt denn auch den Wert von Specherurteilen als linguistische Daten kritisch ein. Er m¨ ochte den grundlegenden Aufbau der Grammatik einer Sprache auf die eindeutig entscheidbaren F¨ alle st¨ utzen. Ist erst einmal eine solche Grundgrammatik gefunden, die die eindeutigen F¨ alle von wohlgeformten S¨ atzen einschließt und die eindeutig nicht-wohlgeformten S¨ atze ausschließt, dann k¨ onne aus dieser Grammatik auch der Status - wohlgeformt oder nicht - der zweifelhaften Konstruktionen abgeleitet werden 27 . Außerdem bed¨ urften auch Sprecherurteile der Interpretation, da sie nicht direkt die Struktur der untersuchten Sprache und ihre Grammatik reflektierten 28 . Die methodische Vorsicht gegen¨ uber Sprecherurteilen ist, wie wir gesehen haben, sicher angebracht. Es ist aber zweierlei gegen Chomskys Vorgehen vorzubringen. Erstens kann man fragen, warum man in den eindeutigen F¨ allen nicht auch auf Korpusdaten zur¨ uckgreifen k¨ onnen sollte. Die eindeutigen F¨ alle d¨ urften auch die sein, die in einem großen Korpus so oft vorkommen, dass die Gefahr der Missinterpretation von Performanzfehlern gering ist. Zweitens ist der sprachtheoretische Diskurs ¨ uber die korrekte Grammatik einer Sprache mittlerweile so komplex, dass vor allem ¨ uber seltene Konstruktionen und deren grammatischen Status diskutiert wird. Eine konkrete Grammatik muss sich gerade an diesen Beispielen beweisen 29 . F¨ ur diese Satztypen ist aber nicht nur die Evidenz in Korpora rar und m¨ oglicherweise fragw¨ urdig, auch das Sprachgef¨ uhl wird hier unscharf und die geforderte Konsistenz von Sprecherurteilen schwindet. Wir m¨ ochten allerdings darauf hinweisen, dass sich auch die wissenschaftliche Praxis der Ermittlung von Sprecherurteilen verbessert hat. Dies ist ein durchaus spannendes Feld linguistischer Forschung, welches allerdings außerhalb des Rahmens dieses Buches liegt 30 . Diese kritische Bewertung introspektiver Daten als Quelle linguistischer Erkenntnis soll nicht davon ablenken, dass auch Korpusdaten problematisch sein k¨ onnen. Die Kritik an dem Wert von Korpusdaten sei hier noch einmal in vier Punkten zusammengefasst: 1. Der Status eines beliebig großen Korpus zu der Sprache, die es repr¨ asentieren soll, ist unklar, da die repr¨ asentierte Sprache aus einer potenziell unendlichen Menge von S¨ atzen besteht (Problem der Repr¨ asentativit¨ at); 2. Ein Korpus enth¨ alt eine große Zahl von Ph¨ anomenen, die f¨ ur die Beschreibung der Sprache, die es repr¨ asentiert, irrelevant sind (Problem der Relevanz der Daten); 26 Ein extremer Fall linguistischer Fehleinsch¨ atzung, betreffend die M¨ oglichkeit der Einbettung von Konstituenten in Konstituenten des gleichen Typs (’central embedding‘ ), bewog Geoffrey Sampson einst dazu, in das Lager der Korpuslinguistik zu wechseln, vgl. Sampson (1996). 27 Vgl. Chomsky (1957), S. 14: ”In many intermediate cases we shall be prepared to let the grammar itself decide“. 28 Vgl. Chomsky (1986), S. 36. 29 Vgl. Labov (1975), S. 17: ”. . . the acceptability of complex sentence types frequently becomes a turning point for a theoretical conclusion.“ 30 Wir empfehlen dem interessierten Leser einige neuere und interessante Arbeiten zu diesem Thema: Featherston (2007), Featherston (2009) und Meyer (2009). 2.2 Die Position der generativen Grammatik 29 3. Viele Konstruktionen, die im Beschreibungsbereich einer Grammatik liegen, da sie wohlgeformt sind, sind in Korpora dieser Sprache nicht vorhanden (Problem unvollst¨ andiger Datenabdeckung); 4. Viele ¨ Außerungen, die dann auch Bestandteile von Korpora sein k¨ onnen, sind nicht wohlgeformt. Aus ihnen k¨ onnen und sollten keine Schl¨ usse auf das sprachliche Wissen der Sprecher gezogen werden (Problem der Verl¨ asslichkeit der Daten). Man sollte als Sprachwissenschaftler, der mit Korpora arbeitet, diese Kritik an Korpusdaten ernst nehmen und dieser Kritik mit guten Argumenten begegnen k¨ onnen. Hierzu geh¨ oren Antworten auf die Fragen, wie man mit der Existenz nicht-wohlgeformter ¨ Außerungen und mit dem Fehlen wohlgeformter ¨ Außerungen umgeht. Zweifelhafte Schl¨ usse k¨ onnen zum Beispiel durch andere Daten, wie Sprecherbefragungen, gest¨ utzt werden. In einer neueren Arbeit zu den wissenschaftstheoretischen Grundlagen der Korpuslinguistik, wird das Konzept der Plausibilit¨ at einer auf Korpusevidenz basierenden Aussage eingef¨ uhrt 31 . Ausgangspunkt ist die ¨ Uberlegung, dass angesichts der auch in diesem Kapitel dargestellten Problematik aller Korpusevidenz es nicht m¨ oglich ist, eine theoretische Aussage, die auf diesen Daten fußt, zu falsifizieren. Die Daten, die die Grundlage einer Falsifizierung bilden k¨ onnten, sind letztlich genauso problematisch, wie die Daten, auf denen die urspr¨ ungliche Aussage beruht. Die Autoren f¨ uhren deshalb einen Formalismus ein (vor allem in Kapitel 9 und 10), mit dessen Hilfe die Plausibilit¨ at einer sich auf Korpusevidenz st¨ utzenden Theorie oder Aussage quantifiziert werden kann. In die Berechnung geht auch die Evidenz ein, die gegen eine linguistische Aussage oder Theorie ins Feld gef¨ uhrt wird. Diese Gegenevidenz, genauer: die Evidenz, die f¨ ur eine konkurrierende Theorie oder Hypothese ins Feld gef¨ uhrt wird, kann die Plausibilit¨ at der urspr¨ unglichen Hypothese verringern und zu Revisionen der linguistischen Aussage oder Theorie f¨ uhren. Im Extremfall muss die urspr¨ ungliche Theorie verworfen werden 32 . Die zentralen Aussagen einer Metatheorie der plausiblen Argumentation in der Korpuslinguistik sind die Folgenden: a) der Pluralismus verschiedener Datentypen (Korpusdaten, Sprecherurteile u.a.) wird anerkannt; es sollte versucht werden, verschiedene Quellen linguistischer Evidenz heranzuziehen, um eine linguistische Aussage oder Theorie zu st¨ arken; b) alle Quellen linguistischer Evidenz werden a priori als problematisch angesehen. ¨ Uber den Wert jeder einzelnen Quelle f¨ ur die jeweilige linguistische Aussage ist Rechenschaft abzulegen; c) das Verh¨ altnis zwischen Daten und Theorie ist zyklisch. Neue Daten k¨ onnen zu Modifikationen der Theorie f¨ uhren und eine modifizierte Theorie einen neuen Blick auf die Daten er¨ offnen; d) die f¨ ur oder gegen eine Theorie herangezogenen Daten sind immer vorl¨ aufig und k¨ onnen in ihrer G¨ anze sogar widerspr¨ uchlich sein. Diese Widerspr¨ uchlichkeit muss eine plausible linguistische Aussage oder Theorie ber¨ ucksichtigen 33 . Diese Version eines erkl¨ arenden Ansatzes tr¨ agt anders als bisherige Ans¨ atze dem Umstand Rechnung, dass Korpusdaten den von ihnen beschriebenen Gegenstand nicht 31 Im Weiteren folgen wir Kert´esz und R´ akosi (2012), vor allem Kapitel 6, S. 41ff. 32 Die Autoren stellen das ausf¨ uhrlich an einem Beispiel aus der Phonologie des Deutschen dar, vgl. Kert´esz und R´ akosi (2012), S. 178-183. 33 Vgl. Kert´esz und R´ akosi (2012), S. 41. 30 2 Die Quellen linguistischer Erkenntnis repr¨ asentativ abbilden k¨ onnen und l¨ uckenhaft und sogar widerspr¨ uchlich sein k¨ onnen. Dennoch ist es nach diesem Ansatz m¨ oglich, linguistische Theorien auf ihnen zu errichten, n¨ otigenfalls umzubauen und so zum Erkenntnisfortschritt in den Sprachwissenschaften beizutragen. Ob sich das Konzept der Plausibilit¨ at wirklich f¨ ur eine Quantifizierung eignet, einer Theorie oder Aussage sich also ein Wert auf einer Plausibilit¨ atsskala zuordnen l¨ asst, das muss sich erst noch in weiteren Studien und anhand weiterer Beispiele erweisen. Es reicht wom¨ oglich, einer Aussage oder Theorie ein eher vage quantifizierendes Pr¨ adikat (’sehr‘ oder ’wenig‘ plausibel) oder ein komparatives Pr¨ adikat (’A ist (angesichts der Evidenz) plausibler als B‘ ) zuzuschreiben. 2.3 Linguistische Erkenntnis geht vom Sprachgebrauch aus — Die Position des Kontextualismus Dieser Abschnitt ist einer linguistischen Schule gewidmet, f¨ ur die die Arbeit mit Korpusdaten notwendiger Bestandteil linguistischer Erkenntnis ist. F¨ ur diese Schule, die in Deutschland Kontextualismus genannt wird 34 , geht alle linguistische Erkenntnis vom Sprachgebrauch aus. Einige prominente Korpuslinguisten, zum Beispiel John Sinclair - ehemaliger Chefredakteur des Collins Cobuild English Dictionary - entstammen der Schule des Kontextualismus. F¨ ur diese Sprachwissenschaftler ist die Arbeit mit sehr großen Textkorpora der Vollzug des Forschungsprogramms, das vor allem von John Rupert Firth entworfen wurde 35 . Das Forschungsziel des Kontextualismus ist es, sprachliche ¨ Außerungen und deren verschiedenen linguistischen Aspekte als Funktionen des sprachlichen und nichtsprachlichen Kontextes zu erkl¨ aren, in dem diese ¨ Außerungen stehen. Der erste prinzipielle Unterschied zwischen Kontextualismus und generativer Grammatik liegt in der Bestimmung des Untersuchungsgegenstandes: W¨ ahrend es letzterer um die Kompetenz von Sprechern und damit um die Voraussetzungen f¨ ur die Bildung sprachlicher Ausdr¨ ucke geht, untersucht der Kontextualismus konkrete Verwendungsweisen von Sprache anhand von tats¨ achlich vorkommenden ¨ Außerungen. Nur f¨ ur konkrete ¨ Außerungen l¨ asst sich ein Kontext ermitteln und somit das Verh¨ altnis zwischen ¨ Außerung und Kontext. Experimentelles Vorgehen, z.B. Transformations- und Ersetzungstests, und die Erhebung introspektiver Daten werden abgelehnt. Auch die Kontextualisten m¨ ochten letztendlich zu Aussagen ¨ uber das Sprachsystem gelangen. Soweit scheinen der Kontextualismus und die generative Grammatik ¨ ubereinzustimmen. Ein wesentlicher Unterschied liegt allerdings im Verst¨ andnis dessen, was als Sprachsystem bezeichnet wird. F¨ ur die generative Grammatik ist dies eine kognitive Struktur, das sprachliche Wissen der Sprecher. F¨ ur den Kontextualismus sind dies die regelhaften Beziehungen zwischen der Form, dem Inhalt und dem Kontext sprachlicher ¨ Außerungen. Diese Beziehungen k¨ onnen nur aus konkreten Sprachhandlungen abstra- 34 Im englischen Sprachraum sind die Bezeichnungen London School - der Hauptvertreter lehrte in London - oder Functionalism gebr¨ auchlicher, vgl. Lehr (1996), S. 7. 35 Wir st¨ utzen uns bei der folgenden Darstellung vor allem auf die vorz¨ ugliche Darstellung des Kontextualismus bei Andrea Lehr (1996), sowie auf die Arbeiten von Elena Tognini-Bonelli (2001). 2.3 Die Position des Kontextualismus 31 hiert werden. Am Beginn dieser Abstraktion muss also die Erfassung, Analyse und Systematisierung der konkreten Sprachhandlungen stehen. F¨ ur Firth liegt die Bedeutung linguistischer Einheiten in ihrer Funktion f¨ ur den Kontext, in den die ¨ Außerungen eingebettet sind. Definition 1 (Kontext). Der Kontext einer ¨ Außerung ist die Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung als das Bezugssystem, innerhalb dessen einer ¨ Außerung eine Funktion zukommt. Dabei bildet der kulturelle Kontext das Bezugssystem f¨ ur eine Sprache und steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen. Der situative Kontext determiniert die Funktion einer konkreten sprachlichen Handlung. Zum situativen Kontext geh¨oren Ort und Zeit, die Beteiligten etc. 36 Das Konzept des Kontexts als Rahmen und Bedingung menschlichen Handelns hat Firth von dem Anthropologen Bronislaw Malinowski ¨ ubernommen. Er hat dieses System auf linguistische Untersuchungen hin erweitert, indem er dem - im Wesentlichen nichtsprachlichen - Kontext das Konzept des Kotextes an die Seite stellte 37 . Definition 2 (Kotext). Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden. Diese linguistischen Einheiten determinieren die Funktion und die Bedeutung der untersuchten Einheit. Ko- und Kontext spielen f¨ ur die Untersuchung sprachlicher Handlungen eine zentrale Rolle. Sie haben die deutsche Bezeichnung f¨ ur diese linguistische Richtung gepr¨ agt. Firth hat den Kotext von W¨ ortern und S¨ atzen auf den vier Ebenen der Phonetik und Phonologie, der Morphologie, der Syntax und der Lexik untersucht. Die Untersuchungsbasis bildeten einzelne, situationsgebundene Texte. Heutzutage findet man nat¨ urlich eine große Zahl von Sprachhandlungen in Korpora dokumentiert, dies war aber zu Firths Zeiten noch nicht der Fall 38 . Bekannt sind heute noch Firths Arbeiten zur Phonetik und Phonologie und zur Lexik. Die phonetisch-phonologischen Arbeiten sind f¨ ur die Korpuslinguistik wenig relevant. Interessant sind aber seine Arbeiten zu W¨ ortern und Kotexten auf der lexikalischen Ebene. Hier spielen die von ihm gepr¨ agten Terme Kollokation und Kolligation eine wichtige Rolle. Definition 3 (Kollokation). Innerhalb des Kontextualismus wird unter Kollokation das faktische Miteinandervorkommen zweier oder mehrerer beliebiger W¨orter oder lexikalischer Einheiten verstanden. Damit ist keine normative Bewertung hinsichtlich der Korrektheit oder Grammatikalit¨ at dieser Wortverbindung verbunden. Der Begriff wird vom sp¨ aten Firth und einigen seiner Anh¨ anger auf die Habitualit¨ at des Kovorkommens eingeschr¨ ankt. Darunter wird vor allem verstanden, dass die Wortverbindung in den beobachteten Texten wiederholt auftreten muss 39 . 36 Genaueres hierzu in Firth (1991), S. 182. 37 In vielen linguistischen Arbeiten wird nicht zwischen Kotext und Kontext unterschieden. Dort wird f¨ ur beide Bereiche der Ausdruck Kontext verwendet, oder es wird zwischen sprachlichem Kontext und nicht-sprachlichem Kontext unterschieden. 38 Firth starb im Jahre 1960, das erste gr¨ oßere, digitale Korpus der englischen Sprache wurde 1964 an der Brown University fertiggestellt, vgl. hierzu Kuˇcera und Francis (1967). 39 Beispiele f¨ ur Kollokationen finden sich in Fußnote 3. 32 2 Die Quellen linguistischer Erkenntnis Die Analyse von Kotext und Kontext linguistischer Einheiten sind f¨ ur Firth und seine Anh¨ anger der Schl¨ ussel zur Bedeutung dieser linguistischen Einheiten. Bedeutung wird also nicht, wie in vielen anderen Theorien, als eine mentale Disposition von Sprechern oder als eine Struktur, die unabh¨ angig vom Gebrauch existiert, aufgefasst. Damit ist der Kontextualismus eine Gebrauchstheorie der Bedeutung, im Sinne von Wittgensteins ber¨ uhmter Formel: ”Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache“ 40 . Firth formuliert dies ganz kontexutalistisch: ”You shall know a word by the company it keeps“ 41 . Wir werden an sp¨ aterer Stelle ausf¨ uhrlicher auf Kollokationsanalysen in Korpora eingehen. In diesem, eher theoretischen Zusammenhang ist es wichtig, dass keine Wortverbindung von vornherein ausgeschlossen wird. Jedes Wort kollokiert mit jedem Wort, mit dem es in einer gr¨ oßeren linguistischen Einheit (Satz oder Text) gemeinsam vorkommt. Die Korpusanalyse im Geiste des Kontextualismus ist immer exhaustiv, d.h. allumfassend. Der Gebrauch des Korpus durch generative Grammatiker ist, wenn es ¨ uberhaupt dazu kommt, selektiv. Eine Kombination von lexikalischer Ebene und syntaktischer Ebene im kontextualistischen Rahmen stellt die Kolligation dar. Definition 4 (Kolligation). Als Kolligationen werden Paare sprachlicher Einheiten bezeichnet, deren Zusammenhang durch die Bezeichnung ihrer syntaktischen Kategorien und der Beziehungen zwischen diesen Kategorien weiter qualifiziert ist 42 . Nach dieser Definition ist das Beispiel (13) allein auf Grund des h¨ aufigen Kovorkommens als Kollokation aufzufassen, nicht aber als Kolligation. Im Gegensatz dazu ist Beispiel (14) eine Kolligation, da zwischen den beiden Elementen die grammatische Beziehung von Pr¨ adikat und Objekt besteht. (13) und er (14) Antrag stellen Mit dem Konzept der Kolligation bekommt die Textbzw. Korpusanalyse im Rahmen des Kontextualismus ein interpretatorisches Element. Es wird ¨ uber das reine Erfassen, Ausz¨ ahlen und h¨ aufigkeitsbasierte Ordnen von Wortpaaren hinausgegangen. Die gewonnenen Daten werden dadurch sinnhafter. Zusammenfassend l¨ asst sich zur Rolle des Kontextualismus f¨ ur die moderne Korpuslinguistik sagen: • Der Kontextualismus ist eine sprachwissenschaftliche Richtung, die linguistische Erkenntnis einzig und allein auf die Analyse des Sprachgebrauchs st¨ utzt. Die materielle Basis der linguistischen Untersuchungen, Texte und heutzutage Korpora, werden exhaustiv untersucht. Es werden von vornherein keine Daten ausgeschlossen (etwa, weil sie nicht wohlgeformt w¨ aren). 40 Wittgenstein (1967), S. 43. 41 Firth (1968b), S. 179. 42 ”The study of the collocations in which a word is normally used is to be completed by a statement of the interrelations of the syntactical categories within collocations“, Firth (1968a), S. 23. 2.4 Korpusbasierte Ans¨ atze 33 • Der bedeutendste Beitrag des Kontextualismus f¨ ur die moderne Korpuslinguistik liegt in der Analyse von Wortverbindungen. Dabei dominiert der syntagmatische Aspekt, das gemeinsame Vorkommen der W¨ orter in einer gr¨ oßeren linguistischen Einheit, bei weitem den paradigmatischen Aspekt, der im Kontextualismus auch eine Rolle spielt 43 . Wortverbindungen k¨ onnen, je nach dem Status der Interpretation, als Kollokationen oder als Kolligationen bezeichnet werden. • Die Analyse von Korpora im Geiste des Kontextualismus hat vor allem im Bereich der Lexikographie und Lexikologie, in der ¨ Ubersetzungswissenschaft, f¨ ur den Fremdsprachunterricht und als Basis von sprachkritischen Untersuchungen bedeutende Leistungen erm¨ oglicht. Generative Grammatik und Kontextualismus unterscheiden sich, wie wir gesehen haben, hinsichtlich der Auffassung ihres Untersuchungsgegenstandes, hinsichtlich dessen, was als sprachliche Daten von Relevanz f¨ ur die Bildung abstrakter und generalisierter Aussagen ¨ uber den Gegenstand ist, und dementsprechend auch hinsichtlich der Verwendung von linguistischen Korpora. Ein Austausch zwischen diesen beiden großen Str¨ omungen in der modernen Linguistik fand bisher kaum statt 44 . Erkenntnisse etwa ¨ uber das kollokative oder funktionale Spektrum lexikalischer Einheiten werden von generativen Grammatikern als trivial und f¨ ur eine ernsthafte Sprachtheorie irrelevant abgetan. Auf der anderen Seite werden von den Kontextualisten theoretische Aussagen der generativen Grammatiker als unbegr¨ undet, da empirisch nicht fundiert oder gar von jeglicher empirischer Basis isoliert und damit empirisch nicht falsifizierbar abgetan. Wie wollen mit diesem Buch den spezifischen Beitrag von Korpusdaten f¨ ur alle Arten linguistischer Forschung, f¨ ur die die beiden dargestellten gegens¨ atzlichen Str¨ omungen stehen, darstellen. Der Beitrag ist nat¨ urlich ein jeweils verschiedener, wie die Ausf¨ uhrungen dieses Kapitels zeigen. Die Verwendung von Korpora ¨ offnet aber interessante Wege f¨ ur die linguistische Forschung insgesamt. Dies wollen wir in den folgenden Kapiteln an einigen, f¨ ur den heutigen Stand der Forschung typischen Beispielen zeigen. Im folgenden, abschließenden Abschnitt werden die verschiedenen Ans¨ atze korpusbezogener sprachwissenschaftlicher Forschung ¨ uberblicksartig dargestellt. 2.4 Korpusbasierte Ans ¨ atze Die in den letzten Abschnitten beschriebenen methodischen Begriffspaare Empirismus/ Rationalismus und Deduktion/ Induktion gliedern die folgende ¨ Ubersicht, siehe auch 43 Die Bezeichnungen syntagmatisch und paradigmatisch gehen auf die Sprachtheorie von Louis Hjelmslev zur¨ uck, der sich hier an Ferdinand de Saussure anlehnt, vgl. Hjelmslev (1974). Sprachelemente, die gemeinsam in gr¨ oßeren linguistischen Einheiten vorkommen, stehen in einer syntagmatischen Beziehung zueinander (z.B. . . . Antrag . . . stellen). Sprachelemente, die sich in Kotexten gegenseitig ausschließen und gegeneinander ersetzt werden k¨ onnen, stehen in einer paradigmatischen Beziehung zueinander. Ein Beispiel f¨ ur eine paradigmatische Beziehung ist die Synonymie, z.B. von Apfelsine und Orange. 44 Was nicht heißt, dass ein solcher Austausch gar nicht stattfand. Ein Beleg hierf¨ ur sind die Arbeiten, die im T¨ ubinger Sonderforschungsbereich 441 Linguistische Datenstrukturen entstanden sind, der von 1999 bis 2008 gef¨ ordert wurde, ein anderer die bei McEnery et al. dokumentierten Debatten, vgl. McEnery et al. (2006), Abschnitt B2. 34 2 Die Quellen linguistischer Erkenntnis Tabelle 1. Wir unterscheiden drei Ans¨ atze in der Korpusanalyse: den korpusbasierten, quantitativen Ansatz, den korpusbasierten, quantitativ-qualitativen Ansatz und den korpusgest¨ utzten Ansatz. Korpusbasiert quantitativ Korpusbasiert, quantitativ und qualitativ Korpusgest¨ utzt Ans¨ atze Latent-semantische Analyse N-Gramm Analyse Koselektion und Kollokation semantische Prosodie Wortstellungsph¨ anomene Theoretischer Rahmen (nicht anwendbar) Kontextualismus (Firth) Strukturalismus (Saussure) / Generative Grammatik (Chomsky) Erkenntnistheoretischer Ansatz Extrem empiristisch Gem¨ aßigt empiristisch Rationalistisch Personen Landauer - Jelinek Sinclair, Teubert, Heringer Fillmore, Arts, Oostdijk, Reis, Meurers Eingabe Korpus in Rohform Korpus in Rohform Linguistisch annotiertes Korpus oder Belegsammlung Ausgabe Text-Term Matrizen - N-Gramme mit Frequenzen Kollokator-Kollokant- Paare mit Kennziffern Belegs¨ atze Interpretation Keine Ja, von den Belegen ausgehend Ja, von den theoretischen Aussagen ausgehend Prim¨ are linguistische Dom¨ ane Statistische Sprachmodelle Semantik Syntax Anwendungsgebiet Informationserschließung, Verarbeitung gesprochener Sprache Lexikographie, Fremdsprachunterricht, ¨ Ubersetzungswissenschaft Theoretische Linguistik Tabelle 1: Ans¨ atze in der Korpuslinguistik 2.4.1 Der korpusbasierte, quantitative Ansatz Bei diesem Verfahren werden auf der Grundlage von rohen, also nicht linguistisch annotierten, Korpora quantitative Daten extrahiert. Diese quantitativen Daten k¨ onnen qualitativ interpretiert werden, dies ist aber f¨ ur den erfolgreichen Einsatz dieser Verfahren nicht notwendig. Typische Kennziffern einer quantitativen Korpusanalyse sind: 2.4 Korpusbasierte Ans¨ atze 35 • die absolute H¨ aufigkeit, mit der eine Zeichenkette 45 in einem Text / Korpus vorkommt; • die relative H¨ aufigkeit 46 , mit der eine Zeichenkette in einem Text / Korpus vorkommt; • der Rangplatz, den eine Zeichenkette auf Grund ihrer H¨ aufigkeit einnimmt (z.B. sich ist das zehnth¨ aufigste Wort = das Wort sich hat den Rangplatz 10); • die Distribution eines Wortes, gemessen als die H¨ aufigkeit des Vorkommens dividiert durch die Zahl der Texte des Korpus, in denen das Wort vorkommt; • H¨ aufigkeiten von Sequenzen - beschrieben als n-Gramme - in Texten; • semantische ¨ Ahnlichkeit von W¨ ortern, gemessen an der H¨ aufigkeit ihres Kovorkommens oder gemeinsamen Vorkommens mit weiteren W¨ orter (s. Exkurs). Diese Verfahren werden vor allem im Bereich des Information Retrieval und weiterer texttechnologischer bzw. computerlinguistischer Anwendungen, z.B. der Erkennung und Extraktion von Fachtermen, verwendet. Da sie keine genuin korpuslinguistischen Instrumente sind, gehen wir nur in einem Exkurs auf sie ein. Exkurs: Quantitative Verfahren im Information Retrieval Das Ziel des Information Retrieval ist es, auf die Anfrage eines Benutzers die Dokumente zu finden und zu pr¨ asentieren, die vermutlich die vom Benutzer gesuchten Informationen enthalten. Sie alle kennen dies von den Suchmaschinen des World Wide Web. Ein Problem, das die Suchergebnisse negativ beeinflusst, ist, dass sehr oft die W¨ orter der Suchanfrage in Dokumenten nicht vorhanden sind, obwohl form¨ ahnliche oder bedeutungs¨ ahnliche W¨ orter vorkommen. W¨ urden diese ebenfalls als Treffer erkannt, dann w¨ urden auch diese, f¨ ur die Anfrage relevanten, Dokumente gefunden. Wir wollen hier kurz den n-Gramm-Ansatz f¨ ur das Auffinden form¨ ahnlicher W¨ orter und auf die latente semantische Analyse f¨ ur das Auffinden bedeutungs¨ ahnlicher W¨ orter eingehen. N-Gramme: Vorkommensh¨ aufigkeiten von n-Grammen linguistischer Einheiten k¨ onnen dazu verwendet werden, form¨ ahnliche W¨ orter in Anfrage und Text aufeinander abzubilden. Es kann sich dabei um Folgen von 1, 2, 3, . . . n Phonemen, Graphemen etc. handeln. Nehmen wir an, dass in einem Text Operationen am offenen Herzen vorkommt. In der Suchanfrage wird der Term Herzoperation verwendet. Bei einfachem Abgleich der W¨ orter w¨ urde das Dokument, das doch immerhin relevant erscheint, nicht gefunden. Beide Zeichenketten haben aber acht Trigramme gemeinsam He, Her, erz, per, era, ati, tio, ion, also ca. 90 Prozent der Trigramme der k¨ urzeren Zeichenkette. Das n-Gramm- Verfahren ist eine M¨ oglichkeit, der Schreibvarianten bei vielen W¨ ortern und Termen Herr zu werden. N-Gramm-Modelle werden ausf¨ uhrlich in Jurafsky und Martin (2008), Kap. 4 behandelt. Latent-semantische Analyse: Um semantisch ¨ ahnliche W¨ orter in Anfrage und Dokumenten aufeinander abzubilden, wird aus dem Vorkommen von Termen in Dokumenten deren ¨ Ahnlichkeit bestimmt. Ist ein Term in der Anfrage einem Term in einem Dokument semantisch ¨ ahnlich, dann steigert dies die Relevanz dieses Dokumentes f¨ ur die Anfrage. 45 Zeichenketten sind das Ergebnis der Segmentierung von Texten, s. Kapitel 4. Da Texte meist in W¨ orter zerlegt werden, k¨ onnte man stattdessen auch von W¨ortern sprechen. Zeichenkette ist aber der pr¨ azisere Ausdruck. 46 Siehe hierzu Kapitel 6. 36 2 Die Quellen linguistischer Erkenntnis Eine Matrix ist eine Tabelle mit Zeilen und Spalten. Im Fall einer Term-Dokument- Matrix nimmt jedes Wort eine Zeile ein und jeder Text eine Spalte. Die folgenden, sehr kurzen Texte: (15) Miliz verhaftet Terroristen nach Anschlag (= Text 1) (16) Terroristen ver¨ uben Anschlag (= Text 2) k¨ onnen wie links als Matrix repr¨ asentiert werden (vgl. rechts in explizitem Tabellenformat): Wort Text 1 Text 2 Miliz (1,0) Miliz 1 0 verhaftet (1,0) verhaftet 1 0 Terroristen (1,1) Terroristen 1 1 nach (1,0) nach 1 0 Anschlag (1,1) Anschlag 1 1 ver¨ uben (0,1) ver¨ uben 0 1 Hat man viele Dokumente vorliegen, und damit viele verschiedene Wortformen, dann entsteht eine sehr große Matrix (mit m Zeilen f¨ ur m Wortformen und n Spalten f¨ ur n Dokumente). Die Matrix enth¨ alt viele Leerstellen, d.h. Nullvorkommen, da die meisten W¨ orter in den meisten Texten nicht vorkommen. Die sogenannte Singul¨ arwertzerlegung als mathematische Operation ¨ uber Matrizen 47 bietet die M¨ oglichkeit, solche großen Matrizen auf einige Hundert Dimensionen (= Zeilen und Spalten) zu verkleinern, bei optimaler Erhaltung der in ihnen kodierten Informationen. Intuitiv l¨ asst sich der Effekt dieser Verkleinerung wie folgt beschreiben: Ein Term, der in einem bestimmten Text nicht vorkommt, daf¨ ur aber gemeinsam (in anderen Texten) mit vielen Termen vorkommt, die f¨ ur diesen Text relevant sind, erh¨ alt Gewicht auch f¨ ur diesen Text, in dem er, wie gesagt, gar nicht vorkommt. Terme wiederum, die in diesem Text zwar vorkommen, aber keine enge Beziehung zu den anderen, f¨ ur diesen Text relevanten Termen haben, werden heruntergewichtet. So kann es sein, dass der Term Nabe f¨ ur einen Text ¨ uber Fahrr¨ ader ein relativ hohes Gewicht erh¨ alt, obwohl er gar nicht darin vorkommt, wohl aber oft in der Nachbarschaft von Speiche, Felge etc. Der Effekt dieser Terme und Dokumente verkn¨ upfenden Matrix ist also, dass auch der Text ¨ uber Fahrr¨ ader als relevant angezeigt wird, obwohl das Wort Nabe nicht in ihm vorkommt. Deshalb eignet sich dieses Verfahren f¨ ur die Informationserschließung, wo es um die ¨ Ahnlichkeit von Suchanfrage und Zieldokument geht. Dort ist dieses Verfahren unter dem Namen Latent-semantische Indexierung bekannt. Es eignet sich aber auch f¨ ur die Ermittlung der semantischen ¨ Ahnlichkeit von W¨ ortern. Dort tr¨ agt das Verfahren den Namen Latent-semantische Analyse. In unserem Zusammenhang ist es wichtig, dass bei diesen Verfahren weder eine linguistische Analyse der Textkorpora noch eine linguistische Analyse der resultierenden Daten erfolgt 48 . 47 Zum mathematischen Hintergrund vgl. Berry et al. (1999). 48 Zur Einf¨ uhrung in die latent-semantische Analyse empfiehlt sich die Lekt¨ ure von Landauer und Dumais (1997) (theoretischer Hintergrund) und Landauer et al. (1998) (Anwen- 2.5 Weiterf¨ uhrende Literatur 37 2.4.2 Der korpusbasierte, quantitativ-qualitative Ansatz Dieser Ansatz ist dem soeben beschriebenen sehr ¨ ahnlich. Wie wir weiter oben gezeigt haben, wird auch in diesem, dem Kontextualismus verpflichteten Forschungsprogramm das Korpus exhaustiv analysiert. Es bildet die ausschließliche Basis f¨ ur linguistische Untersuchungen, andere Quellen wie Experimente und Sprecherbefragungen werden ausgeschlossen. Die Beobachtung des Sprachgebrauchs bildet die Hauptquelle der linguistischen Erkenntnis. Ein wichtiger Unterschied zu dem vorherigen Ansatz ist es, dass hier die Daten, die aus Korpora abgeleitet sind, nicht uninterpretiert bleiben. Zur Interpretation der Daten werden, zumindest bei einigen Vertretern des Kontextualismus, grammatische Kategorien herangezogen, die nicht aus den Daten selber abgeleitet wurden. Auch hat der Kontextualismus den Anspruch, etwas ¨ uber das Sprachsystem (einer Einzelsprache) auszusagen. Wie dies durch Generalisierung der Beobachtungsdaten gelingen kann, das wird allerdings nicht thematisiert. Wir werden in einem sp¨ ateren Kapitel auf korpusbasierte Untersuchungen im Rahmen dieses Forschungseinsatzes eingehen. Der gr¨ oßte Nutzen dieser Art von Korpuslinguistik konnte bisher in der Lexikographie, in der ¨ Ubersetzungswissenschaft und f¨ ur den Fremdsprachunterricht erzielt werden 49 . Auch f¨ ur sprachkritische Untersuchungen erwies sich der Ansatz als fruchtbar. 2.4.3 Der korpusgest ¨ utzte Ansatz Sprachtheorien im Geiste der generativen Grammatik ber¨ ucksichtigen Korpusdaten, wenn ¨ uberhaupt, dann nur als zus¨ atzliche Quelle der Evidenz. Wenn Korpora herangezogen werden, dann sind sie nicht als Ganzes interessant. Es wird in ihnen gezielt nach relevanten (meist syntaktischen) Konstruktionen gesucht, um Voraussagen, die aus einer Theorie folgen, zu best¨ atigen oder zu widerlegen. Dabei ist der Status oder Wert solcher e-sprachlichen Belege umstritten. Erschwerend kommt hinzu, dass in den Korpora oft nach relativ komplexen Konstruktionen aus lexikalischen und grammatischen Elementen, die hohe Variabilit¨ at haben k¨ onnen, gesucht werden muss. Dem sind die meisten Korpusabfragesprachen nicht gewachsen. Die Benutzung eines Korpus gleicht also oftmals der Suche nach einer Nadel im Heuhaufen. Auch dies tr¨ agt sicher nicht zur Akzeptanz von Korpora in der generativen Grammatik bei 50 . 2.5 Weiterf ¨ uhrende Literatur Der theoretische Hintergrund der modernen Korpuslinguistik wird leider nur sehr selten thematisiert. Ein paar Seiten hierzu finden sich bei McEnery und Wilson (1996), Kapitel 1. Paprott´e geht in zwei Aufs¨ atzen etwas genauer auf diese Fragen ein (Paprott´e, dungen). Eine hervorragende, wenn auch recht anspruchsvolle Einf¨ uhrung in das Thema ist Widdows (2004). Mittlerweile gibt es auch eine recht erfolgreiche, an Wikipedia-Daten entwickelte ”Explicit Lexical-Semantic Analysis“, vgl. Grabilovich und Markovitch (2007). 49 Vgl. z.B. die Fallstudien in Tognini-Bonelli (2001). 50 In den letzten Jahren ist hier jedoch ein Wandel zu beobachten, s. z.B. Bresnan et al. (2007) und Beitr¨ age der Tagung Linguistic Evidence, vgl. z.B. Kepser und Reis (2008). 38 2 Die Quellen linguistischer Erkenntnis 1992, 1994). Ein lebendiges Bild der linguistischen Szene und ihrer K¨ ampfe vermittelt das Buch ”The linguistic wars“ (Harris, 1995). Dieses Buch eignet sich aber eher als Bettlekt¨ ure denn als Referenzwerk. Der fr¨ uhe Chomsky wird in einem Handbuchartikel von Karlsson (2008) analysiert. ¨ Uber die Positionen des Kontextualismus gibt Tognini- Bonelli (2001) Auskunft. Von diesem Buch haben wir die Unterscheidung in korpusbasierte und korpusgest¨ utzte Untersuchungen ¨ ubernommen. Die Autorin argumentiert allerdings ganz aus der Sicht des Kontextualismus und ist insofern anderen Ans¨ atzen gegen¨ uber nicht immer ganz fair. In einem von Svartvik herausgegebenen Band eines hochkar¨ atigen Symposiums (Svartvik, 1992) werden methodische Fragen reflektiert. Einige dort versammelte Aufs¨ atze aus diesem Band sind aus dieser Perspektive besonders ergiebig (vor allem Fillmore, 1992; Chafe, 1992; Halliday, 1992; Leech, 1992). McEnery und Hardie (2012) stellen den korpusgest¨ utzten (’corpus-based‘ ) und den korpusbasierten (’corpus-driven‘ ) Ansatz ausf¨ uhrlich gegen¨ uber und widersprechen den Ansichten von Tognini-Bonelli grunds¨ atzlich. Schon deshalb ist dieses Buch im Anschluss an letzteres sehr lesenswert. Schließlich sei noch auf die von Sampson und McCarthy (2004) herausgegebene Aufsatzsammlung hingewiesen, in der viele der hier angeschnittenen Fragen ausf¨ uhrlicher behandelt werden. 2.6 Aufgaben 1. Welche der folgenden Aussagen sind empirisch begr¨ undet und welche rationalistisch: a) Der Satz Wo sollen wir treffen? ist ungrammatisch. b) Ein Satz wie Wo sollen wir treffen? resultiert aus einem typischen Fehler englischer Lerner des Deutschen bei der Verwendung des Verbs treffen. c) Der Kopf einer Nominalphrase ist das Nomen. d) Instruktive Texte (z.B. Kochrezepte) enthalten ¨ uberdurchschnittlich viele Befehlsformen. e) Es gibt im Deutschen f¨ unfzehn Dialekte. f) In der Tiefenstruktur des deutschen Satzes steht das finite Verb am Satzende. Bei einigen Satztypen wird es bei der Realisierung der Oberfl¨ achenstruktur an Zweitposition verschoben. g) Kollokationen sind Paare von W¨ ortern, die ¨ uberdurchschnittlich h¨ aufig miteinander vorkommen. h) Hartes Leben ist eine Kollokation. F¨ ur die Beantwortung welcher Frage ben¨ otigen Sie ein Korpus? 2. Welche Gr¨ unde sprechen dagegen, von Performanzdaten auf die Kompetenz der Sprecher zu schließen? Sind die Probleme, die solche Schl¨ usse mit sich bringen, dadurch behebbar, dass man ein gr¨ oßeres oder variantenreicheres Korpus w¨ ahlt? 3. Stellen Sie die Unterschiede zwischen dem korpusbasierten Forschungsansatz und dem korpugest¨ utzten Forschungsansatz dar. F¨ ur welche Arten linguistischer Untersuchungen eignet sich der korpusbasierte Ansatz eher, f¨ ur welche der korpusgest¨ utzte? 3 Der Stein der Weisen? — Linguistische Korpora Am Ende dieses Kapitels kennen Sie die wichtigsten Merkmale linguistischer Korpora und wissen, was diese von anderen linguistischen Datensammlungen unterscheidet. Sie k¨ onnen die drei Datenebenen von Korpora benennen und wissen, welche Probleme man auf den verschiedenen Ebenen ber¨ ucksichtigen muss. Sie k¨ onnen schließlich im Rahmen Ihrer eigenen Untersuchung Antworten auf drei schwierige methodologische Fragen formulieren: Wie verh¨ alt sich mein Korpus zum Gegenstand, den ich eigentlich untersuchen will? Was mache ich, wenn ich im Korpus etwas nicht finde, was ich suche und beschreiben m¨ ochte, und umgekehrt: Was mache ich, wenn ich etwas finde, was es nach einer bestimmten Sprachtheorie eigentlich gar nicht geben d¨ urfte? Sie sind nun f¨ ur eigene linguistischen Untersuchungen an Korpora gut ger¨ ustet! 3.1 Definition und Abgrenzung In diesem Abschnitt wollen wir die Definition von Korpus aus der Einleitung weiter pr¨ azisieren. Definition 1 (Korpus). Ein Korpus ist eine Sammlung schriftlicher oder gesprochener ¨ Außerungen in einer oder mehreren Sprachen. Die Daten des Korpus sind digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte oder ¨ Außerungsfolgen, bestehen aus den Daten selber sowie m¨oglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind. Wenn wir von linguistischen Korpora sprechen, dann in dem Sinne, dass es sich • um Textsammlungen mit kompletten Texten oder zumindest mit sehr großen Textausschnitten handelt. Außerdem sind linguistische Korpora oft, aber nicht immer • repr¨ asentativ f¨ ur den Gegenstand, auf den sie sich beziehen, • durch Metadaten erschlossen, • linguistisch annotiert. Das erste Kriterium qualifiziert Korpora als solche und unterscheidet sie von anderen Sammlungen linguistischer Daten. Die Grenze zwischen Korpora im engeren Sinn und 40 3 Linguistische Korpora anderen Datensammlungen ist aber nicht absolut. So werden, wie wir in Abschnitt 7.4 zeigen, große Webkorpora aus urheberrechtlichen Gr¨ unden in S¨ atze zerlegt und diese S¨ atze nach dem Zufallsprinzip angeordnet. Die einzelnen Texte lassen sich somit nicht mehr rekonstruieren. Dennoch sind diese Korpora im weiteren Sinn dazu verwendbar, um linguistische Theorien oder Hypothesen zu ¨ uberpr¨ ufen, sofern diese sich auf Ph¨ anomene beziehen, die man innerhalb der Grenzen eines Satzes beobachten kann. Die anderen Merkmale zeichnen vor allem gr¨ oßere Korpora aus, nicht aber die vielen kleineren Korpora, die im Rahmen einer einzelnen Untersuchung gebildet wurden. Die meisten modernen Korpora bestehen aus einer Sammlung vollst¨ andiger Texte oder Gespr¨ ache, z.B. aus Zeitungsartikeln oder Chatprotokollen. Texte k¨ onnen sehr kurz sein, zum Beispiel bei SMS oder Tweets, deren L¨ ange aus technischen Gr¨ unden auf unter 200 Zeichen begrenzt sind 1 . Andere Texte sind sehr lang, zum Beispiel bei Romanen. Wichtig ist es f¨ ur viele linguistische Untersuchungen, dass der Textausschnitt um ein bestimmtes Ph¨ anomen herum groß genug ist, damit zum Beispiel pronominale und kontextuelle Bez¨ uge aufgel¨ ost werden k¨ onnen. Deshalb wird auch meist nicht ein einzelner Satz, sondern eine gr¨ oßere Textsequenz untersucht. In den sechziger Jahren, als das Brown Corpus (’A Standard Corpus of Present-Day American English‘ ) entstand, war die Digitalisierung und Speicherung vieler langer Texte nicht m¨ oglich. Die Ersteller dieses Korpus, Henry Kuˇcera und Nelson Francis, entschieden sich deshalb daf¨ ur, von f¨ unfhundert Texten unterschiedlicher Textsorten jeweils einen Ausschnitt von 2000 W¨ ortern aufzunehmen. Auch wenn viele der aufgenommenen Texte deshalb nicht vollst¨ andig sind, repr¨ asentieren sie einen hinreichend großen Ausschnitt an fortlaufendem Text, und die Leistung ist f¨ ur die damalige Zeit beachtlich 2 . Auf die weiteren Kriterien, Metadaten und Repr¨ asentativit¨ at, gehen wir in den folgenden Abschnitten dieses Kapitels ein. Der linguistischen Annotation sind zwei eigene Kapitel gewidmet (Kapitel 4 und 5). Die genannten Kriterien bzw. Anforderungen an linguistische Korpora sind geeignet, diese von anderen Sammlungen sprachlicher Daten abzugrenzen. 3.1.1 Korpora f ¨ ur nicht-linguistische Zwecke Einige Korpora, wie das Corpus Iuris Civilis und das Corpus Iuris Canonici versammeln juristische Texte, deren Erforschung vor allem f¨ ur Rechtshistoriker von Interesse ist. Hinter Namen wie Corpus Christianorum verbergen sich Sammlungen von Texten der christlichen Kirchengeschichte. Auf dem weltlichen Gebiet gibt es große Archive literarischer Texte, deren Urheberrecht verfallen ist 3 . Das bekannteste Projekt ist das Projekt Gutenberg, in dem Freiwillige klassische literarische Texte elektronisch erfassen 4 . Auch das Projekt digitale Bibliothek 5 f¨ allt unter diese Kategorie, die wir Textarchiv nennen wollen. Texte aus der Zeit von 1 Eine von Louvain ausgehende Initiative baut in mehreren L¨ andern, u.a. in der Schweiz, zurzeit SMS-Korpora auf, s. http: / / www.sms4science.ch. 2 Vgl. Kuˇcera und Francis (1967), Introduction. 3 Die Urheberrechte eines Autors bzw. seiner Erben verfallen siebzig Jahre nach dem Tod des Autors, jedenfalls nach deutschem Recht. 4 Die Adresse des deutschen Gutenberg-Projekts lautet: http: / / gutenberg.spiegel.de/ . 5 Die Adresse lautet: http: / / www.digbib.org/ . 3.1 Definition und Abgrenzung 41 1650 bis 1900 werden zurzeit in gr¨ oßerem Umfang im Projekt Deutsches Textarchiv an der Berlin-Brandenburgischen Akademie der Wissenschaften digitalisiert und der Forschung zur Verf¨ ugung gestellt 6 . Solche Texte sind selbstverst¨ andlich auch f¨ ur linguistische Untersuchungen brauchbar und n¨ utzlich, zum Beispiel wenn man die Existenz oder Verbreitung eines bestimmten sprachlichen Ph¨ anomens in einem bestimmten Sprachstadium nachweisen m¨ ochte. Der urspr¨ ungliche Zweck dieser Archive ist aber vor allem, die dort digital erfassten und gespeicherten Texte zu sichern, auf einem Medium, dass hoffentlich best¨ andiger ist als Papier. 3.1.2 Linguistische Belegsammlungen Dar¨ uber hinaus gibt es zu lexikographischen und linguistischen Zwecken angelegte Belegsammlungen. • Die bekannteste Belegsammlung ist sicher die Duden-Sprachkartei 7 . In ihr wurden fr¨ uher mechanisch, heute elektronisch Belege zu den W¨ ortern erfasst, die in den W¨ orterb¨ uchern der Duden-Reihe gebucht sind. • In der Wortwarte 8 sind gut 60 000 zwischen 2000 und heute neu gepr¨ agte W¨ orter, jeweils mit mindestens einem Beleg, erfasst. Auch das Institut f¨ ur deutsche Sprache verf¨ ugt ¨ uber eine elektronische Kartei mit Neologismen 9 . Dies sind lexikalisch orientierte Belegsammlungen. Ihnen vergleichbar sind Sammlungen von Belegen syntaktischer Muster, wie die Testsatzsammlung von Stefan M¨ uller 10 , die von Istvan Bator´ı und Martin Volk aufgebaute Grammatiktestumgebung 11 , die Sammlung suboptimaler syntaktischer Strukturen von Wolfgang Sternefeld u.a. 12 sowie die Collection of Distributionally Idiosyncratic Items (CoDII) 13 . Der Vorzug dieser Satzsammlungen ist, dass sprachliche Ph¨ anomene dokumentiert werden k¨ onnen, die in Korpora nur selten oder gar nicht vorkommen 14 . Bei vielen linguistischen Untersuchungen wird mit Belegsammlungen gearbeitet, die f¨ ur den Zweck dieser Untersuchung aus den verwendeten Korpora extrahiert wurden. Diese Belegsammlungen bilden oft die Basis qualitativer Analysen, w¨ ahrend das gesamte Korpus vor allem f¨ ur quantitative Analysen herangezogen wird. Wir werden in Kapitel 8 solche Untersuchungen im Detail beschreiben. 6 http: / / www.deutschestextarchiv.de. 7 Vgl. Scholze-Stubenrecht (2002). Diese Kartei nennen wir hier als ein Beispiel unter vielen. Auch anderen große W¨ orterbuchprojekte wie das Deutsche W¨orterbuch, gegr¨ undet von den Gebr¨ udern Grimm, oder das Oxford English Dictionary verf¨ ugen ¨ uber große Belegsammlungen. 8 Adresse: www.wortwarte.de. 9 Vgl. Herberg et al. (2004), S. XVI f. 10 Adresse: http: / / hpsg.fu-berlin.de/ Software/ TS/ . 11 N¨ aheres hierzu unter http: / / www.zora.uzh.ch/ 19140/ sowie in Volk (1995). 12 Siehe www.tcl-sfs.uni-tuebingen.de/ ~kepser/ papers/ tlt2004.pdf/ . 13 Siehe http: / / www.lingexp.uni-tuebingen.de/ sfb441/ a5/ codii/ info-bw-de.xhtml. 14 Generell zu diesem Thema s. Bergh und Zanchetta (2008). 42 3 Linguistische Korpora 3.1.3 Ist das World Wide Web ein Korpus? Eine Frage, die immer wieder gestellt wird, lautet: Ist das World Wide Web ein Korpus? Einige Korpuslinguisten, die diese Frage aufgeworfen haben, beantworten diese Frage mit ”Ja“ 15 . In der Tat kann man in World Wide Web große Mengen authentischer Texte in allen m¨ oglichen Sprachen finden 16 . Wenn es lediglich um die Datenmenge geht, dann ist das World Wide Web eine gute Quelle f¨ ur linguistische Untersuchungen. Es muss aber zum Beispiel das Problem gel¨ ost werden, deutschsprachige Texte zu finden 17 , d.h. diese von den Texten oder Textteilen in anderen Sprachen zu trennen. Dann ist es keineswegs leicht, fortlaufenden Text von text¨ ahnlichen Artefakten wie Tabellen oder Teilen von Programmcode zu trennen. Schließlich gibt es kaum Daten ¨ uber die Herkunft, den Entstehungszeitpunkt oder die Autorschaft von Texten. Solche so genannten Metadaten, auf die wir im n¨ achsten Abschnitt genauer eingehen werden, sind im World Wide Web in seinem heutigen Zustand kaum zu finden 18 . F¨ ur viele sprachstatistische Untersuchungen liegt der Vorrang in der Verf¨ ugbarkeit großer Datenmengen, egal welcher Herkunft. Wer genauer beschriebene Daten f¨ ur qualitative linguistische Untersuchungen ben¨ otigt, kann das World Wide Web als Quelle nutzen, sollte aber einiges an Aufwand f¨ ur die Bereinigung und Beschreibung dieser Daten einplanen. Problematisch wird die Benutzung des WWW als Textkorpus, wenn man nach seltenen Konstruktionen sucht oder nach Beispielen, ¨ uber deren Grammatikalit¨ at man im Unklaren ist. Man findet dann tats¨ achlich oft solche Beispiele, aber wenn man genauer hinsieht, merkt man, dass sie in online verf¨ ugbaren linguistischen Texten auftreten und im Text dann oft als ungrammatische Beispiele angef¨ uhrt und diskutiert werden. Eine andere Quelle der Unsicherheit sind Texte, die von Nicht-Muttersprachlern der jeweiligen Sprache verfasst wurden. Die oben gestellte Frage sollte wie folgt ver¨ andert werden: Lassen sich Teile der im WWW verf¨ ugbaren Daten sinnvoll als Korpora f¨ ur linguistische Untersuchungen nutzen? Als solche kann man sie momentan mit ”Ja, aber. . . “ beantworten. Dass dieses Thema Linguisten besch¨ aftigt, darauf deutet u.a. die Publikation von zwei Sammelb¨ anden zu diesem Thema hin (Baroni und Bernardini, 2006; Hundt et al., 2007). Darin geht es sowohl um organisatorische und methodische Probleme bei der Nutzung von Web-Daten f¨ ur linguistische Korpora als auch um konkrete Projekte. Serge Sharoff schließlich zeigt 15 ”The answer to the question ’Is the web a corpus‘ is yes.“ (Kilgarriff und Grefenstette, 2003, S. 334). 16 Nach einer gut begr¨ undeten Sch¨ atzung von Grefenstette und Kilgarriff aus dem Jahr 2000 fand man damals im World Wide Web Texte im Umfang von gut 3 Milliarden W¨ orter. Selbst f¨ ur Sprachen wie Baskisch konnte man von einem Volumen von weit ¨ uber 50 Millionen Textw¨ orter ausgehen, vgl. Kilgarriff und Grefenstette (2003), S. 337ff. und Tabellen 2 und 3. 17 Genauer, und noch schwieriger: In einem Korpus der deutschen Sprache sollten nur Texte von Muttersprachlern vertreten sein. Dies ist bei der Zusammenstellung eines Webkorpus beim heutigen Stand der Texte sehr schwer, wenn nicht gar unm¨ oglich zu kontrollieren. 18 Diese Situation beginnt sich aber zu bessern, was mit den Bem¨ uhungen innerhalb der WWW- Gemeinschaft zu tun hat, mittels verschiedener Datenbeschreibungssprachen wie XML, RDF, RSS etc., die die Beschreibung von Texten, die ins Web gestellten werden sollen, erleichtern. 3.2 Prim¨ ardaten und Metadaten 43 in einem Aufsatz (Sharoff, 2006) und auf einer Webseite 19 , wie man mit relativ wenig Aufwand ein Korpus aus Webtexten einer bestimmten Sprache zusammenstellen kann. Im folgenden Abschnitt werden wir auf die verschiedenen Typen von Daten eingehen, aus denen ein linguistisches Korpus bestehen kann. 3.2 Prim¨ ardaten und Metadaten Im einfachsten Fall besteht ein Korpus lediglich aus den Daten, die in diesem Korpus erfasst wurden, den Prim¨ ardaten. In einem guten Korpus findet man außerdem Daten, die ¨ uber die Herkunft dieser ¨ Außerungen bzw. Texte und ¨ uber einiges mehr Auskunft geben. Wir werden diese Daten Metadaten nennen. Schließlich wurden und werden Korpora linguistisch annotiert, die linguistischen Einheiten werden also mit ihren linguistischen Beschreibungen verbunden. Dies werden wir Annotation nennen 20 . 3.2.1 Prim¨ ardaten Aus der Tatsache, dass Texte in ein Korpus aufgenommen werden, k¨ onnte man zun¨ achst schließen, dass man hier ein getreues Abbild dieser Texte hat. Dies ist nicht der Fall und man sollte sich dessen bei der Benutzung eines Korpus immer bewusst sein. Wir nennen hier nur einige Beispiele, die f¨ ur linguistische Untersuchungen problematisch werden k¨ onnten: • Es ist wohl am offensichtlichsten, dass die Transkriptionen gesprochener ¨ Außerungen immer Vereinfachungen und damit Interpretationen sind 21 . Die f¨ ur das Sprechen so wichtigen begleitenden parasprachlichen Signale, wie z.B. Gestik oder Mimik, und auch einige sprachliche Signale wie die Tonh¨ ohe sind nur schwer oder auch gar nicht in das geschriebene Medium zu ¨ ubertragen. Im Zweifelsfall helfen nur Videoaufnahmen, die Bild und Ton einer ¨ Außerungssituation exakt wiedergeben. • Eigenschaften von Texten, die nicht sprachlich motiviert sind, wie die Worttrennung am Zeilenende 22 oder Schrifttyp, Schriftschnitt und Schriftgr¨ oße des Originaltextes werden bei der ¨ Ubernahme eines Textes in ein Korpus oft stillschweigend ausgeblendet. Dies kann vereinzelt zu Problemen f¨ uhren, z.B. wenn nicht rekonstruiert werden kann, ob ein Strich am Zeilenende ein Trennstrich oder zus¨ atzlich ein Bindestrich sein soll (Ist 4-(Umbruch)t¨ urig auf 4t¨ urig oder auf 4-t¨ urig zur¨ uckzuf¨ uhren? ). Solche Mehrdeutigkeiten als Ergebnis des Ausblendens der Silbentrennung am Zeilenende sind eher selten, aber nicht auszuschließen. • Will man die Informationsverteilung in Texten untersuchen, dann kann es wichtig sein zu wissen, dass ein Teil eines Textes in der Originalquelle auf der Titelseite, der Rest des Textes im Zeitungsinneren gedruckt wurde. Diese Aufteilung kann dazu f¨ uhren, dass der Text so aufgebaut wurde, dass der Leser zum Weiterlesen des Textes im Heftinneren angeregt wird. In einem guten Korpus ist diese kontextuelle Information vermerkt, man kann aber nicht immer damit rechnen. 19 Die Adresse: http: / / corpus.leeds.ac.uk/ internet.html. 20 Vgl. ausf¨ uhrlich Kapitel 4. 21 Vgl. hierzu Schmidt (2005) sowie Draxler (2008), S. 173f. 22 Die Worttrennung am Zeilenende sollte allerdings sprachlichen Normen folgen. 44 3 Linguistische Korpora In vielen F¨ allen wird man nicht umhin k¨ onnen, sich das Original des Textes anzusehen und so die nicht-sprachlichen Informationen zu erschließen. In einigen industriellen Archivierungsprojekten ist aus juristischen Gr¨ unden ¨ ublich, nur das gescannte Bild eines Dokumentes aufzuheben, nicht jedoch den durch OCR-Software 23 digitaliserten Text 24 . 3.2.2 Metadaten Metadaten sind Daten ¨ uber Daten. Genauer, und in unserem Zusammenhang passender: Metadaten sind Daten, die verschiedene Aspekte einer Informationsressource beschreiben. Die Informationsressource kann z.B. ein Text sein, eine Textsammlung, eine Tonaufnahme oder ein Video. Die Aspekte, unter denen eine Informationsressource beschrieben werden kann, sind z.B. ihr Inhalt, das Tr¨ agermedium, die Art der Kodierung, die Autoren und andere bei der Produktion beteiligte Personen, der Zeitpunkt der Entstehung 25 . Metadaten sind entweder Bestandteil der Daten, die sie beschreiben - dies ist zum Beispiel bei den Titelseiten eines Buches der Fall - oder sie werden von den beschriebenen Daten getrennt erfasst und gespeichert - wie zum Beispiel bei Karteikarten in Bibliotheken. Man spricht im letzteren Fall von dem Metadatenobjekt als Stellvertreter des eigentlichen Informationsobjekts. Die Bedeutung von Metadaten ist umso gr¨ oßer, je schwerer zug¨ anglich die Prim¨ ardaten sind. Funktionen von Metadaten Metadaten erf¨ ullen die folgenden Funktionen: • Sie dokumentieren vor allem kontextuelle Aspekte der Entstehung und Entwicklung des beschriebenen Objekts. Diese Informationen sind den meisten sp¨ ateren Benutzern anders nicht zug¨ anglich. Zu den dokumentierten Aspekten etwa eines Textes geh¨ oren die Entstehungszeit, die Druckbzw. Publikationszeit, Publikationsort, beteiligte Personen usw. • Sie liefern den Schl¨ ussel zu den Prim¨ ardaten. Wenn die Filme in einem Filmarchiv mit den entsprechenden Metadaten versehen sind, dann k¨ onnen Sie dort alle Filme recherchieren, in denen Humphrey Bogart und Lauren Bacall zusammen auftraten. Sie m¨ ogen Woody Allen als Regisseur, nicht aber seine schauspielerischen Leistungen? Im Archiv sollten sich die Filme finden lassen, an denen Woody Allen mitwirkte, aber nur in der Rolle als Regisseur. F¨ ur Korpuslinguisten spielen nat¨ urlich andere Kriterien der zu untersuchenden Daten eine Rolle. Der dokumentierte Entstehungszeitpunkt von Texten (oder Tonaufnahmen) erlaubt es, Teilkorpora zusammenzustellen, die die Sprache einer bestimmten Epoche 23 OCR steht f¨ ur automatische Buchstabenerkennung (’optical character recognition‘ ). 24 Da es bei historischen Texten noch mehr als bei aktuellen Texten darauf ankommt, Eigenschaften des Schriftbildes, des Seitenlayouts usw. zu erfassen, stellt das Deutsche Textarchiv (mehr dazu in Kap. 7) neben den (digitalisierten) Texten auch die Scans der Buchseiten als Digitalisate zur Verf¨ ugung. Die Fundstelle zu einem Suchwort wird auf der entsprechenden Seite hervorgehoben, um die Suche auf dieser Seite zu erleichtern. 25 Unsere Darstellung ¨ uber Metadaten orientiert sich an Schmidt (2004). 3.2 Prim¨ ardaten und Metadaten 45 bzw. Sprachstufe dokumentieren (die deutsche Sprache der Goethezeit, die deutsche Sprache der Wendezeit, etc.) oder die Sprache einer bestimmten Region (das Oberschw¨ abische, die Sprache in der DDR). Der Fokus kann auf bestimmte Textsorten oder Genres gelegt werden (die Sprache von Gebrauchsanweisungen, Formen der H¨oflichkeit in Erpresserbriefen). Diese und einige andere Merkmale von Texten m¨ ussen entsprechend als Metadaten kodiert worden sein, damit solch pr¨ azise Definitionen von Teilkorpora m¨ oglich sind. Die Metadaten f¨ ur digitale Korpora und einzelne Texte, die Bestandteile von solchen Korpora sind, m¨ ussen den Umstand ber¨ ucksichtigen, dass m¨ oglicherweise zwei Informationsobjekte beschrieben werden m¨ ussen: 1. Das Informationsobjekt, auf das sich die Metadaten direkt beziehen, ist z.B. ein Text in seiner digitalen Form, der sich an einer bestimmten Stelle als Datei auf einem digitalen Datentr¨ ager (Festplatte, CD-ROM etc.) befindet, einen bestimmten Namen hat und dessen einzelne Zeichen einer bestimmten Konvention folgend kodiert, also in Bits und Bytes abgebildet wurden. 2. Das Informationsobjekt, aus dem die digitale Datei gewonnen wurde, z.B. durch Abtippen, Einscannen oder Einlesen eines Druckereidatentr¨ agers. Dies kann ein Zeitungsartikel sein, der in einer bestimmten Ausgabe einer Zeitung erschien, ein Text aus einem Kinderbuch, eine Tagebuchseite usw. Beide Informationsobjekte f¨ uhren ein getrenntes Dasein, und streng genommen beziehen sich die Metadaten, die wir hier meinen, nur auf das erste Informationsobjekt. Der digitalisierte Text kann zum Beispiel die Abschrift einer Geschichte aus einem Kinderbuch sein, das seitdem in einer neuen Auflage in neuer Rechtschreibung herausgegeben wurde. Es ist deshalb wichtig, in den Metadaten zu einem digitalisierten Text m¨ oglichst genau auf die Quelle dieses Textes, das Original, hinzuweisen. Es ist außerdem sinnvoll, in den Metadaten auf die Person hinzuweisen, die den Datensatz erstellt hat. Das sind dann Meta-Metadaten. Wenn Sie ein Korpus benutzen wollen, dann ist es wichtig zu erfahren, ob es Metadaten zu dem gesuchten Korpus gibt, welche Informationen diese enthalten, und ob Sie darauf Zugriff haben. Einige dieser Fragen werden wir in dem Kapitel, in dem wir einige deutsche Korpora beschreiben, individuell beantworten. Noch gibt es keine zentralen Stellen, wie etwa die Bibliotheken und ihre Kataloge, wo Sie separat in Metadaten zu Sprachressourcen suchen k¨ onnen. Einige Institutionen dieser Art sind aber im Aufbau 26 . 3.2.3 Metadaten f ¨ ur Ihr eigenes Korpus Wenn Sie selber ein Korpus aufbauen wollen, dann stellen sich die folgenden Fragen: Sollten Sie Ihre Daten mit Metadaten anreichern? Wenn ja, welches Format ist daf¨ ur am besten geeignet? Die erste Frage l¨ asst sich nicht generell beantworten. Sie sollten Ihre Korpusdaten mit Metadaten anreichern, wenn das Folgende f¨ ur Sie bzw. Ihre Daten zutrifft: 26 Zu nennen sind hier die Open Language Archives Community (OLAC); Adresse: http: / / www. language-archives.org/ , das zentrale Repositorium f¨ ur Sprachressourcen und sprachtechnologische Werkzeuge des CLARIN-Projekts (http: / / www.clarin.eu/ vlo) und das LAUDATIO-Repositorium (http: / / www.laudatio-repository.org/ repository/ ). 46 3 Linguistische Korpora • Sie sind nicht die einzige Person, die Daten zum geplanten Korpus beitr¨ agt; • Sie m¨ ochten Forschungsergebnisse mit dem Korpus in einer Weise belegen und dokumentieren, die f¨ ur die Leser Ihrer Arbeiten nachvollziehbar und nachpr¨ ufbar ist; • Sie werden voraussichtlich nicht der einzige Benutzer der Daten sein; • Sie m¨ ochten die M¨ oglichkeit haben bzw. schaffen, Teile der Daten nach bestimmten Kriterien auszuw¨ ahlen. Je mehr dieser Punkte auf Ihre Pl¨ ane zutreffen, um so dringender ist dazu zu raten, dass Sie sich mit der Erstellung von Metadaten vertraut machen. Wenn Sie eine kleine Menge von Daten f¨ ur eine begrenzte Untersuchung sammeln, die ¨ Uberpr¨ ufbarkeit Ihrer Thesen an einzelnen Texten nicht relevant ist und Sie diese Texte auch nicht anderen Forschern zur Verf¨ ugung stellen k¨ onnen oder wollen, dann ist der Aufwand, den Sie in die Erstellung von Metadaten stecken w¨ urden, wahrscheinlich zu hoch. Aber bedenken Sie: Es ist schwierig bis unm¨ oglich, Daten nachtr¨ aglich mit Metadaten zu versehen. Standards f ¨ ur Metadaten Die Interoperabilit¨ at zwischen Korpora und den f¨ ur ihre Analyse ben¨ otigten sprachtechnologischen Werkzeugen verbessert sich, wenn beide mit ausreichenden und geeigneten Metadaten beschrieben sind. Mit Interoperabilit¨ at ist Folgendes gemeint a) der Austausch von Korpora und die Bildung von Teilkorpora nach textexternen Kriterien, auch ¨ uber die Grenzen einzelner Korpora hinweg und b) die Nutzung weit verbreiteter sprachtechnologischer Werkzeuge f¨ ur beliebige Korpusdaten. Bei der Vergabe von Metadaten sollte man sich dabei an Standards halten. F¨ ur (linguistische) Korpora wurden verschiedene Metadaten-Standards entwickelt, die wir hier kurz vorstellen wollen. • Dublin Core Metadata Initiative 27 . Dublin Core (DC) ist ein Schema zur Beschreibung von elektronischen Ressourcen. Mittlerweile hat sich DC zu einem internationalen ¨ Ubereinkommen ¨ uber eine Kernmenge von Beschreibungsdaten entwickelt. Das sog. Dublin Core Metadata Element Set legt eine kleine, ¨ uberschaubare Menge von Metadaten-Elementen fest. Es k¨ onnen verschiedene Arten digitaler Objekte beschrieben werden, u.a. T¨ one (’sound‘ ), Bilder (’image‘ ) und Texte (’text‘ ). Kategorien zur Beschreibung von Informationsressourcen sind: Titel, Ersteller, Gegenstand, Beschreibung, Beitr¨ ager, Verlag, Rechte, Datum 28 . F¨ ur die Beschreibung von Korpora und Texten ist diese Metadatenmenge nur bedingt geeignet. Auch aus diesem Grunde hat die Open Language Archives Community (kurz: OLAC) die Dublin Core Metadaten um Angaben erweitert, die f¨ ur Sprachressourcen spezifisch sind 29 . • Der Metadatensatz der ISLE Metadata Initiative (IMDI) eignet sich im Prinzip f¨ ur Sprachressourcen aller Art, wird aber faktisch ¨ uberwiegend f¨ ur Korpora gesprochener Sprache und multimodale Korpora verwendet 30 . 27 Adresse: http: / / dublincore.org/ : ”The Dublin Core Metadata Initiative is an open forum engaged in the development of interoperable online metadata standards“. 28 Eine sehr knappe, aber n¨ utzliche Einf¨ uhrung finden Sie in der Wikipedia: http: / / de.wikip edia.org/ wiki/ Dublin_Core. 29 Siehe http: / / www.language-archives.org/ OLAC/ metadata.html. 30 IMDI ist unter http: / / www.mpi.nl/ IMDI/ beschrieben und dokumentiert. Dort finden sich auch einige Sprachressourcen-Projekte, die diese Metadaten verwenden. 3.2 Prim¨ ardaten und Metadaten 47 • Der Corpus Encoding Standard (CES) 31 . Der CES wurde federf¨ uhrend von der Expert Advisory Group on Language Engineering Standards (EAGLES) entwickelt. Wie der Name dieses von der EU gef¨ orderten Gremiums vermuten l¨ asst, ist dieser Metadatenstandard f¨ ur Korpora in sprachtechnologischen Projekten entwickelt worden. Dennoch ist der von CES definierte Metadatensatz auch f¨ ur die Beschreibung linguistischer Korpora geeignet. Dies h¨ angt unter anderem damit zusammen, dass dieser Standard sich an die Konventionen anlehnt, die die Text Encoding Inititiative (TEI) 32 f¨ ur ein breiteres Spektrum an Texten und Korpora aufgestellt hat. Die Kategorien des Corpus Encoding Standard sind im Großen und Ganzen eine Teilmenge der von der TEI definierten Kategorien, mit einigen wenigen f¨ ur die Sprachtechnologie relevanten Erweiterungen. • Die Component Metadata Infrastructure (CMDI) 33 versucht, die Proliferation verschiedenster Metadatenstandards f¨ ur Sprachressourcen dadurch zu ¨ uberwinden, dass Metadaten, die einen bestimmten Aspekt der Prim¨ ardaten beschreiben, als einzelne Komponenten angelegt werden k¨ onnen. Die einzelnen Bestandteile dieser Komponenten wiederum, also die einzelnen Datenelemente, k¨ onnen sich hinsichtlich ihres Namens und ihrer Bedeutung auf einen anderen Metadatenstandard beziehen, nur muss dies explizit gemacht werden. CMDI versteht sich also als ein ¨ ubergreifendes Informationsgebilde. Daten, die in den anderen Metadatenstandards vorliegen, k¨ onnen in CMDI konvertiert werden. Legt man einen neuen Metadatensatz an, dann schaut man zun¨ achst, ob es im Repositorium von CMDI-Komponenten bereits das f¨ ur die eigenen Daten passende Beschreibungsschema gibt, ansonsten muss man eine eigene Komponente entwickeln. Der Aufwand, Ressourcen mit CMDI zu beschreiben, ist etwas gr¨ oßer als bei den meisten anderen hier genannten Formaten. Der Gewinn ist, dass sich die Prim¨ ardaten leichter mit anderen Ressourcen vernetzen lassen. Wir werden im Folgenden kurz auf den Aufbau des CES-Metadatensatzes als ein Beispiel eingehen und verweisen im ¨ Ubrigen auf die oben genannten Webadressen 34 . Metadaten werden im Vorspann eines Textes oder eines ganzen Korpus abgespeichert, sie begleiten also in der Regel die eigentliche Informationsressource. Der Metadatensatz enth¨ alt einige wenige Felder, die ausgef¨ ullt werden m¨ ussen, und viele Felder, die ausgef¨ ullt werden k¨ onnen. In einem Feld namens cesHeader, welches den Metadatensatz einleitet, kann u.a. erfasst werden, welcher Typ von Informationsobjekt beschrieben wird, wer das Objekt beschrieben hat und welche Version der Metadaten vorliegt. Es handelt sich hierbei also um Meta-Metadaten. 31 Siehe http: / / www.cs.vassar.edu/ CES/ CES1.html. 32 Siehe http: / / www.tei-c.org/ : ”The Text Encoding Initiative (TEI) Guidelines are an international and interdisciplinary standard that facilitates libraries, museums, publishers, and individual scholars represent a variety of literary and linguistic texts for online research, teaching, and preservation.“. Im Zusammenhang der Korpuslinguistik sind vor allem die Kapitel 5 (’TEI Header‘ ) und 23 (’Language Corpora‘ ) von Interesse. 33 Siehe http: / / www.clarin.eu/ content/ component-metadata. 34 Einen guten und etwas ausf¨ uhrlicheren ¨ Uberblick ¨ uber Metadatenstandards f¨ ur Sprachressourcen gibt das Benutzerhandbuch des CLARIN-Projekts, das Sie unter http: / / de.clarin. eu/ en/ language-resources/ userguide.html finden (Text in Englisch). 48 3 Linguistische Korpora Der erste Teil des Metadatensatzes (’file description‘ ) beschreibt die bibliographischen Daten des (digitalisierten) Textes oder Korpus. Hierzu geh¨ oren u.a. der Titel, die Speichergr¨ oße der Datei, Informationen zur Ver¨ offentlichung der Datei sowie Informationen zur Originalquelle, aus der der Text oder das Korpus stammt. Der zweite Teil enth¨ alt Informationen zu Kodierung (’encoding‘ ) der Datei. In diesem Teil wird vor allem das Verh¨ altnis der beschriebenen Informationsressource zum Original beschrieben. Hier k¨ onnen außerdem allgemeine Bearbeitungsrichtlinien angegeben werden. Der dritte Teil enth¨ alt, unter der Bezeichnung Profil (’profile‘ ), eine Reihe zus¨ atzlicher Angaben zum beschriebenen Text. Hierzu geh¨ oren u.a. die Textklasse bzw. Textsorte, die Sprache oder Sprachen, in denen der Text verfasst ist, Hinweise auf ¨ Ubersetzungen des Textes und auf weitere Dateien, in denen auf diesen Text bezogene linguistische Annotationen gespeichert sind. Im vierten Teil der Metadaten kann schließlich die Revisionsgeschichte der Informationsressource verzeichnet werden, sofern Revisionen an dieser vorgenommen wurden. Der hier beschriebene Corpus Encoding Standard erlaubt eine reichhaltige Beschreibung von Korpora und von einzelnen Texten. Trotz der hohen Zahl an Beschreibungskategorien gen¨ ugt bereits die Angabe einiger weniger Kategorien, um die Metadaten eines Textes oder Korpus standardkonform zu machen. Der Standard eignet sich so auch f¨ ur kleinere Projekte und Korpora, bei denen um die Erstellung von Metadaten kein großer Aufwand getrieben werden kann. Seine Anwendung ist also auf jeden Fall eine ¨ Uberlegung wert. 3.3 Methodische Probleme und ihre L ¨ osung In den folgenden Abschnitten werden wir auf einige methodische Probleme eingehen, die es beim Aufbau und bei der Verwendung von Korpora zu beachten gilt. Zum Teil trugen diese methodischen Probleme zur Kritik seitens der generativen Linguisten an der Korpuslinguistik bei. Es ist deshalb wichtig, L¨ osungen f¨ ur diese Probleme zu entwickeln. 3.3.1 Repr¨ asentativit¨ at von Korpora Dieser Abschnitt diskutiert das Verh¨ altnis von Korpora und den Sprachausschnitten, den diese Korpora repr¨ asentieren. Dahinter steckt die Frage, inwieweit man Erkenntnisse, die man durch die Analyse von Korpusdaten gewonnen hat, auf den Sprachausschnitt, den das Korpus repr¨ asentieren soll, ¨ ubertragen kann. M¨ ochte man zum Beispiel Aspekte der deutschen Sprache der Gegenwart untersuchen, so hat man es bei diesem Untersuchungsobjekt zun¨ achst mit einem nicht pr¨ azise abgrenzbaren Ph¨ anomenbereich zu tun. Jeden Tag werden ¨ Außerungen in dieser Sprache get¨ atigt, und das meiste entgeht unserer Aufmerksamkeit. In der Terminologie der Statistik spricht man davon, dass die Grundgesamtheit, ¨ uber die man etwas aussagen m¨ ochte, nicht pr¨ azise definiert werden kann. Dies ist zum Beispiel bei Meinungsumfragen zum Wahlverhalten der Deutschen anders. Die Grundgesamtheit der wahlberechtigten Deutschen kann hinreichend genau bestimmt werden, um daraus Stichproben zu ziehen, die repr¨ asentativ f¨ ur die Grundgesamtheit sind. F¨ ur die Bestimmung der Stichproben werden Merkmale der Befragten 3.3 Methodische Probleme und ihre L¨ osung 49 wie Alter, Herkunft und Bildungsgrad herangezogen, deren Verteilung ¨ uber die gesamte Bev¨ olkerung ebenfalls bekannt ist. Dadurch lassen sich aus den Ergebnissen der Stichprobenbefragung Schl¨ usse auf die Gesamtheit ziehen, z.B. ¨ uber das Wahl- oder Kaufverhalten der Deutschen. In der Korpuslinguistik ist das Verh¨ altnis zwischen Stichprobe und Grundgesamtheit komplizierter. Zwar gibt es F¨ alle, in denen die Grundgesamtheit abgeschlossen ist, etwa bei den nicht mehr verwendeten und nur schriftlich ¨ uberlieferten Sprachen, Sprachstufen und Individualsprachen (z.B. das klassische Latein, das Mittelhochdeutsche oder die Sprache Schillers). Bei einer gegenw¨ artig verwendeten Sprache k¨ onnen wir das Verh¨ altnis von Stichprobe zu Grundgesamtheit nicht exakt bestimmen. Es ist zum Beispiel nicht zu ermitteln, wie groß der Anteil der Frages¨ atze an allen S¨ atzen des Deutschen ist. Entsprechend kann dieses Verh¨ altnis nicht in einem Korpus widergespiegelt werden. Dies macht vor allem quantitative Aussagen wie die, dass Modalpartikeln ¨ uberwiegend 35 in Frages¨ atzen vorkommen, schwer nachpr¨ ufbar: (1) Wurde das denn / ¨ uberhaupt untersucht? Qualitative Aussagen, etwa dass Modalpartikeln in Frages¨ atzen eine andere Funktion haben als in Aussages¨ atzen, sind leichter auf die repr¨ asentierte Gesamtheit ¨ ubertragbar, stehen aber ebenfalls unter dem Vorbehalt, dass in den untersuchten Daten noch nicht alle Funktionen der Modalpartikeln beobachtet werden konnten 36 . Es gibt mehrere M¨ oglichkeiten, mit dem Problem der Repr¨ asentativit¨ at von Korpora und der Verallgemeinerung von Aussagen umzugehen. Wir werden diese im Folgenden vorstellen. Beschr¨ ankung auf das Korpus Man kann nat¨ urlich alle Erkenntnisse, die man durch Beobachtung an einem Korpus gewinnt, allein auf dieses Korpus beziehen. Dies widerspricht aber normalerweise dem Forschungsinteresse der Korpuslinguistik 37 . In der Korpuslinguistik sollen Erkenntnisse gewonnen werden, die ¨ uber die beobachtete Datenmenge hinaus generalisierbar sind und so unsere Einsicht in die Funktion und Verwendung einer Sprache vertiefen. Erstellung eines ausgewogenen Korpus Eine weitere L¨ osung, die in der korpuslinguistischen Literatur vorgeschlagen wurde, ist, ein ausgewogenes Korpus zu erstellen 38 . Die Ausgewogenheit wird hier vor allem auf 35 In einer konkreten Untersuchung m¨ usste dieser Ausdruck nat¨ urlich noch in einen komparativen (z.B. h¨ aufiger als bei allen anderen Satztypen) oder einen skalaren Term (z.B. in mehr als 60 Prozent der F¨ alle) ¨ uberf¨ uhrt werden. 36 Es w¨ are z.B. m¨ oglich, dass diese Aussage auf Grund der Analyse eines Korpus der gesprochenen Sprache getroffen wurde, die Verh¨ altnisse in der geschriebenen Sprache aber andere sind. 37 Eine Ausnahme bilden Korpora, die den Gegenstand komplett abdecken, z.B. ein Korpus der Werke Schillers. 38 Vgl. Atkins et al. (1992). Die Autoren sprechen von einem ’balanced corpus‘ . Ausgewogenheit ist auch eines der Kriterien des Kernkorpus der deutschen Sprache des 20. Jahrhunderts, vgl. Geyken (2007). 50 3 Linguistische Korpora Textsorten bezogen. Der Weg zu einem ausgewogenen Korpus soll durch das Zusammenspiel von externen Kriterien und internen Kriterien erreicht werden. Zun¨ achst werden ¨ Außerungssorten nach externen Kriterien ausgew¨ ahlt, z.B. nach der Anzahl der beteiligten Personen (Rede, Interview, Schauspiel etc.) nach dem Grad der M¨ undlichkeit und Schriftlichkeit (spontanes Gespr¨ ach, abgelesene Rede, Chatprotokoll, Zeitungsartikel etc.), nach der Situation (formell, informell etc.) 39 . Diese Kategorien f¨ uhren zu einer Menge von Textsorten, deren Verteilung in der t¨ aglichen Kommunikation beobachtet bzw. gesch¨ atzt wird. Diese quantitativen Verh¨ altnisse der Textsorten zueinander werden in einem ersten Schritt des Korpusaufbaus im Korpus widergespiegelt. Es muss allerdings gesagt werden, dass bis heute kein wasserdichtes Verfahren existiert, die Textsorten einer Sprache zu einer gewissen Zeit zu ermitteln. Es wird vermutlich auch nie eines geben. Das Beste, was man erreichen k¨ onnen wird, ist eine pragmatische L¨ osung, auf die sich die Gemeinschaft beteiligter Korpuslinguisten einigt. Im Anschluss daran wird bei jeder ¨ Außerungssorte die Verteilung m¨ oglichst vieler linguistischer Ph¨ anomene beobachtet 40 . Am interessantesten sind dabei diejenigen Ph¨ anomene, die durch ihre H¨ aufigkeit und Verteilung f¨ ur eine Textsorte charakteristisch sind. So ist zum Beispiel die Textsorte Kochrezept charakterisiert durch eine hohe Frequenz von Aufforderungss¨ atzen: (2) Geben Sie nun etwas Zitronensaft in den Teig. und von befehlssatz¨ ahnlichem, subjektlosen Infinitiv-Konstruktionen: (3) Den Teig f¨ unf Minuten lang gut durchr¨ uhren. Die linguistischen Ph¨ anomene, die f¨ ur eine ¨ Außerungssorte charakteristisch sind, bilden das Profil interner Kriterien f¨ ur diese Sorte. Man sollte allerdings den Aufwand, der notwendig ist, um linguistische Ph¨ anomene in Korpora aufzufinden und quantitativ zu erfassen, nicht untersch¨ atzen. Es ist in jedem Falle schwierig, in manchen F¨ allen sogar unm¨ oglich, diese Ph¨ anomene in einem Korpus automatisch aufzusp¨ uren. Die Definition interner Kriterien f¨ ur einzelne ¨ Außerungssorten dient den folgenden Zielen: • Wenn ein Forscher ein bestimmtes linguistisches Ph¨ anomen untersuchen will, oder f¨ ur seine Untersuchung Daten eines bestimmten linguistischen Ph¨ anomens ben¨ otigt, dann kann er sich vor allem auf Texte der Sorte st¨ utzen, bei der dieses Ph¨ anomen h¨ aufig vorkommt. Die Auswahl eines solchen Textkorpus wird erleichtert, wenn die internen Kriterien f¨ ur jede Textsorte im Korpus bzw. dessen Metadaten vermerkt sind 41 . 39 Eine ausf¨ uhrliche Liste externer Kategorien findet sich in Atkins et al. (1992). 40 Wegweisend ist die Arbeit von Biber (1988), der statistische Daten zur Verteilung von mehreren Dutzend linguistischer Eigenschaften in verschiedenen Textsorten - Reportage, Wissenschaftsartikel, sch¨ one Literatur etc. - pr¨ asentiert, vgl. Anhang III in Biber (1988), S. 246ff. 41 So kann man zum Beispiel aus den Korpora des Instituts f¨ ur deutsche Sprache in Mannheim sog. virtuelle Korpora bilden, die aus Texten einer bestimmten Sorte oder mit einem bestimmten Merkmal zusammengestellt werden. 3.3 Methodische Probleme und ihre L¨ osung 51 • Der Abgleich des Profils interner linguistischer Merkmale eines Textes mit denen der Textsorten eines Korpus erleichtert die Einordung dieses Textes in das Korpus, falls die Einordnung nicht bereits durch externe Kriterien festgelegt ist. • Ein Korpus kann auch dadurch ausgewogen gestaltet werden, dass linguistische Ph¨ anomene, die generell selten vorkommen, in einem Korpus st¨ arker ber¨ ucksichtigt werden. Man kann in diesem Fall von einer Austarierung des Korpus nach internen Kriterien sprechen. Das Korpus spiegelt dann nicht mehr unbedingt die Verteilung von Textsorten in der beschrieben Sprache wieder. Es kann aber von Vorteil sein, wenn alle interessanten linguistischen Ph¨ anomene in ausreichendem Maße dokumentiert sind. Zudem ist, wie wir gesehen haben, die Repr¨ asentativit¨ at einer Stichprobe im Verh¨ altnis zur Grundgesamtheit eine Fiktion, solange die Grundgesamtheit nicht exakt bestimmt werden kann. Es besteht also kein Grund, den Aufbau eines Korpus an einem sowieso nicht genau zu bestimmenden quantitativen Verh¨ altnis zum Gegenstand zu orientieren. Linguistische Kriterien k¨ onnen ebenfalls den Ausschlag geben. ¨ Uberpr ¨ ufung einer Hypothese an mehreren Stichproben Wie wir oben festgestellt haben, ist ein Korpus immer nur eine Art Stichprobe, von der wir nicht wissen, ob sie wirklich repr¨ asentativ ist und die Verh¨ altnisse so widerspiegelt, wie sie auch in der Gesamtheit sind. Diese Tatsache verhindert aber nicht, dass man linguistische Erkenntnisse ¨ uber eine Sprache anhand von Korpusdaten gewinnt. Wenn man Hypothesen ¨ uber linguistische Ph¨ anomene auf der Basis von Korpusdaten bildet, muss man sich nur immer im Klaren dar¨ uber sein, dass sie eventuell durch die Auswertung einer anderen Stichprobe, also eines anderen Korpus, widerlegt werden k¨ onnten. Die Gegenprobe kann entweder vom gleichen Forscher oder von anderen Teilnehmern des korpuslinguistischen Diskurses erbracht werden. Dies entspricht dem normalen Prozess linguistischer Erkenntnis. Zum Beispiel k¨ onnen Erkenntnisse ¨ uber Frequenz und Verteilung von Modalpartikeln, die anhand eines Korpus der geschriebenen Sprache gewonnen wurden, anhand eines Korpus der gesprochenen Sprache best¨ atigt oder widerlegt werden. Korpora verschiedener Dialekte oder regionalsprachlichen Varianten des Deutschen k¨ onnen helfen, das Bild von Frequenz und Verteilung der einzelnen Partikel zu verfeinern. Das Bild, das sich hier ergibt, ist das einer st¨ andigen Verfeinerung der linguistischen Erkenntnisse auf Grund einer immer solideren Materialbasis. 3.3.2 Prognose vs. Korpusevidenz Eine wichtige Aufgabe der modernen Korpuslinguistik ist es, die intuitiven Entscheidungen und Theorien von Linguisten an großen Mengen authentischer Sprachdaten zu ¨ uberpr¨ ufen. Dabei wird die Intuition der Linguisten und befragten Sprecher best¨ atigt oder korrigiert werden. Man spricht davon, dass bestimmte Aussagen, die von Linguisten auf Grund einer bestimmten Theorie getroffen werden, anhand von Korpusevidenz verifiziert werden. Die Frage ist allerdings, wie stark diese Evidenz sein muss, damit sie als Gegenpol zu theoretischen Aussagen anerkannt werden kann. Wir wollen hier in Erinnerung rufen, dass in Korpora nicht nur S¨ atze vorkommen, die wohlgeformt sind. Wir haben es mit einer nicht zu untersch¨ atzenden Zahl von ¨ Außerungen zu tun, die 52 3 Linguistische Korpora ungrammatisch sind oder deren Grammatikalit¨ at zumindest zweifelhaft scheint. Andererseits werden in linguistischen Arbeiten und auch in Grammatiken S¨ atze als Beispiele herangezogen, deren Verwendung in authentischen ¨ Außerungen ¨ außerst unwahrscheinlich ist. Gill Francis zitiert das folgende Beispiel aus einer Grammatik von Quirk und anderen 42 : (4) Walter played the piano more often in Chicago than his brother conducted concerts in the rest of the states. Francis bezeichnet diese Art von Beispiels¨ atzen als grammatisch, aber unnat¨ urlich und ihre Verwendung als h¨ ochst unwahrscheinlich 43 . Es wird also eine Vielzahl von Konstruktionen geben, die zwar bildbar und grammatisch sind, die man aber mit hoher Wahrscheinlichkeit in keinem Korpus finden wird. Zur ¨ Uberpr¨ ufung der Wohlgeformtheit solcher Konstruktionen bleibt deshalb nur die Befragung von Muttersprachlern. Wie geht man aber mit der Situation um, dass im Korpus Belege f¨ ur Konstruktionen gefunden werden, die im Kontext einer Theorie oder Grammatik als nicht wohlgeformt eingestuft werden? Diese Frage ist schwerer zu beantworten 44 . Wir wollen an zwei Beispielen zeigen, wie man mit dieser Situation umgehen kann. Das erste Beispiel stammt von Detmar Meurers 45 . Meurers verwendet Korpusdaten, um eine Hypothese von den Besten und Edmondson zu ¨ uberpr¨ ufen. Diese behaupten 46 , dass Sprecher einiger s¨ uddeutscher Dialekte eine sonst nicht vorkommende Anordnung von Verben innerhalb einer komplexen Verbalgruppe verwenden, wie im folgenden Beispiel: (5) dass er singen hat m¨ ussen Das Besondere an diesem und ¨ ahnlichen Beispielen ist die Stellung des finiten Verbs (hier hat) zwischen zwei von ihm abh¨ angigen infiniten Verben. Den Besten und Edmondson erkl¨ aren die Verwendung dieser Konstruktion als das Bem¨ uhen der Dialektsprecher, hochsprachlich zu klingen, also als eine Art ¨ Uberkompensation, wenn man davon ausgeht, dass diese Konstruktion ungrammatisch ist 47 . Den Befunden von den Besten und Edmondson folgend, m¨ usste eine Grammatik des Deutschen diese Konstruktion entweder ausschließen, denn es handelt sich um ein reines Produkt der Performanz, um eben den Versuch der Anpassung an eine nicht existente Norm. Alternativ k¨ onnte diese Konstruktion in eine regional ausdifferenzierte Grammatik des Deutschen als Besonderheit der bairischen Dialekte aufgenommen werden. 42 Vgl. Francis (1993), S. 139. Francis bezieht sich hier auf die Comprehensive Grammar of the English Language, erschienen 1985. 43 Ebd. 44 Eine neue Antwort auf diese Frage formulieren Andr´ as Kert´esz and Csilla R´ akosi mit dem Konzept der Plausibilit¨ at einer linguistischen Aussage einer Theorie, s. dazu Abschnitt 2.2 in diesem Buch. 45 Vgl. Meurers (2005), Kapitel 1.3. 46 Vgl. den Besten und Edmondson (1983), S. 182. 47 Sie k¨ onnen Ihre eigene Intuition in dieser Frage pr¨ ufen, indem Sie den obigen Satz mit den folgenden Varianten vergleichen: a) dass er hat singen m¨ ussen, b) dass er singen gemusst hat. 3.3 Methodische Probleme und ihre L¨ osung 53 Meurers durchsucht ein Zeitungskorpus 48 nach Beispielen f¨ ur die Konstruktion in Beispiel (5) und wird f¨ undig. Er findet insgesamt zehn Belege, die dieser Konstruktion entsprechen und mutmaßt, dass es angesichts dieses Befundes sinnvoll sein k¨ onnte, diese Konstruktion als grammatisch zu markieren 49 . Die Korpusbefunde, die Meurers pr¨ asentiert, sind nicht wirklich ¨ uberzeugend als Gegenargument zu den Besten und Edmondsons Argumenten. Es k¨ onnte tats¨ achlich sein, dass die Beispiels¨ atze von Sprechern des Bairischen verfasst wurden. Damit w¨ aren sie als Teil eines regionalen Sprachgebrauchs bzw. als Ph¨ anomen der Performanz deutbar. ¨ Uber die Herkunft der Verfasser dieser S¨ atze wissen wir leider nichts. Die methodische Frage lautet: Wie viele Schwalben machen einen Sommer? Auf unser Problem ¨ ubertragen: Wie viele Belege deuten auf eine Regularit¨ at hin, die wir bei einer linguistischen Beschreibung ber¨ ucksichtigen m¨ ussen? Dies ist eine sehr interessante und offene Forschungsfrage, mit der sich die Korpuslinguistik unseres Erachtens bisher zu wenig befasst hat. Anders geht Geoffrey Sampson in seiner Auseinandersetzung mit theoretischen Linguisten um das Ph¨ anomen des central embedding vor 50 . Sampson widerlegt mit der Hilfe von Korpusbelegen die Behauptung von theoretischen Linguisten, dass die mehrfache Einbettung - X erscheint eingebettet in X, welches wiederum in X eingebettet ist, usw. - kein nat¨ urlich auftretendes Ph¨ anomen ist. Diese Strukturen seien danach zwar grammatisch, aber unakzeptabel. Sampson, einmal auf dieses Ph¨ anomen aufmerksam geworden, sammelt aus verschiedenen Quellen authentischen Sprachgebrauchs eine Vielzahl von Belegen f¨ ur diese Struktur. Insgesamt f¨ unfzehn davon pr¨ asentiert er in seinem Aufsatz. Wenn man seine Vorgehensweise systematisieren w¨ urde, dann erhielte man die Methode ”¨ Uberpr¨ ufung einer Hypothese an mehreren Stichproben“, wobei die Hypothese hier lautet: Konstruktionen dieser Art werden verwendet. Zusammenfassung: Wenn Sie eine grammatische Konstruktion, deren Korrektheit aus Ihrer Sprachtheorie folgt, anhand von Korpusdaten ¨ uberpr¨ ufen wollen, dann kann es sein, dass Sie diese in Ihren Korpora nicht finden. In diesem Fall bleiben Ihnen andere M¨ oglichkeiten der Best¨ atigung, z.B. indem Sie Muttersprachler befragen. Zweifeln Sie andererseits eine Konstruktion, deren Korrektheit aus einer bestimmten Sprachtheorie folgt, an, dann ist die Tatsache, dass es keine Korpusbelege f¨ ur sie gibt, noch kein hinreichendes Argument. Auch hier kann m¨ oglicherweise die Befragung von Muttersprachlern entscheiden. Wenn Sie jedoch zeigen wollen, dass eine grammatische Konstruktion verwendet wird, die nach Auffassung einer Sprachtheorie nicht wohlgeformt bzw. ungrammatisch 48 Das Korpus besteht aus Texten der Frankfurter Rundschau. Es umfasst etwa 2,6 Millionen S¨ atze bzw. gut 35 Millionen W¨ orter. Wichtig ist es, dass das Korpus eine Stichprobe des hochdeutschen, nicht des bairischen, Sprachgebrauchs ist. 49 Meurers scheibt: ”One is bound to ask how such verbal complex patterns could be licensed for those speakers who find them grammatical.“ Die Formulierung ist ¨ außerst vorsichtig, es bleibt aber zu fragen, ob der Vorschlag nicht dazu f¨ uhren w¨ urde, f¨ ur jeden Sprecher eine eigene Grammatik, entsprechend seiner Intuitionen, zu entwickeln. 50 Vgl. Sampson (1996): ”Central embedding refers to structures in which a constituent occurs medially within a larger instance of the same kind of tagma; an invented example is [The book [the man left] is on the table], where a relative clause occurs medially within a main clause . . . “, S. 15. Wir st¨ utzen uns bei der folgenden Darstellung auf diesen Text. 54 3 Linguistische Korpora ist, dann ist die Argumentation schwieriger. Es gibt bisher keine theoretisch ausreichend fundierte Methode, um korrekte von nicht korrekter Sprachverwendung zu unterscheiden. Die Belege, die Sie pr¨ asentieren, k¨ onnen deshalb immer als nicht korrekter Sprachgebrauch disqualifiziert werden. Man kann beim jetzigen Stand der Korpuslinguistik nur pragmatisch vorgehen. Je mehr Belege f¨ ur die zweifelhafte Konstruktion gefunden werden, und je vielf¨ altiger die Fundstellen sind, um so gesicherter kann man die Existenz dieser Konstruktion behaupten und darauf bestehen, dass die Theorie den beobachteten Fakten angepasst wird. 3.4 Methodisches Vorgehen beim Aufbau eines Korpus — Eine Anleitung Am Schluss dieses Kapitels wollen wir f¨ ur den Fall, dass Sie ein eigenes Korpus aufbauen wollen, einige Tipps geben: • Die erste Frage d¨ urfte sein, wie Sie an die Daten herankommen. Da heute praktisch alle Texte bereits in der Druckvorstufe digitalisiert sind, d¨ urfte das Scannen oder die manuelle Eingabe nur noch eine geringe Rolle spielen. Bei ¨ alteren Texten werden Sie aber nicht darum herum kommen. Der Aufwand f¨ ur diese Aufgabe sollte nicht untersch¨ atzt werden. Eine gute Adresse f¨ ur Texte aller Art ist das World Wide Web. Aber auch, wenn Sie von dort Daten sammeln, m¨ ussen Sie einigen Aufwand f¨ ur die Bereinigung dieser Daten einplanen. Es gibt aber Werkzeuge, die diese Aufgabe unterst¨ utzen 51 . • Sie sollten sich so fr¨ uh wie m¨ oglich Gedanken ¨ uber das Urheberrecht an den von Ihnen gesammelten Daten machen. Ein interessanter, auch f¨ ur den juristischen Laien zug¨ anglicher Artikel ist Lehmberg et al. (2008). Im Rahmen des deutschen CLARIN- Projektes wird ein ”Legal Helpdesk“ 52 aufgebaut. Dort findet sich eine Liste mit meist online zug¨ anglicher Literatur zu diesem Thema 53 , die Sie konsultieren k¨ onnen. Am besten ist es, wenn Sie mit den Rechteinhabern fr¨ uhzeitig in Kontakt treten und Ihre Nutzung der Texte durch eine Lizenz rechtlich absichern. Dies d¨ urfte nicht so schwer sein, wenn Sie die Daten ausschließlich zu Forschungszwecken nutzen. Etwas schwieriger d¨ urfte es werden, wenn Sie die Daten weitergeben wollen. Es ist einerseits sinnvoll oder sogar notwendig, dass andere Forscher das selbe Korpus verwenden k¨ onnen, und sei es nur, um ihre Ergebnisse nachpr¨ ufen zu k¨ onnen. Andererseits kann dies die Vereinbarung ¨ uber Nutzungsrechte erschweren 54 . 51 Auf der Webseite, die dieses Buch begleitet, stellen wir einige dieser Werkzeuge vor. 52 Siehe http: / / www.clarin-d.de/ de/ schulungen-und-support/ rechtliche-fragestell ungen. Wir danken Erik Ketzan vom Institut f¨ ur Deutsche Sprache f¨ ur den Hinweis. 53 Siehe http: / / www.clarin-d.de/ de/ legal-issues-bibleography. 54 Ein Extremfall ist sicher die Arbeit von Christa Dern (2003), die f¨ ur ihre Untersuchung ein Korpus von Erpresserbriefen verwendete. Es liegt in der Natur der Sache, dass viele Autoren sich nicht ausfindig machen lassen und das Bundeskriminalamt (BKA) als sekund¨ arer Rechteinhaber nur bedingt Interesse an der Verbreitung dieses Korpus hat. Das macht es schwierig, die von Dern pr¨ asentierten Erkenntnisse zu Formen der H¨ oflichkeit in Erpresserbriefen und die Schlussfolgerungen der Autorin zu ¨ uberpr¨ ufen. Inzwischen (Stand 2015) gibt das BKA das Korpus auf Anfrage f¨ ur konkrete Forschungsvorhaben weiter. 3.5 Weiterf¨ uhrende Literatur 55 • Ein nicht unwesentlicher Aspekt ist die Kodierung der Daten. Moderne Betriebssysteme verwenden heute UNICODE 55 , eine Kodierung, mit der sich Zeichen aller Sprachen darstellen lassen. Es sind aber auch noch verschiedene Formate eines von der International Standardisation Organisation normierten Zeichens¨ atzes in Gebrauch (z.B. ISO-8859-1 - ISO-8859-15), ebenso wie der wesentlich ¨ altere Kodierungsstandard ASCII (’American Standard Code for Information Interchange‘ ). Man sollte sich ¨ uber die Kodierung der Textdateien fr¨ uhzeitig informieren und f¨ ur alle Dateien die gleiche Kodierung w¨ ahlen, was eventuell die Konvertierung einiger Dateien erforderlich macht. Der umfassendste Standard ist UNICODE, wir wollen dessen Verwendung deshalb an dieser Stelle empfehlen. • Sp¨ atestens wenn die Prim¨ ardaten gesammelt sind, stellt sich die Frage nach den Metadaten. Wir haben oben beschrieben, wann die Beschreibung der Prim¨ ardaten durch Metadaten sinnvoll ist: Wenn mehrere Forscher die Daten verwenden und wenn die Daten in einer Forschungsarbeit dokumentiert werden m¨ ussen. • Je nach Forschungszweck kann es sinnvoll sein, die Daten linguistisch zu annotieren. Wir werden in den folgenden Kapiteln ausf¨ uhrlich auf diesen Aspekt der Korpusaufbereitung eingehen. 3.5 Weiterf ¨ uhrende Literatur F¨ ur die in diesem Kapitel angeschnittenen Themen ist das Buch von Tony McEnery, Richard Xiao und Yukio Tono (2006) eine ausgezeichnete Referenz, besonders Teil A. Viele der Themen werden auch in einem Aufsatz von Atkins, Clear und Ostler (1992) behandelt. Jeremy Clear geht an anderer Stelle auf die Frage der Repr¨ asentativit¨ at und des Aufbaus von Korpora unter diesem Gesichtspunkt ein (1992). Die Frage, ob und wie das World Wide Web als Korpus f¨ ur linguistische Untersuchungen verwendet werden kann, ist hochaktuell. Eine gute Einf¨ uhrung in die Thematik geben Kilgarriff und Grefenstette (2003). Es gibt außerdem zu diesem Thema eine j¨ ahrliche Konferenz. Details dazu lassen sich ¨ uber eine Suchmaschine (z.B. mit dem Stichwort WaCky 56 ) ermitteln. Der CES-Metadatenstandard ist auf der CES-Webseite (http: / / www.cs.vassar.edu/ CES/ ) sehr gut dokumentiert. Lesenswert, wenn auch leider nur auf Englisch verf¨ ugbar, ist der in das Thema Metadaten einf¨ uhrende Text von Lou Burnard, einem der f¨ uhrenden britischen Korpusexperten (http: / / ota.ox.ac.uk/ documents/ creating/ dlc/ chapte r3.htm). Auf die hier nur angerissenen Themen der linguistischen Annotation und der Korpusabfrage gehen wir in den Kapiteln 4 und 5 n¨ aher ein. 55 Details finden Sie unter www.unicode.org. Den meisten Lesern d¨ urfte dieser Standard unter dem Namen ”utf-8“ gel¨ aufig sein; streng genommen handelt es sich dabei um eine f¨ ur die Zeichens¨ atze westeurop¨ aischer Sprachen besonders effiziente Art der Kodierung von UNICODE- Zeichen. 56 WaCky steht f¨ ur ’The Web-As-Corpus Kool Yinitiative‘ . 56 3 Linguistische Korpora 3.6 Aufgaben 1. Nennen Sie jeweils mindestens eine Aufgabe f¨ ur die sich a) ein komplettes Korpus, b) eine Belegsammlung als Datenbasis gut eignet. 2. Sie wollen aus Texten, die ein Programm f¨ ur Sie aus dem World Wide Web herunterl¨ adt, ein Korpus der deutschen Sprache aufbauen. Welche M¨ oglichkeiten haben Sie, um m¨ oglichst sicherzugehen, dass nur deutschsprachige Texte in Ihrem Korpus landen. Das Korpus wird am Ende zu groß sein, als dass Sie jeden Text einzeln daraufhin ¨ uberpr¨ ufen k¨ onnten. 3. Erstellen Sie f¨ ur das Buch, dass Sie gerade lesen, einen Metadatensatz a) nach dem Dublin Core Modell, b) nach dem CES Modell. Gibt es Informationen, die Sie gern in die Schemata eingetragen h¨ atten, die Sie aber nicht ermitteln konnten? 4 Auf den Schultern anderer stehen — Linguistische Annotationsebenen Warum alles selber machen? Manche Aufgaben der linguistischen Analyse und Beschreibung sind bereits von anderen erledigt worden. Die f¨ ur das Deutsche verf¨ ugbaren ”Produkte“ sollen hier beschrieben werden. Es gilt: Man muss essen, was und wie es auf den Tisch kommt. Am Ende dieses Kapitels haben Sie Annotationen auf verschiedenen linguistischen Ebenen kennengelernt: Wortarten, weiterf¨ uhrende syntaktische Kategorien und Relationen, semantische Markierungen, pragmatische Koreferenz- und Diskursrelationen sowie eine Ebene der Normalisierung. Sie sind mit dem sehr beliebten Stuttgart-T¨ ubingen-Tagset (STTS) zur Annotation von Wortarten vertraut. Im Bereich der weiterf¨ uhrenden syntaktischen Annotation k¨ onnen Sie den konstituentenbasierten vom dependenzbasierten Ansatz unterscheiden. 4.1 Motivation In Abschnitt 2.4 wurde erw¨ ahnt, dass Vertreter des Kontextualismus bzw. des korpusbasierten, quantitativ-qualitativen Ansatzes mit rohen Korpusdaten arbeiten. Sie leiten ihre Analysen aus der Datengesamtheit ohne oder nur mit minimalen linguistischen Vorannahmen ab. In diesem Kapitel nehmen wir einen gegens¨ atzlichen Standpunkt ein und argumentieren f¨ ur den Nutzen, annotierte Daten auszuwerten bzw. die Rohdaten eines Korpus systematisch mit linguistischen Analysen in der Form von Annotationen anzureichern. Die Idee ist, dass Annotationen als eine Art Anker dienen k¨ onnen, und dem Nutzer erm¨ oglichen, auf effiziente Weise relevante Beispiele in einem Korpus zu finden. Annotationen k¨ onnen als kontextualisierte Analysen betrachtet werden. Sie machen Untersuchungsergebnisse f¨ ur andere Forscher nachvollziehbar und auch ¨ uberpr¨ ufbar, weil die Datengrundlage offengelegt wird. Außerdem stellen Annotationen meistens Generalisierungen ¨ uber die einzelnen Wortformen dar, und k¨ onnen dabei helfen, interessante linguistische Muster in den Daten zu erkennen. Das Entwickeln eines Annotationsschemas und auch der Annotationsprozess selbst unterst¨ utzen den Analyseprozess, da die zugrunde gelegten Konzepte und Definitionen im Abgleich mit den Daten immer wieder auf den Pr¨ ufstand kommen 1 . Im Folgenden gehen wir auf drei Aspekte der Motivation von Annotation etwas genauer ein 2 . 1 Siehe auch Abschnitt 5.3. 2 Die folgende Darstellung orientiert sich an Leech (1997). 58 4 Linguistische Annotationsebenen 4.1.1 Extraktion von linguistischer Information Jeder, der schon einmal in einer Linguistikklausur ¨ uber Satzanalysen geschwitzt hat, weiß, dass der reine Text nur wenig linguistische Information an der Oberfl¨ ache offenbart. Linguistische Kategorien wie die Wortart Artikel oder die syntaktische Funktion Subjekt lassen sich nicht unmittelbar vom Text ablesen, sondern verlangen, dass man den Text linguistisch interpretiert. Zur Abstraktheit von linguistischen Konzepten kommt erschwerend hinzu, dass das, was man da interpretieren m¨ ochte, f¨ ur sich genommen oft mehrdeutig ist, also mehr als eine Interpretation erlaubt. Diese Mehrdeutigkeit verschwindet allerdings meistens, wenn man den Kontext einbezieht. Die konkrete ¨ Außerungssituation - auch im Sinne von geschriebenem Text - ist meistens ausreichend, um eine mehrdeutige Form zu disambiguieren. Die Wortform einen z.B. hat mindestens drei Lesarten, die auf drei verschiedene Wortarten zur¨ uckgef¨ uhrt werden k¨ onnen. Bevor Sie weiterlesen, ¨ uberlegen Sie kurz, um welche Lesarten es sich hier handeln k¨ onnte. Die Beispiele (1) - (3) illustrieren die drei Lesarten (Hervorhebungen durch uns) 3 . (1) Indefiniter Artikel Diese Perspektive erm¨ ogliche einen neuen Blick auf gesellschaftliche Verh¨ altnisse. (2) Indefinitpronomen Gleichzeitig lautet der Appell an die Mieter, sich doch einen der Tiefgaragenpl¨ atze anzumieten. (3) Verb [Sie] wollten [. . . ] von Bremen aus die Republik wieder einen. Haben wir die einzelnen Vorkommnisse erst einmal interpretiert, k¨ onnen wir die Analysen bzw. Annotationen als Grundlage f¨ ur eine weiterf¨ uhrende linguistische Analyse heranziehen. In Beispiel (1) k¨ onnen wir z.B. die Sequenz einen neuen Blick auf gesellschaftliche Verh¨ altnisse zu einer Nominalphrase mit dem Kern Blick zusammenfassen, die in Bezug auf das Verb erm¨ogliche die Funktion des Akkusativobjekts einnimmt. Die drei Lesarten von einen sind in durchschnittlichen Korpora nicht gleichverteilt. Ist man an der Artikellesart von einen interessiert, erh¨ alt man bei einer Suche auf den Prim¨ ardaten, d.h. den reinen Wortformen, viele relevante Beispiele. Anders sieht es aus, wenn man an der viel selteneren Verblesart, vgl. (3), interessiert ist. In diesem Fall m¨ usste man voraussichtlich eine große Anzahl von irrelevanten Treffern sichten, um auf einschl¨ agige Belege zu stoßen. Diese m¨ uhsame und zeitaufw¨ andige Arbeit wird vereinfacht, wenn das Korpus mit Wortartenannotationen angereichert ist. In diesem Fall kann man gezielt nach Kombinationen von einen mit einer verbalen Annotation suchen und so die Treffersichtung auf tats¨ achliche Verbvorkommen einschr¨ anken. 3 Es handelt sich hierbei, wie bei vielen Beispielen in diesem Kapitel, um ggf. leicht gek¨ urzte Korpusbelege aus der T¨ ubinger Baumbank des Deutschen/ Zeitungskorpus (kurz T¨ uBa-D/ Z). Das Z in T¨ uBa-D/ Z unterscheidet diese Baumbank von der verwandten T¨ uBa-D/ S: T¨ ubinger Baumbank des Deutschen/ Spontansprache. Wir halten es allerdings mit Pullum (2003) und verwenden auch eigens konstruierte Beispiele, falls es der besseren Veranschaulichung dient. 4.1 Motivation 59 Ein analoges Argument gilt auch f¨ ur die Suche nach weiterf¨ uhrenden linguistischen Ph¨ anomenen im Korpus: Zum Beispiel eine Suche nach m¨ oglichen Objekten des Verbs einen, wie die Nominalphrase die Republik in Beispiel (3), kann wesentlich effizienter durchgef¨ uhrt werden, wenn Wortgruppen mit syntaktische Phrasen oder syntaktischen Funktionen annotiert sind. Noch deutlicher wird die Sinnhaftigkeit von Annotation, wenn man ein linguistisches Ph¨ anomen untersucht, f¨ ur das man noch keine einschl¨ agigen Wortformen benennen kann, sondern diese erst aus dem Korpus ermitteln m¨ ochte. Ein Beispiel hierf¨ ur ist die Untersuchung von Pr¨ adikativkonstruktionen im Genitiv 4 . Eine Suche auf der syntaktisch annotierten T¨ uBa-D/ Z liefert u.a. folgende Treffer: der Ansicht sein, der Meinung sein, guten Mutes sein. Die weitere Interpretation der Ergebnisse, in wie weit es sich hier tats¨ achlich um Pr¨ adikativkonstruktionen gem¨ aß einer bestimmten Theorie handelt, liegt dann in der Hand des Linguisten oder Lexikographen. Sprache kann in vieler Hinsicht mehrdeutig sein - nicht nur auf der Wortebene. Eine strukturelle Ambiguit¨ at kann z.B. beim Bezug von Pr¨ apositionalphrasen bestehen (beim sogenannten PP-Attachment). Unter Linguisten ist in diesem Zusammenhang ein Zitat von Groucho Marx ber¨ uhmt: ”Last night I shot an elephant in my pajamas and how he got in my pajamas I’ll never know“ 5 . Diese Ambiguit¨ at des Bezugs von in my pajamas ist f¨ ur den Leser eine Falle, da sie im Folgesatz in die weniger wahrscheinliche Lesart aufgel¨ ost wird. Im Korpus kann sie durch syntaktische Annotation eindeutig festgehalten werden, indem in my pajamas als Attribut der nominalen Struktur von an elephant zugeordnet wird - und nicht als Umstandsangabe dem verbalen shot. Die Beispiele haben gezeigt, dass es sinnvoll ist, Korpusdaten mit linguistischen Interpretationen anzureichern, indem man z.B. Wortarten, syntaktische Phrasen oder grammatische Funktionen annotiert. Diese Annotationen machen Korpusabfragen effizienter, indem pr¨ azisere Anfragen gestellt werden k¨ onnen und abstrakte Konzepte in den Daten abfragbar gemacht werden. 4.1.2 Wiederverwendbarkeit Die oben beschriebene Interpretation von Daten ist zeitaufw¨ andig. Viel Zeit geht verloren, wenn jeder dieselben Texte immer wieder neu interpretieren muss. Ein annotiertes Korpus ist auch deshalb wertvoll, weil es erlaubt, die Interpretationen anderer zeitsparend zu nutzen. Ein zweiter Aspekt der Wiederverwendbarkeit bezieht sich auf die Korpusannotation selbst. In vielen Korpusprojekten werden Programme zur automatischen Annotation von Wortarten verwendet (Wortarten-Tagger). Die automatische Bestimmung einer Wortart ist oft nur dann m¨ oglich, wenn die Wortarten der unmittelbar umgebenden W¨ orter ebenfalls bestimmt werden: Nach einem Artikel wie eine ist das Wort lange mit hoher Wahrscheinlichkeit ein Adjektiv wie in eine lange Pause. Steht lange jedoch unmittelbar vor einem Partizip, handelt es sich eher um ein Adverb wie in Sie hat lange gewartet. 4 Dieses Suchbeispiel geht auf eine Anfrage von Judith Berman zur¨ uck. 5 Siehe http: / / groucho-marx.com. 60 4 Linguistische Annotationsebenen Die verschiedenen Ebenen der Interpretation bauen oft aufeinander auf. Auch hier ist die Wiederverwendbarkeit von bereits erarbeitetem Wissen wertvoll. Eine Sequenz von drei W¨ ortern, die mit den Wortarten Artikel Adjektiv Nomen annotiert ist (wie eine lange Pause), kann auf der Ebene der syntaktischen Annotation automatisch zu einer Nominalphrase zusammengefasst werden. 4.1.3 Multifunktionalit¨ at Ein weiterf¨ uhrender Aspekt von Wiederverwendbarkeit ist der Einsatz derselben Ressource in ganz unterschiedlichen Bereichen. Zum Beispiel kann ein Korpus zur Erstellung oder Verbesserung eines Lexikons erstellt worden sein. Die Lexikographen waren eventuell an Informationen ¨ uber m¨ ogliche Valenzrahmen von Verben interessiert oder an Kollokationen. Dasselbe Korpus kann dann auch von Computerlinguisten genutzt werden, um einen syntaktischen Parser oder andere computerlinguistische Werkzeuge zu entwickeln 6 . Stellen Sie sich vor, Sie w¨ urden selbst ein Korpus zur Kommunikation in Chatr¨ aumen erstellen, weil Sie an der Verwendung von Neologismen und Anglizismen in dieser informellen Sprachvariante interessiert sind. Es w¨ are dann gut denkbar, dass andere auf Sie zukommen, um Ihr Korpus f¨ ur ganze andere Fragestellungen zu nutzen z.B., um die Verwendung von Modal- und Abt¨ onungspartikeln in dieser konzeptuell m¨ undlichen Variet¨ at zu studieren. 4.2 Grundlagen 4.2.1 ¨ Ubersicht zum Annotieren und zu Annotationsebenen Nachdem der Einsatz von linguistischer Annotation begr¨ undet wurde, geht es in den folgenden Abschnitten um die Sache selbst. Welche Arten von Annotationen findet man in Korpora? Hierzu ist noch eine kurze Vorbemerkung n¨ otig und zwar zur Frage, wie Annotationen erstellt werden. Wie wir oben schon betont haben, ist das Erstellen von Annotationen zeitaufw¨ andig und dadurch teuer. Beim Annotieren wird daher oft zweistufig vorgegangen: Zuerst findet ein schneller, automatischer Vorverarbeitungsschritt statt, bei dem ein computerlinguistisches Werkzeug (auch Tool) zum Einsatz kommt. Mithilfe von Regeln oder aus Korpora abgeleiteten Wahrscheinlichkeiten reichert es die Textdaten mit Annotationen an. Im zweiten Schritt erg¨ anzen oder korrigieren Annotatoren - oftmals studentische Hilfskr¨ afte - die automatische Annotation in einem manuellen Arbeitsschritt. Es gibt auch interaktive Annotationsprogramme, bei denen die strikte Teilung der Arbeitsschritte aufgehoben ist 7 . Das Programm schl¨ agt dem Annotator aufeinander aufbauende Teilanalysen vor, die unmittelbar korrigiert werden k¨ onnen, so dass die einzelnen Reparaturschritte klein bleiben und effizient durchf¨ uhrbar sind. Automatische Annotationstools sind von unterschiedlicher Qualit¨ at und allesamt nicht perfekt. Normalerweise geht man einen Kompromiss ein zwischen der Gr¨ oße der 6 Siehe auch Abschnitt 8.6. 7 Zum Beispiel das Programm Annotate (Brants und Plaehn, 2000) f¨ ur syntaktische Annotation. 4.2 Grundlagen 61 annotierten Datenmenge auf der einen Seite und der Qualit¨ at der Annotation auf der anderen. Man muss hier allerdings darauf hinweisen, dass auch manuelle Annotation nicht automatisch mit einer fehlerfreien Annotation gleichzusetzen ist. Wenn mehrere Annotatoren die gleichen Daten annotieren, stimmen sie selten hundertprozentig ¨ uberein 8 . Man versucht, die Abweichungen m¨ oglichst gering zu halten, indem man explizite Annotationsrichtlinien (Annotation Guidelines) mit Definitionen und Beispielen f¨ ur alle Annotationskategorien vorgibt und Entscheidungshilfen f¨ ur problematische F¨ alle bereitstellt. Die Annotationskategorien werden als Tags bezeichnet. Ein Tag (gesprochen [tæg]) kann einem einzelnen Wort, einer Sequenz oder auch einer Relation zugeordnet werden. Im Falle von Wortartenannotation z.B. benennen die Tags die einzelnen Wortartenklassen wie Artikel oder Pr¨ aposition. Tabelle 2 gibt eine kleine ¨ Ubersicht zu g¨ angigen linguistischen (und computerlinguistischen) Annotationsebenen. Ebene Annotation Morphosyntax Wortart (Part of Speech) Morphologie Grundform (Lemma), Flexionsmorphologie Syntax Konstituenten oder Dependenzen, oft mit syntaktischen Funktionen; andere strukturelle Organisationsform: Topologische Felder Semantik Eigennamenklassen, Lesarten (Word Senses), thematische Rahmen (Frames), Zeitausdr¨ ucke und Bez¨ uge Pragmatik Koreferenz, Informationsstatus, Informationsstruktur, Diskursrelationen, Konnotation (Sentiment) Weitere Textstruktur, Orthographie, Normalisierungsebenen, Fehlerannotation, phonetische und prosodische Merkmale, Pausen, sprachbegleitende Merkmale wie Gestik und Mimik und vieles mehr Tabelle 2: G¨ angige linguistische Annotationsebenen 4.2.2 Segmentierung Das Thema dieses Abschnitts mag zun¨ achst etwas ¨ uberraschen. Segmentierung bedeutet schließlich Aufteilung und nicht Hinzuf¨ ugung, wie man es bei Annotation erwarten w¨ urde. Um die Annotation in Korpora nachvollziehen zu k¨ onnen, muss man sich zun¨ achst ¨ uber die Einheiten im Klaren sein, die man mit einer Annotation markieren m¨ ochte. Ein Text muss dazu in seine Bestandteile zerlegt werden. Die Segmentierung kann bei der Textstruktur beginnen und Bestandteile eines Textes wie Kapitel, 8 Als Wert f¨ ur die ¨ Ubereinstimmung (Inter-Annotator Agreement) wird neben dem prozentualen Anteil der ¨ ubereinstimmenden Annotationen oft das sog. κ-Maß (’kappa‘ ) angegeben, welches ber¨ ucksichtigt, dass ein Teil der ¨ Ubereinstimmungen dem Zufall geschuldet ist, vgl. Artstein und Poesio (2008); Perkuhn et al. (2012). 62 4 Linguistische Annotationsebenen ¨ Uberschrift, Vorspann, Grundtext, Bildtext, Fußnote, Paragraph usw. markieren. Sie geht bis zum Satz und unterteilt diesen wiederum in einzelne Worteinheiten. Diese beiden letzten Zerlegungsschritte werden auch unter dem Schlagwort Tokenisierung zusammengefasst 9 . Man k¨ onnte meinen, dass die Festlegung von Satzgrenzen keine Schwierigkeiten bereite. F¨ ur die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens jedoch eine echte Herausforderung dar, die ¨ uber Regeln und Statistiken gel¨ ost werden muss. Beispiel (4) illustriert drei Lesarten des Punktes: Abk¨ urzungspunkt, Ordinalzahlenpunkt und Satzendepunkt. K¨ onnen Sie die drei Lesarten des Punktes im Beispiel identifizieren? (4) Prof. Dr. Marga Reis er¨ offnete die Konferenz am 2. Februar mit einem Grußwort. Beispiel (5) zeigt, dass der Punkt, der auf eine Zahl folgt, nicht immer eine Ordinalzahl markiert. (5) Es begann 2002. Die weitere Zerlegung in Worteinheiten identifiziert nicht nur W¨ orter im g¨ angigen Sinn als Token, sondern auch Zahlen, Satzzeichen, Klammern, Anf¨ uhrungsstriche und andere Symbole. Die einfachste Methode dabei ist, sich an Leerstellen zu orientieren und anzunehmen, dass eine geschlossene Zeichenfolge zwischen zwei Leerstellen eine Worteinheit darstellt. Dass es auch in diesem Bereich Diskussionsbedarf gibt, illustrieren die folgenden Beispiele. Wie behandelt man kontrahierte Formen wie die Verschmelzung einer Pr¨ aposition mit dem definiten Artikel zum Beispiel bei am oder ins. Soll machen’s ein Token sein oder zwei? Was ist mit glaubense (= glauben Sie)? Und wie soll man mit W¨ ortern umgehen, die unabsichtlich zusammengeschrieben wurden wie einKooperationsabkommen? Ist man dem Originaltext treu samt seiner Formatierung oder korrigiert man den Fehler im Korpus? Das umgekehrte Problem entsteht bei Mehrwortlexemen wie en bloc oder New York, d.h. Sequenzen, die Leerstellen enthalten, aber gemeinhin als eine Worteinheit empfunden werden. Soll man sie getrennt oder als Einheit betrachten? Wie viele Token umfasst z.B. die Sequenz 1 1/ 2 Stellen - zwei, drei oder sogar f¨ unf? Noch schwieriger wird es, wenn Namen oder Idiomatik ins Spiel kommt. Wir ¨ uberlassen es Ihnen, sich zu ¨ uberlegen, nach welchen Regeln Sie im folgenden Beispiel die Wortgrenzen festlegen w¨ urden. (6) des ”F¨ ur alle F¨ alle Fitz“-Teams Das Beispiel steht exemplarisch f¨ ur alle Titel und Bezeichnungen, die intern eine phrasale Struktur aufweisen, im ¨ außeren Satzzusammenhang aber wie eine nicht weiter zer- 9 Die Zerlegung muss nicht auf der Wortebene aufh¨ oren. Bettina Zeisler und Andreas Wagner (2004) beschreiben z.B. die Segmentierung auf Morphemebene f¨ ur ein Korpus des Tibetischen. Bei Korpora, die Transkriptionen von mittelalterlichen Handschriften enthalten, ist es z.B. sinnvoll, zus¨ atzlich auf der Zeichenebene zu trennen, um Initialbuchstaben oder Farbinformationen annotieren zu k¨ onnen, vgl. L¨ udeling et al. (2005a). 4.3 Annotationsebenen im Detail 63 legbare Einheit fungieren. Analysiert man sie als einzelne Token, erh¨ alt man in sp¨ ateren Analyseschritten eventuell seltsame Teilstrukturen, weil sie im gr¨ oßeren Zusammenhang nicht der normalen Wortabfolge oder Syntax konform gebildet sind. 4.3 Annotationsebenen im Detail 4.3.1 Morphosyntaktische Annotation Am meisten verbreitet ist die Annotation von morphosyntaktischer Information. Vereinfacht gesagt handelt es sich hierbei um die Zuweisung der Wortart zu einzelnen Token. Im Englischen heißt die Annotation morphosyntaktischer Merkmale auch Grammatical Tagging, Part-of-Speech Tagging (kurz: POS Tagging) 10 oder einfach Tagging 11 . Das Wortartentag erlaubt die Disambiguierung mehrdeutiger Wortformen (Homographen), insofern sie verschiedenen Wortarten angeh¨ oren. Die Liste aller verwendeten Wortartentags wird als Tagset bezeichnet. Wenn man als Linguist bei dem Stichwort Tagset eine ¨ uberschaubare Liste wie Nomen (Substantiv), Verb, Pr¨ aposition, Konjunktion usw. erwartet, ist man wahrscheinlich ¨ uberrascht, wenn man die große Anzahl an unterschiedlichen Tags in einem annotierten Korpus sieht. Ein typisches Wortarten-Tagset umfasst zwischen 50 und 150 verschiedene Tags 12 . Als Standard f¨ ur deutschsprachige Korpora hat sich das Stuttgart-T¨ ubingen Tagset (kurz: STTS) durchgesetzt 13 . Das sogenannte kleine Tagset, das keine expliziten Tags f¨ ur Flexionsmorphologie enth¨ ahlt, umfasst 54 Tags. Neben der Wortklasse werden weitere Eigenschaften wie die syntaktische Position bzw. Distribution des Wortes, seine grammatische Funktion und morphologische oder semantische Eigenschaften ber¨ ucksichtigt. Zus¨ atzlich deckt das Tagset auch Elemente ab, die man gemeinhin gar nicht als Wort klassifizieren w¨ urde, die aber als Token in authentischer, geschriebener Sprache vorkommen wie Satz- und andere Sonderzeichen. Die Verwendung der Tags wird im Annotationsschema bzw. den Annotationsrichtlinien (engl. ’Guidelines‘ , auch Tagging- Guidelines) beschrieben 14 . Wortartentags basieren auf einer Mischung unterschiedlicher Kategorisierungen. Im Folgenden illustrieren wir dies anhand von Tags des STTS. 10 Part of Speech ist die englische Bezeichnung f¨ ur Wortart. 11 Vgl. Leech und Wilson (1996), S. 3. 12 Siehe z.B. Schmid (2008). 13 Ob es ein Zufall ist, dass die Nachnamen der vier maßgeblichen Autorinnen in Stuttgart und T¨ ubingen - Anne Schiller, Christine Thielen, Simone Teufel und Christine St¨ ockert - ebenfalls zu ’STTS‘ abgek¨ urzt werden k¨ onnen? F¨ ur historische Sprachstufen des Deutschen wurde das Tagset HiTS entworfen. Dipper et al. (2013) vergleichen HiTS mit STTS. Standards f¨ ur das Englische sind die Varianten des CLAWS-Tagsets des British National Corpus (BNC) und das Penn Treebank Tagset, vgl. Mc- Enery und Wilson (2001). 14 Die Begriffe Annotationsschema und Annotationsrichtlinien werden austauschbar verwendet. Von der w¨ ortlichen Bedeutung her steht bei Schema die Beschreibung der Kategorien im Vordergrund und bei den Richtlinien Handlungsanweisungen an die Annotatoren. In der Praxis wird diese Unterscheidung aber nicht durchgef¨ uhrt. 64 4 Linguistische Annotationsebenen • Distribution (d.h. positionelle Eigenschaften): z.B. Pr¨ aposition versus Postposition (7) APPR: Die Zuschauer standen entlang der Straße. (8) APPO: Die Zuschauer standen die ganze Straße entlang. • Syntaktische Funktion: z.B. attributiv versus pr¨ adikativ verwendetes Adjektiv (9) ADJA: Die damaligen Probleme sind uns heute nicht fremd. (10) ADJD: Damit waren sie quitt. • Morphologische Merkmale: z.B. finite versus nicht-finite Verbform (11) VVFIN: Er schreibt Tagebuch. (12) VVPP: Er hat Tagebuch geschrieben. (13) VVINF: Er versuchte, Tagebuch zu schreiben. • Semantische Merkmale: z.B. Appellativum (’Normales Nomen‘ ) versus Eigenname (14) NN: Verkleidete Fischer jagen nackte Amerikaner. (15) NE: Bundesaußenminister Fischer stimmte zu. Oft unterscheiden sich die Wortarten in mehr als einem Merkmal. Finite und nicht-finite Verben zum Beispiel unterscheiden sich nicht nur morphologisch, sondern auch in ihrer syntaktischen Distribution: Nur finite Verben treten in der Verb-Zweit-Position auf; Partizipien werden zusammen mit Hilfsverben verwendet, reine Infinitive hingegen mit Modalverben usw. Ebenso unterscheiden sich attributiv und pr¨ adikativ verwendete Adjektive nicht nur in der Distribution, sondern auch in den morphologischen Merkmalen. Nur erstere werden flektiert und kongruieren mit dem begleitenden Nomen in Numerus, Genus und Kasus. Das Stuttgart-T ¨ ubingen Tagset (STTS) Dem STTS wurden als wichtigster Gliederungsaspekt distributionelle Kriterien zu Grunde gelegt. Bei Artikeln wird daher z.B. nicht nach definitem und indefinitem Artikel (der, ein) unterschieden, ”da sie sich distributionell betrachtet gleich verhalten“ 15 . Beide Artikelformen erhalten das Tag ART. Eine andere grundlegende Entscheidung bei der Entwicklung des STTS war, dass jede Wortform eines Textes genau einen Tag erhalten soll. Als Konsequenz davon werden Teile von Mehrwortlexemen unabh¨ angig voneinander annotiert 16 . Bei der Vergabe der Tagnamen wurde auf das Prinzip der Teilbarkeit geachtet 17 : 15 Vgl. Schiller et al. (1999), S. 33. 16 Im englischen BNC werden in diesem Fall ditto tags vergeben, vgl. McEnery und Wilson (2001), S. 50. Jedes Token eines Mehrwortlexems erh¨ alt die Wortart des Gesamtausdrucks gefolgt von zwei Ziffern: der Gesamtzahl der Einzeltoken des komplexen Ausdrucks und dem jeweiligen Rang des gegebenen Tokens. All of a sudden (ganz pl¨otzlich) wird zum Beispiel zu all RR41 of RR42 a RR43 sudden RR44, wobei RR das Label f¨ ur Adverb ist. 17 Vgl. McEnery und Wilson (2001), S. 51. 4.3 Annotationsebenen im Detail 65 Das Tagset ist hierarchisch strukturiert. (. . . ) die tags bestehen aus m¨ oglichst selbsterkl¨ arenden Buchstabensequenzen, die von links nach rechts gelesen zuerst die Hauptwortart und dann die Unterwortart kodieren, also von der allgemeineren Information zur spezifischeren hinf¨ uhren. (Schiller et al., 1999, S. 4) Die Klasse der Pronomen P wird am st¨ arksten unterteilt, was sich auch in den zusammengesetzten Tagnamen widerspiegelt. Je nach Funktion werden sie zu D (Demonstrativ), I (Indefinit), PER (PERsonal), POS (POSsessiv), REL (RELativ), RF (Re- Flexiv), W (interrogativ oder relativ) oder AV (AdVerbial). Zus¨ atzlich werden die meisten Pronomen noch nach ihrer Distribution spezifiziert: S (Substituierend) bzw. AT (ATtribuierend). Ganz systematisch entstehen so die Tagnamen, z.B. PPOSS steht f¨ ur ein Pronomen, POSsessiv, Substituierend und PPOSAT f¨ ur ein Pronomen, POSsessiv, ATtribuierend. Ein Ausschnitt des kleinen STTS-Tagsets wird in Tabelle 3 mit Beispielen illustriert 18 . Das Tagset als Balanceakt Ein Tagset stellt immer einen Kompromiss dar zwischen Genauigkeit und Handhabbarkeit. Im STTS werden zum Beispiel pr¨ adikativ und adverbial verwendete Adjektive nicht unterschieden, sondern zur gemeinsamen Klasse ADJD zusammengefasst. Der Grund daf¨ ur ist, dass ein automatischer Tagger hier viele Fehler machen w¨ urde, weil zur Disambiguierung oft der gesamte Satz analysiert werden m¨ usste. Die Verwendung eines unterspezifizierten Tags ist in diesem Fall gut zu vertreten, weil fast alle pr¨ adikativ verwendeten Adjektive auch adverbial auftreten k¨ onnen und umgekehrt. F¨ ur die wenigen Ausnahmen, die nur in einer der beiden Verwendungsweisen vorkommen k¨ onnen (ggf. zus¨ atzlich zur attributiven Verwendung) 19 , wie untertan (nur pr¨ adikativ) oder st¨ andig (nicht pr¨ adikativ), geht diese Information allerdings verloren. Ein ¨ ahnlicher Fall liegt bei den Verben haben, sein und werden vor, die neben ihren Hilfsverbfunktion zur Bildung von Perfekt, Futur oder Passiv auch als Vollverben auftreten k¨ onnen (haben im Sinne von besitzen, sein und werden als Kopula). Sie werden gem¨ aß STTS immer als Auxiliar (Hilfsverb) gekennzeichnet, unabh¨ angig davon, ob sie im konkreten Fall als Voll- oder Hilfsverb verwendet werden. Auch hier w¨ urden viele automatische Tagger bei der Disambiguierung scheitern, da wegen der Verbstellungsvarianten im Deutschen oft nur eine Analyse des gesamten Satzes ausreichend Informationen zur Aufl¨ osung liefern w¨ urde. Bei vielen Tagsets gibt es Kompromisse dieser Art, die in Hinblick auf die automatische Vorverarbeitbarkeit gemacht werden. Manche Unterscheidungen sind auch f¨ ur die Annotatoren schwierig. Ist VW in den beiden folgenden Beispielen ein Eigenname oder ein normales Nomen? (16) Spontane Streiks bei VW in Emden. (17) Wir hatten einen VW besessen. Ist gelehrt in den beiden n¨ achsten Beispielen ein Adjektiv oder ein verbales Partizip? Hier besteht eine Ambiguit¨ at zwischen der Kopulakonstruktion mit pr¨ adikativem ADJD und der Passivkonstruktion mit verbalem VVPP. 18 Vgl. Schiller et al. (1999), S. 6f. 19 Siehe auch Duden, Bd. 4 Die Grammatik, § 450ff. 66 4 Linguistische Annotationsebenen (18) Er ist gelehrt. (19) Hier wird Linguistik gelehrt. Wortart Beschreibung Beispiele (unterstrichen) ADJA attributives Adjektiv das große Haus ADJD adverbiales oder er f¨ ahrt schnell; pr¨ adikatives Adjektiv er ist schnell ADV Adverb schon; bald; doch APPR Pr¨ aposition oder in der Stadt; ohne mich; Zirkumposition links um ihn herum APPO Postposition ihm zufolge; der Sache wegen KON nebenordnende Konjunktion und; oder; aber KOKOM Vergleichskonjunktion als; wie NN normales Nomen Tisch; Herr; das Reisen NE Eigennamen Hans; Hamburg; HSV PDS substituierendes Demonstrativpronomen dieser; jener PDAT attribuierendes Demonstrativpronomen jener Mensch PIS substituierendes Indefinitpronomen keiner; viele; man; niemand PIAT attribuierendes Indefinitpronomen kein Mensch; irgendein Glas PPER irreflexives Personalpronomen ich; er; ihm; mich; dir PPOSS substituierendes Possessivpronomen meins; deiner PPOSAT attribuierendes Possessivpronomen mein Buch; deine Mutter PRELS substituierendes Relativpronomen der Hund, der PRELAT attribuierendes Relativpronomen der Mann, dessen Hund PRF reflexives Pronomen sich; einander; dich; mir PWS substituierendes Interrogativpronomen wer; was PWAT attribuierendes Interrogativpronomen welche Farbe; wessen Hut PWAV adverbiales Interrogativ- oder Relativpronomen warum; wo; wann; wor¨ uber; wobei VVFIN finites Vollverb du gehst; wir kommen an VVINF Infinitiv eines Vollverbs er will gehen; ankommen VVPP Partizip Perfekt eines Vollverbs hat getroffen; sie sind entlaufen VAFIN finites Hilfsverb (Auxiliar) du bist; wir werden VMFIN finites Modalverb wir m¨ ussen gehen $. satzbeendende Interpunktion . ? ! ; : Tabelle 3: Ausschnitt aus dem Stuttgart-T¨ ubingen Tagset (STTS) Mit systematischen Ambiguit¨ aten wie in den Beispielen (16) - (19) wird sehr unterschiedlich umgegangen. Im British National Corpus, dem britischen Referenzkorpus, sind sogenannte Portmanteau-Tags erlaubt, die aus einer Kombination von zwei Tags bestehen, zum Beispiel heard&VVD-VVN; zeigt, dass das Token heard entweder in der 4.3 Annotationsebenen im Detail 67 einfachen Vergangenheit (VVD) oder als Partizip Perfekt (VVN) verwendet wird. Die Zeichen & und ; markieren die Grenzen der Teiltags (im TEI-Format 20 ). Um zwischen Eigennamen und ’normalen Nomen‘ unterscheiden zu k¨ onnen, definieren die STTS-Guidelines eine in sich abgeschlossene Liste von Eigennamen-Unterklassen wie Vorname, Nachname und Firmenname und nur diese werden als Eigenname ’NE‘ getaggt 21 . In anderen F¨ allen, wie bei der ADJD-VVPP-Ambiguit¨ at (vgl. Beispiel (18) und (19)) geben die Richtlinien linguistische Entscheidungshilfen und listen zus¨ atzlich bereits bekannte, lexikalisierte ADJD-Formen auf. Linguistische Kriterien: ADJD vs. VVPP 22 : 1. Kann der Satz ins Aktiv gesetzt werden mit gleicher Semantik? Ja → VVPP 2. Gibt es eine von-PP oder ¨ ahnliche PP, die auf Verbsemantik hinweist? Ja → VVPP 3. Ist eine Ersetzung durch ein semantisch nahes Adjektiv m¨ oglich? Ja → ADJD Die linguistischen Kriterien stellen einen geordneten Fragenkatalog dar. Man beginnt mit Frage 1, nur wenn diese mit ”nein“ beantwortet wird, geht man zu Frage 2 weiter. Formal gesehen handelt es sich hier um einen Entscheidungsbaum. Im Folgenden wenden wir diese Kriterien auf die Beispiele (18) und (19) auf der vorhergehenden Seite an. (20) Er ist gelehrt. 1.*Sie lehrt ihn. 2.*Er ist von ihr gelehrt. 3. Er ist klug. → ADJD (21) Hier wird Linguistik gelehrt. 1. Sie lehrt hier Linguistik. 2. Hier wird Linguistik von ihr gelehrt. 3.*Hier wird Linguistik klug. → VVPP Morphologie und Lemmatisierung Die Annotation von Flexionsmorphologie wird oft vom reinen Wortarten-Tagging unterschieden. Hierzu wird das Token analysiert und auf seine Grundform, das Lemma, 20 Vgl. Leech und Wilson (1996), S. 17, McEnery und Wilson (2001). Im BNC werden die Portmanteau-Tags nur f¨ ur Ambiguit¨ aten verwendet, die f¨ ur einen automatischen Tagger schwer aufzul¨ osen sind. 21 Der Ausdruck VW als Firmenname in Beispiel (16) wird gem¨ aß STTS als NE getaggt. In seiner Verwendung als Produktbezeichnung in Beispiel (17) wird er hingegen als normales Nomen ’NN‘ bezeichnet, da Produktnamen in den STTS-Guidelines nicht in der Liste der Eigennamen aufgef¨ uhrt werden. 22 Vgl. Schiller et al. (1999), S. 24. 68 4 Linguistische Annotationsebenen zur¨ uckgef¨ uhrt. Dabei erh¨ alt man eine morphologische Analyse, die auf ein morphologisches Tagset abgebildet werden kann. Flexionsmorphologie umfasst Kategorien wie Kasus, Genus, Numerus, Person, Tempus und Modus. Das sogenannte große Tagset des STTS verwendet zus¨ atzlich zu den genannten Kategorien auch noch die Kategorien Grad (steigerbar) 23 , Definitheit und Flexion. Letzteres ist, wie in (22) und (23) dargestellt, die Markierung f¨ ur stark (St), schwach (Sw) oder gemischt (Mix) flektierte Adjektive und Nomen (u.a. Nominalisierungen von Adjektiven) 24 . (22) a. mit ganzem/ ADJA: Pos.Masc.Dat.Sg.St Einsatz b. mit dem ganzen/ ADJA: Pos.Masc.Dat.Sg.Sw Hausrat c. mit einem ganzen/ ADJA: Pos.Masc.Dat.Sg.Mix Apfel (23) a. ich Armer/ NN<ADJ: Masc.Nom.Sg.St (deadjektivisch) b. der Beamte/ NN: Masc.Nom.Sg.Sw c. eine Rote/ NN¡ADJ: Fem.Nom.Sg.Mix (deadjektivisch) d. die Kosten/ NN: *.Nom.Pl. Kann ein morphologischer Wert nicht eindeutig zugewiesen werden, wird ein Sternchen vergeben, wie z.B. f¨ ur das Genus bei Kosten in Beispiel (23). Manchmal m¨ ussen Kategorien aus technischen Gr¨ unden angegeben werden, obwohl sie nur bei einer Teilklasse vorhanden sind. Diese Kategorie wird dann durch einen Unterstrich symbolisiert. Das Nomen Kosten kann hier wieder als Beispiel dienen. Wie die Mehrzahl der Nomen wird es keiner Flexionsklasse zugeteilt und erh¨ alt daher an der entsprechenden Position in der Morphologie einen Unterstrich 25 . Durch die Kombination von Wortart und morphologischer Information w¨ achst das sogenannte große STTS-Tagset auf mehrere hundert Elemente. Exkurs: Tagging Part-of-Speech Tagging bezeichnet die automatische Zuweisung von Wortartentags (Partof-Speech Tags) zu einzelnen Wortformen. Es ist ein wichtiger Schritt in der Textaufbereitung und Grundlage f¨ ur viele weiterf¨ uhrende Annotationen 26 . Automatische Methoden sind schon weit entwickelt und erreichen hohe Genauigkeiten (95% bis 98% Pro-Wort- Akkuratheit) 27 . Das folgende Schaubild gibt eine (vereinfachte) schematische ¨ Ubersicht ¨ uber die wichtigsten Komponenten des Taggings. 23 Grad hat die Werte Positiv (Pos), Komparativ (Comp) und Superlativ (Sup). 24 Vgl. Schiller et al. (1999), S. 13, 20. 25 Vgl. Schiller et al. (1999), S. 8. 26 In der Computerlinguistik dient Text, der mit Wortartentags annotiert ist, als Datengrundlage f¨ ur viele Anwendungen, z.B. bei der Informationsextraktion, Sprachsynthese, Computerlexikographie oder Termextraktion. 27 Vgl. Schmid (2008). 4.3 Annotationsebenen im Detail 69 roher Text | Vorverarbeitung ↓ tokenisierter Text | Lexicon Look-Up: Nachschlagen im Lexikon in Wortlisten oder mittels Morphologiekomponente; jedem Token werden alle m¨ oglichen Tags zugewiesen ↓ Problem I: Nicht alle W¨ orter stehen im Lexikon | Guesser: Analyse von unbekannten W¨ ortern verwendet morphologische Heuristiken; err¨ at das Wortartentag ↓ Problem II: Viele Wortformen haben mehr als ein Tag erhalten | Disambiguierung Auswahl des richtigen Tags ↓ vollst¨ andig und eindeutig getaggter Text Abbildung 1: Schematische Darstellung des Part-of-Speech Taggings Unter Lexikon versteht man hier eine Auflistung der Wortformen mit jeweils allen m¨ oglichen Lesarten, wie z.B. die Eintr¨ age von einen und einende in einem Lexikon, das vom TreeTagger 28 verwendet wird. Zur besseren Lesbarkeit ist hier bei jedem Lexikoneintrag die Wortform unterstrichen: einen ART.Akk ein INDEF.subst.Akk ein VVFIN einen VVINF einen einende ADJ.Akk einend ADJ.Nom einend Eine ”Lesart“ wird hier jeweils durch ein Paar bestehend aus Wortartentag und entsprechendem Lemma repr¨ asentiert, z.B. ART.Akk ein oder INDEF.subst.Akk ein. 28 Vgl. Schmid (1995). 70 4 Linguistische Annotationsebenen Die Disambiguierung ist neben dem Raten von Tags f¨ ur unbekannte Wortformen das gr¨ oßte Problem beim Taggen. Automatische Tagger k¨ onnen danach klassifiziert werden, wie sie dieses Problem l¨ osen. • Symbolische Tagger verwenden (meist) handgeschriebene Regeln wie ’Wenn ein Wort zwischen Artikel- und Verblesart ambig ist (z.B. einen), dann w¨ ahle das Verb-Tag, wenn das vorangehende Wort zu ist‘ . Der Tagger TAGGIT 29 , der zum Taggen des BROWN Corpus eingesetzt wurde, basiert zum Beispiel auf Kontextmuster-Regeln, weist 71 verschiedene Tags zu und verwendet zur Disambiguierung 3 300 Disambiguierungsregeln 30 . • Stochastische Tagger werden trainiert, indem sie die Frequenzen von W¨ ortern und Tags eines vorannotierten Trainingskorpus z¨ ahlen 31 und daraus Wahrscheinlichkeiten ableiten: - lexikalische Wahrscheinlichkeit: das wahrscheinlichste Tag f¨ ur ein Token (z.B. einen ist eher ein Artikel als ein Verb) - kontextuelle Wahrscheinlichkeit: das wahrscheinlichste Tag f¨ ur ein Token in einen bestimmten Kontext (d.h. einer Sequenz von vorangehenden oder nachfolgenden Tags und W¨ ortern, z.B. einen vor einem Satzendepunkt ist eher ein Verb als ein Pronomen) Die entscheidende Aufgabe des Taggers besteht darin, die optimale Balance zwischen diesen beiden Ergebnissen zu finden. Beispiele f¨ ur stochastische Tagger sind der TnT- Tagger 32 oder der TreeTagger 33 . • Hybride Tagger verbinden symbolische Regeln mit stochastischen, korpusbasierten Methoden. Sie ’lernen‘ die Gewichtung der Regeln anhand ihrer Anwendung auf Korpusdaten und anschließendem Vergleich der Ergebnisse mit einem vorannotierten Korpus (einem Goldstandard). Ein prominenter Vertreter dieser Methode ist der Brill-Tagger 34 , der neben den Wahrscheinlichkeiten auch symbolische Regeln lernt. Zun¨ achst wird aus dem Goldstandard f¨ ur jedes Token das wahrscheinlichste Tag abgeleitet. Im ersten Taggingschritt wird jedem Token in dem zu annotierenden Text einfach nur sein wahrscheinlichstes Tag zugeordnet. Das so getaggte Korpus wird mit der Annotation des Goldstandards verglichen. Nat¨ urlich gibt es viele Abweichungen, immer dann, wenn ein Token im Goldstandard nicht mit seinem wahrscheinlichsten Tag auftritt, sondern mit einem anderen, weniger wahrscheinlichen. Dieser erste Abgleich ist der Ausgangspunkt (oder auch die Baseline) f¨ ur das weitere Training. Der Tagger muss versuchen, ein besseres Ergebnis zu erzielen. Er ruft eine Liste von Reparaturregeln (Transformationsregeln) auf, die versuchsweise einzelne Tags kontextabh¨ angig ersetzen. Das ge¨ anderte Korpus wird wieder mit dem Goldstandard 29 Vgl. Greene und Rubin (1971). 30 Vgl. McEnery und Wilson (2001). 31 Es gibt auch Methoden, Tag-Wahrscheinlichkeiten auf nicht-annotierten Trainingskorpora zu sch¨ atzen; siehe dazu allgemein Manning und Sch¨ utze (1999, Kap. 10), Jurafsky und Martin (2008, Kap. 5,6). 32 Vgl. Brants (2000). 33 Vgl. Schmid (1995). 34 Vgl. Brill (1995). 4.3 Annotationsebenen im Detail 71 verglichen. Ist das Resultat besser als die Baseline, werden die Regeln ¨ ubernommen, ansonsten werden sie verworfen. Drei auf diese Art gelernte Regeln f¨ ur das Deutsche sind z.B. die folgenden (die Tags stammen aus dem STTS-Tagset. Die zweite Zeile ist jeweils eine umgangssprachliche Umschreibung der Regel) 35 . (24) ART PRELS PREVTAG $, = Ersetze ART durch PRELS, wenn vorher das Tag $, steht. (25) PTKZU APPR NEXT1OR2OR3TAG NN 36 = Ersetze PTKZU durch APPR, wenn innerhalb der n¨ achsten 3 Tags NN kommt. (26) ART PDS WDNEXTTAG das ADV = Ersetze ART durch PDS, wenn das aktuelle Wort das heißt und der Tag danach ADV ist. Der Brill-Tagger versucht, auch auf der Wortbildungsebene Regeln zu lernen. Eine automatisch aus dem Korpus abgeleitete Regel ist z.B. die tats¨ achlich auch linguistisch motivierte Aussage (hier in verst¨ andlicher Umschreibung wiedergegeben): (27) Bei Pr¨ afix unersetze VVPP durch ADJD. 4.3.2 Syntaktische Annotation Die n¨ achste Ebene der Annotation ist die Syntax im Sinne wort¨ ubergreifender Analyse. Korpora mit syntaktischer Annotation nennt man auch Baumbanken 37 . Die Bezeichnung hat ihren Ursprung darin, dass die ersten syntaktischen Annotationsvorhaben strukturelle B¨ aume als Analyseform vorsahen. Graphenstruktur Ein Baum hat normalerweise einen eindeutigen Wurzelknoten an der Spitze (’root node‘ ) 38 , der ¨ uber der gesamten Wortkette steht. In Beispiel (29) auf S. 72 ist das der VP-Knoten. Ein Baum verzweigt sich wohlgeordnet, so dass sich keine ¨ Aste (formaler ausgedr¨ uckt: Kanten ’edges‘ ) ¨ uberkreuzen und jeder Knoten (’node‘ ) nur einen eindeutigen Mutterknoten besitzt - und nicht zwei oder mehrere. M¨ ochte man ¨ Uberkreuzungen zulassen (also ¨ uberkreuzende Kanten), arbeitet man, wenn man es mathematisch genau 35 Vielen Dank an Stefanie Dipper, die uns die die Beispielregeln zur Verf¨ ugung stellte. Der Brill-Tagger wurde hierzu auf 779 STTS-annotierten S¨ atzen des TIGER-Korpus plus 820 nichtannotierten S¨ atzen trainiert. Es reichten f¨ ur das Deutsche insgesamt 100-200 Regeln aus, um mit einer Genauigkeit von 97% zu taggen. 36 PTKZU = zu vor Infinitiv. 37 Von Englisch ’treebank‘ . Der Begriff wurde von Geoffrey Leech gepr¨ agt im Zusammenhang mit einem Vorg¨ angerprojekt des englischen SUSANNE Korpus, vgl. Sampson (2003), S. 40, Fn. 1. 38 Syntaxb¨ aume wachsen verkehrt herum, mit der Wurzel nach oben. 72 4 Linguistische Annotationsebenen nimmt, nicht mit Baumgraphen, sondern mit allgemeineren Graphenstrukturen 39 . Die Bl¨ atter des Baumes sind die terminalen Knoten (von der englischen Bezeichnung ’terminal‘ f¨ ur abschließend, endst¨ andig). Sie bezeichnen hier die einzelnen W¨ orter des Satzes. Alle Knoten außer den terminalen werden als nicht-terminale Knoten bezeichnet, wobei die Knoten, die unmittelbar ¨ uber den W¨ ortern stehen, auch Pr¨ aterminale genannt werden. Im Beispiel sind dies die Knoten mit den Wortartentags. Als zus¨ atzliche Ebene findet man in vielen Baumannotationen auch sekund¨ are Kanten, die nicht zur eigentlichen Baumstruktur geh¨ oren 40 . Dependenz und Konstituenz Bei der syntaktischen Annotation unterscheidet man zwei grundlegende Modelle: die Konstituentenstruktur und die Dependenzstruktur. Zur Illustration der Unterschiede wollen wir Ihnen ein einfaches Beispiel geben (siehe auch die Darstellungen in (28) - (30)). Die Verbalgruppe ein einfaches Beispiel geben aus dem letzten Satz besteht aus vier W¨ ortern der Wortarten (gem¨ aß STTS): ART ADJA NN VVINF. Die W¨ orter sind nicht ganz gleichberechtigt. Obwohl nur eines der vier W¨ orter ein Verb ist, bezeichnen wir die ganze Sequenz als Verbalgruppe. Wir heben das Verb geben als Kern (auch Kopf ) der Sequenz hervor. Sowohl der dependenzbasierte als auch der konstituentenbasierte Ansatz gehen von einer hierarchischen Strukturierung von S¨ atzen aus. Sie unterscheiden sich jedoch in Bezug auf die Elemente, die in der hierarchischen Gliederung geordnet werden: In einer Konstituentenstruktur sind es Konstituenten, also abstrakte Einheiten, die jeweils ein oder mehrere W¨ orter repr¨ asentieren, z.B. Verbalphrase VP, Nominalphrase NP in Abb. (29). In der Dependenzstruktur beschr¨ ankt man sich auf die W¨ orter selbst, vgl. Abb. (30). Die Konstituentenstrukturanalyse geht auf den amerikanischen Strukturalismus zur¨ uck 41 . Man nimmt an, dass S¨ atze aus hierarchisch geschachtelten Untereinheiten bestehen, die man zum Beispiel durch Klammerung markieren kann. Diese Untereinheiten sind Sequenzen von zusammenh¨ angenden W¨ ortern, die als Konstituenten bezeichnet werden 42 , vgl. (28) und (29). Beachten Sie, dass jede Wortform f¨ ur sich genommen ebenfalls als Konstituente betrachtet werden kann. Ein prototypisches Beispiel f¨ ur ein Korpus mit reiner Konstituentenanalyse ist die amerikanische Penn Treebank 43 . (28) Klammerstruktur: [ VP [ NP [ ART ein][ ADJA einfaches][ NN Beispiel]][ VVINF geben]] 39 Im Zusammenhang dieses Buches wollen wir nicht weiter auf die Unterschiede eingehen und werden vereinfachend auch dann von B¨ aumen reden, wenn es im mathematischen Sinne keine sind. In der TIGER-Baumbank zum Beispiel kommen ¨ uberkreuzende Kanten zum Einsatz. 40 In der TIGER-Baumbank werden sekund¨ are Kanten zum Beispiel verwendet, um geteilte Argumente in Koordinationen anzuzeigen, vgl. Abb. 7 auf S. 80. 41 Ein wichtiger Vertreter ist Zellig Harris (1951). Es gab aber schon Vorl¨ aufer, vgl. Langer (2010). 42 Konstituenten k¨ onnen durch Tests identifiziert werden (z.B. durch Ersetzung, Verschiebung oder Koordination), vgl. z.B. Pittner und Berman (2013) oder Klenk (2003). 43 Vgl. Marcus et al. (1993). 4.3 Annotationsebenen im Detail 73 (29) Baumstruktur: VP NP VVINF ART ADJA NN geben ein einfaches Beispiel Ein wichtiger Vertreter der Dependenztheorie ist Lucien Tesni`ere 44 . In einer Dependenzanalyse besteht die Satzhierarchie aus Abh¨ angigkeiten (Dependenzen) von W¨ ortern untereinander. Die Dependenzen werden durch Verkn¨ upfungen von jeweils zwei W¨ ortern modelliert. Grafisch sind es Kanten eines Baums (bei Tesni`ere ’connexions‘ ). Die Verkn¨ upfungen sind immer gerichtet. Genauer gesagt, gibt es immer ein Regens und ein davon abh¨ angiges Dependens, vgl. Beispiel (30). Geben regiert Beispiel, welches wiederum ein und einfaches regiert 45 . Normalerweise stehen die abh¨ angigen Elemente in einer bestimmten grammatischen Funktion zum Regens, im Beispiel sind es Det(erminator), Attr(ibut) und Akkusativobjekt (ObjA) 46 . Obwohl eine Dependenzanalyse nicht zwingend die Angabe grammatischer Funktionen einschließt, sind beide Konzepte doch sehr eng miteinander verbunden. Man spricht auch von einer funktionalen Analyse. Ein prototypisches Beispiel f¨ ur ein Korpus mit Dependenzannotationen ist die tschechische Prague Dependency Treebank 47 . (30) Funktionale Dependenzstruktur: Det Attr ObjA ein einfaches Beispiel geben Hybride Modelle Eine Konstituentenstruktur bildet zun¨ achst nur syntaktische Kategorien ab und keine Funktionen. In vielen Projekten wird daher eine gemischte Repr¨ asentation bevorzugt (hybrides Modell). Als Grundger¨ ust werden strukturelle Kategorien gebildet, die mit funktionalen Informationen angereichert werden. In einer Baumdarstellung kann man z.B. die Kategorien als Knotenlabel repr¨ asentieren und die verbindenden Kanten mit funktionalen Labeln versehen. Wir verwenden hier dieselben Label wie im Dependenzbeispiel oben. Die Kerne (K¨ opfe) der VP und NP sind zus¨ atzlich als H(ea)d markiert. 44 Vgl. Tesni`ere (1959). F¨ ur eine Einf¨ uhrung siehe z.B. Weber (1997). 45 In der grafischen Darstellung weisen die Pfeilspitzen normalerweise auf das Regens. Manche Korpora weichen allerdings von dieser Konvention ab. 46 Die Funktionen k¨ onnen wie hier als Kantentags dargestellt werden. 47 Auf der sogenannten analytischen Ebene der Annotation sind in der Prage Dependency Treebank reine Dependenzstrukturen annotiert, vgl. ufal.mff.cuni.cz/ pdt2.0/ . 74 4 Linguistische Annotationsebenen (31) Hybride Baumstruktur: VP ObjA Hd NP VVINF Det Attr Hd ART ADJA NN geben ein einfaches Beispiel Viele der Baumbanken, die eine konstituentenbasierte Grundarchitektur besitzen, fallen in die Klasse der hybriden Modelle, weil sie auf die auch funktionale Information darstellen. In der weiter vorne erw¨ ahnten Penn Treebank, die zun¨ achst auf einem rein konstituentenbasierten Modell aufsetzte, wurde schlussendlich ein hybrides Annotationsschema umgesetzt, das z.B. vorsieht, dass Subjekte und adverbiale Pr¨ apositionalphrasen mit zus¨ atzlichen funktionalen oder semantischen Tags auszeichnet werden, s. auch Abschnitt 4.3.3 48 . Phrasen und Chunks Wir haben bisher die Begriffe Konstituente und Phrase fast wie Synonyme behandelt. Wenn man es genau nehmen m¨ ochte, dann ist eine Konstituente die kategorieneutrale Beschreibung einer Phrase. Letztere ist immer einer bestimmten Kategorie zugeordnet, z.B. Verbalphrase oder Nominalphrase. Man unterscheidet dabei sogenannte endozentrische und exozentrische Phrasen (siehe die Beispiele in (32)). Bei endozentrischen Phrasen existiert ein phraseninterner Kopf, welcher die kategoriellen Eigenschaften bestimmt, z.B. das Nomen in der Nominalphrase. Die sogenannten Projektionen des Kopfes sind bis zur maximalen, also der phrasalen Ebene von derselben Kategorie, hier im Beispiel sind sie nominal. Sie unterscheiden sich lediglich in der Projektionsebene (ausgedr¨ uckt durch Striche 49 oder Nummerierung, z.B. N’ oder N1). Die maximale Ebene wird dann mit einem phrasalen Tag gekennzeichnet, hier NP. Bei einer exozentrischen Phrase ist der Mutterknoten von einem anderen kategoriellen Typ als alle seine T¨ ochter. Hier werden verschiedene Phrasen zu einer funktionalen Einheit zusammengefasst, z.B. der Satzknoten S, der in traditionellen Analysen ¨ uber der Subjekts-NP und der VP steht. Eine Formalisierung erf¨ ahrt der Phrasenbegriff zum Beispiel durch die X-Bar-Struktur 50 . 48 Vgl. Marcus et al. (1993) und Marcus et al. (1994). 49 Urspr¨ unglich wurden die Striche als Oberstriche (englisch ’bars‘ ) gesetzt: x. 50 Siehe Jackendoff (1977). Das X-Bar-Schema findet in der Korpusannotation kaum Anwendung. Das hat zwei Gr¨ unde. Zum einen versucht man, Annotationen meistens m¨ oglichst theorieneutral zu halten - es sei denn, man plant explizit eine theoriebasierte Baumbank zu erstellen, wie z.B. die HPSG-basierte bulgarische BulTreebank (Simov und Osenova, 2003). Zum zweiten erzeugen X-Bar-Strukturen sehr schnell sehr große B¨ aume, was f¨ ur den Annotationsvorgang und beim sp¨ ateren Browsen durch das annotierte Korpus hinderlich ist. 4.3 Annotationsebenen im Detail 75 (32) a. Endozentrische Phrase NP NP ART N’ N PP b. Exozentrische Phrase S S NP VP Ein alternatives Konzept der syntaktischen Gruppierung sind Chunks. Das Konzept geht auf Steven Abney 51 zur¨ uck. Motiviert durch psycholinguistische Beobachtungen 52 , definiert er ”Brocken“ (die w¨ ortliche ¨ Ubersetzung von ’chunks‘ ). Sie entsprechen prosodischen Einheiten, d.h. Sprecheinheiten, nach denen Sprecher intuitiv eine kleine Sprechpause einlegen. Wenn Laien einen Satz in Sprecheinheiten unterteilen sollen, tendieren sie dazu, Einheiten zu bilden, die genau solchen Chunks entsprechen. Definition 1 (Chunk, strikte Version). Der nicht-rekursive Kernbereich einer Konstituente innerhalb eines Satzes, beginnend am Anfang der Konstituente bis hin zu ihrem (lexikalen) Kopf (nach Abney 1991). Das folgende Beispiel zeigt die Chunks eines englischen Satzes. Bei der Pr¨ apositionalgruppe ’on his suitcase‘ trifft die Chunkdefinition dann zu, wenn man das Nomen ’suitcase‘ anstelle der Pr¨ aposition ’on‘ als lexikalen Kopf der Gesamtstruktur betrachtet. (33) [The bold man] [was sitting] [on his suitcase]. Eine besondere Eigenschaft von menschlicher Sprache ist, dass sie rekursive Strukturen aufweist, also in sich geschachtelte Einbettungen derselben Kategorie. In (34) weist z.B. die Baumstruktur links eine solche Einbettung auf: Sie enth¨ alt eine komplexe Nominalphrase (NP), bei der unter der maximalen NP eine weitere NP eingebettet ist. Beim nicht-rekursiven Chunking dagegen (vgl. die Struktur rechts) erh¨ alt man flache Analysen und keine rekursiven Einbettungen: Erg¨ anzungen und Modifikatoren, die nach dem Kopf einer Phrase folgen, werden nicht in den Chunk des Kopfes eingeschlossen, sondern bilden einen unabh¨ angigen Chunk. In der Struktur rechts bezeichnen die Tags NC und PC einen nominalen bzw. pr¨ apositionalen Chunk. Die Teilb¨ aume von the study und of the rocks stehen als unabh¨ angige Chunks nebeneinander. (34) a. Rekursive Phrasenstruktur NP Det N PP the study P NP of Det N the rocks b. Nicht-rekursives Chunking NC Det N the study PC P NC Det N of the rocks 51 Vgl. Abney (1991). 52 Vgl. Gee und Grosjean (1983). 76 4 Linguistische Annotationsebenen Partielle und vollst¨ andige Analyse Das Chunking (oder auch Partial Parsing) ist in der automatischen Sprachverarbeitung sehr verbreitet. Es erlaubt, Teilstrukturen mit relativ hoher Qualit¨ at zu analysieren, ohne dass man ¨ uber die Gesamtstruktur des Satzes spekulieren muss. Dasselbe gilt f¨ ur die Annotation von Korpora. Auch hier wird das Chunking eingesetzt als eigenst¨ andige Annotationsform oder auch als automatischer Vorverarbeitungsschritt einer vollst¨ andigen syntaktischen Analyse. F¨ ur das Deutsche wird die strenge Chunkdefinition nach Abney auf rekursive Strukturen erweitert, um Beispielen wie (35) gerecht zu werden, bei denen im pr¨ anominalen Bereich - anders als im Englischen - erweiterte Adjektivphrasen auftreten, hier z.B. die Adjektivgruppe durch Fehlentscheidungen hochverschuldete bei der das Adjektiv hochverschuldete durch die Pr¨ apositionalphrase durch Fehlentscheidungen erweitert ist 53 . (35) [ NC die [ AC [ PC durch [ NC Fehlentscheidungen]] [ AC hochverschuldete]] Bahn] Ein Beispiel f¨ ur ein gechunktes (d.h. syntaktisch ”partiell analysiertes“) Korpus ist das T¨ ubinger Partiell Geparste Korpus des Deutschen / Schriftsprache (kurz: T¨ uPP-D/ Z). Repr¨ asentation der syntaktischen Annotation Wie sieht die syntaktische Annotation nun in der Praxis aus? Um einen Eindruck davon zu vermitteln, stellen wir drei syntaktische Tagsets beispielhaft an einem Satz vor. Dependenzannotation. Als erstes betrachten wir ein Korpus, das an der Universit¨ at Hamburg im Rahmen eines Projekts zum automatischen Dependenzparsen erstellt wurde: Die Hamburg Dependency Treebank 54 umfasst mehr als vier Millionen manuell annotierte bzw. korrigierte Token, mehr als 100 000 S¨ atze. Zus¨ atzlich enth¨ alt sie weitere, nur automatisch annotierte S¨ atze. Tabelle 4 zeigt einen Teil des Tagsets f¨ ur funktionale Dependenzen, das insgesamt aus 35 Tags besteht 55 . In Abb. 2 sehen Sie eine sehr einfache, grafische Darstellung der Dependenzstruktur des Satzes Wir sind begeistert! . Die Knoten des Baums entsprechen jeweils einem Token auf der Satzebene. Der oberste Knoten, der Wurzelknoten, ist hier ein Hilfskonstrukt ohne Entsprechung auf der Satzebene. Die Kanten haben sind hier ohne Pfeilspitzen dargestellt. Die Richtung der Abh¨ angigkeit kann aus der relativen Knotenh¨ ohe erschlossen werden: Der Knoten eines Regens ist h¨ oher dargestellt als der Knoten seines Dependens. In unserem Beispiel markiert eine S(atz)-Kante vom abstrakten Wurzelknoten ausgehend das Wort sind als das eigentliche Wurzelwort des Satzes. Zwei weitere Kanten weisen auf sind. Sie verkn¨ upfen ¨ uber eine SUBJ(jekt)bzw. eine PRED(ikativ)-Funktion, die abh¨ angigen Knoten wir und begeistert mit ihrem Regens. Das Ausrufezeichen ist durch die ”leere“ Kante als unregiertes Element markiert. 53 Das Beispiel stammt vereinfacht aus M¨ uller (2004), S. 4, siehe ebenfalls Kermes (2003). 54 Vgl. Foth et al. (2014), Korpus-Download: https: / / corpora.uni-hamburg.de/ drupal/ de / islandora/ object/ treebank: hdt. 55 Vgl. Foth (2006). 4.3 Annotationsebenen im Detail 77 Tag Dependens Regens S Wurzelwort eines Satzes (oder eines Satzfragments), normalerweise das finite Verb Abstrakter Wurzelknoten 0 SUBJ Kopfnomen eines Subjekts finites Verb PRED nicht-verbales Pr¨ adikativ Kopulaverb AUX Verb Auxiliar OBJA Kopfnomen eines Akkusativobjekts Verb OBJD Kopfnomen eines Dativobjekts Verb KOM Vergleichswort (als, wie) Bezugswort Tabelle 4: Funktionale Tags der Hamburg Dependency Treebank Abbildung 2: Dependenzannotation in der Hamburg Dependency Treebank Der grafischen Baumdarstellung liegt eine Textdatei zugrunde, vgl. Abb. 3. Wenn Sie an den Details der textuellen Annotationsrepr¨ asentation nicht interessiert sind, ¨ uberspringen Sie den Rest dieses Paragraphens. Jeder kommagetrennte Block entspricht einer Dependenz und beginnt jeweils mit zwei Zahlen, die die Position des abh¨ angigen Wortes im Satz angeben. Das erste Token wir z.B. nimmt die Position zwischen den Markierungen 0 und 1 ein, das zweite zwischen 1 und 2 usw. Die Wortart cat ist nach dem STTS getaggt, das Sie schon kennengelernt haben. Die syntaktische Information SYN gibt das funktionale Tag der Kante an sowie die Endposition des Regens, welches zus¨ atzlich als Kommentar am Ende der Zeile ausbuchstabiert wird. Konstituentenstruktur. Als Beispiele f¨ ur phrasenstrukturelle Tagsets stellen wir die Annotationsschemata der TIGER-Baumbank und der beiden T¨ uBa-Baumbanken (T¨ uBa- D/ S und T¨ uBa-D/ Z) vor. Beide Tagsets umfassen je 25 nicht-terminale Tags. Der kleine Vergleich in Tabelle 5 weist schon auf gewisse Unterschiede hin: In T¨ uBa werden topologische Felder annotiert 56 , in der TIGER-Baumbank erhalten koordinierte Phrasen besondere Tags. In den T¨ uBa-Baumbanken ist die Annotation von der Chunkidee beeinflusst, deshalb heißen z.B. nominale Konstituenten nicht NP sondern NX 57 . In der TIGER-Baumbank werden 56 Vgl. H¨ ohle (1986) bzw. Pittner und Berman (2013) f¨ ur eine Einf¨ uhrung. 57 Einen ausf¨ uhrlicheren Vergleich der beiden Annotationsschemata finden Sie in Ule und Hinrichs (2004) sowie bei Telljohann et al. (2004). 78 4 Linguistische Annotationsebenen 0 1 ' wir ' ' cat ' / ' PPER ' ' SYN ' -> ' SUBJ ' -> 2 / / ( sind ) , 1 2 ' sind ' ' cat ' / ' VAFIN ' ' SYN ' -> ' S ' -> 0 , 2 3 ' begeistert ' ' cat ' / ' ADJD ' ' SYN ' -> ' PRED ' -> 2 / / ( sind ) , 3 4 ' ! ' ' cat ' / ' $. ' ' SYN ' -> 0 Abbildung 3: Vereinfachte Textdatei im Stil der Hamburg Dependency Treebank TIGER T¨ uBa Beschreibung Beispiel (in Klammern) S SIMPX Satz [Wir sind begeistert] AP ADJX Adjektivphrase bzw. -chunk [noch st¨ arker]; die [von seiner Frau geborgten] Dollars NP NX Nominalphrase bzw. -chunk von [seiner Frau] - VXFIN finiter Verbalchunk Er [siegte] VP VXINF nicht-finite Verbalphrase Sie will [ VP es l¨osen]; bzw. -chunk Sie will es [ VXINF l¨osen] VZ - Infinitiv mit zu die Wahl [zu gewinnen] CS - koordinierte S¨ atze [Er fordert nicht, er bittet] CNP - koordinierte Nominalphrasen wie [Jachten und Villen] - VF Vorfeld [Sie] will es l¨osen - LK Linke Satzklammer Sie [will] es l¨osen - MF Mittelfeld Sie will [es] l¨osen - VC Verbkomplex (Rechte Satzkl.) Sie will es [l¨osen] - NF Nachfeld Sie wird fordern [zu schließen] Tabelle 5: Beispiele nicht-terminaler Tags in TIGER und T¨ uBa relativ flache Strukturen annotiert, d.h. Kategorien werden nur angegeben, wenn die Phrasen komplex sind. Bestehen sie nur aus einem Wort, wird kein eigener Phrasenknoten eingef¨ ugt. In Abb. 4 entsprechen die weißen Ovale den nicht-terminalen Knoten und die grauen K¨ astchen den funktionalen Kantentags. TIGER verwendet ca. 50 funktionale Tags, z.B. HD=Kopf, SB=Subjekt, PD=Pr¨ adikativ, NK=Noun Kernel. Abbildung 5 zeigt einen analogen Baum aus der T¨ uBa-D/ Z, die 40 funktionale Tags vorsieht, z.B. HD=Kopf, ON=Subjekt (w¨ ortl. Objekt, nominativ), PRED=Pr¨ adikativ. 4.3 Annotationsebenen im Detail 79 Der aufmerksame Leser wundert sich vielleicht ¨ uber die etwas seltsam klingende Terminologie f¨ ur die Subjektfunktion in der T¨ uBa-D/ Z. Die Bezeichnung Objekt im Nominativ (ON) ist der Diskussion geschuldet, ob das Deutsche eine sog. konfigurationale Sprache sei und dem Subjekt damit ein Sonderstatus gegen¨ uber den anderen Erg¨ anzungen eines Verbs einger¨ aumt werden sollte. Die Entwickler des Tagsets haben sich bei der Bezeichnung offensichtlich gegen die Konfigurationalit¨ atsthese entschieden 58 . 0 1 2 3 4 500 501 Die ART Delegierten NN waren VAFIN begeistert ADJD . $. NK NK NP SB HD PD S Abbildung 4: Hybride Annotation in der TIGER-Baumbank 0 1 2 3 500 501 502 503 504 505 506 Wir PPER sind VAFIN begeistert ADJD ! $. HD HD HD NX ON VXFIN HD ADJX PRED VF − LK − MF − SIMPX Abbildung 5: Hybride Annotation in den T¨ uBa-Baumbanken Abbildungen 59 6 und 7 zeigen etwas komplexere B¨ aume aus der TIGER-Baumbank. Sie illustrieren zwei Besonderheiten der TIGER-Annotation: ¨ Uberkreuzende Kanten, die bei Stellungsvarianten den syntaktischen Bezug innerhalb eines Satzes festhalten, und sekund¨ are Kanten, die den syntaktischen Bezug bei Koordinationen verdeutlichen, wenn einzelne Konstituenten in einem der Konjunkte fehlen. 58 Vgl. z.B. Haider (1985), f¨ ur eine Zusammenfassung der Diskussion s. z.B. Fanselow (1987). 59 An dieser Stelle vielen Dank an Stefanie Dipper, die mehrere Abbildungen dieses Kapitels zur Verf¨ ugung stellte. 80 4 Linguistische Annotationsebenen 0 1 2 3 4 5 6 500 501 502 Damit PROAV sei VAFIN jedoch ADV nicht PTKNEG zu PTKZU rechnen VVINF : $. PM HD OP MO NG VZ HD HD VP OC S Abbildung 6: ¨ Uberkreuzende Kanten in TIGER 502 500 0 1 2 3 4 5 6 7 500 501 502 503 Sie PPER entwickelt VVFIN und KON druckt VVFIN Verpackungen NN und KON Etiketten NN . $. SB HD CJ CD CJ HD CNP OA S CJ CD S CJ CS SB OA Abbildung 7: Sekund¨ are Kanten in TIGER In Abb. 6 ist das topikalisierte Pr¨ apositionalobjekt damit ¨ uber eine kreuzende Kante mit dem VP-Knoten der Verbalphrase verbunden. Die sekund¨ aren Kanten in Abb. 7 geh¨ oren nicht zur eigentlichen Baumstruktur. Sie markieren, dass das Pronomen Sie Subjekt sowohl von entwickelt als auch von druckt ist, und dass die koordinierte NP Verpackungen und Etiketten das Objekt beider Verben darstellt. Wie bei der Dependenzannotation wollen wir Ihnen auch f¨ ur die phrasenstrukturellen Baumbanken verschiedene Textformate vorstellen und verweisen Sie hierf¨ ur auf die Aufgaben am Ende des Kapitels. Sowohl die TIGER-Baumbank als auch die T¨ uBa- Baumbanken wurden mit Hilfe des Annotationswerkzeugs Annotate von Thorsten Brants und Oliver Plaehn annotiert 60 . Die Textformate f¨ ur die Baumbanken sind daher dieselben. Im Aufgabenteil am Ende dieses Kapitels zeigen wir Ihnen den Satz Wir sind begeistert! in drei verschiedenen Textformaten. 60 Vgl. Brants und Plaehn (2000). 4.3 Annotationsebenen im Detail 81 4.3.3 Semantische Annotation Wenn Sie das Stichwort ”semantische Annotation“ googeln, erhalten Sie wahrscheinlich viele Treffer zum semantischen Web 2.0. Dort werden Webseiten mit Bedeutungskategorien ausgezeichnet, die von Suchmaschinen und anderen Programmen ausgewertet werden k¨ onnen. Darum geht es im folgenden Abschnitt nicht, sondern wir beziehen uns auf eine rein korpuslinguistische Lesart des Terminus. Semantische Annotationen sind weniger verbreitet als syntaktische Annotationen. Allerdings findet man bereits auf Wortebene semantische Informationen, die als Teil von Wortartentagsets annotiert werden. In TIGER und T¨ uBa-D/ Z werden Eigennamen wie Anna gem¨ aß STTS mit einem teilweise semantisch motivierten Wortartentag versehen (NE). In diesen Baumbanken werden auch auf der Mehrwortebene Namen markiert: Titel wie ”Schlaflos in Seattle“ erhalten ein eigenes, semantisch motiviertes Tag. Ebenfalls auf syntaktischer Ebene werden in der Penn Treebank Adverbiale in Form von Pr¨ apositionalphrasen nach ihrer Bedeutung subklassifiziert, z.B. temporale Pr¨ apositionalphrasen (on Friday) als PP-temp oder lokative Pr¨ apositionalphrasen (in Seattle) als PP-loc. Wiederum auf Wortebene findet die Markierung von einzelnen Lesarten (Word Senses) statt. Hierbei werden - meist entlang der Unterscheidung von Lesarten in einer Ontologie oder einem W¨ orterbuch - verschiedenen Verwendungen einer lexikalischen Einheit unterschiedliche Lesarten zugeordnet (z.B. Satz: a. syntaktische Einheit; b. Spielabschnitt im Tennis; c. Menge gleichgeordneter Einheiten; d. großer Sprung usw.). Im amerikanischen OntoNotes-Korpus 61 werden Wortformen in englischen und chinesischen Texten mit semantischen Indizes annotiert, die auf Lesarten-Eintr¨ age in der großen, lexikalischen Online-Ressource WordNet verweisen 62 . Die Annotation von semantischen Rahmen (Frames), im Sinne der Frame Semantics 63 , geht ¨ uber die Wortebene hinaus. Ein Frame besteht aus einem Pr¨ adikat und allen Argumenten oder Adjunkten, die eine Rolle in Bezug auf das Pr¨ adikat spielen. Die Rollen sind verwandt mit den thematischen Rollen der Generativen Grammatik, auch wenn sie weniger allgemein sind 64 . In Beispiel (36) wird das Verb gilt als frame-hervorrufendes Element annotiert. Es triggert den Frame Kategorisierung (’Categorization‘ ). (36) Der Bundestag gilt als Vorbild. Zwei Rollen des Kategorisierungsframes sind im Satz realisiert: Das Objekt (’Item‘ ) durch die Nominalphrase der Bundestag und die Mitteilung (’Message‘ ) durch die Pr¨ apositionalphrase (bzw. Adjunktorphrase) als Vorbild. Das Saarbr¨ ucker SALSA-Projekt annotierte ¨ uber den syntaktischen Annotationen der TIGER-Baumbank semantische Frames 65 . 61 Vgl. Hovy et al. (2006). 62 WordNet: https: / / wordnet.princeton.edu/ . 63 Vgl. Fillmore (1968). 64 Interessanterweise gehen sowohl das abstrakte Theta-Rollenset der Generativen Grammatik als auch die daten-orientierten Frame Elements der Frame Semantics auf Arbeiten von James Fillmore zur¨ uck z.B. Fillmore (1968) und Ruppenhofer et al. (2006). Zu Charles Fillmore siehe auch Abschnitt 1.1. 65 Vgl. Erk et al. (2003). SALSA ist angelehnt an das amerkanische FrameNet Projekt, vgl. framenet.icsi.berkeley.edu/ . Die amerikanische Penn Treebank wird als Proposition Bank 82 4 Linguistische Annotationsebenen Abschließend wollen wir auf die Groningen Meaning Bank (GMB) 66 verweisen, ein relativ junges, englischsprachiges Korpusprojekt aus Groningen, das satz¨ ubergreifende semantische und pragmatische Annotationen nach der Diskursrepr¨ asentationstheorie (Discourse Representation Theory, DRT) 67 online bereitstellt. Das Besondere hierbei ist, dass es sich um eine theoretisch wohl motivierte, tiefe semantische Analyse handelt, ganz anders als die sehr ’flachen‘ Analysen, die sich oftmals hinter der semantischen Annotation von Korpora verbergen. Allerdings m¨ ussen wir hier warnend darauf hinweisen, dass die Annotationen automatisch erstellt wurden und daher sehr fehlerhaft sein k¨ onnen, es sei denn, sie wurden manuell nachkorrigiert. Eine manuelle Korrektur erkennen Sie an sogenannten Bits of Wisdom. Geplant ist, dass die Analysen mittels eines Onlinespiels, eines Games with a Purpose, nach und nach korrigiert werden. Ob sich dieses Korrekturmodell in der Praxis bew¨ ahrt, muss sich erst noch zeigen. Genau genommen gehen die Annotationen in der GMB ¨ uber die klassische, satzbezogene Semantik hinaus und leiten damit ¨ uber zur pragmatischen Annotation im n¨ achsten Abschnitt. 4.3.4 Pragmatische Annotation Konzentriert sich die semantische Annotation noch auf die Wort- oder Satzebene, ¨ uberschreitet man diese Grenzen sehr schnell, wenn man pragmatische Ph¨ anomene analysieren will. Bei der Anaphern- oder Koreferenzannotation wird eine Anapher, z.B. ein Pronomen oder eine definite Nominalphrase, mit einem Bezugswort (Antezedens) in Relation gesetzt. Diese Relation markiert, dass der Leser auf die Bedeutung des Antezedens zur¨ uckgreifen muss, um die Bedeutung der Anapher im gegebenen Kontext verstehen zu k¨ onnen. Im Falle von Pronomen liegt es z.B. auf der Hand, dass sie alleine nicht gen¨ ugend Information liefern, um eine Person oder ein Objekt neu im Diskurs zu etablieren (deiktische Pronomen wie ich oder du sind hier ausgenommen). F¨ ur Leser mit einem Hintergrund in der Generativen Grammatik sei hier erkl¨ arend angemerkt, dass sich die Terminologie in der Korpuslinguistik von der Terminologie der sogenannten Bindungstheorie 68 unterscheidet, mit der in der Generativen Grammatik satzinterne Koreferenzbeziehungen analysiert werden. Die Relation zwischen einer Anapher und ihrem Antezedens ist potenziell satz¨ ubergreifend und stellt damit besondere Anforderungen an die Annotation und auch an die Korpusabfrage dar. Die Aufl¨ osung solcher Koreferenzrelationen ist wichtig, wenn man Informationen in einem Text erschließen m¨ ochte. F¨ ur Sie als Leser ist es wahrscheinlich trivial, dass in Beispiel (37) mit dem Pronomen sie auf die nachgestellte Nominalphrase die 220 Albaner aus dem Kosovo Bezug genommen wird. Bei einer automatischen Auswertung ist dieser Bezug nicht ohne Weiteres klar. Wenn z.B. mittels eines Frage- Antwortprogramms die Information gefunden werden soll, wer seit vier Wochen in Berlin ist, dann muss die Anapher mit dem Bezugselement in Relation gesetzt werden. Im (Palmer et al., 2005) mit semantischen Informationen zu verbalen Argumenten erweitert und ist in das bereits genannte OntoNotes-Korpus integriert. 66 Groningen Meaning Bank: http: / / gmb.let.rug.nl/ . 67 Vgl. Kamp und Reyle (1993). 68 Vgl. Chomsky (1981). 4.3 Annotationsebenen im Detail 83 engeren Sinn spricht man in diesem Beispiel von einer Katapher, da sich das Bezugswort im nachfolgenden Text befindet. (37) Vier Wochen sind [sie] nun schon in Berlin, [die 220 Albaner aus dem Kosovo]. Korpora werden mit Koreferenzrelationen annotiert, um zu untersuchen, welchen linguistischen Beschr¨ ankungen die entstehenden Referenzketten unterliegen. Es geht dabei darum, mit welchen Ausdr¨ ucken man auf wiederholt erw¨ ahnte Referenten wie Personen, Objekte und Ereignisse Bezug nehmen kann, so dass der Text koh¨ arent interpretiert wird. Auch f¨ ur die Entwicklung und das Testen von computerlinguistischen Programmen zur Koreferenzaufl¨ osung werden Korpora mit Koreferenzrelationen annotiert 69 . Eine Art Vorstufe zur Koreferenzannotation ist die Annotation mit Informationsstatus, der f¨ ur referierende Ausdr¨ ucke angibt, ob deren Referenten bereits vorerw¨ ahnt oder dem H¨ orer anderweitig bekannt sind, oder ob sie neu etabliert werden m¨ ussen 70 . Das Stuttgarter DIRNDL-Korpus beinhaltet sowohl Informationsstatusals auch Koreferenzannotationen 71 . Das Korpus ist dahingehend etwas besonderes, dass es auf vorgelesenen Radionachrichten basiert und als Prim¨ ardaten eine textuelle Ebene mit einer Audioebene bzw. den Transkriptionen der Audiodateien verbindet. Der kleine Text in (38) ist der Anfang einer der Nachrichten 72 . Im ersten Satz wird eine Volksabstimmung in ¨ Agypten eingef¨ uhrt (ein Referendum ¨ uber zahlreiche Verfassungs¨ anderungen). Im zweiten Satz wird auf dieses Ereignis einmal direkt mit die Volksabstimmung und im dritten Satz zweimal indirekt mit den relationalen Ausdr¨ ucken zum Boykott und einen fairen Ablauf Bezug genommen. Der dritte Satz f¨ uhrt außerdem mit die Opposition einen zus¨ atzlichen Referenten ein, der zwar nicht vorerw¨ ahnt ist, dessen Existenz dem Leser aber grunds¨ atzlich bekannt sein sollte. (38) [s1] In ¨ Agypten hat ein Referendum ¨ uber zahlreiche Verfassungs¨ anderungen begonnen. [s2] Allein in der Hauptstadt Kairo sind tausende Polizisten im Einsatz, um die Volksabstimmung abzusichern. [s3] Die Opposition hat zum Boykott aufgerufen, weil sie einen fairen Ablauf nicht gew¨ ahrleistet sieht. Tabelle 6 zeigt einen Ausschnitt der Annotationen des dritten Satzes. Das DRINDL- Korpus erfasst zwei Ebenen des Informationsstatus: einen lexikalischen, bezogen auf die reine Wortform, und einen referenziellen, der sich auf die Referenten bezieht, die im Text erw¨ ahnt werden 73 . Zum Beispiel ist das Wort Opposition im dritten Satz lexikalisch neu, also im Text nicht vorerw¨ ahnt (L-NEW). Der Referent ist dem Leser aber 69 Siehe z.B. Hinrichs et al. (2004) und Naumann (2005) f¨ ur die pragmatische Annotation der T¨ uBa-DZ. Ein frei verf¨ ugbares Korpus des Englischen ist das Coreferentially Annotated Corpus, clg.wlv.ac.uk/ resources/ , Mitkov et al. (2000). F¨ ur allgemeine Informationen zur Koreferenzannotation siehe Poesio (2004). 70 Ein klassische Studie zum Informationsstatus im Englischen stellt Prince (1992) dar. Poesio und Vieira (1998) konzentrieren sich auf definite Nominalphrasen. 71 DIRNDL: Diskurs-Informations-Radio-Nachrichten-Datenbank f¨ ur Linguistische Analysen, http: / / www.ims.uni-stuttgart.de/ forschung/ ressourcen/ korpora/ dirndl.html. Das Korpus ist in Bj¨ orkelund et al. (2014) beschrieben. 72 Die Satzindizes wurden zum besseren Verst¨ andnis hinzugef¨ ugt. 73 Siehe das RefLex-Annotationsschema von Baumann und Riester (2012). 84 4 Linguistische Annotationsebenen Lexikalischer Referenzieller Ko- ID Token Akzent Informationsstatus Informationsstatus referenz 1 Die |NONE| - (R-UNUSED-KNOWN (712 2 Opposition |L*H| (L-NEW) R-UNUSED-KNOWN) 712) 3 hat |NONE| - - - 4 zum |NONE| - (R-BRIDGING$2-13-14 - 5 Boykott |H*L| (L-NEW) R-BRIDGING$2-13-14) - 6 aufgerufen |L*H| (L-NEW) - - 7 , N/ A - - - 8 weil |H*L| - - - 9 sie |NONE| - (R-GIVEN) -712 10 einen |NONE| - (R-BRIDGING$2-13-14 - 11 fairen |H*L| (L-NEW) - - 12 Ablauf |L*H| (L-NEW) R-BRIDGING$2-13-14) - 13 nicht |H*| - - - 14 gew¨ ahrleistet |! H*L| (L-NEW) - - 15 sieht |NONE| (L-NEW) - - 16 . N/ A - - - Tabelle 6: Annotation von pragmatischen und prosodischen Merkmalen im DIRNDL- Korpus (vereinfachte Darstellung) trotzdem bekannt, da es Teil des Weltwissens ist, dass in einem Staat eine Opposition existiert (R-UNUSED-KNOWN). In der Spalte Koreferenz ganz rechts sind Wortgruppen, die einen Referenten benennen, der mehrfach im Text wiederaufgegriffen wird, durch numerische Indizes markiert. Die Indizes sind quasi Namen f¨ ur die Referenten. Der Referent 712 tritt im dritten Satz zweimal in Erscheinung: Die Opposition und sie sind koreferent, da sie beide auf den Referenten 712 referieren. Bei Bez¨ ugen ohne unmittelbare Koreferenz (Bridging) wird der Bezugsausdruck als Code angegeben: Zum Beispiel sind zum Boykott und einen fairen Ablauf jeweils mit R-BRIDGING$2-13-14 markiert, da sie sich beide, wie oben bereits erw¨ ahnt, indirekt auf den Referenten von die Volksabstimmung beziehen (R-BRIDGING), welches durch das 13. und 14. Wort im dem zweiten Satz gebildet wird ($2-13-14). Das DIRNDL-Korpus wurde mit dem Ziel erstellt, Korrelationen zwischen Informationsstatus und Prosodie untersuchen zu k¨ onnen. Man m¨ ochte herausfinden, ob der Satzakzent Informationen ¨ uber die Bekanntheit oder Neuheit eines Referenten vermittelt. Die tabellarische Darstellung in Tab. 6 beinhaltet daher auch die Annotation der Satzakzente durch T¨ one (High und Low) nach dem ToBI-Schema 74 . Ein weiterer Typ von pragmatischer Annotation ist die Informationsstruktur im Sinne von Topik (das, wovon der Satz handelt) und Fokus (neue Information). Das Potsdam Commentary Corpus 75 ist ein Beispiel f¨ ur diese Art von Annotation. Der Schwerpunkt des 74 ToBI: Tones and Break Indices, vgl. Silverman et al. (1992). 75 Vgl. Stede (2004). 4.4 Normalisierung und Fehlerannotation 85 PCC liegt allerdings auf einer anderen Art der satz¨ ubergreifenden Analyse: Das Korpus wird mit Diskursstrukturen nach der Rhetorical Structure Theory 76 angereichert. Dabei werden S¨ atze und gr¨ oßere Bestandteile des Textes in Bezug zu einander gesetzt, vgl. Abb. 8: Die Diskursrelation Evaluation verbindet einen Kommentar mit der kommentierten Situation. Eine Elaboration gibt zus¨ atzliche Information zur Kernaussage und eine Antithesis zeigt einen Widerspruch auf. Nicht nur hier und da, sondern durch und durch. Elaboration 7-9 Evaluation 8-9 Zwar könnte man, wie beim Palast der Republik, den Bau bis aufs wackelige Stahlskelett entkleiden und neu aufbauen. Antithesis Aber das w rde mindestens 84 Millionen Euro, vielleicht auch das Doppelte kosten. Was f r ein Preis f r die Restaurierung eines st dtebaulichen Schandflecks, Evaluation Der Kreisel ist Asbest verseucht. 5-6 Abbildung 8: Annotation von Diskursstruktur nach der Rhetorical Structure Theory im Potsdam Commentary Corpus (PCC) 4.4 Normalisierung und Fehlerannotation Nachdem sich die letzten Abschnitte an den Kerndisziplinen der Linguistik orientiert haben, betrachten wir nun noch Annotationstypen, die dar¨ uber hinausgehen. Texte, die in sich inkonsistent oder fehlerhaft sind, werden oftmals normalisiert bevor sie korpuslinguistisch weiterverarbeitet werden. In Texten fr¨ uherer Sprachstufen, zum Beispiel dem Mittel- oder Fr¨ uhneuhochdeutschen, findet man oft mehrere Schreibweisen von ein und demselben Lexem (z.B. sein vs. seyn). Es gab damals keine einheitliche Rechtschreibung, sondern dialektal gepr¨ agte Varianten, die in sich ebenfalls nicht einheitlich waren. Auch die einzelnen Schreiber waren f¨ ur sich genommen nicht unbedingt konsistent, so dass es auch Rechtschreibvariation innerhalb einzelner Texte gibt. Bei der Normalisierung werden die Wortformen auf eine Normschreibung abgebildet, sodass es m¨ oglich wird, systematisch zu suchen oder weiterf¨ uhrende Annotationen wie Wortartentagging automatisch durchzuf¨ uhren. Eine Normalisierung ist ein wenig vergleichbar mit der Grundformzuweisung bei der Lemmatisierung. Dabei kann sich die Norm z.B. auf ein historisches Referenzw¨ orterbuch beziehen wie den Lexer f¨ ur Mittelhochdeutsch 77 oder man ¨ ubersetzt ins moderne Standarddeutsch. Analoges gilt f¨ ur moderne, inkonsistent geschriebene Texte wie z.B. computervermittelte Kommunikation in Chatbeitr¨ agen oder SMSen oder bei Transkriptionen gesprochener Sprache. Die 76 Vgl. Mann und Thompson (1988), siehe www.sfu.ca/ rst. 77 Lexer: http: / / woerterbuchnetz.de/ Lexer. 86 4 Linguistische Annotationsebenen Normalisierung kann eine zus¨ atzliche Annotationsebene bilden, die genauso durchsucht werden kann wie die Ebene der Wortarten- oder Lemmaannotationen. Wichtig ist, dass der Bezug zum Originaltext immer bestehen bleibt, weil man sonst die Gefahr l¨ auft, interessante Muster und Entwicklungen zu ¨ ubersehen, falls sie in der ”¨ Ubersetzung“ nicht abgebildet werden. Das gilt besonders f¨ ur historische Sprachstufen, die in ihrer Lexik und Grammatik vom heutigen Standarddeutsch abweichen 78 . Ein weiterer Korpustyp, bei dem Normalisierung eine große Rolle spielt, ist das Lernerkorpus. Ein Lernerkorpus enth¨ alt typischerweise Texte oder Transkripte von Lernern einer Fremdsprache. Selten wird der Terminus auf Korpora zum Erstspracherwerb oder Schriftspracherwerb angewendet 79 . Bei der Untersuchung von Lernersprache ist man an echten Abweichungen von der Zielsprache (”Fehlern“), aber auch an der Lernersprache ansich als Interimssprache bzw. Interlanguage interessiert. Die Korpora dienen als Grundlage f¨ ur computergest¨ utzte Analysen, die sowohl f¨ ur den Fremdsprachunterricht relevant sein k¨ onnen als auch f¨ ur die Fremdspracherwerbsforschung 80 : Bei der Contrastive Interlanguage Analysis werden systematische Abweichungen der Lernersprache von einer Kontrollvari¨ atet untersucht, zum Beispiel in Bezug auf die Auftretensh¨ aufigkeiten von bestimmten W¨ ortern oder Konstruktionen, die f¨ ur sich genommen durchaus grammatisch sein k¨ onnen. Die Methode der computerunterst¨ utzten Fehleranalyse sieht dar¨ uber hinaus vor, dass im Korpus lernersprachliche Abweichungen von der Zielsprache markiert werden. Diese Annotation setzt voraus, dass man eine Vorstellung von der jeweiligen normhaften Auspr¨ agung besitzt, d.h. eine sogenannte Zielhypothese formuliert. Abweichungen werden auf allen Ebenen der Sprache beobachtet: bei der Aussprache, in der Orthographie, der Morphologie, bei der Wahl von Tempus oder Modus, bei der Kongruenz zwischen Wortformen, bei der Wortstellung usw. Es k¨ onnen auch Angemessenheitsfehler vorkommen, wie z.B. dass eine idiomatische Wendung falsch eingesetzt wird. Das Berliner Lernerkorpus Falko ist eine Sammlung von linguistisch aufbereiteten und fehlerannotierten Lernertexten sowie muttersprachlichen Vergleichstexten 81 . Anstelle eines feink¨ ornigen Fehlertagsets beinhaltet Falko zwei Normalisierungsebenen: Zielhypothese 1 (ZH1), mit minimalen, rein satzbezogenen, grammatischen Korrekturen und Zielhypothese 2 (ZH2), die auch semantische und pragmatische Korrekturen beinhaltet, so dass die einzelnen S¨ atze nicht nur f¨ ur sich genommen, sondern auch im Textzusammenhang sinnvoll und koh¨ arent erscheinen 82 . Das Konzept Zielhypothese darf hier nicht als Rekonstruktion der Lernerintention missverstanden werden. Was der Lerner im Moment des Schreibens wirklich ausdr¨ ucken 78 Krasselt et al. (2015) beschreiben detailliert die Normalisierung des fr¨ uhneuhochdeutschen Anselm-Korpus, das auf standarddeutsche Formen abgebildet wird. 79 Ein Beispiel eines Lernerkorpus von muttersprachlichen Lernern ist z.B. das KoKo-Korpus das unter der Leitung von Andrea Abel an der Europ¨ aische Akademie Bozen (EURAC) aufgebaut wird, vgl. http: / / www.korpus-suedtirol.it/ . 80 Vgl. Nesselhauf (2004); L¨ udeling und Walter (2010). 81 Vgl. https: / / www.linguistik.hu-berlin.de/ de/ institut/ professuren/ korpuslingui stik/ forschung/ Falko/ standardseite. 82 Die Falko-Guidelines sind in Reznicek et al. (2012) beschrieben; Reznicek et al. (2013) erl¨ autern das Konzept der Zielhypothesen in Falko. 4.5 Weiterf¨ uhrende Literatur 87 wollte, ist leider nicht rekonstruierbar. Es sei denn, man h¨ atte so etwas wie einen Mitschnitt seiner Gedanken. Etwas leichter ist es, wenn der Lernertext als Nacherz¨ ahlung einer Geschichte (auch einer Bildgeschichte oder eines Films) entstanden ist. Aber auch hier hat man schlussendlich keine Gewissheit. Die Zielhypothesen im Falko-Korpus stellen Normalisierungsebenen dar, deren Erstellung durch Regeln in den Guidelines festlegt ist. Ein automatischer Abgleich der Originals¨ atze mit einer der Zielhypothesen erzeugt an den Stellen, an denen das Original von der Norm abweicht, Editiertags, welche die Ver¨ anderungen auf der Wortebene mechanisch dokumentieren: INSert, DELete, CHAnge, SPLIT, MOVeSource und MOVeTarget. Dieser Abgleich kann auf der Textebene und auch auf allen Annotationsebenen durchgef¨ uhrt werden 83 . F¨ ur eine weiterf¨ uhrende Fehleranalyse ist es meistens notwendig, die Editiertags weiter zu interpretieren. Anke L¨ udeling und ihre Kollegen vom Falko- Korpus 84 argumentieren daf¨ ur, einzelne Fehlertypen getrennt voneinander zu annotieren (z.B. Genus-Fehler getrennt von Numerusfehlern). Dies ist hilfreich, wenn ein Wort oder eine Sequenz gleichzeitig von verschiedenen Fehlertypen betroffen ist (z.B. gleichzeitig von einem Kongruenz- und einem Kollokationsfehler). Eine fehlerspezifische Annotation erlaubt es auch, alternative Zielhypothesen zu formulieren, wenn eine Abweichung auf mehrere Art und Weise erkl¨ art werden kann. Bei einem Kongruenzfehler wie in Tabelle 7 ist es z.B. nicht immer klar, welches Wort tats¨ achlich falsch gebildet ist 85 : Besteht der Fehler darin, dass das attributiv verwendete Pronomen diese f¨ alschlicherweise als Femininum flektiert wurde, oder steht das Nomen Ph¨ anomen im falschen Numerus? Token Die Erkl¨ arung f¨ ur diese Ph¨ anomen ... ZH Genus dieses Fehler Genus ZH Numerus Ph¨ anomene Fehler Numerus Tabelle 7: Annotation konkurrierender Fehleranalysen in Falko 4.5 Weiterf ¨ uhrende Literatur Ule und Hinrichs (2004) geben weiterf¨ uhrende Informationen zur linguistischen Annotation im Allgemeinen und einen Vergleich der Annotationsschemata von der TIGER- und den T¨ uBa-D/ Z-Baumbanken im Besonderen. Eine umfassende ¨ Ubersicht ¨ uber internationale Baumbankprojekte finden Sie bei Nivre (2008). Rehbein (2010) fasst den State-of-the-Art von dependenzannotierten Korpora zusammen. Annotationen auf allen linguistischen Ebenen und deren korpuslinguistische Nutzung stehen im Zentrum 83 Reznicek und Zinsmeister (2013) diskutieren z.B. den Abgleich von Original und Zielhypothese in Bezug auf die Annotation mit Wortarten. 84 Vgl. L¨ udeling et al. (2005b); Reznicek et al. (2013). 85 Vielen Dank an Maik Walter, der die Tabelle zur Verf¨ ugung stellte. 88 4 Linguistische Annotationsebenen der englischsprachige Einf¨ uhrung in die Korpuslinguistik von K¨ ubler und Zinsmeister (2015). Wie auch in anderen Bereichen dieses Buches haben wir die Annotation von gesprochener Sprache (phonetische und prosodische Annotation) sowie multi-modale Annotation ausgeklammert 86 . Eine ausf¨ uhrliche ¨ Ubersicht zur Literatur und zu Werkzeugen der phonetischen und prosodischen Annotation finden Sie auf der Webseite von EXMA- RaLDA (www.exmaralda.org). Eine allgemeine Einf¨ uhrung in das Thema Sprachdatenbanken bietet Draxler (2008). Der Sammelband von Schmidt und W¨ orner (2012) stellt nicht nur multi-linguale, sondern auch Korpora gesprochener Sprache und multi-modale Korpusvorhaben vor. 4.6 Aufgaben 1. Warum werden Korpora annotiert? Erkl¨ aren Sie, warum Sprachwissenschaftler und Computerlinguisten die zeitaufw¨ andige Aufgabe der Annotation auf sich nehmen. 2. Uns f¨ allt es meistens ¨ uberhaupt nicht auf, wie ambig Sprache ist. In Witzen wird das manchmal ausgenutzt. A: Wer kann mir sagen, wie lange Europ¨ aer im Durchschnitt studieren? B: Genauso wie kurze. Analysieren Sie die ¨ Außerung von Sprecher A. Unterscheiden Sie die beiden Lesarten, indem Sie den Satz mit STTS-Tags annotieren, vgl. Tab. 3 auf S. 66, und die Konstituentenstruktur durch Klammerung skizzieren. Welche Tags erh¨ alt lange? 3. Zeichnen Sie eine Baumstruktur f¨ ur die gechunkte Nominalgruppe in Beispiel (35) auf S. 76 (das wir hier als Beispiel (39) nochmals wiederholen). Welche der Knoten sind rekursiv? (39) [ NC die [ AC [ PC durch [ NC Fehlentscheidungen]] [ AC hochverschuldete]] Bahn] 4. Diese letzte Aufgabe richtet sich an die ”T¨ uftler“ unter den Lesern. Die drei auf der n¨ achsten Seite folgenden Abbildungen sind drei alternative Repr¨ asentationen des Satzes Wir sind begeistert! , vgl. auch Abb. 5 auf S. 79. Bei den Repr¨ asentationsformaten handelt es sich um: • Indizierte Klammerstruktur (Labeled Bracketing Format) - auch als ”Penn-Treebank-Stil“ bezeichnet • Spaltenformat, auch ”(NEGRA-)Export-Format“ genannt • XML-Repr¨ asentation Ihre Aufgabe ist es, jeweils nachzuvollziehen, wie die W¨ orter des Satzes und die Annotationen in den drei Formaten kodiert werden. Am besten gehen Sie anhand der drei folgenden Leitfragen vor: a) Wie werden terminale und nicht-terminale Knoten dargestellt? b) Wie werden die Kanten des Baumes - also die Verbindungslinien - kodiert? c) Wo findet man die funktionalen Kantentags? 86 Die einzige Ausnahme ist der Verweis auf die prosodische Annotation im DRINDL-Korpus, siehe Abschnitt 4.3.4. 4.6 Aufgaben 89 %%Sent 1630 ( (SIMPX (VF (NX-ON (PPER-HD Wir))) (LK (VXFIN-HD (VAFIN-HD sind))) (MF (ADJX-PRED (ADJD-HD begeistert)))) ($. ! )) Abbildung 9: Klammerstruktur der T¨ uBa-D/ Z Wir PPER -- HD 500 sind VAFIN -- HD 501 begeistert ADJD -- HD 502 ! $. -- -- 0 #500 NX -- ON 503 #501 VXFIN -- HD 504 #502 ADJX -- PRED 505 #503 VF -- - 506 #504 LK -- - 506 #505 MF -- - 506 #506 SIMPX -- -- 0 Abbildung 10: Spaltenformat der T¨ uBa-D/ Z <sentence> <node cat="SIMPX" func="--" parent="0" comment=""> <node cat="VF" func="-" comment=""> <node cat="NX" func="ON" comment=""> <word form="Wir" pos="PPER" func="HD" comment=""/ > </ node> </ node> <node cat="LK" func="-" comment=""> <node cat="VXFIN" func="HD" comment=""> <word form="sind" pos="VAFIN" func="HD" comment=""/ > </ node> </ node> <node cat="MF" func="-" comment=""> <node cat="ADJX" func="PRED" comment=""> <word form="begeistert" pos="ADJD" func="HD" comment=""/ > </ node> </ node> </ node> <word form="! " pos="$." func="--" parent="0" comment=""/ > </ sentence> Abbildung 11: XML-Format der T¨ uBa-D/ Z 5 ¨ Ubung macht den Meister — Annotation im praktischen Einsatz Wenn man die Einheitskost nicht mag, kocht - sprich: annotiert man selber. In diesem Kapitel soll der Weg zur eigenen Annotation aufgezeigt werden. Am Ende dieses Kapitels wissen Sie, mit welchen Werkzeugen Sie annotierte Korpora sichten und durchsuchen k¨ onnen. Sie haben Standards und Methoden f¨ ur das eigene Annotieren kennengelernt und dabei neben verschiedenen Annotationstools auch die Methode des Annotationszyklus gesehen, die wir Ihnen f¨ ur die Datenanalyse ganz allgemein ans Herz legen wollen. 5.1 Suche in Korpora 5.1.1 Online-Schnittstellen Nachdem Sie nun einen gewissen ¨ Uberblick ¨ uber Korpora und linguistische Annotationsebenen erhalten haben, widmen wir uns nun der Frage, wie Sie auf Texte und deren Annotationen zugreifen k¨ onnen. Viele Korpusprojekte bieten Online-Abfragem¨ oglichkeiten ihrer Korpora an. Vorreiter in der deutschen Korpuslinguistik ist das Institut f¨ ur Deutsche Sprache in Mannheim, das mit COSMAS 1 seit Jahren externe Abfragen auf der Mannheimer Korpussammlung erm¨ oglicht. Der Zugang ist kostenlos, man muss sich lediglich als Nutzer registrieren. Das wortarten-getaggte Kernkorpus des DWDS-Projekts in Berlin kann man auch ohne vorherige Anmeldung abfragen. Die kostenlose Registrierung ist trotzdem empfehlenswert, da sie den Zugriff auf eine gr¨ oßere Datenmenge freigibt 2 . ¨ Uber das in D¨ anemark angesiedelte Visual Interactive Syntax Learning-Projekt (VISL-Projekt) 3 hat man mit CorpusEye einen nutzerfreundlichen Online-Zugriff auf Korpora mit Dependenzstrukturen 4 . Abschließend wollen wir noch auf das Open Source Parallel Corpus-Portal (OPUS) 5 verweisen, ¨ uber das man online auf diverse Textsorten mit ¨ Ubersetzungen in viele Sprache zugreifen kann. Genau genommen handelt es sich um wortarten-getaggte Texte und 1 COSMAS: www.ids-mannheim.de/ cosmas2/ . 2 DWDS: www.dwds.de. 3 VISL-Projekt: corp.hum.sdu.dk/ cqp.de.html. 4 Genau genommen sind die VISL-Korpora mit kategorialgrammatischen Analysen angereichert (Karlsson, 1990), welche wiederum eine Dependenzstruktur zugrundelegen. 5 OPUS: http: / / opus.lingfil.uu.se/ . 5.1 Suche in Korpora 91 deren ¨ Ubersetzungs¨ aquivalente. Eine immer gr¨ oßer werdende Anzahl von Korpora, einschließlich der beiden Lernerkorpora Falko und Kobalt, k¨ onnen Sie ¨ uber das Online- Suchtool ANNIS abfragen 6 . 5.1.2 Suchwerkzeuge und Abfragesprachen Idealerweise wird ein Korpus von einem Suchwerkzeug (auf Englisch ’Query Tool‘ ) begleitet. Ist das nicht der Fall, kann man auf eine Reihe von kostenlosen Werkzeugen zur¨ uckgreifen, die man sich aus dem Internet herunterladen kann. Wir geben hier nur ein paar Anregungen und verweisen wieder auf die Webseite zum Buch, auf der Sie weitere Informationen finden k¨ onnen. Die einfachste Suche l¨ auft ¨ uber die Wortformen. Insbesondere f¨ ur lexikografische Fragestellungen und im Bereich des Sprachenlernens kann man hier wertvolle Informationen finden. Als Darstellungsform eignet sich eine Konkordanz (auch Keyword in Context, KWIC-Format), die die einzelnen Treffer untereinander auflistet und jeweils einen gewissen Ausschnitt aus dem vorangehenden und folgenden Text ausgibt. Abbildung 12 zeigt den Ausschnitt einer Suche von begeistert auf dem IMS-Korpus der Frankfurter Rundschau mit der Corpus Workbench des Instituts f¨ ur Maschinelle Sprachverarbeitung in Stuttgart (IMS). Anhand der Konkordanz kann man z.B. Hypothesen ¨ uber die verschiedenen Lesarten eines Wortes bilden. In Abb. 12 sind Belege f¨ ur die Verwendungsweisen von begeistert aufgelistet. Man kann die Adjektivlesart von der Verblesart (sich begeistern) unterscheiden und findet auch zwei Steigerungspartikel (wenig, total). sie auf den Wahlversammlungen begeistert zujubeln . Anderen gilt er al gewesen , erz¨ ahlt er sichtlich begeistert , und es gebe wohl keinen ost detaillierte Beschreibung \ , begeistert sich Scheftel: \ Shaleyev ka halk ist von dieser Idee wenig begeistert . Den Umbau , der n¨otig w¨are ildet . \ Die Leute sind total begeistert von dieser Idee \ , freut sic Abbildung 12: Konkordanz (KWIC-Format, KeyWord in Context) Bei der linguistischen Suche entsteht schnell das Bed¨ urfnis nach einer ausdrucksst¨ arkeren Suchm¨ oglichkeit als der Suche nach Wortvollformen. Man m¨ ochte Anfragen unterspezifizieren, weil man z.B. gleichzeitig nach verschiedenen Flexionsformen einer Grundform suchen m¨ ochte oder man ist an Wortgruppen interessiert, von denen man aber nur einen Teil spezifisch vorgeben kann oder will. Kurz gesagt, man m¨ ochte nicht nach einzelnen Wortformen, sondern nach Mustern im Text suchen. Dies kann man ¨ uber regul¨ are Ausdr¨ ucke erreichen. Der folgende Exkurs stellt eine standardisierte Variante von regul¨ aren Ausdr¨ ucken vor. Je nach Tool haben Sie es aber mit unterschiedlichen Varianten von Ausdr¨ ucken zu tun. 6 ANNIS: http: / / annis-tools.org/ . 92 5 Annotation im praktischen Einsatz Exkurs: Regul¨ are Ausdr ¨ ucke Regul¨ are Ausdr¨ ucke bzw. Platzhalterzeichen und Operatoren sind Ihnen m¨ oglicherweise schon durch die Bedienung von Suchmaschinen bekannt. Suchmaschinen bieten zumindest in der Expertensuche die Anwendung von Platzhalterzeichen an, wenn diese auch nicht immer so vollst¨ andig sind wie die hier vorgestellte regul¨ are Sprache. Ein regul¨ arer Ausdruck beschreibt ein bestimmtes Textmuster in einer abgek¨ urzten oder unterspezifizierten Form. Dazu sind eine Reihe von Metazeichen definiert. Jeder, der schon einmal einen Ausdruck oder ein linguistisches Ph¨ anomen in einem Korpus gesucht hat, weiß, wie praktisch es ist, wenn man nach mehreren Wortformen gleichzeitig suchen kann. Ein ganz einfaches Beispiel ist die Suche nach den alternativen Wortformen Rad und Rat. Der oder-Operator ’|‘ trennt die beiden Alternativen. (1) Alternation (oder-Verkn¨ upfung): | (Rad|Rat) → findet alle Vorkommen von Rad und Rat. Die runden Klammern markieren den Bezugsbereich der Alternation. Bei l¨ angeren W¨ ortern kann man sich Tipperei ersparen, wenn man die Alternation auf den gemeinsamen Wortteil beschr¨ ankt. (2) Gruppierung: ( ) Ra(d|t) → findet ebenfalls alle Vorkommen von Rad und Rat, vgl. Beispiel (1). Wenn Sie alle W¨ orter suchen wollen, die mit Ra beginnen und insgesamt drei Buchstaben haben, verwenden Sie f¨ ur den dritten Buchstaben einen Platzhalter. Der Platzhalter wird oft durch einen einfachen Punkt dargestellt. (3) Platzhalter (’wildcard‘ ): . Ra. → findet z.B. Rad, Ray, Rat, Rap, Rau und Ram. Der Platzhalter steht f¨ ur genau ein weiteres Zeichen. Wenn man anstelle des Platzhalters nur bestimmte Zeichentypen zulassen m¨ ochte, kann man eine Zeichenklasse festlegen. Anstatt des Punktes verwendet man dann eckige Klammern und listet alle Zeichen auf, die zugelassen werden sollen. (4) Zeichenklasse: [ ] Ra[dt] → findet alle Vorkommen von Rad und Rat, vgl. Beispiele (1) und (2). Vielleicht fragen Sie sich jetzt, wie sich eine Suche mit Alternation von einer Suche mit Zeichenklasse unterscheidet. Eine Alternation kann mehrere Zeichen umfassen. Eine Zeichenklasse listet die Alternativen f¨ ur genau ein Zeichen auf 7 . (5) Ra(d|t|um) → findet Rad, Rat und Raum. Ra[dtum] → findet Rad, Rat und Rau, Ram. 7 Der Vorteil der Suche ¨ uber Zeichenklassen ist, dass sie normalerweise vom Computer schneller verarbeitet werden k¨ onnen. 5.1 Suche in Korpora 93 Sehr praktisch ist eine negative Suche, bei der man bestimmte Zeichen explizit ausschließen kann. Ein M¨ oglichkeit daf¨ ur bietet die Suche ¨ uber eine negierte Zeichenklasse. Bitte beachten Sie, dass man auf diese Weise nur einzelne Zeichen negieren kann, nicht ein ganzes Wort. (6) Negierte Zeichenklasse [ ∧ ]: [ ∧ R]at → findet alle dreistelligen W¨ orter, die mit at enden, aber nicht mit R anfangen: bat, Cat, hat, Hat, Pat, Sat, tat, Tat 8 usw., aber auch rat, weil nur das Zeichen R ausgeschlossen ist, nicht das Zeichen r. Manchmal m¨ ochte man die Suche unterspezifizieren und nur einen Teil des Wortes festlegen. Den nicht festgelegten Teil kann man z.B. durch wiederholtes Aufrufen des Platzhalters abdecken. F¨ ur Zeichenwiederholungen verwendet man Operatoren 9 . (7) Operator f¨ ur optionales Auftreten (= kein- oder einmal): ? Rat.? → findet Rat, Rats und zum Beispiel auch den Eigennamen Rath. (8) Operator f¨ ur ein- oder mehrfaches Auftreten: + Rat.+ → findet Rats, Rates, Raten, Rathaus, Rathausmarkt, Ratlosigkeit, usw., aber nicht Rat, weil der Operator verlangt, dass der Platzhalter mindestens einmal durch ein Zeichen ersetzt wird. (9) Operator f¨ ur kein- oder einmaliges oder beliebig h¨ aufiges Auftreten: * (auch Kleene-Stern genannt) Rat.* → findet dieselben Vorkommen wie (8) plus zus¨ atzlich auch Rat, weil der Operator auch Optionalit¨ at zul¨ asst. .*[rR]at.* → geht noch einen Schritt weiter. Es findet alle W¨ orter, die irgendwo im Wort (auch am Anfang oder Ende) die Sequenz rat oder Rat haben. Also auch beraten, Bundesrat oder Bundes-Rat, aber auch Demokratie oder Strategie. Bei den bisher genannten Beispielen sind wir immer davon ausgegangen, dass Anfang und Ende des Suchmusters auch Anfang und Ende eines Wortes im Text beschreiben w¨ urden. In den Suchtools TIGERSearch und CQP ist das tats¨ achlich so (bzw. die Grundeinstellung). In anderen Suchtools m¨ ussen Sie diese Grenze evtl. explizit markieren 10 . Vielleicht meinen Sie jetzt, dass es ja sch¨ on und gut sei mit den regul¨ aren Ausdr¨ ucken und ihren Metazeichen, aber dass Sie eigentlich an Abk¨ urzungs- und Satzendepunkten interessiert seien. Wie kann man danach suchen, wenn der Punkt als Platzhalter doch f¨ ur jedes beliebige Zeichen stehen kann? Die L¨ osung ist einfach. Alle Metazeichen verlieren durch einen vorangestellten Backslash (auch R¨ uckstrich) ”\“ ihre besondere Bedeutung. Die Folge Backslash-Punkt (”\.“) steht z.B. f¨ ur das Punktzeichen. 8 Cat geht auf den Ausdruck Cat Eye im Korpus zur¨ uck. Hat ist ein großgeschriebenes hat am Satzanfang. Pat stammt von Pat Lewis, Sat schließlich von Sat 1. 9 Operatoren k¨ onnen in Bezug auf alle Zeichen oder Gruppierungen verwendet werden, nicht nur zusammen mit dem Platzhalterzeichen. Die Suche nach 12(34)* findet z.B. 12, 1234, 123434 oder auch 1234343434. 10 Die Bezugnahme auf Wortanfang und -ende (oder Zeilenanfang und -ende) nennt man auch Wortanker (bzw. Zeilenanker.) 94 5 Annotation im praktischen Einsatz Die hier vorgestellten Metazeichen und ihre Bedeutungen stellen einen gewissen Standard dar, werden aber nicht in allen Anwendungen genauso verwendet. Es ist daher immer wichtig, vor der Verwendung einer Abfragesprache die dazugeh¨ orige Dokumentation zu lesen. Fortsetzung: Suchwerkzeuge und Abfragesprachen Ein ausdrucksstarkes Suchtool bietet die IMS Open Corpus Workbench (CWB) die urspr¨ unglich am Institut f¨ ur Maschinelle Sprachverarbeitung in Stuttgart entwickelt wurde 11 . Die zugrundeliegende Abfragesprache heißt CQP (f¨ ur Corpus Query Processor) 12 . CWB wird weltweit von einer ganzen Reihe von Online-Korpusprojekten f¨ ur die Abfrage eingesetzt. ¨ Uber eine Online-Demo der CWB k¨ onnen Sie ein Korpus mit Bundestagsdebatten sowie Ausschnitte aus dem Parallelkorpus Europarl durchsuchen. Beide Korpora sind mit Wortarteninformationen (f¨ ur das Deutsche jeweils mit dem STTS-Tagset) und partieller Satzanalyse (Chunking) annotiert 13 . Sie k¨ onnen sich die Corpus Workbench CWB auch auf dem eigenen Rechner installieren. Das Tool umfasst neben dem eigentlichen Suchprogramm auch ein Programm, mit dem Sie neue Korpora ins CWB-Format ¨ uberf¨ uhren und ins Tool einlesen k¨ onnen 14 . Wesentlich einfacher zu installieren ist das Korpustool AntConc 15 von Laurence Anthony, einem englischen Korpuslinguisten, der in Japan arbeitet. Das Tool ist sehr gut beschrieben einschließlich einer Reihe von Videotutorials. ¨ Ahnlich wie CWB kann man mit AntConc wortarten-annotierte Korpora auswerten und eine Variante des Tools, AntP- Conc 16 kann auch f¨ ur die Suche auf parallelen Korpora eingesetzt werden. Dar¨ uber hinaus unterst¨ utz AntConc das Auffinden von Kollokationen im Korpus. Ein ¨ ahnliches Programm zur Darstellung und Suche von Wortformen und Kollokationen in Texten ist das kostenpflichtige WordSmith 17 von Mike Scott. Sie k¨ onnen sich dieses Tool auch als freie Demo-Version herunterladen und haben dann Zugriff auf immerhin 50 Treffer pro Anfrage. Ein anderes Suchtool wurde im Rahmen des TIGER-Projekts speziell f¨ ur die Suche auf (Konstituenten-)Baumstrukturen entwickelt: TIGERSearch 18 . Zus¨ atzlich zu einer CQP-¨ ahnlichen textbasierten Suche bietet es auch die Option eines grafischen Suchinterfaces an. Diese Option eignet sich ganz speziell f¨ ur Linguisten ohne Vorkenntnisse in Abfragesprachen. Man kann sich (Teil-)Strukturen ”zusammenklicken“, aber auch regul¨ are Ausdr¨ ucke integrieren. Das Tool generiert auf Abruf die entsprechende textuelle Suchanfrage, so dass man nach und nach die Abfragesyntax lernen kann 19 . Auch wenn 11 IMS Corpus Workbench: http: / / cwb.sourceforge.net/ . 12 Vgl. Christ und Schulze (1995) und Evert (2010). 13 Die CQP-Demokorpora sind mit Stefan Evert an die Universit¨ at Erlangen umgezogen: http: / / corpora.linguistik.uni-erlangen.de/ demos/ CQP/ cqpdemo.html. 14 CWB wurde urspr¨ unglich f¨ ur die Betriebssysteme SUN Solaris und Linux geschrieben. ¨ Uber Portierungs-Software wie CYGWIN de.wikipedia.org/ wiki/ Cygwin kann es auch auf Windows-Rechnern eingerichtet werden. 15 AntConc: http: / / www.laurenceanthony.net/ software/ antconc/ . 16 AntPConc: http: / / www.laurenceanthony.net/ software/ antpconc/ . 17 WordSmith: http: / / www.lexically.net/ wordsmith/ . 18 Vgl. Lezius (2002). 19 Auf S. 98 finden Sie ein Beispiel f¨ ur eine grafische Anfrage. 5.1 Suche in Korpora 95 das Tool im Rahmen des TIGER-Projekts entwickelt wurde, ist es nicht auf die TIGER- Baumbank beschr¨ ankt. Es ist mit einem Konversionstool gekoppelt (TIGERRegistry), das Filter f¨ ur verschiedene g¨ angige Korpusformate anbietet, die auf diese Weise in TIGER- Search integriert werden k¨ onnen. TIGERSearch ist f¨ ur Forschungsvorhaben kostenlos. Leider konnte es in den letzten Jahren nicht weiterentwickelt werden, sodass Sie ggf. Probleme haben werden, das Tool auf neueren Betriebssystemen zu installieren. Sollte dies der Fall sein, wollen wir Ihnen zwei neuere Tools empfehlen, die viele Eigenschaften von TIGERSearch aufgegriffen haben: T¨ uNDRA und ANNIS. T¨ uNDRA ist ein rein web-basiertes Tool. Es wurde im Rahmen des CLARIN-Projekts entwickelt und ist f¨ ur akademische Nutzer nach Anmeldung frei zug¨ anglich 20 . Sie haben dort Zugriff auf die T¨ ubinger Baumbanken (u.a. T¨ uBa-D/ Z im Konstituenten-Format sowie einer automatisch erzeugten Dependenz-Version) und ein paar weitere Korpora. Außerdem k¨ onnen Sie dort eigene, syntaktisch annotierte Korpora, die Sie z.B. mit den WebLicht-Tools annotiert haben (siehe Abschnitt 5.4), hochladen und anschließend durchsuchen. Das zweite hier zu nennende Nachfolgetool, ANNIS 21 , haben wir bereits in Abschnitt 5.1.1 im Zusammenhang mit dem Online-Zugriff auf Korpora erw¨ ahnt. Es deckt nicht nur syntaktische Strukturen ab, sondern ist sehr allgemein gehalten. Es ist ein sog. generischen Suchtool f¨ ur die Suche auf komplex annotierten Korpora, einschließlich der Darstellung von multimodalen Inhalten wie Videosequenzen. ANNIS wurde im Rahmen des Sonderforschungsbereichs Informationsstruktur der Universit¨ at Potsdam und der Humboldt-Universit¨ at zu Berlin entwickelt. Einen ersten Eindruck der M¨ oglichkeiten von ANNIS erhalten Sie ¨ uber das Tutorial der Online-Demoversion 22 . ¨ Ahnlich wie TIGERSearch erlaubt ANNIS, Suchanfragen auch ¨ uber eine grafische Schnittstelle zusammenzustellen (siehe den Button ’Query Builder‘ ), was f¨ ur Anf¨ anger eine echte Hilfe darstellen kann. Neben der Webinstallation k¨ onnen Sie ANNIS auch lokal auf Ihrem eigenen Rechner installieren, vorausgesetzt, dass Sie das Datenbank-Managementsystem PostgreSQL vorinstalliert haben. Letzteres sollte keine H¨ urde darstellen, da PostgreSQL f¨ ur die g¨ angigen Betriebssysteme kostenfrei zur Verf¨ ugung steht 23 . Mittels des Konvertierungstools SaltNPepper 24 k¨ onnen Sie Korpora aus vielen g¨ angigen Formaten in ein ANNIS-konformes Format ¨ uberf¨ uhren und dann mit ANNIS durchsuchen. Das Web zum Korpus macht schließlich das browser-basierte WebCorp. Es handelt sich um ein kostenfreies Konkordanz-Tool, mit dem Sie linguistische Anfragen an das Internet stellen k¨ onnen. Die Suchergebnisse werden im KWIC-Format pr¨ asentiert 25 . In diesem Zusammenhang wollen wir Sie nochmals auf die Probleme mit dem World Wide Web hinweisen, die wir in Kapitel 3.1.3 diskutiert haben. Wenn Sie das Internet als Korpus nutzen wollen, sollten Sie diese reflektieren. 20 T¨ uNDRA: http: / / weblicht.sfs.uni-tuebingen.de/ weblichtwiki/ index.php/ Tundra. 21 ANNIS: http: / / annis-tools.org/ . 22 Demoversion: http: / / korpling.german.hu-berlin.de/ Annis/ search.html. 23 PostgreSQL: http: / / www.postgresql.org/ . 24 ANNIS-Tools: http: / / annis-tools.org/ tools.html. 25 WebCorp: www.webcorp.org.uk/ . 96 5 Annotation im praktischen Einsatz 5.1.3 Anfragen formulieren Beim Formulieren von Suchanfragen kann es sein, dass Sie als Linguist ihre Perspektive auf die Daten ¨ andern m¨ ussen. Eine erfolgreiche Korpusabfrage setzt voraus, dass die linguistischen Fragestellungen auf die Gegebenheiten des Korpus abgebildet wurden 26 . Man spricht hier von einer Operationalisierung der linguistischen Fragestellungen 27 . Ist das Korpus auf Wortebene annotiert, k¨ onnen Sie syntaktische Zusammenh¨ ange z.B. in lineare Abfolgen von W¨ ortern und Wortarten ¨ ubersetzen. Konzepte, die Ihnen hierbei zur Verf¨ ugung stehen, sind direkte und mittelbare Pr¨ azedenz, intervenierende Elemente, Optionalit¨ at, Alternation, Wiederholungen und Satzgrenzen (siehe auch den Exkurs zu regul¨ aren Ausdr¨ ucken, S. 92ff.). Im Folgenden spielen wir beispielhaft die Operationalisierung von zwei linguistischen Fragestellungen durch. Die erste Fragestellung soll durch eine CQP-basierte Suche auf dem bereits im letzten Abschnitt erw¨ ahnten CQP-Demokorpus zu Bundestagsdebatten 28 umgesetzt werden. In Tabelle 8 sehen Sie zun¨ achst eine linguistische Fragestellung zu Akkusativ-mit-Infinitiv- Verben (auch AcI-Verben von Latein ’accusativus cum infinitivo‘ ). Diese wurde operationalisiert und in eine Korpusanfrage ¨ ubersetzt, welche sowohl in Worten ausbuchstabiert als auch in der Anfragesyntax (hier als CQP-Anfrage) formalisiert ist. Anschließend haben wir zu Illustrationszwecken noch einen Korpusbeleg abgedruckt. Linguistische Fragestellung Gibt es Gegenbeispiele zur These, dass im Deutschen AcI- Verben wie sehen oder h¨oren im Perfekt immer in der Form des Ersatzinfinitivs auftreten (vgl. Meurers, 2005)? Ein Ersatzinfinitiv w¨ are hat . . . reden h¨oren, ein Gegenbeispiel w¨ are die Partizipkonstruktion hat . . . reden geh¨ort. ¨ Ubersetzung f¨ ur die Anfrage Suche nach einem Wort mit dem POS-Tag VVINF (Vollverb im Infinitiv) unmittelbar gefolgt von gesehen oder geh¨ort. CQP-Anfrage [pos = "VVINF"]("gesehen"|"gehrt") Korpusbeleg ”Ich habe gestern Frau Matth¨ aus-Maier hier reden geh¨ ort, die leidenschaftlich daf¨ ur geworben hat, daß man die Schulden reduziert (...)“ Tabelle 8: Beispielanfrage zu AcI-Verben im CQP-Demokorpus Steht einem ein phrasenstrukturell annotiertes Korpus zur Verf¨ ugung, kann man zus¨ atzlich zur linearen Abfolge (siehe Pr¨ azedenz) ¨ uber das Konzept der Dominanz auf hierarchische Beziehungen Bezug nehmen. Neben direkter und mittelbarer Dominanz kann man, falls das Korpus Kantentags enth¨ alt, auch gelabelte Dominanz miteinbeziehen. 26 Vgl. auch Meurers und M¨ uller (2008). 27 Im Zusammenhang mit der quantitativen Auswertung von Korpora gehen wir in Kapitel 6.2.1 noch einmal ausf¨ uhrlich auf Operationalisierungen ein. 28 CQP-Demokorpus: http: / / corpora.linguistik.uni-erlangen.de/ demos/ CQP/ cqpdemo. html. 5.2 Eigenes Annotieren 97 Das zweite Beispiel, das in Tabelle 9 dargestellt ist, illustriert eine Suchanfrage mit TIGERSearch auf der T¨ uBa-D/ Z 29 . Abbildung 13 zeigt zus¨ atzlich die grafische Anfrageoption von TIGERSearch, bei der man Teilstrukturen ’zeichnen‘ kann. Der hellgrau hinterlegte Bereich beschreibt die nicht-terminalen Knoten im Baum, der dunkelgrau hinterlegte die terminalen. Die Kanten zwischen den Knoten k¨ onnen mit funktionalen Tags markiert werden (hier z.B. PRED und HD f¨ ur Pr¨ adikativ und funktionalen Kopf). Linguistische Fragestellung Gibt es Pr¨ adikativkonstruktionen, bei denen ein Genitiv als Pr¨ adikatsnomen fungiert? ¨ Ubersetzung f¨ ur die Anfrage Suche nach zwei nicht-terminalen Knoten (#n1 und #n2), die in einem direkten Dominanzverh¨ altnis zueinander stehen, wobei die verbindende Kante ein PRED-Tag tr¨ agt (= gelabelte Dominanz). Der untergeordnete Knoten (#n2) muss wiederum ¨ uber ein HD-Tag (HD f¨ ur head, Kopf ) mit einem terminalen Knoten (#n3) verbunden sein, welcher als morphologische Markierung an erster Stelle ein g f¨ ur Genitiv tr¨ agt. Textuelle TIGER- Search-Anfrage #n1: [NT] >PRED #n2: [NT] & #n2 >HD #n3: [morph=/ g.*/ ] Korpusbeleg ”Die Einsicht ist da, und die Opposition ist im Grunde derselben Ansicht.“ Tabelle 9: Beispielanfrage Genitivpr¨ adikativ in der T¨ uBa-D/ Z 5.2 Eigenes Annotieren In diesem Abschnitt wollen wir wie schon in Kapitel 3.4 wieder ein paar Tipps geben, f¨ ur den Fall, dass Sie ein eigenes Korpus erstellen und selbst annotieren wollen. Dabei wollen wir Sie zun¨ achst dazu anleiten, sich an bestehenden Standards zu orientieren. Dies ist nicht nur f¨ ur eine potenzielle Weitergabe und Nachnutzung Ihrer Daten wichtig, sondern auch f¨ ur den Einsatz von Tools, die Ihnen die Annotation oder die Auswertung erleichtern k¨ onnen. Dar¨ uber hinaus zeigt der Einsatz von Standards, dass Sie sich im Vorfeld ¨ uber den State-of-the-Art informiert haben, was ein wichtiges Kriterium bei der Evaluierung von Projekten z.B. bei Promotionen oder beim Einwerben von Drittmittelprojekten darstellt. 29 Sie k¨ onnen die Anfrage alternativ auch in T¨ uNDRA stellen, das wir im letzten Abschnitt beschrieben haben. Beachten Sie, dass die Anfrage nur einfache F¨ alle abdeckt. F¨ ur komplexere Nominalstrukturen m¨ usste sie erweitert werden. 98 5 Annotation im praktischen Einsatz Abbildung 13: Grafische Anfrage in TIGERSearch: Genitivpr¨ adikativ in T¨ uBa-D/ Z 5.2.1 Standards Als allgemeine Herangehensweise ans Annotieren wollen wir Sie auf die Annotationsmaximen nach Geoffrey Leech 30 verweisen (siehe Abb. 14), die wir im Anschluss kommentieren. Leech hatte beim Formulieren der Maximen gr¨ oßere Annotationsprojekte im Sinn. Wir denken aber, dass sie mit kleinen Einschr¨ ankungen auch f¨ ur kleine Vorhaben einschl¨ agig sind. 1. Annotation sollte so eingetragen sein, dass man den Ursprungstext wiederherstellen kann. 2. Es sollte m¨ oglich sein, die Annotation unabh¨ angig vom Ursprungstext abzuspeichern und auszuwerten. 3. Die Annotation sollte dokumentiert werden, z.B. in der Form von Richtlinien. Die Dokumentation sollte dem sp¨ ateren Nutzer zur Verf¨ ugung stehen. a) Die Annotatoren und die Annotationsumst¨ ande sollten bekannt sein. b) Die Qualit¨ at des Korpus sollte ¨ uberpr¨ uft und dokumentiert werden. Die Benutzer sollten erfahren, wie konsistent die Annotation ist. 4. Das Annotationsschema sollte so weit wie m¨ oglich theorieneutral sein. 5. Kein Annotationsschema kann a priori als Standard gelten - Standards bilden sich durch Konsens der Nutzer heraus. Abbildung 14: Annotationsmaximen nach Geoffrey Leech (1997) 30 Vgl. Leech (1997). 5.2 Eigenes Annotieren 99 Wie k¨ onnen Sie vorgehen, wenn Sie Leech folgen und die Annotation von den Rohdaten trennen wollen? Fr¨ uher hat man die linguistischen Tags einfach an die zu beschreibenden Elemente angeh¨ angt, z.B. mit einem Unterstrich oder einem Schr¨ agstrich wie in (10): (10) ein/ ART einfaches/ ADJA Beispiel/ NN Zu jedem Wort wird hinter einem Strich die Wortklasse angegeben. Die Annotationstags sind damit eindeutig vom Prim¨ artext getrennt und man kann bei Bedarf leicht nach Folgen von W¨ ortern und Wortarten suchen. Allerdings wird diese Art der Annotation schnell un¨ ubersichtlich, wenn man mehrere Eigenschaften gleichzeitig annotieren m¨ ochte. Deshalb ist man dazu ¨ ubergegangen, f¨ ur die Annotation spezielle Auszeichnungssprachen zu verwenden, wobei XML in den letzten Jahren eine zentrale Rolle spielt 31 . Die Auszeichnung mit XML besteht gr¨ oßtenteils aus Elementen, die ihrerseits aus ¨ offnenden und schließenden Auszeichnern in spitzen Klammern gebildet werden z.B. <w> . . . < / w>. Die Auszeichner werden wiederum als Tags bezeichnet 32 . Im folgenden Beispiel ist jedes Token von einem XML-Element (hier mit dem Namen w f¨ ur Worttoken) umschlossen. (11) <w pos="ART">ein</ w> <w pos="ADJA">einfaches</ w> <w pos="NN">Beispiel</ w> Das schließende Tag wiederholt den Elementnamen mit einem vorangestellten Schr¨ agstrich (’Slash‘ ). Zus¨ atzlich zu den Elementnamen k¨ onnen die ¨ offnenden Tags Attribute beinhalten (hier z.B. pos mit dem Wert ART). Beispiel (13) zeigt noch eine Variante der Darstellung von XML-Elementen. Wenn ein Element wie in (12) ”leer“ bleibt, also kein Text zwischen dem ¨ offnenden und schließenden Tag steht, kann man es auch verk¨ urzt hinschreiben (13). (12) <s id="3"></ s> (13) <s id="3"/ > Auch wenn man mittels des Markups von XML der Anforderung von Leech gerecht werden kann, Annotation und Ursprungstext sauber von einander getrennt zu verwalten 33 , sind damit noch nicht alle Anforderungen an die Annotationskodierung erf¨ ullen. Beispiel (14) stellt eine Erweiterung der Annotation von Beispiel (11) dar. Hier wurde eine zus¨ atzliche nicht-terminale (nt) Annotationsschicht mit phrasaler Annotation (Phrasenkategorie cat = Nominalphrase NP) hinzugef¨ ugt. (14) <nt cat="NP"> <w pos="ART">ein</ w> 31 Die Abk¨ urzung XML steht f¨ ur Extensible Markup Language. F¨ ur eine Einf¨ uhrung in diesen Formalismus verweisen wir den interessierten Leser auf die ¨ Ubersetzungen der XML-Standards http: / / www.edition-w3c.de/ sowie auf das einf¨ uhrende Buch von Henning Lobin (2000). 32 Sie kennen nun zwei Bedeutungen f¨ ur das Lehnwort Tag: als Annotationslabel und als Teil eines XML-Elements. 33 Siehe Punkt 1 und 2 in Abb. 14. 100 5 Annotation im praktischen Einsatz <w pos="ADJA">einfaches</ w> <w pos="NN">Beispiel</ w> </ nt> Stellen Sie sich nun vor, dass Sie die Annotationsschemata zweier Korpora vergleichen wollen, indem Sie einen Beispieltext sowohl nach dem TIGER-Korpus als nach der T¨ uBa-DZ annotierten 34 . Bei einfachen F¨ allen k¨ onnte dies durch spezifische Attribute wie in (15) gel¨ ost werden oder auch durch das Hinzuf¨ ugen korpusspezifischer Elemente (z.B. nt tiger, nt tueba). (15) <nt cat tiger="NP" cat tueba="NX"> <w pos="ART">ein</ w> . . . Diese Methode hat allerdings Grenzen. Wenn teil¨ uberlappende Strukturen entstehen, ist es nicht m¨ oglich die konkurrierenden Spannen in einer gemeinsamen XML-Datei wie bisher gezeigt abzubilden. Ein Beispiel hierf¨ ur ist in Tab. 10 skizziert, in dem ein Substantiv durch einen Relativsatz modifiziert wird. Nach TIGER wird die Struktur als eine komplexe Nominalphrase (NP) annotiert, nach T¨ uBa wird sie auf zwei topologische Felder verteilt (Mittelfeld MF und Nachfeld NF) 35 . Die beiden in der Tabelle dunkelgrau hinterlegten Spannen bilden eine teil¨ uberlappende Struktur, in der keine der beiden Spannen vollst¨ andig von der anderen abgedeckt wird. Token Das ist f¨ ur mich eine Botschaft , die den . . . TIGER-Phrasen PP NP T¨ uBa-Felder VF LK MF NF Tabelle 10: Teil¨ uberlappende Annotationseinheiten beim Vergleich des TIGER- und T¨ uBa-Annotationsschemas von Das ist f¨ ur mich eine Botschaft, die den Deutschen jetzt gem¨ aß ist. (TIGER v2.1, Satz 3773) Eine L¨ osung hierf¨ ur ist das sogenannte XML-Standoff-Format, bei dem die Annotationen getrennt vom Prim¨ artext gespeichert werden und auf diesen nur verweisen. In (16) ist das einfache Beispiel von oben in einem Standoff-Format abgebildet. Anstelle verschachtelter XML-Elemente verweisen Pointer-Attribute (idref, span) auf die entsprechenden Stellen im Prim¨ artext. Die TIGER und T¨ uBa-Spannen sind dabei vollkommen unabh¨ angig von einander und k¨ onnten entsprechend auch teil¨ uberlappende Einheiten bilden. (16) <w id="w1">ein</ w> <w id="w2">einfaches</ w> <w id="w3">Beispiel</ w> <pos idref="w1">ART</ pos> 34 Vgl. die Gegen¨ uberstellung in Tab. 5, S. 78. 35 F¨ ur die Analysen s. Albert et al. (2003), S. 30f., und Telljohann et al. (2012), S. 99f. 5.3 Entwicklung eines Annotationsschemas 101 <pos idref="w2">ADJA</ pos> <pos idref="w3">NN</ pos> <nt tiger span="w1..w3">NP</ nt tiger> <nt tueba span="w1..w3">NX</ nt tueba> Eine Speicherung im Standoff-Format ist immer auch dann sinnvoll, wenn man sich die M¨ oglichkeit offen halten m¨ ochte, nachtr¨ aglich weitere und ggf. konkurrierende Annotationsebenen zu einem Korpus hinzuzuf¨ ugen. Normalerweise tippt man Standoff- Annotationen nicht selbst ein, sondern verwendet Annotationstools. Viele der Annotationstools, die wir Ihnen in Abschnitt 5.4 vorstellen werden, speichern die annotierten Daten in einem Standoff-Format ab. Wie schon bei den Metadaten verweisen wir Sie wieder auf den Corpus Encoding Standard bzw. seine XML-Version XCES 36 als einen der klassischen Standards f¨ ur die Kodierung von Annotation, d.h. f¨ ur die Art und Weise, wie Annotationstags in einer Datei aufgeschrieben werden. PAULA und GRAF sind zwei generische XML-Formate, die von vielen Projekten f¨ ur die Speicherung von Standoff-Annotation verwendet werden 37 . Inhaltliche Standards, d.h. Standards f¨ ur die Namen (und Bedeutungen) der Annotationstags selber lassen sich nur schwer etablieren, da die Kategorien stark von den theoretischen Annahmen der Forscher abh¨ angen. EAGLES 38 war ein fr¨ uher Versuch, einen Konsens f¨ ur verschiedene Annotationsebenen in Bezug auf die Analyse europ¨ aischer Sprachen zu erreichen. Um der Vielfalt an Annotationsschemata gerecht zu werden und dennoch eine Systematisierung zu erlauben, wurde die ISOcat Registry 39 eingerichtet, eine Webdatenbank, in der Annotationsschemata gesammelt werden und dadurch leichter zu vergleichen sind. Ein formaler Vergleich ist ¨ uber explizite Bez¨ uge in ISOcat oder ¨ uber Metaschemata wie die Ontologies of Linguistic Annotation (OLiA) 40 m¨ oglich. F¨ ur die Annotation von Zeitausdr¨ ucken und -relationen hat sich das Annotationsschema TIME-ML 41 international durchgesetzt. ISO-Space 42 ist ein Versuch, die Annotation der Beziehungen zwischen Sprache und Raum, die z.B. durch Pr¨ apositionen ausgedr¨ uckt wird, zu standardisieren. 5.3 Entwicklung eines Annotationsschemas Sollten Sie sich entschließen ein eigenes Annotationsschema zu entwickeln, wollen wir Ihnen methodische Hilfestellung an die Hand geben. Die Entwicklung eines guten Annotationsschemas bzw. guter Annotationsrichtlinien verlangt, dass man die Kategorien sehr genau ausbuchstabiert. Der Hintergedanke hierbei ist, dass die Annotation im Idealfall nicht von Ihnen selbst, sondern von jemand 36 XCES: http: / / www.xces.org/ . 37 F¨ ur PAULA s. Dipper (2005); Zeldes et al. (2013), f¨ ur GRAF Ide und Suderman (2007). 38 EAGLES-Empfehlungen: http: / / www.ilc.cnr.it/ EAGLES/ browse.html. 39 ISOcat: http: / / www.isocat.org/ . 40 OLiA: http: / / acoli.cs.uni-frankfurt.de/ resources/ olia/ . 41 TIME-ML: http: / / www.timeml.org/ site/ index.html. 42 ISO-Space: https: / / sites.google.com/ site/ wikiisospace/ . 102 5 Annotation im praktischen Einsatz anderem durchgef¨ uhrt wird. Dieses Vorgehen hilft sicherzustellen, dass die Annotationskategorien nachvollziehbar und objektiv definiert sind. In Abschnitt 4.3.1, S. 64f., hatten wir Ihnen bereits das Annotationsschema des Stuttgart-T¨ ubingen Tagsets vorgestellt. Idealerweise besteht ein Schema bzw. die Richtlinien f¨ ur die Annotatoren aus folgenden Bausteinen (nicht notwendigerweise in dieser Ordnung): • Eine Liste aller Tagnamen (meist sprechende K¨ urzel) zusammen mit ihren Langnamen (Kategoriebezeichnungen), • Definitionen der Kategorien, • Prototypische Annotationsbeispiele f¨ ur die Kategorien, • Tests, die helfen zu entscheiden, ob eine Kategorie zutrifft, • Problematische Beispiele mit Annotationen, • Typische Verwechslungskategorien (d.h. konkurrierende Tags) mit Beispielen. Tests f¨ ur die Unterscheidung zwischen der Wortartenannotation ADJD und VVPP hatten wir Ihnen bereits in Abschnitt 4.3.1, S. 65f. vorgestellt 43 . Als weiteres Beispiel f¨ ur einen Test zitieren wir aus dem TIGER-Annotationsschema. Es geht hier um die Entscheidung, ob eine Nominalphrase als Subjekt oder als Pr¨ adikativ annotiert werden soll: Weitere Tests: (i) Ersetze die Kopula durch eine Form von machen, das (vermeintliche) Subjekt durch eine Akkusativ-NP und das Pr¨ adikatsnomen durch eine zu-PP: (52) der G¨ artner ist der M¨ order a. sie haben den G¨ artner zum M¨ order gemacht b. ? ? ? ? ? ? ? ? ? ? sie haben den M¨ order zum G¨ artner gemacht (wenn schon, dann den Bock : -) (ii) noch besser: gelten als, etw. darstellen, . . . → die als-Phrase ist das Pr¨ adikativ: (53) a. der G¨ artner gilt als M¨ order b. 6= ? ? der M¨ order gilt als G¨ artner Auch wenn beide M¨ oglichkeiten nicht besonders gut klingen, nimm die bessere! Falls immer noch unklar, kann das Label SP (subject or predicative) als ultima ratio vergeben werden. (Albrecht et al. 2003, S. 66, Fragezeichen im Original) In der Praxis hat es sich bew¨ ahrt, Annotationsentscheidungen systematisch in Entscheidungsb¨ aumen zu organisieren vgl. das Beispiel auf S. 67. Gleichzeitig k¨ onnen auch die Annotationskategorien hierarchisch aufgebaut sein, so dass bei Unsicherheiten ggf. auf eine Oberkategorie zur¨ uckgegriffen werden kann - das muss aber nicht sein 44 . 43 Vgl. Schiller et al. (1999), S. 24. 44 Ein Beispiel f¨ ur ein hierarchisches Tagsets und den Einsatz von Entscheidungsb¨ aumen ist die Annotation von Pr¨ apositionenlesarten in einem Projekt von Tibor Kiss vgl. Kiss (2011); M¨ uller (2013); Kiss et al. (2014). 5.3 Entwicklung eines Annotationsschemas 103 Ein Annotationsschema sollte nicht am Reißbrett entworfen werden, sondern in Auseinandersetzung mit den zu annotierenden Daten. Es bietet sich an, hierf¨ ur eine Pilotphase bei der Korpusannotation einzuplanen. In Abb. 15 skizzieren wir den Annotationszyklus, in dem ausgehend von Literaturrecherche und erster Datensichtung (siehe Daten &Theorie) ein Schema entworfen wird, welches dann nach und nach - in einem iterativen Prozess - ausgebaut und verbessert wird. Die entscheidenden, sich wiederholenden Schritte sind (i) Analysieren von Daten beim Annotieren, (ii) Diskutieren bzw. Evaluieren der Annotationen, (iii) Interpretieren der Annotationsprobleme und entsprechende Erweiterung oder Revision des bisherigen Schemas. Abbildung 15: Der Annotationszyklus F¨ ur die Evaluierung ben¨ otigt man Doppel- oder Mehrfachannotationen derselben Daten entweder durch mehrere Personen oder von einer Person zu verschiedenen Zeitpunkten. Differenzen weisen auf potenziell schwierige Ph¨ anomene bzw. problematische Kategorien hin, die im Annotationsschema (besser) abgedeckt werden m¨ ussen 45 . Verwechslungskategorien werden in einer Verwechslungsmatrix ermittelt. Tabelle 11 fasst beispielhaft die Wortartenannotationen von zwei Annotatoren (links) in einer Verwechslungsmatrix (rechts) zusammen. 45 Die dritte M¨ oglichkeit - dass die Annotatoren einfach schlecht sind - sollte man versuchen, ausschließen zu k¨ onnen. 104 5 Annotation im praktischen Einsatz Instanz Annotator 1 Annotator 2 1 ADJD ADJD 2 VVPP ADJD 3 VVPP VVPP 4 ADJA ADJA 5 ADJD VVPP 6 ADJD ADJD 7 ADJD ADJD 8 ADJA ADJA Annotator 2 ADJA ADJD VVPP ADJA 2 0 0 Annotator 1 ADJD 0 3 1 VVPP 0 1 1 Tabelle 11: Evaluierungsbeispiel mit Doppelannotation (links) und Verwechslungsmatrix (rechts) Hier scheint Kategorie ADJA unkontrovers zu sein. ADJD und VVPP hingegen sind Verwechslungskandidaten. Ihre Definitionen und die Tests in den Annotationsrichtlinien sollten auf der Basis der Korpusbeispiele ¨ uberpr¨ uft werden. Ggf. muss das Annotationsschema revidiert werden, indem gr¨ obere, feinere oder einfach andersartige Kategorien definiert werden. Zus¨ atzlich zu den beobachteten ¨ Ubereinstimmungen und Differenzen gibt es M¨ oglichkeiten, zuf¨ allige ¨ Ubereinstimmung herauszurechnen 46 . ¨ Ubereinstimmungsangaben, die im Anschluss an die Pilotphase beim eigentlichen Annotieren erhoben werden, k¨ onnen als Information ¨ uber die Qualit¨ at der Annotation bzw. deren Konsistenz zusammen mit den Korpusdaten ver¨ offentlicht werden 47 . In der Computerlinguistik beschrieb James Pustejovsky den zirkul¨ aren Entwicklungsverlauf von Annotation und davon abgeleiteten Analysetools als MATTER-Methode: ’model‘ , ’annotate‘ , ’train‘ , ’test‘ , ’evaluate‘ , ’revise‘ 48 . Die Trainings- und Testschritte beziehen sich hierbei auf die Entwicklung von statistischen, computerlinguistischen Tools. Die restlichen vier, annotationsrelevanten Schritte werden zusammengefasst auch als MAMA-Methode bezeichnet. Der Annotationszyklus ist ebenfalls angelehnt an den klassischen hermeneutischen Zirkel der textbezogenen Geisteswissenschaften: Man gelangt von einem Vorverst¨ andnis einer Theorie ¨ uber Textverst¨ andnis zu einem verbesserten Theorieverst¨ andnis usw. 49 . Im Zuge der Digital Humanities wurde von Evelyn Gius, Janina Jacke, Jan Christoph Meister und Kollegen ein erweiterter hermeneutische Zirkel vorgeschlagen, der den Textdaten in der zweiten Runde des Zirkels Annotationen und sp¨ ater ¨ uberpr¨ ufte Annotationen zur Seite stellt. Analog werden die Annahmen zur Theorie auf zweiter Ebene mit Richtlinien erweitert, in sp¨ ateren Runden des Zirkels mit Richtlinien, Diskussionen und den vorhergehenden Analysen 50 . 46 Siehe z.B. Cohens kappa oder Krippendorffs alpha in Artstein und Poesio (2008). Siehe auch die Erl¨ auterungen in Perkuhn et al. (2012). 47 Vgl. Leechs Annotationskriterium Nr. 5. 48 Siehe Pustejovsky und Stubbs (2012). 49 Vgl. z.B. Gadamer (2010). Wir bedanken uns bei Janina Jacke, die uns darauf hinwies. 50 Vgl. B¨ ogel et al. (2015), S. 123. 5.4 Annotationstools 105 5.4 Annotationstools 5.4.1 Manuelle Annotation Um ein Korpus zu annotieren, ben¨ otigen Sie im Grunde keine besondere Software. In der Praxis haben sich aber spezialisierte Tools bew¨ ahrt, die z.B. die Konsistenz der Annotation und die Fehlersuche unterst¨ utzen - und nicht zuletzt standardisierte Ausgabedateien erzeugen (Stichwort: XML). Wenn Sie ein kommerzielles Textverarbeitungsprogramm verwenden, empfiehlt es sich, die Daten in reinem Textformat abzuspeichern (.txt). Programmspezifisches Layout wie Kursivsetzung oder Fettdruck sind f¨ ur die Annotation nicht geeignet, da diese Information verloren gehen k¨ onnte, wenn Sie das Format der Dateien in ein anderes Format konvertieren z.B., um die Dateien in ein anderes Programm einzulesen 51 . Spezielle Annotationstools vereinfachen die Annotation. Eine sehr allgemein Annotationsumgebung ist z.B. das Open-Source Programm WordFreak 52 . Ein anderes weit verbreitetes Tool ist das in Hamburg f¨ ur die Transkription und Annotation von gesprochener Sprache entwickelte EXMARaLDA 53 . Es eignet sich f¨ ur flache Annotationen jeglicher Art und erlaubt auch die Integration von multi-modalen Daten. In EX- MARaLDA k¨ onnen Sie den TreeTaggers aufrufen und Ihre Texte automatisch mit STTS- Wortartentags annotieren. F¨ ur die Annotation von satz¨ ubergreifenden Ph¨ anomenen wie Koreferenzrelationen eignet sich das Heidelberger MMAX2 54 (gesprochen [maks] zwei, wie der Vorname). Manuelle Annotation von syntaktischen Konstituentenstrukturen wird von Atomic 55 unterst¨ utzt, das an der Friedrich-Schiller-Universit¨ at in Jena entwickelt wird. Das RSTTool 56 von Michael O’Donnell ist, wie der Name wahrscheinlich vermuten l¨ asst, eine Annotationsumgebung f¨ ur die manuelle Analyse von Diskursrelationen mit der Rhetorical Structure Theory (RST). Es erlaubt aber auch, dass man als Nutzer eigene Relationstypen definiert. Zuletzt wollen wir Sie noch auf Tools verweisen, die neben einer lokalen Installation auch die Nutzung ¨ uber einen Server erlauben und damit f¨ ur kollaboratives Online- Annotieren einsetzbar sind. Arborator 57 wurde von Kim Gerdes an der Sorbonne Novelle in Paris f¨ ur die Annotation von syntaktischen Dependenzstrukturen entwickelt. WebAnno 58 und brat 59 eignen sich f¨ ur jegliche wortbasierte oder relationale Annotation (d.h. z.B. syntaktische Dependenzen oder Koreferenzrelationen), allerdings nicht f¨ ur die Annotation von Konstituenten. Die Annotationsplattform GATE 60 wird bereits seit vielen Jahren an der Universit¨ at Sheffield in England entwickelt. Der Quellcode ist wie bei vielen der hier angef¨ uhrten Tools open-source, so dass sich weltweit Programmierer an 51 Vgl. Bird und Simons (2003). 52 WordFreak: wordfreak.sourceforge.net. 53 EXMARaLDA: www.exmaralda.org. 54 MMAX2: http: / / mmax2.net. 55 Atomic: http: / / linktype.iaa.uni-jena.de/ atomic/ . 56 RSTTool: \http: / / www.wagsoft.com/ RSTTool/ . 57 Arborator: http: / / arborator.ilpga.fr/ . 58 WebAnno: https: / / www.ukp.tu-darmstadt.de/ software/ webanno/ . 59 brat: http: / / brat.nlplab.org/ . 60 GATE: https: / / gate.ac.uk/ overview.html. 106 5 Annotation im praktischen Einsatz Weiterentwicklungen beteiligen k¨ onnen. GATE ist sehr gut dokumentiert und bietet u.a. die Option, automatische Tagger und andere Tools zu integrieren. Wie oben bereits angesprochen, werden nicht nur in der Linguistik Annotationen erstellt. Im Zuge der Digital Humanities etabliert sich das Annotieren in vielen geisteswissenschaftlichen Disziplinen. Wir wollen Sie hier auf ein Tool aus den Literaturwissenschaften aufmerksam machen, das Jan Christoph Meister aus Hamburg f¨ ur die narratologische Analyse von Texten entwickeln ließ. CATMA 61 l¨ asst sich intuitiv bedienen und ist durchaus auch f¨ ur linguistische Annotationsvorhaben geeignet, wenn Sie nur einzelne W¨ orter oder Sequenzen mit Annotationstags auszeichnen wollen. 5.4.2 Automatische Annotation Neben dem eben erw¨ ahnten GATE wollen wir hier nur auf eine weitere Online-Plattform f¨ ur die automatische Annotation von Texten verweisen. Im deutschlandweiten Verbundprojekt CLARIN entstand die Online-Plattform WebLicht 62 , die f¨ ur akademische Nutzer nach Anmeldung kostenlos ist (siehe im Aufgabenteil am Ende des Kapitels). WebLicht versammelt eine ganze Reihe von linguistischen Annotationstools u.a. • den TreeTagger f¨ ur die Wortarten-Annotation mit STTS; • den Berkeley-Parser, der syntaktische Konstituentenstrukturen einschließlich der Angabe von topologischen Feldern erzeugt wie in der T¨ uBa-D/ Z-Baumbank; • dem BitPar-Parser 63 (in WebLicht als Stuttgart Constituent Parser bezeichnet), der eine hybride Konstituentenstruktur ´ a la TIGER-Korpus annotiert, wobei die Phrasentags zusammen mit funktionalen Tags als komplexe Knotennamen erscheinen z.B. NP-SB f¨ ur die Subjektsnominalphrase; • den MATE-Parser 64 (in WebLicht Stuttgart Dependency Parser genannt), der syntaktische Dependenzannotationen ausgibt, die von den funktionalen Kanten des TIGER- Korpus abgeleitet sind. Ein wichtiger Grundsatz bei der Nutzung von automatischen Annotationstools ist, dass immer nur das ausgegeben werden kann, was durch Regeln oder sogenannte Trainingsdaten in das Tool hineingegeben wurde. Ein Wortartentagger, der nur auf Zeitungstext, aber nicht auf Chat- oder anderen internetbasierten Daten entwickelt wurde, wird keine passenden Annotationen f¨ ur Smileys oder die Abk¨ urzung lol (’laugh out loud‘ ) vorschlagen. Die Wortarten-Ausgaben des TreeTaggers unterscheiden sich je nach Sprachvariante des Tools 65 . Der deutsche TreeTagger annotiert Artikel mit dem Tag ART (vgl. STTS- Tagset), der englische TreeTagger mit dem Tag DT nach dem PennTreebank-Tagset und der franz¨ osische TreeTagger gibt DET-ART aus. Die Tags sind jeweils durch das Korpus bestimmt, von dem der TreeTagger die Auftretensh¨ aufigkeiten und Wort/ Tag-Sequenzen gelernt hat. 61 CATMA: http: / / www.catma.de/ . 62 WebLicht: weblicht.sfs.uni-tuebingen.de/ weblichtwiki/ . 63 BitPar-Parser: http: / / www.cis.uni-muenchen.de/ ~schmid/ tools/ BitPar/ . 64 MATE-Parser: http: / / www.ims.uni-stuttgart.de/ forschung/ ressourcen/ werkzeuge/ ma tetools.html. 65 TreeTagger: http: / / www.cis.uni-muenchen.de/ ~schmid/ tools/ TreeTagger/ . 5.6 Aufgaben 107 5.5 Weiterf ¨ uhrende Literatur Einen tieferen Einblick in Probleme und L¨ osungen der konkreten Korpuserstellung erhalten sie bei Sasaki und Witt (2004). Die Autoren betonen Aspekte der Texttechnologie, d.h. Fragen der konkreten Datenspeicherung und in welchem Format Annotationen in ein Korpus integriert werden k¨ onnen. Zur automatischen Vorverarbeitung und Annotation mit computerlinguistischen Werkzeugen m¨ ochten wir Ihnen ebenfalls noch Leseempfehlungen geben. In der Einf¨ uhrung Computerlinguistik und Sprachtechnologie (Carstensen et al., 2010) sind insbesondere Kapitel 3.4 und 3.5 relevant. Dort erfahren Sie, wie Tagger und Parser arbeiten. Kapitel 4.1 und 4.2 handeln von Korpora sowie Baumbanken und sind ebenfalls zu empfehlen, auch wenn Ihnen manches schon bekannt vorkommen wird. Zinsmeister (2015) diskutiert Chancen und Grenzen automatischer Annotation. Zum Abschluss m¨ ochten wir noch auf die Studienbibliografie zur Computerlinguistik hinweisen (Cramer und Schulte im Walde, 2006). Dort finden Sie diverse Informationen zu Korpora, Annotationswerkzeugen und anderen computerlinguistischen Ressourcen (www.coli.uni-saarland.de/ projects/ stud-bib/ ). 5.6 Aufgaben 1. Suche auf dem DWDS-Kernkorpus nach Formen von einen 66 . a. ¨ Offnen Sie die Ressourcenseite des DWDS in einem Browser und machen Sie sich mit dem DWDS-Kernkorpus vertraut: http: / / www.dwds.de/ ressourcen/ korpora/ Lesen Sie auch die detaillierte Darstellung auf der weiterf¨ uhrenden Seite (http: / / www.dwds.de/ ressourcen/ kernkorpus/ ): Wie viele Token umfasst das Kernkorpus 20? Welche Register beinhaltet es? b. ¨ Offnen Sie dann die Start-Webseite des DWDS: http: / / www.dwds.de/ c. Tippen Sie einen in das Suchfeld und dr¨ ucken Sie die Enter-Taste: einen (Enter) Stellen Sie sicher, dass Sie die Darstellung ’DWDS Referenzkorpora‘ aktiviert haben (siehe Drop-Down-Button rechts neben dem Lupe-Icon). d. Wie viele Verbvorkommnisse werden Ihnen im Panel des Kernkorpus 20 angezeigt, ohne dass Sie weiter scrollen? Wie viele im Panel des Deutschen Textarchivs? e. Schr¨ anken Sie die Suchanfrage zun¨ achst auf die Wortform einen ein 67 : @einen (Enter). Sehen Sie nun Verbformen? f. Wie sieht es mit der Wortform geeint aus? Suche: @geeint (Enter). g. Machen Sie sich die Wortartenannotation zu nutze, um verschiedene Flexionsformen des Verbs zu finden: einen with $p=VVFIN (Enter) Das Ergebnis ist leider ziemlich ern¨ uchternd. Bedenken Sie bei der Treffersichtung, dass das Korpus rein automatisch annotiert wurde und die Artikellesart vom Tagger stark pr¨ aferiert wird. 66 An dieser Stelle vielen Dank an Jessica Sohl f¨ ur ihre konstruktiven Hinweise zu den Aufgaben. 67 Lassen Sie sich nicht davon irritieren, dass das @-Zeichen hier etwas ”verdr¨ uckt“ aussieht. 108 5 Annotation im praktischen Einsatz Abbildung 16: DWDS - Startseite f¨ ur die Suche auf den DWDS-Korpora h. Schr¨ anken Sie die Suche durch den Kontext ein, indem Sie verlangen, dass das Suchwort vor einem Modalverb steht. Beachten Sie, dass Sie bei einer Suche nach einer Wortsequenz (hier zwei W¨ orter) immer doppelte Anf¨ uhrungsstriche setzen m¨ ussen: "einen with $p=VV* $p=VM*" (Enter) i. Erweitern Sie zuletzt die Suche noch auf die Alternative, dass das Verb vor einem Satzendezeichen steht: "einen with $p=VV* $p=VM*" || "einen with $p=VV* $p=\$." (Enter) 2. Suchen Sie im DWDS-Kernkorpus nach Gegenbeispielen zur These, dass im Deutschen AcI-Verben wie sehen oder h¨oren im Perfekt immer in der Form des Ersatzinfinitivs auftreten (vgl. Abschnitt 5.1.3). a. ¨ Offnen Sie die Start-Webseite des DWDS http: / / www.dwds.de/ , tippen Sie die Suchanfrage ein und dr¨ ucken Sie die Enter-Taste. "$p =VVINF @gesehen" || "$p =VVINF @geh¨ ort" In Worten: Suche nach einem Satz, der ein Wort mit dem POS-Tag VVINF (Vollverb im Infinitiv) enth¨ alt, auf das unmittelbar die Wortform gesehen folgt oder (alternativ) nach einem Satz, der ein Wort mit dem POS-Tag VVINF (Vollverb im Infinitiv) enth¨ alt, auf das unmittelbar die Wortform geh¨ort folgt. Achten Sie auf die korrekte Setzung der Anf¨ uhrungsstriche. Zur Erkl¨ arung der Syntax siehe wie oben http: / / www.dwds.de/ hilfe/ suche/ . 5.6 Aufgaben 109 Abbildung 17: DWDS - Men¨ uauswahl f¨ ur die Darstellung des Wortverlaufs b. Sichten Sie die Suchergebnisse, indem Sie auf einzelne Treffer klicken und sich den Kontext und die Quellangaben anzeigen lassen. Handelt es sich um verl¨ assliche Belege? c. Klicken Sie rechts unten am Panelrahmen auf den Link Optionen und aktivieren Sie im Men¨ ufenster die Option Textsorte. Gehen Sie zur¨ uck auf die Ergebnisliste. Wenn Sie mit der Maus auf das Textsortenk¨ urzel gehen, wird Ihnen die Textsorte als Mouse-over-Effekt angezeigt. ¨ Uberwiegt eine der Textsorten? d. Klicken Sie rechts oben im Panelrahmen auf das Download-Icon, um die Ergebnisliste als Textdatei auf den eigenen Rechner zu speichern. Wenn Sie dort Zugriff auf die Textsortenklassifikation haben wollen, m¨ ussen Sie dies vor dem Download im Men¨ u aktivieren. Die Textdatei k¨ onnen Sie sich f¨ ur weiterf¨ uhrende Untersuchungen z.B. in ein Tabellenprogramm wie MS-Excel importieren. e. Abschließend wollen wir Ihnen noch ein weiteres Feature der DWDS-Seite vorstellen. Klicken Sie oben auf der Gesamtseite auf den Button +Ressourcen und w¨ ahlen Sie zuerst Statistiken und dort Wortverlauf (Basis DWDS-Kernkorpus) aus. Sie erhalten dann ein zus¨ atzliches Panel mit einer grafischen Darstellung der Treffer verteilt ¨ uber die Dekaden des 20sten Jahrhunderts. Dieses Panel bietet wieder eine Reihe von Optionen an, die Sie durchtesten k¨ onnen. Unter anderem k¨ onnen Sie das Panel ¨ uber den Button Chart Context Menu in verschiedenen Bildformaten herunterladen. Der Button versteckt sich in der rechten oberen Ecke des Panels und ist mit drei kleinen waagerechten Balken visualisiert. Bitte beachten Sie, dass sich die Datengrundlage f¨ ur den Wortverlauf nur aus einer Basisversion des eigentlichen Kernkorpus 20 speist, so dass Sie hier teilweise 110 5 Annotation im praktischen Einsatz geringere Frequenzdaten sehen. Eine gewisse Vorstellung der diachronen Entwicklung erhalten Sie allemal. 3. Suchen Sie in der Dependenzversion der T¨ uBa-D/ Z, die ¨ uber T¨ uNDRA online zur Verf¨ ugung steht nach Beispielen f¨ ur Pr¨ adikativkonstruktionen im Genitiv (vgl. Abschnitt 5.1.3). Abbildung 18: T¨ uNDRA - Auswahl der T¨ uBa-D/ Z Dependency a. ¨ Offnen Sie die die T¨ uNDRA-Seite in einem Browser: http: / / weblicht.sfs.uni-tuebingen.de/ weblichtwiki/ index.php/ Tundra. b. Klicken Sie auf den Link https: / / weblicht.sfs.uni-tuebingen.de/ Tundra und melden Sie sich im Clarin EU Service Provider ¨ uber Ihre Universit¨ at an. Sollte Ihre Universit¨ at nicht aufgelistet sein (was z.B. zur Zeit der ¨ Uberarbeitung des vorliegenden Buches f¨ ur die Universit¨ at Hamburg galt) k¨ onnen Sie sich bei https: / / user.clarin.eu/ user/ register ein eigenes Konto einrichten lassen, mit dem Sie Zugriff auf T¨ uNDRA ¨ uber den clarin.eu website account erhalten. Es ist wichtig, dass Sie hier eine akademische E-Mail-Adresse angeben, da Ihre Anfrage andernfalls als Spam aussortiert wird. c. Auf der T¨ uNDRA-Startseite klicken Sie ganz oben links auf Load Treebank und w¨ ahlen dann aus der Liste die T¨ uBa-D/ Z v9 Dependency (Experimental) aus. Achten Sie auf den korrekten Namen des Korpus! d. Tippen Sie in das Search-Feld ganz oben ein: #n1 >PRED #n2: [morph=/ g.*/ ] In Worten: Suche nach zwei (Wort-)Knoten #n1 und #n2, die mit einer PRED- Relation (Pr¨ adikativ) verbunden sind, wobei das abh¨ angige Dependens mit dem Kasus Genitiv annotiert ist. 5.6 Aufgaben 111 e. Sie sollten 73 Treffer erhalten. Machen Sie sich ein Bild von den Ergebnissen, indem Sie mit den Pfeiltasten oben in der Mitte durch die Treffer browsen. In der Icon-Leiste links werden Ihnen verschiedene Darstellungsoptionen angeboten. Klicken Sie sich einmal durch die Varianten. Welche Darstellungen helfen Ihnen, die Ergebnisse besser zu verstehen? Handelt es sich tats¨ achlich um Pr¨ adikativkonstruktionen mit Kopula oder w¨ urden Sie die Belege anders klassifizieren? 4. Artikelsetzung ist ein schwieriges Ph¨ anomen f¨ ur Fremdsprachenlerner. Suchen Sie nach falsch verwendeten Artikeln im Lernerkorpus Falko. Gehen Sie daf¨ ur auf die ANNIS-Demo-Seite: korpling.german.hu-berlin.de/ annis3 Abbildung 19: ANNIS - Suche auf dem Falko-Korpus a. W¨ ahlen Sie in der Corpus List links unten das Korpus falkoEssayL2v2.4 aus. Es beinhaltet 248 Texte von Fremdsprachenlernern des Deutschen. b. Tippen Sie in das Anfragefenster rechts oben eine Suche nach Artikeln ein, die auf der Ebene der Zielhypothese 1 (ZH1) gel¨ oscht wurden: ZH1Diff="DEL" & #1 _=_ pos="ART" In Worten: Suche auf der Annotationsebene ZH1Diff nach Annotationen vom Typ DEL (’delete‘ ) und gebe genau solche Treffer (#1) aus, f¨ ur die gilt, dass sie auf der Ebene der Wortartenannotation des Originals (pos) mit ART getaggt sind. Sie m¨ ussten 61 Treffer erhalten. c. Browsen Sie durch die Ergebnisliste. Erweitern Sie bei Bedarf die Kontextsicht auf mehr als 5 Token (rechts oder links). ¨ Uberpr¨ ufen Sie auch die ”ZH1(grid)- Darstellung“. Betrifft die Tilgung nur den Artikel oder handelt es sich um gr¨ oßere Korrekturen? 6 Den Wald hinter den B ¨ aumen sehen — Quantitative Auswertung von Korpusdaten Am Ende dieses Kapitels haben Sie anhand einer Beispielstudie gesehen, wie eine linguistische Fragestellung umformuliert werden kann, um sie ”korpustauglich“ zu machen. Sie haben ebenso gesehen, wie aus einer linguistischen Fragestellung eine quantitativ ¨ uberpr¨ ufbare Hypothese abgleitet wurde. Sie verstehen, wie man die Ergebnisse einer Korpusabfrage tabellarisch pr¨ asentiert, so dass Sie daraus verschiedene quantitative Zusammenfassungen und grafische Darstellungen erzeugen k¨ onnen. Sie haben anhand von zwei Beispielstudien Kennwerte f¨ ur zentrale Tendenzen kennengelernt. Sie werden erkannt haben, wie wichtig die Visualisierung ist, um quantitative Daten zu verstehen. Außerdem haben Sie Hinweise auf Internetressourcen und weiterf¨ uhrende Literatur zur statistischen Auswertung von quantitativen Daten erhalten, da wir Ihnen im Rahmen dieses Buches nur einen Ausblick auf die eigentlichen Berechnungen geben k¨ onnen. 6.1 Korpuslinguistik und Statistik Wie wir in den bisherigen Kapiteln gezeigt haben, befasst sich Korpuslinguistik mit Korpora, d.h. mit Prim¨ ardaten, Annotationen und Metadaten. Es geht dabei darum, wie man Korpora inhaltlich konzipiert, konkret erstellt und schlussendlich in Dateien in bestimmten Datenformaten repr¨ asentiert und ¨ uber Anfrageschnittstellen zug¨ anglich macht. Ein anderer Bereich von Korpuslinguistik handelt davon, wie Korpusdaten f¨ ur die linguistische Argumentation genutzt werden k¨ onnen. Hierzu geh¨ oren methodische Aspekte z.B., wie man eine Abfrage an ein Korpus stellt, um relevante Beispieldaten zu finden oder ¨ Uberlegungen dazu, wie man die Korpusbeispiele angemessen interpretiert. Da Korpora im Idealfall Zugriff auf große Datenmengen bieten, befasst sich ein weiterer Teilbereich der Korpuslinguistik mit quantitativen Auswertungen. Hier kommen unweigerlich statistische Methoden ins Spiel. Dieses Kapitel soll anhand von einfachen Beispielen in die Denkweise und die ersten Schritte einer quantitativen Auswertung einf¨ uhren 1 . Im Rahmen dieses Buches k¨ onnen wir keine Einf¨ uhrung in die Statistik geben, wir k¨ onnen die Leser nur anregen, sich tiefer mit diesem Thema zu befassen. Erfreulicherweise wurden in den letzten Jahren mehrere Statistikeinf¨ uhrungen ver¨ offent- 1 Herzlichen Dank an Melanie Andresen und Fabian Barteld f¨ ur Korrekturen und konstruktive Vorschl¨ age zu diesem Kapitel. 6.2 Operationalisierung und Hypothesen 113 licht, die sich speziell an Linguisten wenden. Wir werden am Ende des Kapitels im Abschnitt zur weiterf¨ uhrenden Literatur kurz darauf eingehen. 6.2 Operationalisierung und Hypothesen 6.2.1 Operationalisierungen von Fragestellungen M¨ ochte man quantitativ arbeiten, muss man Dinge ausz¨ ahlen. In Bezug auf quantitative Korpusstudien setzt dies voraus, dass die linguistischen Einheiten, die man z¨ ahlen m¨ ochte, im Korpus wiederauffindbar sind. Linguistische Fragestellungen m¨ ussen daf¨ ur auf die Gegebenheiten des Korpus anpasst werden. Sie m¨ ussen operationalisiert werden. Das klingt zun¨ achst etwas sperrig, bedeutet aber nur, dass man die Konzepte einer linguistischen Fragestellung in Bezug auf ihre Auffindbarkeit im Korpus ¨ uberpr¨ uft und, wenn n¨ otig, auf beobachtbare Einheiten abbildet. Die einfache linguistische Aufgabe ”Z¨ ahle alle Adjektive im Korpus“ setzt zum Beispiel voraus, dass der Begriff Adjektiv operationalisiert wird. Soll die Suche in einem nicht-annotierten Korpus stattfinden, ben¨ otigt man Kriterien, die eindeutig festlegen, was ein Adjektiv ist und was nicht. Man kann sich hierbei zum Beispiel auf eine bestimmte Grammatik oder auf vorhandene Annotationsrichtlinien berufen. Wenn man die Suchanfrage nicht operationalisiert und die Auffindungskriterien damit im Unklaren bel¨ asst, kann man schlussendlich auch keine aussagekr¨ aftigen quantitativen Ergebnisse ableiten. Legt man der Ausz¨ ahlung ein annotiertes Korpus zugrunde, muss man ¨ uberpr¨ ufen, in wie weit die Annotationskategorien das gesuchte Ph¨ anomen abbilden. Ist das Korpus zum Beispiel mit den Wortartentags des Stuttgart-T¨ ubingen Tagsets (STTS) getaggt, stehen zwei Adjektivtags zur Verf¨ ugung und eine auf der Hand liegende Operationalisierung von Adjektiv w¨ are ”Token mit den STTS-Annotationen ADJA oder ADJD“, d.h. ein Token, das mit einem der beiden Tags f¨ ur attributiv bzw. pr¨ adikativ/ adverbial verwendete Adjektive getaggt ist. Bei einer entsprechenden Suchanfrage findet man dann alle Vorkommnisse, die gem¨ aß STTS als ADJA oder ADJD annotiert wurden wie die Belege in (1) und (2). (1) Wir haben g¨ ultige ADJA P¨ asse. (2) Die bisherige ADJA W¨ ahrung bleibt parallel ADJD als Zahlungsmittel g¨ ultig ADJD . Beispiel (3) zeigt, dass diese Operationalisierung eventuell noch nicht alle Vorkommnisse erfasst, die man gerne abdecken m¨ ochte. Kardinalzahlen wie zwei werden gem¨ aß STTS als CARD ausgezeichnet - anders als Ordinalzahlen wie zweite, die das Tag ADJA erhalten 2 . (3) Mein Vater hatte zwei CARD Gesichter, und das zweite ADJA Gesicht war meistens verborgen. M¨ ochte man auch Vorkommnisse wie zwei in die Untersuchung einbeziehen, m¨ usste die Operationalisierung von Adjektiv lauten ”Token mit den STTS-Annotationen AD- 2 Vgl. Schiller et al. (1999), S. 18-28. 114 6 Quantitative Auswertung von Korpusdaten JA, ADJD oder CARD“. Allerdings w¨ urde diese Anfrage auch Kardinalzahlen in nichtattributiver Verwendung auffinden wie z.B. Jahreszahlen. Man m¨ usste die Operationaliserung noch einmal ¨ uberarbeiten oder die Suchergebnisse nachtr¨ aglich filtern. Sollte das linguistische Ph¨ anomen, das man untersuchen m¨ ochte, keine unmittelbare Entsprechung in den Annotationstags haben, kann man sich ihm indirekt ¨ uber leicht zu identifizierende Oberfl¨ achenmerkmale und relevante Annotationsmuster ann¨ ahern. Da ein Fremdwort f¨ ur ann¨ ahern das Wort approximieren ist, bezeichnet man Stellvertretereinheiten f¨ ur das eigentliche Ph¨ anomen als Proxys. Die Operationalisierung nimmt dann auf die entsprechenden Proxys Bezug. Um die Verwendung von Proxys zu veranschaulichen, betrachten wir die quantitative Untersuchung des Informationstatus von referenziellen Ausdr¨ ucken, vgl. Abschnitt 4.3.4. Zur Erinnerung, der Informationsstatus gibt grob gesagt an, ob ein Ausdruck auf einen Referenten verweist, der im Diskurs bereits eingef¨ uhrt wurde (diskursalt und damit auch h¨ orer/ leser-alt) oder ob es sich um einen bisher unbekannten Referenten handelt (h¨ orer/ leser-neu und damit auch diskurs-neu). Die g¨ angingen Analyseschemata sehen auch Mischformen und andere Unterklassen vor z.B. diskurs-neue Ausdr¨ ucke, die aber h¨ orer/ leser-alt sind, da das Wissen um ihre Existenz zum Allgemeinwissen geh¨ ort 3 . Tabelle 12 illustriert die Operationalisierung von Kategorien des Informationsstatus in Form von einfachen Proxys 4 , die in einem syntaktisch annotierten Korpus per Suchanfragen auffindbar w¨ aren. Kategorie Kommentar Proxy H¨ orer-alt aber diskurs-neu Allgemein bekannte Referenten Nicht-vorerw¨ ahnte Eigennamen: z.B. Erstnennung der Stadt Hamburg im Text Diskurs-alt Referent ist im Text bereits eingef¨ uhrt Pronomen, vorerw¨ ahnte Eigennamen: z.B. sie; Zweitnennung von Hamburg H¨ orer-neu Werden als ”brandneu“ bezeichnet Eigennamen, die von Relativsatz oder Apposition begleitet werden: z.B. Peter Jackson, der Regisseur von ”Herr der Ringe“ Tabelle 12: Operationalisierung von Kategorien des Informationsstatus durch Proxys ¨ Ahnlich, wie wenn man Annotationskategorien zur Operationaliserung eines linguistischen Ph¨ anomens verwendet, muss man bei der Operationalisierung durch Proxys immer hinterfragen, in wie weit man dem eigentlichen Untersuchungsph¨ anomen gerecht wird. Referiert wirklich jedes Pronomen auf einen im Text vorerw¨ ahnten Referenten? 3 F¨ ur Schemata zur Annotation von Informationsstatus siehe z.B. Prince (1981) oder Baumann und Riester (2012). 4 Vgl. Strube und Hahn (1999). 6.2 Operationalisierung und Hypothesen 115 Ganz sicher nicht. Das zeigen nicht-referierende Beispiele des Personalpronomens es in (4)-(6). (4) Formales Subjekt Es gibt zwei neue Maschinen auf dem Markt. (5) Korrelat des Objektsatzes Ich finde es gut, dass das ¨ offentlich diskutiert wird. (6) Vorfeld-’es‘ Es nahmen drei Vertreter des Senats teil. Man kann anhand einer Stichprobenauswertung absch¨ atzen, in wie weit sich die Verteilung der Proxys im Text der tats¨ achlichen Verteilung des zu untersuchenden Ph¨ anomens ann¨ ahert. Im Folgenden betrachten wir wieder die Operationalisierung einer Aussage wie am Anfang dieses Unterkapitels. Anstelle der einfachen Aufforderung Z¨ ahle alle Adjektive im Korpus, bei dem wir das Konzept Adjektiv operationalisiert haben, handelt es sich nun um die Hypothese, dass Fremdsprachenlerner des Deutschen (L2-Sprecher) Probleme mit der Sprache haben. Neben rein substantivischen Termini wie L2-Sprecher (bzw. vorher Adjektiv), m¨ ussen auch die benannten Eigenschaften wie Probleme haben operationalisiert werden - was manchmal gar nicht so offensichtlich ist. Als Beispiel hierf¨ ur betrachten wir eine Untersuchung zur Informationsstruktur in Texten von Fremdsprachenlernern des Deutschen. Die Informationsstruktur beschreibt, wie alte und neue Information im Satz pr¨ asentiert wird. Der oben erw¨ ahnte Informationsstatus von Nominalphrasen ist ein Teilaspekt der Informationsstruktur. Wir legen die Hypothese zugrunde, dass L2- Sprecher Probleme mit der Informationsstruktur haben und zwar auch solche Lerner, die in Bezug auf Wortschatz und Kerngrammatik bereits sehr fortgeschritten sind. Probleme haben kann operationalisiert werden als ”unterscheiden sich von L1-Sprechern des Deutschen“. Dann w¨ are eine zu untersuchende These hierzu ”L2-Sprecher verwenden eine andere Informationsstruktur als L1-Sprecher des Deutschen“. Der Terminus Informationsstruktur ist abstrakt und das zugrundeliegende Ph¨ anomen sehr umfassend. Eine notwendige Herangehensweise ist, zun¨ achst den Untersuchungsbereich klar einzugrenzen. In Bezug auf Informationsstruktur w¨ are es z.B. interessant, den Satzanfang bzw. linguistisch pr¨ aziser, das Vorfeld ins Zentrum der Untersuchung zu stellen. Die Operationalisierung umfasst dann die Einschr¨ ankung auf einen bestimmten topologischen Bereich im Satz. Dieser Operationalisierungsschritt legt die Untersuchungsinstanzen fest: Die Studie wird Eigenschaften f¨ ur einzelne Vorfeldinstanzen erheben. Die zu ¨ uberpr¨ ufende These w¨ urde dann lauten: ”L2-Sprecher verwenden das Vorfeld anders als L1-Sprecher des Deutschen“. Was hier noch fehlt - und das ist ganz entscheidend - ist die Operationalisierung von anders. Sie bestimmt schlussendlich, welche Merkmale wir in der Untersuchung ber¨ ucksichtigen und ausz¨ ahlen werden. Vorfelder k¨ onnen anders besetzt werden in Bezug auf die syntaktische Funktion (Subjekt, Objekt, . . . ), die syntaktische Kategorie (Nominalphrase, Adverbphrase, . . . ), das ”Gewicht“ z.B. als Wortanzahl operationalisiert 5 oder das Gewichtsverh¨ altnis zwischen Vorfeld und 5 Ein sch¨ ones Beispiel daf¨ ur, welche Konsequenzen verschiedene Operationalisierungen von ”Gewicht“ haben, finden Sie in Gries (2008), S. 24. 116 6 Quantitative Auswertung von Korpusdaten dem restlichen Satz und vieles mehr. Die Operationalisierung von anders resultiert somit in der Festlegung eines oder mehrerer Merkmale (hier z.B. der syntaktischen Funktion), dessen konkrete Auspr¨ agung f¨ ur jede Untersuchungsinstanz dokumentiert wird (z.B. Subjekt oder Objekt). Statistisch ausgedr¨ uckt stellt das Merkmal eine Variable dar, weil sie unterschiedliche Auspr¨ agungen annehmen kann. Auf das Konzept der Variable gehen wir in Abschnitt 6.3 noch einmal genauer ein. 6.2.2 Hypothesen bilden Im letzten Abschnitt wurde gezeigt, wie man bei der Operationalisierung eine linguistische Fragestellung auf wiederauffindbare und damit z¨ ahlbare Einheiten und Eigenschaften abbildet. Damit eng verbunden ist die Bildung von Hypothesen. Eine Hypothese ist die Umformulierung einer Fragestellung in eine Aussage, die durch eine empirische Untersuchung ¨ uberpr¨ uft, d.h. im Zweifelsfall widerlegt werden kann. Im Fall von korpuslinguistischen Studien geschieht dies unter Ber¨ ucksichtigung der durch die Operationalisierung festgelegten, z¨ ahlbaren Einheiten und Eigenschaften. Zur Illustration gehen wir zur¨ uck zur Untersuchung der Informationsstruktur in Texten von Fremdsprachenlernern des Deutschen (L2-Sprechern). • Fragestellung: Beherrschen fortgeschrittene L2-Sprecher die Informationsstruktur des Deutschen? • Operationalisierung: L2-Sprecher verwenden andere syntaktische Funktionen im Vorfeld als L1-Sprecher des Deutschen. • Hypothese: Die H¨ aufigkeit der einzelnen Auspr¨ agungen der Variable Funktion unterscheidet sich bei L2- und L1-Sprechern des Deutschen. Hypothesen sind Behauptungen ¨ uber die Auspr¨ agungen einer Variable oder die Beziehung(en) zwischen zwei oder mehr Variablen in einem bestimmten Kontext. Sie enthalten Formulierungen wie ”die gleiche H¨ aufigkeit wie “, ”sind gleich“, ”unterscheiden sich“, ”je mehr / gr¨ oßer / . . . , desto mehr / weniger / gr¨ oßer / . . . “. In der Statistik spricht man von der sogenannten Nullhypothese H 0 , der eine Alternativhypothese H 1 gegen¨ ubergestellt wird. In den meisten F¨ allen versucht man, die Nullhypothese zu widerlegen. Wichtig hierbei ist, dass die beiden Hypothesen so formuliert sind, dass man, wenn man die Nullhypothese verwirft, automatisch folgern kann, dass stattdessen die Alternativhypothese gilt. Dies hat zur Folge, dass die beiden Hypothesen nebeneinander gestellt oftmals etwas redundant wirken. Eine einfache Nullhypothese im Rahmen des Lernerkorpusbeispiels w¨ are die folgende, die anders als oben nur eine bestimmten Auspr¨ agung der Variable syntaktische Funktion thematisiert: • Nullhypothese H 0 : In L2-Texten ist die H¨ aufigkeit der Funktion Subjekt im Vorfeld gleich groß wie in L1-Texten. • Alternativhypothese H 1 : In L2-Texten ist die H¨ aufigkeit der Funktion Subjekt im Vorfeld nicht gleich groß wie in L1-Texten. So wie die beiden Hypothesen dastehen, sind sie komplement¨ ar gebildet, d.h., wenn die eine zutrifft, gilt die andere nicht und umgekehrt. Die Entscheidung, wann eine der Hypothesen zutrifft, ist allerdings nicht ganz trivial, da man ber¨ ucksichtigen muss, dass wir 6.3 Variablen und ihre Auspr¨ agungen 117 die H¨ aufigkeit ja nur in einer Stichprobe aller m¨ oglichen L2-Texte nachz¨ ahlen k¨ onnen, so dass die beobachteten H¨ aufigkeiten rein zuf¨ allig gleich sein oder eben rein zuf¨ allig von einander abweichen k¨ onnen. Die große Frage ist nun, wie groß der beobachtete Unterschied sein muss, um die Nullhypothese guten Gewissens ablehnen zu k¨ onnen. Reicht es aus, wenn die H¨ aufigkeit von Subjekten im Vorfeld von L2-Texten um 5 von der in L1-Texten abweicht? Um diese Frage zu beantworten, k¨ onnten Sie die absoluten H¨ aufigkeiten von Vorfeldern mit und ohne Subjekt in L2-Texten den absoluten H¨ aufigkeiten von Vorfeldern mit und ohne Subjekt in L1-Texten gegen¨ uberstellen und einen statistischen Signifikanztest durchf¨ uhren 6 . Siehe Abschnitt 6.5 zur weiterf¨ uhrende Literatur. 6.3 Variablen und ihre Auspr¨ agungen 6.3.1 Urdatenset Ein wichtiger Schritt bei Korpusstudien wie dem Vergleich der Vorfeldbesetzung bei L2- und L1-Sprechern des Deutschen ist die Erstellung des Urdatensets. Im Urdatenset sammelt man detailliert die (Korpus-)Evidenz f¨ ur jede einzelne Untersuchungsinstanz. Es wird systematisch in der Form einer Tabelle aufgebaut: Jede Zeile steht f¨ ur eine Untersuchungsinstanz, jede Spalte f¨ ur ein Merkmal. Tabelle 13 zeigt beispielhaft ein Urdatenset f¨ ur eine Untersuchung zur Vorfeldbesetzung von fortgeschrittenen chinesischen Deutschlernern. Die Daten stammen aus dem kleinen Lernerkorpus ALeSKo 7 , das manuell u.a. mit syntaktischen Funktionen und Phrasenkategorien annotiert wurde. Der Ausschnitt in der Tabelle bezieht sich auf einen Text zum Thema Ist Urlaub die vergebliche Flucht aus dem Alltag? Die letzten beiden Spalten beinhalten Informationen zum Vorfeld und dem Rest des jeweiligen Quellsatzes. Das Vorfeld ist die eigentliche Annotationsinstanz. Der Rest des Satzes ist nur informationshalber aufgef¨ uhrt, um nicht immer zur¨ uck zum Korpus gehen zu m¨ ussen, wenn man einen Satz nachlesen m¨ ochte. F¨ ur das Urdatenset ist es egal, ob die Informationen aus den Annotationen eines Korpus extrahiert wurden oder ob die Beispiele erst nach der Extraktion weiter analysiert wurden. Wichtig ist die Systematik des Tabellenaufbaus: Der Ausschnitt des Urdatensets in Tab. 13 umfasst acht Instanzen: a 1 bis a 8. Jede Instanz wird durch sechs Merkmale charakterisiert. Merkmale sind dann sinnvoll, wenn sie Variablen sind, d.h., wenn sie mehr als nur eine Auspr¨ agung (auch Wert) annehmen k¨ onnen. W¨ urde der Ausschnitt die gesamte Datenmenge repr¨ asentieren, dann w¨ are das Merkmal Datei keine Variable, da es hier nur die Auspr¨ agung wdt07 01 annimmt. Die etwas kryptisch wirkende Dateibezeichnung leitet sich ¨ ubrigens vom Studiengang ”Wirtschaftssprache Deutsch und Tourismusmanagement“ (wdt) ab, in dessen Rahmen der Aufsatz im Jahr 2007 geschrieben wurde. Da das eigentliche Korpus aber mehr als nur einen Text umfasst, ist das Merkmal Datei tats¨ achlich eine Variable mit den Werten: wdt07 01, wdt07 02, . . . , wdt07 25 (f¨ ur die 25 Texte, die 2007 erhoben wurden), wdt08 01, . . . wdt08 18 (f¨ ur die 18 Texte, 6 Bei H¨ aufigkeiten kommt z.B. der χ 2 -Test (sprich ”Chi-Quadrat“-Test) in Frage, s. z.B. Meindl (2011), Kap. 9.3.; online zu rechnen z.B. auf http: / / vassarstats.net/ tab2x2.html. Besser w¨ are es allerdings, ¨ uber Textausschnitte Mittelwerte f¨ ur L2 und L1 zu berechnen. 7 Vgl. Zinsmeister und Breckle (2012). 118 6 Quantitative Auswertung von Korpusdaten Datei ID Funktion Kategorie Vorfeld Rest wdt07 01 a 1 Subjekt NP Das ist doch schwer zu sagen. wdt07 01 a 2 Adverbial AP Einerseite reisen die Leute, weil sie vom Alltag fl¨ uchten m¨ ochten. wdt07 01 a 3 Subjekt NP Ihre Arbeit sind langweilig oder stressig, wdt07 01 a 4 Adverbial AP deswegen fahren sie irgendwohin, um ihre Ruhe zu bekommen. wdt07 01 a 5 Adverbial Satz Anderseite wenn wir die Touristen genauer beobachten, ist es nicht schwer zu erkennen, dass meiste Touristen reich und Priviliger aus der Gesellschaft sind. wdt07 01 a 6 Pr¨ adikativ na Was solche Leute ben¨ otigen, ist, andere L¨ ander kennenzulernen, andere Kultur zu verstehen. wdt07 01 a 7 Subjekt NP Sie sind gar keine Fl¨ uchter aus dem Alltag. wdt07 01 a 8 Adverbial AP Deshalb bin ich felsenfest davon ¨ uberzeugt, dass Urlaub nicht die vergebliche Flucht aus dem Alltag ist. Tabelle 13: Ausschnitt aus einem Urdatenset zur Untersuchung der Vorfeldbesetzung im ALeSKo-Korpus die 2008 erhoben wurden) und zus¨ atzlich Kennungen f¨ ur L1-Vergleichstexte. Tabelle 14 fasst die Variablen und ihre Auspr¨ agungen zusammen. Variable Auspr¨ agungen Datei wdt 01, (wdt 02 . . . ) ID a 1, a 2, a 3, a 4, a 5, a 6, a 7, a 8, ( a 9 . . . ) Funktion Adverbial, Pr¨ adikativ, Subjekt, na, (Akkusativobjekt, Dativobjekt, es- Korrelat, Pr¨ apositionalobjekt, andere) Kategorie AP, NP, Satz, (Infinitiv, PP, andere) Vorfeld ”Das“, ”Einerseite“, . . . Rest ”ist doch schwer zu sagen.“, ”reisen die Leute, weil sie vom Alltag fl¨ uchten m¨ ochten.“, . . . Tabelle 14: Zur Untersuchung der Vorfeldbesetzung im ALeSKo-Korpus: Variablen aus Tabelle 13 und ihre Auspr¨ agungen Auspr¨ agungen, die im Ausschnitt in Tab. 13 nicht vorgekommen sind, werden in Klammern angegeben. Eine Besonderheit ist die Auspr¨ agung na der Variable Kategorie von Instanz a 6. na steht f¨ ur ”nicht anwendbar“ bzw. ”nicht verf¨ ugbar“ (engl. ’not applicable‘ / ’not available‘ ). Tats¨ achlich handelt es sich hierbei um einen Fehler in den Daten, 6.3 Variablen und ihre Auspr¨ agungen 119 eine vergessene Annotation. Die Vorfeldkonstituente von a 6 ist ein freier Relativsatz, der nach den ALeSKo-Guidelines eigentlich die Kategorie Satz erhalten sollte 8 . Dass die Kategorien Vorfeld und Rest auch Variablen sind, mag erst einmal ¨ uberraschen, trifft aber im formalen Sinn zu. Denken Sie einmal kurz dar¨ uber nach. 6.3.2 Skalenniveaus Das Konzept der Variable ist f¨ ur viele quantitative Untersuchungen grundlegend. Variablen werden nach der Art ihrer Auspr¨ agungen unterschieden. Was damit gemeint ist, kann man sich am besten anhand von Beispielen verdeutlichen. Wir betrachten hierf¨ ur drei verschiedene Studien, bei denen jeweils eine Variable untersucht wird, und geben jeweils die Werte der ersten f¨ unf Instanzen an. • Studie 1 ”Vorfeld“: Variable: Funktion der Vorfeldkonstituente (vgl. Tab. 13) Instanzen 1-5: Subjekt, Adverbial, Subjekt, Adverbial, Adverbial • Studie 2 ”Vokabeln“: Variable: Vokabelschwierigkeit Instanzen 1-5: leicht, leicht, schwer, leicht, mittel • Studie 3 ”Alter“: Variable: Alter von Teilnehmern einer Studie (vgl. Tab. 16) Instanzen 1-5: 22, 20, 25, 18, 29 Wie unterscheiden sich diese Variablen? Wenn Sie zwei beliebige Instanzen einer Variable betrachten, k¨ onnen Sie in allen drei Studien feststellen, ob die beiden Auspr¨ agungen gleich oder verschieden sind: Subjekt ist verschieden von Adverbial; leicht ist gleich leicht; 22 ist verschieden von 20. Sie k¨ onnen also Kategorien unterscheiden und die Instanzen entsprechend ausz¨ ahlen. Als n¨ achstes versuchen Sie, die Instanzen nach den Auspr¨ agungen zu ordnen: Leicht ist niedriger auf der Skala Vokabelschwierigkeit als mittel; 22 ist ein h¨ oheres Alter als 20. Die Auspr¨ agungen Subjekt und Adverbial zu ordnen ist hingegen nicht m¨ oglich. Eine Ordnung nach Alphabet oder Wortl¨ ange w¨ urde sich auf die W¨ orter selbst nicht aber auf die Auspr¨ agungen der Variable Funktion beziehen. Als drittes versuchen Sie die Differenzen zu quantifizieren: 22 ist um zwei gr¨ oßer als 20. Es ist nicht m¨ oglich die Differenz zwischen leicht und mittel auf die gleiche Art und Weise zu quantifizieren. Anders als bei den Auspr¨ agungen der Variable Alter ist hier das Intervall zwischen den Werten nicht weiter strukturiert. Es gibt keine messbaren Einheiten. Zuletzt versuchen Sie, Verh¨ altnisse zwischen den Auspr¨ agungen zu quantifizieren: Die H¨ alfte von 22 ist zwar kleiner als 20, aber immer noch gr¨ oßer als die H¨ alfte von 20. Versuchen Sie einmal die H¨ alfte der Auspr¨ agung mittel zu bestimmen. Und wie sieht es mit der Auspr¨ agung Adverbial aus? Wir fassen zusammen, dass sich die Variablen in ihren Rechenm¨ oglichkeiten unterscheiden. Man spricht hier von verschiedenen Skalen. In Tab. 15 sind die drei wichtigsten Skalentypen f¨ ur korpuslinguistische Studien aufgef¨ uhrt: die Nominal-, Ordinal- und Verh¨ altnisskala (auch Ratioskala vgl. englisch ’ratio‘ ). Wobei nur die Verh¨ altnisskala eine sogenannte metrische Skala ist, mit der Sie im klassischen Sinne rechnen k¨ onnen. 8 A 5 ist den Guidelines gem¨ aß als Satz annotiert, auch wenn der Ausdruck komplex ist. 120 6 Quantitative Auswertung von Korpusdaten Typ Skala Merkmal Beispiele Nichtmetrisch 1. Nominal Kategorien Klassenbildung Syntaktische Funktion (Subjekt, Objekt,. . . ) Teilnehmer-IDs (P1, P2, . . . ) 2. Ordinal Rangordnung Vokabelschwierigkeit (leicht, mittel, . . . ) Bewertungsskalen (z.B. 1-7) Schulnoten Metrisch 3. Verh¨ altnis (Ratio) Messbare Intervalle ausgehend von einem Nullpunkt Vergleich von Differenzen und Quotienten Alter Satzl¨ ange Reaktionszeit Anzahl von Subjekten im Vorfeld (pro Textausschnitt) Tabelle 15: Die drei wichtigsten Skalentypen f¨ ur die Korpuslinguistik Wenn Sie Tab. 15 genauer betrachten, wundern Sie sich vielleicht, dass Schulnoten und Bewertungsskalen, wie z.B. die Likert-Skala, die Sie vielleicht aus der Psycholinguistik kennen, nur ordinalskaliert sein sollen. Ordinal bedeutet schließlich, dass die Intervalle zwischen den einzelnen Werten nicht weiter definiert sind, so dass man z.B. nicht addieren kann. Nichtsdestotrotz werden im Alltag f¨ ur Schulnoten und Bewertungsskalen Mittelwerte gebildet, die man durch Addieren und Teilen durch die Gesamtzahl ermittelt. Die gelebte Praxis weicht hier von den mathematischen Gegebenheiten ab. Allerdings wird der Skalenstatus f¨ ur Beispiele dieser Art unter Mathematikern kontrovers diskutiert 9 . Manche argumentieren daf¨ ur, die genannten Beispiele als sogenannte intervallskalierte Daten zu interpretieren. Diesen Skalentyp, die Intervall-Skala, haben wir in der Tabelle nicht aufgef¨ uhrt. Es handelt sich hierbei um eine weitere metrische Skala, was bedeutet, dass die Intervalle zwischen den einzelnen Werten wohl definiert sind und dass man sinnvoll Differenzen, Summen und auch Mittelwerte bilden kann. Der Unterschied zwischen einer Intervallskala und einer Verh¨ altnisskala ist, dass Intervallskalen keinen nat¨ urlichen Nullpunkt besitzen, Verh¨ altnisskalen aber schon. Was das bedeutet, wird oft an zwei unterschiedlichen Skalen f¨ ur die Angabe von Temperatur verdeutlicht: die Kelvin-Skala und die Celsius-Skala. Das Besondere an der Celsius-Skala ist, dass die Werte von −273, 15 ◦ C (dem absoluten Nullpunkt) ¨ uber 0 ◦ C bis in den positiven Bereich gehen. Da der Nullpunkt zwar physikalisch motiviert (Gefrierpunkt von Wasser), aber letztendlich mathematisch beliebig gew¨ ahlt ist, sind die Auspr¨ agungen der Variable Celsius-Skala nur intervallaber nicht verh¨ altnisskaliert. Sie k¨ onnen zwar feststellen, dass 22 ◦ C um 2 ◦ C w¨ armer ist als 20 ◦ C. Sie k¨ onnen aber nicht wirklich behaupten, dass 10 ◦ C nur halb so warm ist wie 20 ◦ C. Wenn doch, versuchen Sie einmal das Verh¨ altnis zwischen 5 ◦ C und −5 ◦ C zu beschreiben. 9 Vgl. die Hinweise in Bortz und Schuster (2010), S. 22-23. 6.4 Zwei Auswertungsbeispiele 121 Anders als die Celsius-Skala ist die Kelvin-Skala tats¨ achlich verh¨ altnisskaliert, da ihr Skalen-Nullpunkt mit dem absoluten Temperaturnullpunkt ¨ ubereinstimmt. Wenn man die Skalentypen wie in Tab. 15 von oben nach unten ordnet, wird deutlich, dass alle Operationen, die mit einem ’niedrigeren‘ Skalentyp m¨ oglich sind, auch mit Vertreten der h¨ oheren Skalentypen durchf¨ uhrbar sind. Man kann also verh¨ altnisskalierte Zahlwerte immer auch in eine Rangordnung bringen, man verzichtet dabei allerdings auf Information, da eine Rangordnung nichts ¨ uber die Differenzen zwischen den R¨ angen aussagt. Sie m¨ ussen sich immer ¨ uber die Skalenniveaus ihrer Variablen im Klaren sein, da diese die mathematischen M¨ oglichkeiten im Umgang mit den Variablen beschr¨ anken. Dabei d¨ urfen Sie sich nicht von der ¨ außeren Form der Auspr¨ agungen t¨ auschen lassen. Die Variable Teilnehmer z.B. ist nominalskaliert. Wir k¨ onnen die Auspr¨ agungen Claus, Max, Jonas, Anne usw. lediglich ausz¨ ahlen (Wie viele Instanzen beobachten wir z.B. f¨ ur die Auspr¨ agung Claus? ). Wenn Sie nun f¨ ur die Teilnehmer an der Studie anstelle von Namen Identifikationsnummern notieren (z.B. die Matrikelnummer bei Studierenden), dann erh¨ alt die Variable Teilnehmer zwar Auspr¨ agungen wie 553483, 283111 usw., bleibt aber weiterhin nominalskaliert. Das heißt, sie d¨ urfen weiterhin nur ausz¨ ahlen, aber nicht rechnen. Es w¨ are evtl. zu pr¨ ufen, ob die Matrikelnummern eine interne Rangordnung symbolisieren (z.B. Eine niedrigere Zahl entspricht einer l¨ angeren Studiendauer). Im positiven Fall w¨ are die Variable dann ordinalskaliert. 6.4 Zwei Auswertungsbeispiele Nachdem oben das ALeSKo-Korpus die Grundlage f¨ ur das Beispiel zur Erstellung eines Urdatensets bildete, wendet sich dieser Abschnitt einem anderen Lernerkorpus des Deutschen zu, welches den Charme hat, dass es Texte von Lernern mit drei unterschiedlichen Erstsprachen umfasst: Das Kobalt-Korpus beinhaltet insgesamt 77 Texte von chinesischen, weißrussischen und schwedischen Deutschlernern sowie parallel erhobene Texte deutscher Muttersprachler. Alle Texte wurden an Universit¨ aten oder Gymnasien in den Herkunftsl¨ andern unter kontrollierten Umst¨ anden erhoben 10 . Das Kobalt-Korpus (v1.6) besteht aus vier Subkorpora, die nach den Erstsprachen der Teilnehmer benannt sind 11 : • BEL: 19 Texte von weißrussischen (engl. ’Belarus‘ ) bzw. russischen Studierenden • CMN: 20 Texte chinesischer Studierender, die Mandarin als Erstsprache haben • SWE: 18 Texte schwedischer Studierender und Gymnasiasten • DEU: 20 Texte deutscher Gymnasiasten als Kontrolltexte Die beiden Auswertungsbeispiele sollen illustrieren, wie man unterschiedliche Variablentypen beschreiben, darstellen und testen kann. Am Ende des Abschnitts werden die Variablentypen in einer kleinen ¨ Ubersicht zusammengefasst. 10 Vgl. www.kobalt.de. 11 Die Benennung folgt der Drei-Buchstaben-Kennung f¨ ur Sprachnamen nach ISO 639-3. 122 6 Quantitative Auswertung von Korpusdaten 6.4.1 Alter von L2-Lernern Beim ersten Auswertungsbeispiel werfen wir einen genaueren Blick auf die Metadaten des Kobalt-Korpus. Die Metadaten dokumentieren die Erhebungsumst¨ ande und geben Hintergrundinformationen zu den Teilnehmern in der Form von ausf¨ uhrlichen Lernbiographien 12 . Eine grundlegende Information ist dabei das Geburtsjahr der Probanden. F¨ ur unser Beispiel wurde aus der Differenz zwischen Geburtsjahr und Erhebungsdatum eine zus¨ atzliche Variable Alter abgeleitet. Ziel dieser kleinen Studie ist es nun, das Alter der Probanden, d.h. die Variable Alter, in den vier Subkorpora zu vergleichen. Hierzu muss man sich zun¨ achst eine Vorstellung von der Werteverteilung innerhalb der einzelnen Subkorpora verschaffen. Die Spalte Alter im Urdatenset, s. Tab. 16, liefert diese Information f¨ ur die Texte 1 bis 10 des schwedischen Subkorpus SWE. Identifikator Subkorpus Alter Kobalt SWE 001 2011 06 SWE 22 Kobalt SWE 002 2011 05 SWE 20 Kobalt SWE 003 2011 05 SWE 25 Kobalt SWE 004 2011 11 SWE 18 Kobalt SWE 005 2011 12 SWE 29 Kobalt SWE 006 2011 12 SWE 19 Kobalt SWE 007 2011 12 SWE 21 Kobalt SWE 008 2011 12 SWE 20 Kobalt SWE 009 2012 05 SWE 33 Kobalt SWE 010 2012 05 SWE 25 . . . . . . Tabelle 16: Kobalt-Metadaten: Alter in Jahren (Ausschnitt) Schon dieser kleine Datenausschnitt macht ein grundlegendes Problem deutlich: Unsortierte Zahlenangaben sind sehr schwer zu verstehen. Außerdem irritiert hier die komplexe Identifikatorangabe in der ersten Spalte, die bei der Erfassung der Altersverteilung keine weitere Rolle spielt. Tabelle 17 ist aus Tabelle 16 abgeleitet, indem die Werte der Variable Alter aufsteigend sortiert wurden. Der ¨ Ubersicht halber wurde die Tabelle zus¨ atzlich auf die unmittelbar relevanten Spalten reduziert. Aus der Spalte Alter kann man nun ablesen, dass die Werte zwischen 18 und 33 liegen, dass 20 und 25 je zweimal vorkommen usw. Aufgrund der neuen Anordnung ist es viel einfacher, sich eine konkrete Vorstellung von der Werteverteilung zu machen. Noch besser kann man sich metrische Datens¨ atze, d.h. Zahlenreihen, vorstellen, wenn sie grafisch dargestellt werden. Streudiagramme sind eine einfache M¨ oglichkeit, dies zu tun. Je nachdem, mit welcher Software man die Grafik erzeugt, m¨ ussen die Daten gegebenenfalls zuerst in eine kompakte Darstellung ¨ uberf¨ uhrt werden, aus der die Grafik dann generiert werden kann. Tabelle 18 ist eine solche kompakte Auflistung der 12 Das Kobalt-Korpus orientiert sich hier am Falko-Korpus vgl. Reznicek et al. (2012). 6.4 Zwei Auswertungsbeispiele 123 Subkorpus Alter SWE 18 SWE 19 SWE 20 SWE 20 SWE 21 SWE 22 SWE 25 SWE 25 SWE 29 SWE 33 . . . . . . Tabelle 17: Kobalt-Metadaten: Alter in Jahren - sortiert (Ausschnitt) Werte von Alter f¨ ur alle vier Kobalt-Subkorpora. Hier ist f¨ ur jede Auspr¨ agung von Subkorpus eine Spalte angelegt, welche die mit dieser Auspr¨ agung auftretenden Werte von Alter enth¨ alt. Abbildung 20 zeigt ein Streudiagramm: Die vertikale y-Achse erfasst das Alter in Lebensjahren; die horizontale x-Achse stellt einen simplen Index dar, ¨ uber den die einzelnen Eintr¨ age angeordnet werden. Beachten Sie, dass die y-Achse nicht bei Null beginnt, sondern dem Wertebereich angepasst ist, den die Daten abdecken. Zus¨ atzlich wurden zwischen den einzelnen Datenpunkten eines Subkorpus Linien gezogen, so dass man die Verteilungen besser erfassen kann. Hierbei ist wichtig, dass Sie sich klar machen, dass die Linien reine Hilfskonstrukte sind. Die Indexzahlen repr¨ asentieren Teilnehmer- Instanzen und sind daher nicht als Zahlen zu interpretieren, sondern als nominale Werte. Genauso gut h¨ atten hier Platzhalter wie P1, P2 usw. stehen k¨ onnen oder, wenn nur eines der Subkorpora abgebildet worden w¨ are, sogar die Namen der Probanden. Die Zwischenr¨ aume zwischen den Werten auf der x-Achse haben keinerlei Bedeutung. Auch bei den Altersangaben auf der y-Achse handelt es sich um diskrete Werte, nicht um ein Kontinuum, das den Verbindungslinien entsprechen w¨ urde, da immer nur ganze Zahlen als Altersangabe eingetragen sind. Um eine metrische Variable wie die Altersangabe genauer zu charakterisieren verwendet man Kennwerte. H¨ aufig verwendet werden Kennwerte f¨ ur die zentrale Tendenz oder Lage und f¨ ur die Streuung der Datenpunkte: Der Durchschnitt bzw. das arithmetische Mittel (”Mittelwert“) ¯ x ber¨ ucksichtigt den gesamten Werteraum einer Variable, da es aus der Summe aller Werte geteilt durch die Anzahl der Werte errechnet wird. F¨ ur den Altersdurchschnitt im schwedischen Subkorpus (SWE) erh¨ alt man zum Beispiel das (gerundete) Mittel: 13 ¯ x SWE (Alter) = 18 + 18 + 18 + 19 + · · · + 25 + 29 + 33 + 54 18 ≈ 23, 8 13 F¨ ur die fehlenden Werte siehe Tab. 18. 124 6 Quantitative Auswertung von Korpusdaten BEL CMN SWE DEU 20 20 18 18 21 20 18 18 21 20 18 19 21 20 19 19 21 21 19 19 22 21 19 19 22 21 20 19 22 21 20 20 22 21 20 20 22 22 21 20 22 22 22 20 22 22 23 20 22 22 25 20 22 22 25 20 22 22 25 20 22 22 29 20 23 22 33 20 23 23 54 21 26 23 21 24 21 Tabelle 18: Vollst¨ andige Altersverteilung im Kobalt-Korpus (M¨ ogliche Eingabe f¨ ur eine Diagrammerstellung) Als Streuung wird oft die Standardabweichung s (auch sd von engl. standard deviation) angegeben. Sie gibt die durchschnittliche Abweichung aller Werte vom errechneten Mittelwert an und ignoriert dabei, ob die einzelnen Abweichungen positiv oder negativ sind. In der Berechnung wird letzteres durch Quadrieren erreicht (”hoch zwei“). Um das Ergebnis dem urspr¨ unglichen Zahlenraum anzupassen, wird am Ende die Wurzel gezogen (hier mit gerundeten Werten): s SWE (Alter) = √ (18 − 23, 8) 2 + (18 − 23, 8) 2 + · · · + (33 − 23, 8) 2 + (54 − 23, 8) 2 18 = √ 33, 64 + 33, 64 + · · · + 84, 64 + 912, 04 18 ≈ 8, 3 Beachten Sie, dass es zweierlei Berechnungswege f¨ ur die Standardabweichung gibt, je nachdem, ob man eine bekannte Verteilung beschreibt oder mittels einer Stichprobe eine unbekannte Grundgesamtheit sch¨ atzt. Handelt es sich nur um eine Stichprobe, wird nicht durch die beobachtete Anzahl von Instanzen n geteilt, sondern durch n − 1, 6.4 Zwei Auswertungsbeispiele 125 Abbildung 20: Streudiagramm der Altersverteilung im Kobalt-Korpus (mit MS Excel erstellt) was einen etwas gr¨ oßeren Wert f¨ ur die Standardabweichung ergibt und damit f¨ ur den Sch¨ atzwert realistischer ist, weil ja auch der beobachtete Mittelwert der Stichprobe mit großer Wahrscheinlichkeit vom echten Mittelwert der Grundgesamtheit abweicht. Beachten Sie, dass Statistikprogramme im Zweifelsfall die Standardabweichung f¨ ur Stichproben errechnen. Zusammenfassend ergibt sich f¨ ur die Verteilung der Variable Alter im schwedischen Subkorpus SWE der Mittelwert 23,8 und die Standardabweichung 8,3 (jeweils gerundet). K¨ urzer ausgedr¨ uckt: ¯ x = 23, 8, s = 8, 3 (auch: ∅ = 23, 8 ± 8, 3). In Tab. 19 sind die Mittelwerte und Standardabweichungen f¨ ur die vier Subkorpora zusammengefasst dargestellt (mit gerundeten Werten). Subkorpus Mittelwert Standardabweichung Minimum Maximum Median BEL 22,0 1,2 20 26 22,0 CMN 21,6 1,1 20 24 22,0 SWE 23,8 8,3 18 54 20,5 DEU 19,7 0,8 18 21 20,0 Tabelle 19: Zentrale Tendenzen und Streuung der Variable Alter (gerundet) Demnach sind die schwedischen Teilnehmer mit 23,8 Jahren im Durchschnitt am ¨ altesten, die deutschen Teilnehmer mit durchschnittlich 19,7 Jahren am j¨ ungsten. Betrach- 126 6 Quantitative Auswertung von Korpusdaten tet man die Standardabweichungen, f¨ allt ins Auge, dass das Alter im schwedischen Subkorpus wesentlich weiter streut als in den anderen Subkorpora. Im Streudiagramm in Abb. 20 konnte man sch¨ on sehen, dass der Großteil der schwedischen Lerner um die 20 Jahre alt ist und dass lediglich eine kleine Anzahl von Ausreißern wesentlich ¨ alter ist. Um zu verhindern, dass solche einzelnen, extremen Werte, den Blick auf die breite Masse der Datenpunkte verzerren, empfiehlt es sich die Extremwerte (Minimum, Maximum) der Verteilung anzuschauen. Daran angelehnt ist auch ein weiteres Maß f¨ ur die zentrale Tendenz, der Median, der anders als der Mittelwert nicht unbedingt Thema des Mathematikunterrichts in der Schule ist: Der Median entspricht dem Wert des Datenpunkts, der sich genau zwischen dem minimalen und dem maximalen Datenpunkt befindet, wenn man bei einer ungeraden Instanzenanzahl alle Werte der Gr¨ oße nach sortiert hat (vgl. BEL in Abb. 21). Ist die Anzahl der Datenpunkte gerade, berechnet man den Median als den Mittelwert der beiden mittleren Datenpunkte (vgl. die Zahl in Klammern bei CMN, SWE, DEU in Abb. 21). Ein Vergleich der Mediane mit den Mittelwerten in Tab. 19 zeigt, dass der Median robust gegen¨ uber Ausreißern ist. Vergleicht man die Variable Alter in den vier Subkorpora anhand des Medians, dann ist die schwedische Lernergruppe mit 20,5 Jahren j¨ unger als die weißrussische und die chinesische (jeweils 22,0 Jahre). Median BEL 20 21 21 21 21 22 22 22 22 22 22 22 22 22 22 22 23 23 26 CMN 20 20 20 20 21 21 21 21 21 22 (22) 22 22 22 22 22 22 22 23 23 24 SWE 18 18 18 19 19 19 20 20 20 (20,5) 21 22 23 25 25 25 29 33 54 DEU 18 18 19 19 19 19 19 20 20 20 (20) 20 20 20 20 20 20 20 21 21 21 Quantil: 0% 50% 100% Abbildung 21: Der Median (= 50%-Quantil) als zentrale Tendenz Der Ausdruck Quantil in Abb. 21 bezeichnet ein sogenanntes Lagemaß: Ein x%-Quantil ist ein Schwellwert, f¨ ur den gilt, dass x Prozent aller Werte kleiner sind als er (oder gleich). Die 0%- und 100%-Quantilen entsprechen dem Minimum und dem Maximum. Das 50%-Quantil ist der Median: Er besagt, dass 50% aller Werte kleiner oder zumindest gleich sind wie der Wert, den er selbst annimmt. Die Beschreibung einer Verteilung durch Quantile kann sehr informativ sein, vgl. Tab. 20: Zwischen dem 25%- und 75%-Quantil liegen die H¨ alfte aller Datenpunkte. Dieser Wertebereich ist also sehr charakteristisch f¨ ur die jeweilige Verteilung. Weiter oben hatten wir die geordnete Wertetabelle durch ein Streudiagramm grafisch veranschaulicht. F¨ ur die zusammenfassende Darstellung auf der Basis von Quantilen existiert ebenfalls eine Visualisierungsm¨ oglichkeit: Der Boxplot (auch: Kasten-Grafik), vgl. Abb. 22: Der Kasten (engl. ’box‘ ) markiert den oben bereits genannten Bereich zwischen dem 25%- und 75%-Quantil und beherbergt damit 50% der Datenpunkte. Der dicke Strich steht f¨ ur den Median (50%-Quantil). Die Differenz zwischen dem 25%- und 75%-Quantil, d.h. die L¨ ange des Kastens, wird als Interquartilsabstand bezeichnet. Dieser wird oft daf¨ ur verwendet, die Ausdehnung der Antennen (engl. ’whiskers‘ ) 14 zu 14 Engl. f¨ ur Katzenschnurrhaare. 6.4 Zwei Auswertungsbeispiele 127 0% 25% Median Mittelw. 75% 100% BEL 20,0 21,5 22,0 22,0 22,0 26,0 CMN 20,0 21,0 22,0 21,6 22,0 24,0 SWE 18,0 19,0 20,5 23,8 25,0 54,0 DEU 18,0 19,0 20,0 19,7 20,0 21,0 Tabelle 20: Zusammenfassende Darstellung der Werteverteilungen durch Quantile und arithmetisches Mittel berechnen, die dazu dienen bei den Datenpunkten, die außerhalb des Kastens liegen (immerhin 50% aller Werte), zwischen regul¨ aren Werten und Ausreißern zu unterscheiden. Eine Variante, die man h¨ aufig antrifft, ist die, dass die Antennen maximal eine L¨ ange von 1,5 Interquartilsabst¨ anden einnehmen. Falls die Werte nicht so weit streuen, sind die Antennen entsprechend k¨ urzer. Alle Datenpunkte, deren Werte außerhalb der Antennen liegen, k¨ onnen in Bezug auf die restliche Datenverteilung als Ausreißer betrachtet werden. Die kleinen Kreuze stellen die Mittelwerte dar. Sie wurden hier der Vollst¨ andigkeit halber erg¨ anzt, sind aber nicht zwingend Bestandteil eines Boxplots. Die Boxplots in Abb. 22 zeigen, dass sich die Verteilungen des Alters in BEL und CMN sehr ¨ ahneln. Insgesamt ist die Masse der Werte in BEL am kompaktesten angeordnet, auch wenn es ein paar Ausreißer gibt, die schlussendlich f¨ ur die etwas gr¨ oßere Standardabweichung im Vergleich zu CMN verantwortlich sind (vgl. Tab. 19). Der lange Kasten bei SWE verdeutlicht sch¨ on, dass das Alter in SWE insgesamt weit streut. Der eine, ganz extreme Ausreißer hat sicher einen verzerrenden Einfluss auf das arithmetische Mittel von SWE (siehe das Kreuzchen). F¨ ur den Vergleich des Alters in den Subkorpora kann man anhand der Boxplots zusammenfassen, dass sich BEL und CMN kaum unterscheiden. SWE weicht in Bezug auf Mittelwert und Median von BEL und CMN ab (einmal nach oben und einmal nach unten) und weist eine wesentlich gr¨ oßere Streuung auf. Das Alter von DEU ist im Durchschnitt niedriger als bei den anderen Subkorpora, sowohl in Bezug auf den Mittelwert als auch den Median. Die Gruppe ist recht homogen, die Werte weisen nur eine geringe Streuung auf. Bekannter als die Darstellung des Medians und der anderen Quantilen im Boxplot ist die Abbildung von Mittelwerten als Balken- oder S¨ aulendiagramme erg¨ anzt um einen Fehlerbalken, der die Standardabweichung visualisiert, vgl. Abb. 23. Diese Visualisierung ergibt ebenfalls einen Eindruck von der Streuung der Daten, auch wenn sie weniger informativ ist als die Boxplots: Die Mittelwerte von BEL und CMN sind zwar nicht identisch, aber die Fehlerbalken ¨ uberlappen fast vollst¨ andig. Der Fehlerbalken von SWE hat eine große Ausdehnung und signalisiert, dass die Werte sehr weit um den Mittelwert streuen, was bedeutet, dass das arithmetische Mittel von SWE die Datenverteilung schlechter charakterisiert als die Mittelwerte der anderen Subkorpora. Das Alter in DEU ist im Durchschnitt niedriger als bei den anderen Subkorpora, wobei der Fehlerbalken von SWE auch hier ¨ uberlappt. In diesem Abschnitt haben Sie verschiedene M¨ oglichkeiten kennengelernt, die Auspr¨ agungen einer Variable darzustellen, die einer metrischen Skala angeh¨ oren und damit bestimmte Zahlwerte annehmen. Im n¨ achsten Abschnitt betrachten wir eine Variable, 128 6 Quantitative Auswertung von Korpusdaten Abbildung 22: Boxplots der Altersverteilung im Kobalt-Korpus (mit R erstellt) Abbildung 23: Mittelwerte der Altersverteilung im Kobalt-Korpus; Fehlerbalken = ±sd (mit MS Excel erstellt) 6.4 Zwei Auswertungsbeispiele 129 deren nominalen Auspr¨ agungen keine Rangfolge aufweisen, sondern lediglich unterschiedlichen Klassen angeh¨ oren. 6.4.2 L2-Verwendung von Modalverben Lernersprache weicht auf verschiedenen Ebenen von der Zielsprache ab. Grammatische Fehler wie die falsche Flexionsendung in (7) (euren anstatt eure) sind offensichtliche Abweichungen. (7) . . . und das ist nicht gut f¨ ur euren Gesundheit. Eine subtilere Art der Abweichung besteht im Unterbzw. ¨ Ubergebrauch von an sich zielsprachlichen Konstruktionen, die einen Lernertext insgesamt als abweichend erscheinen lassen k¨ onnen. Ein Beispiel hierf¨ ur ist die Verwendung von Modalverben wie k¨onnen oder m¨ ussen. Dieses Beispiel nutzen wir zur Illustration der Darstellung eines nominalen Merkmals. Die zugrundeliegende Untersuchung ist dadurch motiviert, dass Modalit¨ at bzw. die Verwendung von Modalverben ein wichtiger Aspekt von argumentativen Texten ist und als Indikator f¨ ur L2-Kompetenzniveaus diskutiert wird 15 . Die linguistische These, die wir untersuchen wollen, lautet, dass L2-Sprecher Modalverben anders verwenden als L1-Sprecher. Wir operationalisieren anders zun¨ achst einfach dadurch, dass wir annehmen, dass die Verwendungsh¨ aufigkeiten unterschiedlich sind. Wichtig hierbei ist, dass wir nicht einfach z¨ ahlen k¨ onnen, wie viele Modalverben in den einzelnen Subkorpora auftreten, sondern relative H¨ aufigkeiten ermitteln m¨ ussen. Die Notwendigkeit hierf¨ ur wird schnell klar, wenn man z.B. vergleicht, wie charakteristisch das Auftreten von 100 Modalverben in einem Text mit 200 S¨ atzen ist im Verh¨ altnis zu 100 Modalverben in einem Text mit 2000 S¨ atzen. Im ersten Fall tritt durchschnittlich in jedem zweiten Satz ein Modalverb auf. Die relative H¨ aufigkeit von Modalverben in Bezug auf die Satzanzahl ist demnach 0,5. Im zweiten Fall findet man durchschnittlich nur in jedem zwanzigsten Satz ein Modalverb. Hier ist die relativen H¨ aufigkeit nur 0,05. Tabelle 21 fasst die absoluten und relativen H¨ aufigkeiten f¨ ur dieses kleine Gedankenexperiment unter der Annahme zusammen, dass pro Satz maximal ein Modalverb auftreten kann. Zus¨ atzlich sind Prozentzahlen angegeben, unter denen man sich oft mehr vorstellen kann als unter den relativen H¨ aufigkeiten 16 . Um Vorkommnisse in verschiedenen Datengrundlagen vergleichen zu k¨ onnen, m¨ ussen wir demnach die beobachteten, absoluten H¨ aufigkeiten normalisieren und dem Vergleich die resultierenden relativen H¨ aufigkeiten zugrunde legen. Dies verlangt, dass wir eine Referenzgr¨ oße f¨ ur die Normalisierung bestimmen. In dem kleinen Beispiel oben wurde als Referenzgr¨ oße die Anzahl der S¨ atze im Text gew¨ ahlt. Die (stark vereinfachende) Idee dahinter ist, dass man pro Satz maximal ein Modalverb verwendet, so dass die Anzahl der S¨ atze die Obergrenze f¨ ur die zu erwartende H¨ aufigkeit der Modalverben vorgibt. Eine andere denkbare Referenzgr¨ oße w¨ are die Anzahl der Token 15 Vgl. Maden-Weinberger (2008). 16 Bitte beachten Sie, dass Prozentzahlen in der Regel erst ab einer untersuchten Anzahl von 80 angegeben werden, da Prozentzahlen eine Aussage dar¨ uber machen, wie groß die H¨ aufigkeit im Schnitt bei 100 untersuchten Einheiten ist. Vielen Dank an Fabian Barteld f¨ ur diese Klarstellung. 130 6 Quantitative Auswertung von Korpusdaten Text Absolute H¨ aufigkeit Modalverben Anzahl S¨ atze Relative H¨ aufigkeit Prozentzahl Modalverben t 1 100 200 100 200 = 0, 5 0,5*100%=50% t 2 100 2000 100 2000 = 0, 05 0,05*100%=5% Tabelle 21: Absolute versus relative H¨ aufigkeiten (und Prozentzahlen) im Text. Bei großen Datenmengen wird auf eine H¨ aufigkeit per 100 000 Token oder per eine Million Token normalisiert. Eine Normalisierung in Bezug auf potenzielle Vorkommenskontexte ist meistens angemessener als eine unspezifische Normalisierung in Bezug auf die gesamte Tokenanzahl - ein Text von 100 W¨ ortern mit nur vier sehr lange S¨ atzen, die viele Substantive, Adjektive und Adverbien enthalten, bietet weniger Optionen f¨ ur die Verwendung von Modalverben als ein gleichlanger Text mit acht relativ kurzen S¨ atzen. Allerdings ist es nicht immer m¨ oglich, die Vorkommenskontexte ohne erheblichen manuellen Aufwand zu bestimmen, wohingegen die Tokenanzahl eine trivial zu ermittelnde Gr¨ oße ist. Im Zweifelsfall kann man eine Stichprobe in Bezug auf beide Normalisierungsoptionen auswerten, um abzusch¨ atzen, in wie weit die einfachere Option die tats¨ achlichen relativen H¨ aufigkeiten ¨ uber- oder untersch¨ atzt. F¨ ur die aktuelle Beispieluntersuchung der Verwendung von Modalverben im Kobalt- Korpus ben¨ otigen wir eine einfache, aber sinnvolle Operationalisierung der potenzielle Vorkommenskontexte. Anstelle der Satzanzahl w¨ ahlen wir die Anzahl an finiten Verben als Bezugsgr¨ oße. Die Idee ist, dass jeder finite Teilsatz genau ein finites Verb aufweist, und man so eine ad¨ aquatere Referenzgr¨ oße erh¨ alt, als wenn man nur auf die Anzahl der S¨ atze Bezug nimmt. Das Kobalt-Korpus ist mit STTS-Wortartentags annotiert, so dass die H¨ aufigkeit der finiten Verben leicht ermittelt werden kann (mittels der STTS-Tags V.FIN) 17 . Beachten Sie, dass diese Operationalisierung ebenfalls vereinfachend ist, da sie zum einen ignoriert, dass Modalverben im Deutschen auch infinit auftreten k¨ onnen, also theoretisch auch in infiniten Teils¨ atzen m¨ oglich sind. Dar¨ uber hinaus sind auch Anh¨ aufungen von Modalverben in einem Teilsatz m¨ oglich wie sollte und k¨onnen in Beispiel (8). (8) Beides sollte sie verwerten k¨ onnen. Analog zum ersten Beispiel in Abschnitt 6.2.2 operationalisieren wir die linguistische Fragestellung und leiten daraus eine Hypothese ab: • Fragestellung: Unterscheidet sich die Verwendung der Modalverben in L2-Texten von der in L1- Texten? • Operationalisierung: L2-Texte enthalten relativ mehr/ weniger finite Modalverben (STTS-Tag: VMFIN) als L1-Texte. 17 ”V.FIN“ ist eine Abk¨ urzung f¨ ur VAFIN, VMFIN und VVFIN. Imperative Verben werden hierbei ignoriert. 6.4 Zwei Auswertungsbeispiele 131 • Hypothese: Die relative H¨ aufigkeit von Modalverben (VMFIN) in Bezug auf alle finiten Verben (V.FIN) unterscheidet sich bei L2- und L1-Texten. Daraus leiten wir eine Nullhypothese H 0 und eine Alternativhypothese H 1 ab. • Nullhypothese H 0 : In L2-Texten findet man die gleiche relative H¨ aufigkeit von VMFIN wie in L1-Texten. • Alternativhypothese H 1 : In L2-Texten findet man nicht die gleiche relative H¨ aufigkeit von VMFIN wie in L1-Texten. Die Ermittlung der Verh¨ altniszahlen f¨ uhrt wieder zu einem Urdatenset, vgl. z.B. Tab. 13. Neben einem fortlaufenden Index ID enth¨ alt es Informationen zum Subkorpus, dem Text, dem STTS-Tag und dem Lemma der Instanz. ID Subkorpus Text Wortart Lemma v1 SWE 001 VVFIN gehen v2 SWE 001 VVFIN fragen v3 SWE 001 VVFIN gehen v4 SWE 001 VAFIN sein v5 SWE 001 VVFIN ankommen . . . . . . . . . . . . . . . v11 SWE 001 VMFIN k¨ onnen . . . Tabelle 22: Einfaches Urdatenset zur Verteilung von finiten Modalverben im Kobalt- Korpus (Ausschnitt) Die Variable Wortart kann hier die Werte VAFIN, VMFIN, VVFIN annehmen. Es handelt sich hierbei um eine nominale Variable, da ihre Auspr¨ agungen keine Rangordnung (mehr / weniger von etwas) implizieren. Sie klassifizieren die Instanzen lediglich in drei unterschiedliche Gruppen. Wertet man die Modalverben in Bezug auf die vier Subkorpora aus, erh¨ alt man die H¨ aufigkeitstabelle 23. Die Abk¨ urzung h n (VMFIN) steht f¨ ur die relative H¨ aufigkeit von finiten Modalverben, wobei n f¨ ur die Referenzmenge steht, die hier durch die Anzahl aller finiter Verben (V.FIN) im jeweiligen Subkorpus bestimmt wird. Grafisch kann man die H¨ aufigkeitsverh¨ altnisse z.B. in Stapeldiagrammen darstellen. vgl. Abb. 24. Hierbei lohnt es sich, sowohl die relativen als auch die absoluten Werte zu vergleichen. Die dunklen Anteile der Balken bei der Prozentdarstellung zeigen von links nach rechts eine leicht sinkende Tendenz. Insgesamt beobachten wir im Subkorpus DEU die geringste relative H¨ aufigkeit von finiten Modalverben in Bezug auf alle finiten Verben, d.h. die L1-Texte unterscheiden sich von den L2-Texten. Ob dieser beobachtete Unterschied groß genug ist, um die Nullhypothese zu verwerfen, die ja besagt, dass kein Unterschied existiert, m¨ usste ¨ uber weiterf¨ uhrende statistische Tests ermittelt werden. 132 6 Quantitative Auswertung von Korpusdaten BEL CMN SWE DEU Gesamt VMFIN 254 172 143 165 734 andere V.FIN 1218 955 854 1043 4070 alle V.FIN (=n) 1472 1127 997 1208 4804 h n (VMFIN) 0,166 0,153 0,143 0,137 0,153 Tabelle 23: H¨ aufigkeiten von finiten Modal- und anderen Verben in den Subkorpora des Kobalt-Korpus (v1.6) Abbildung 24: Stapeldiagramme mit absoluten (oben) und relativen (unten) H¨ aufigkeiten, letztere in Prozentzahlen dargestellt (mit MS Excel erstellt) Auf einen wichtigen Punkt m¨ ussen wir hier noch hinweisen. Mit der Auswertung in Bezug auf die Subkorpora ignorieren wir, ob nicht ein einzelner Autor enorm viele oder enorm wenige Modalverben zum Korpus beigesteuert hat. Anders ausgedr¨ uckt, wir wissen nicht, in wie weit das Gesamtbild durch einen oder wenige Ausreißer verzerrt ist. 6.5 Weiterf¨ uhrende Literatur 133 Diesem Problem kann Abhilfe geschaffen werden, indem die Auswertung nicht ¨ uber ein ganzes Subkorpus berechnet wird, sondern ¨ uber sinnvolle Untereinheiten. In unserem Beispiel bieten sich z.B. die einzelnen Texte als Bezugsgr¨ oßen an. F¨ ur jedes Subkorpus kann dann ein Mittelwert der relativen H¨ aufigkeiten ermittelt werden und ebenso ein Streuungsmaß wie die Standardabweichung. 6.5 Weiterf ¨ uhrende Literatur Im letzten Kapitel haben wir mehrfach auf weiterf¨ uhrende Erkl¨ arungen zur statistischen Berechnung verwiesen. Um den Unterschied zwischen H¨ aufigkeiten oder Mittelwerten statistisch zu pr¨ ufen, wendet man Signifikanztests wie den Chi-Quadrat-Test (bei H¨ aufigkeiten) oder den t-Test (bei Mittelwerten) an. Die Herausforderung bei der Anwendung solcher Tests ist, dass jeder Test bestimmte Gegebenheiten voraussetzt, z.B. dass bestimmte Mindesth¨ aufigkeiten vorliegen oder dass sich die Werte einer Verteilung auf eine bestimmte Art verteilen. Um die Anwendung und Interpretation von statistischen Tests zu verstehen, muss man sich von der rein beschreibenden (auch deskriptiven) Statistik, wie wir sie im letzten Kapitel angewendet haben, l¨ osen und die erhobenen Daten als Stichprobe einer unbekannten gr¨ oßeren Gesamtheit interpretieren. Eine sehr lesbare deutschsprachige Einf¨ uhrung in Statistik f¨ ur Sprachwissenschaftler finden Sie bei Meindl (2011). Beim statistischen Testen ist es hilfreich, auf Statistikprogramme zur¨ uckgreifen zu k¨ onnen. Gries (2008) ist ebenfalls eine deutschsprachige Statistikeinf¨ uhrung, die gleichzeitig in die kostenlose Statistiksoftware R einf¨ uhrt. Ebenfalls auf die Statistiksoftware R aufbauend ist die anspruchsvollere englische Einf¨ uhrung von Baayen (2008). Johnson (2008) ist weniger eine systematische (englischsprachige) Einf¨ uhrung, hat aber den Charme, dass die Berechnungen einer Reihe von publizierten Studien Schritt f¨ ur Schritt in R nachgespielt werden. Alle genannten Publikationen verweisen auf Webseiten, von denen die Daten zu den Beispielen vorgehalten werden, so dass man die Berechnungen selbst nachvollziehen kann. Eine weitere, englische Einf¨ uhrung, die aber nicht gleichzeitig in eine Software einf¨ uhrt, ist Oakes (1998). Larson-Hall (2010) bietet eine Schritt-f¨ ur-Schritt-Einf¨ uhrung in Statistik mit der kommerziellen Software SPSS. Die begleitende Webseite 18 enth¨ alt auch eine analoge Einf¨ uhrung mit R, die zuk¨ unftig ebenfalls als Buch herausgegeben werden soll. Biber und Jones (2009) geben eine grundlegende ¨ Ubersicht zum quantitativen Ansatz in der Korpuslinguistik. Evert (2006) entwickelt die Bibliotheks-Metapher, mit der er anschaulich darstellt, wie man Korpusbefunde statistisch interpretieren kann. Perkuhn et al. (2012) diskutieren im Detail, wie man Korpusfrequenzen analysiert. Baroni und Evert (2008) motivieren in einem Handbuchbeitrag Grundlagen der stichprobenbasierten Statistik f¨ ur die Analyse von Korpusbelegen (z.B. den t-Test). Nicht speziell f¨ ur Korpuslinguisten eingerichtet, aber sehr brauchbar, ist die Webseite VassarStats: Website for Statistical Computation (http: / / vassarstats.net/ ). 18 Webseite zu Larson-Hall (2010): http: / / cw.routledge.com/ textbooks/ 9780805861853/ . 134 6 Quantitative Auswertung von Korpusdaten 6.6 Aufgaben 1. Erstellen Sie Urdatensets f¨ ur die linguistischen Untersuchungen Studie 1 und Studie 2 unten. Machen Sie sich daf¨ ur jeweils zun¨ achst bewusst, • welche Variablen erhoben werden, • mit welchen Merkmalsauspr¨ agungen diese Variablen auftreten und welchem Skalentyp die Variablen zuzuordnen sind. • Skizzieren Sie dann jeweils ein Urdatenset mit drei fiktiven Instanzen. Die folgende Beispielstudie illustriert, wie Sie diese Aufgabe bearbeiten k¨ onnen: Beispielstudie Sie wollen die durchschnittliche Satzl¨ ange im ”Lenz“ von Georg B¨ uchner auf der Basis der Wortanzahl ermitteln. Ein Wort bezeichnet hier die orthographische Einheit, die durch Leerstellen oder Satzzeichen von anderen W¨ ortern getrennt ist (Apostrophe gelten hierbei nicht als Satzzeichen). Musterl¨ osung: • Variablen: Satz-ID, Satzl¨ ange • Auspr¨ agungen von Satz-ID: beliebige Namen, z.B. s 1, s 2, . . . (oder auch 1, 2, 3 . . . ), Skala: Nominal; Auspr¨ agungen von Satzl¨ ange: ganze Zahlen, 1, 2, 3 . . . , Skala: Verh¨ altnis (metrisch). Satz-ID Satzl¨ ange (Satz) s 1 7 Den 20. Januar ging Lenz durch’s Gebirg. s 2 17 Die Gipfel und hohen Bergfl¨ achen im Schnee, die Th¨ aler hinunter graues Gestein, gr¨ une Fl¨ achen, Felsen und Tannen. s 3 14 Es war naßkalt, das Wasser rieselte die Felsen hinunter und sprang ¨ uber den Weg. ... ... ... Tabelle 24: Ausschnitt aus dem Urdatenset zur Beispielstudie: Durchschnittliche Satzl¨ ange in B¨ uchners ”Lenz“(Die Angabe des Satzes war nicht explizit gefragt) Studie 1 Sie wollen die Sprachkenntnis von Fremdsprachlernern untersuchen. Daf¨ ur notieren Sie die Komplexit¨ at der S¨ atze, die eine Person im Pr¨ asens bilden kann. Sie gehen von drei Komplexit¨ atsstufen aus: (a) einfach: Haupts¨ atze mit einem Verb, (b) mittel: Haupts¨ atze mit mehr als einem Verb (z.B. Modalverb und Vollverb) oder (c) komplex: komplexe S¨ atze (Haupt- und Nebensatz). Beispiels¨ atze: (a) Einfach: Touristen lieben das Reisen. (b) Mittel: Touristen wollen viel erleben. (c) Komplex: Touristen meinen, dass das Reisen Spaß macht. 6.6 Aufgaben 135 Studie 2 Im Florentinischen Italienisch werden Vokale am Wortende oft getilgt. Sie untersuchen, ob diese Tilgung etwas mit dem Typ des Vokals zu tun hat, ob also bestimmte Vokale h¨ aufiger als andere getilgt werden 19 . Es kommen dabei folgende Vokale in Frage: [a], [e], [i] und [o]. Die Datenerhebung wird an einem Korpus von gesprochener Sprache vorgenommen. Untersucht wird die Aussprache der folgenden Akkusativpronomen la, le, li, lo (’sie FemSg , sie FemPl , sie MaskPl , er‘ ). ¨ Uberlegen Sie zuerst, welche Untersuchungseinheiten Sie in dieser Erhebung zu Grunde legen wollen. Bedenken Sie, dass hier S¨ atze als Basiseinheit nicht sinnvoll sind. 2. Die folgende Zahlenreihe stellt die Satzl¨ angen der ersten elf S¨ atze eines Lernertexts 20 dar. F¨ ur die Satzl¨ angen wurden alle Token mit Ausnahme der Satzzeichen gez¨ ahlt. Ihre Aufgabe ist es, die Verteilung der verh¨ altnisskalierten Variable Satzlaenge durch Kennwerte zu beschreiben und angemessen grafisch darzustellen. (9) Satzl¨ angen eines Lernertexts (Auszug) 12 10 11 11 11 15 19 11 10 3 19 a. Erstellen Sie eine Tabelle (=Spalte) mit den Werten in einem Tabellenprogramm ihrer Wahl und benennen Sie die Spalte (mit einer ¨ Uberschrift z.B. Satzlaenge). b. Ordnen Sie die Instanzen der Spalte Satzlaenge der Gr¨ oße nach (aufsteigend). Wie sieht die Verteilung aus? Welche Tendenzen sehen Sie? c. Erzeugen Sie ein Streudiagramm der Verteilung. Was repr¨ asentieren die beiden Achsen? Benennen Sie diese entsprechend. Best¨ atigt die Grafik Ihre bisherige Vorstellung der Daten? d. Berechnen Sie den Mittelwert und die Standardabweichung der Verteilung. e. Berechnen Sie den 0%-, 25%-, 50%- , 75%- und 100%-Quantilen. Bestimmen Sie das Minimum, das Maximum und den Median. f. Vergleichen Sie den Mittelwert und den Median. Warum weichen die beiden Kennwerte voneinander ab? g. Zeichnen Sie einen Boxplot der Verteilung. 19 Diese Aufgabe ist inspiriert durch Garrapa (2011). 20 Es handelt sich um den Text Kobalt SWE 011. 7 Selber kochen oder ausw¨ arts essen gehen? — Deutschsprachige Korpora Wenn Sie dieses Kapitel gelesen haben, dann haben Sie einen ¨ Uberblick ¨ uber die Vielfalt deutschsprachiger Korpora. Sie haben eine Korpustypologie kennengelernt, die es Ihnen erlaubt, Korpora systematisch zu klassifizieren. F¨ ur Ihre eigenen korpuslinguistischen Projekte bedeutet das, dass Sie hier einen Wegweiser in die Korpuslandschaft bekommen haben, der Ihnen hilft, ein passendes Korpus f¨ ur Ihr Forschungvorhaben zu finden. 7.1 Einleitung In diesem Kapitel wollen wir eine ¨ Ubersicht ¨ uber die Korpuslandschaft des Deutschen geben. Zum einen m¨ ochten wir, dass die wichtigsten Ressourcen f¨ ur Sie leicht zug¨ anglich sind, und das beginnt damit, dass Sie wissen, welche Ressourcen Sie bei Bedarf konsultieren k¨ onnen. Zum anderen m¨ ochten wir es nicht bei einer reinen Aufz¨ ahlung des Vorhandenen belassen, sondern die Ressourcen in eine korpuslinguistisch begr¨ undete Typologie einordnen. Auf der begleitenden Webseite bieten wir Ihnen eine kommentierte Liste von Korpussammlungen und individuellen Korpora an. Wir verstehen diese Liste als eine von uns verantwortete Auswahl aus gr¨ oßeren Repositorien, wie sie momentan entstehen. Besonders m¨ ochten wir hier auf das europ¨ aische Projekt CLARIN 1 hinweisen, zu dessen Aufgaben der Aufbau eines Virtual Language Obervatory geh¨ ort 2 . Dort k¨ onnen Sie nach ein- und mehrsprachigen Ressourcen der meisten europ¨ aischen Sprachen suchen und sich ¨ uber die Entwicklung auf dem Laufenden halten. Das Kapitel ist folgendermaßen aufgebaut. Wir beginnen mit einer Korpustypologie und diskutieren dabei die Kriterien, die wir zur Einordnung der Korpora verwendet haben. In Abschnitt 3 nennen wir Ihnen f¨ ur jedes Kriterium konkrete Beispielkorpora. Am Ende des Kapitels stellen wir einige neuere, uns besonders interessant erscheinende Korpora und Korpusinitiativen vor und diskutieren in diesem Zusammenhang noch einmal methodische Herausforderungen beim Aufbau und bei der Nutzung dieser Korpora. 1 Vgl. www.clarin.eu. 2 Vgl. http: / / www.clarin.eu/ content/ virtual-language-observatory. 7.2 Korpustypologie 137 7.2 Korpustypologie Damit Sie sich in der Vielzahl der Angaben zurecht finden k¨ onnen, haben wir eine Typologie entworfen, die es erlaubt, die Korpora zu klassifizieren. Im Folgenden stellen wir die Kriterien vor, nach denen wir die Typologie eingeteilt haben 3 : Funktionalit¨ at, Sprachenauswahl, Medium, Annotation, Gr¨ oße, Persistenz, Sprachbezug, Verf¨ ugbarkeit (siehe die ¨ Ubersicht in Abbildung 25). Linguistische Annotation und Verf¨ ugbarkeit sind f¨ ur uns wichtig genug, um sie als Kriterien aufzunehmen. Wie schon in Kapitel 2 erl¨ autert wurde, scheiden sich in Bezug auf die (linguistische) Annotation der Prim¨ ardaten die Geister. Manch einer pl¨ adiert daf¨ ur, auf linguistische Annotation in Korpora ganz zu verzichten. Wir sind aber der Meinung, dass die Annotation Teil eines Korpus ist. Das heißt zum Beispiel, dass wir zwischen dem unannotierten Europarl-Korpus einerseits und dem Constraint-Grammarannotierten Europarl-Korpus unterscheiden, obwohl beide auf den selben Prim¨ ardaten beruhen. Dasselbe gilt auch f¨ ur das unannotierte Frankfurter Rundschau Korpus, die TIGER-Baumbank und das SALSA-Korpus. Sie beruhen alle auf Daten aus der Frankfurter Rundschau, unterscheiden sich aber durch ihre Annotationsebenen (und Gr¨ oße). Funktionalit¨ at Sprachenauswahl monolingual bi- und multilingual Parallelkorpus Vergleichskorpus Medium geschrieben gesprochen multimodal Korpus Gr¨ oße Annotation keine Typ Morphosyntax Syntax Semantik Pragmatik Fehler andere Persistenz Monitorkorpus statisch Sprachbezug Referenzkorpus Spezialkorpus Verf¨ ugbarkeit Abbildung 25: Korpustypologie: ¨ Ubersicht ¨ uber die Kriterien und ihre Werte 3 Die Kriterien basieren vorwiegend auf Vorschl¨ agen zum Korpusdesign und zur Korpustypologie, die in Sinclair (1996), Dodd (2000), Kap. 1, Kenny (2000), Engelberg und Lemnitzer (2001), Kap. 1.3, Atkins, Clear und Ostler (1992) und Hunston (2008) vorgestellt und diskutiert werden. 138 7 Deutschsprachige Korpora Die Kriterien lassen sich selbst klassifizieren. Zun¨ achst gibt es Kriterien, die die Prim¨ ardaten betreffen: Sprachenauswahl, Medium, Gr¨ oße, Sprachbezug, Funktionalit¨ at (Erl¨ auterungen siehe unten). Diese Kriterien sind auch beim Korpusaufbau, also bei der Zusammenstellung der Prim¨ ardaten entscheidend. Sie werden als Designkriterien (auf Englisch auch als Sampling-Kriterien) bezeichnet. Davon zu unterscheiden sind Kriterien, die die Korpusaufbereitung betreffen. In unserer Typologie ist das nur die Annotation. Hier k¨ onnte man ggf. weiter unterscheiden, z.B. in positionelle Merkmale, die dem einzelnen Token zugeordnet werden, wie die Morphosyntax, und in strukturelle Merkmale, die potenziell einen wort¨ ubergreifenden Charakter haben. Die letzte Gruppe bilden Kriterien, bei denen das physische Korpus im Zentrum steht: Persistenz und Verf¨ ugbarkeit. Kriterium: Funktionalit¨ at Dieses Kriterium bestimmt normalerweise die Festlegung der anderen Kriterien. Zu welchem Zweck wurde ein Korpus urspr¨ unglich erstellt? Der Zweck bestimmt die Designkriterien, den Umfang der Annotation, die Korpusgr¨ oße, die Persistenz usw. It is a truism that there is no such thing as a ’good‘ or a ’bad‘ corpus, because how a corpus is designed depends on what kind of corpus it is and how it is going to be used. (Hunston, 2008, S. 155) Die urspr¨ ungliche Funktionalit¨ at erkl¨ art bestimmte Eigenschaften eines Korpus. Sie legt die Nutzung des Korpus aber nicht ein f¨ ur allemal fest, vgl. die Diskussion um Multifunktionalit¨ at in Bezug auf annotierte Korpora, Kapitel 4, S. 60. In Abschnitt 7.3 ab S. 142 stellen wir Ihnen konkrete Beispiele f¨ ur Funktionalit¨ at vor. Kriterium: Sprachenauswahl Handelt es sich bei dem dokumentierten Gegenstand des Korpus um eine oder um mehrere Sprachen? Bei monolingualen Korpora ist zu beachten, ob innerhalb der Sprache Variet¨ aten erfasst und unterschieden werden, wie etwa beim Deutschen das Schw¨ abische oder das Schweizerdeutsch. Bei bilingualen oder multilingualen Korpora kann man weiter danach unterscheiden, ob es sich • um Parallelkorpora handelt, welche aus Texten in einer Sprache S1 und deren ¨ Ubersetzung(en) in die Sprache(n) S2 . . . Sn bestehen. Die Textteile, z.B. Abs¨ atze oder S¨ atze, k¨ onnen dabei einander zugeordnet (miteinandern aligniert) werden; • um Vergleichskorpora handelt, in welchen Texte mehrerer Sprachen S1 . . . Sn zu vergleichbaren Diskursbereichen erfasst sind, die aber keine ¨ Ubersetzungen voneinander sind 4 . 4 In der ¨ Ubersetzungswissenschaft wird unter Vergleichskorpus auch noch ein anderer Korpustyp verstanden. Es handelt sich dabei um ein monolinguales Korpus, das sowohl Texte enth¨ alt, die in der Sprache S1 origin¨ ar verfasst wurden, als auch Texte, die von anderen Sprachen nach S1 ¨ ubersetzt wurden. Der ’origin¨ are‘ Teil des Korpus dient als Hintergrund, vor dem Besonderheiten von ¨ Ubersetzungen beobachtet werden k¨ onnen. 7.2 Korpustypologie 139 Diachrone Korpora, d.h. Korpora, die verschiedene Entwicklungsstufen derselben Sprache dokumentieren, betrachtet man normalerweise als monolingual. Als Zusatzinformation geben wir auch die Entstehungszeit der Prim¨ ardaten an, was bei einer feineren Untergliederung ein eigenst¨ andiges Kriterium w¨ are. Kriterium: Medium Gemeint ist hier das Medium, in dem die Prim¨ ardaten entstanden sind. Zu unterscheiden sind Korpora geschriebener Sprache von solchen gesprochener Sprache und multimodalen Korpora, wie z.B. Videokorpora. Bei den gesprochenen Korpora muss man zwischen den Sprachsignalen selbst und den Transkripten unterscheiden. Wir folgen aber Sinclair 5 darin, dass wir auch ein transkribiertes Korpus als Vertreter der gesprochenen Sprache z¨ ahlen. Sinclair weist darauf hin, dass die Grenze zwischen geschriebenen und gesprochenen Texten durchaus unscharf sein kann. Eine geschriebene Rede wurde f¨ urs m¨ undliche Medium konzipiert, ebenso H¨ orspieltexte und Theaterst¨ ucke. Diesen Unterschied haben Koch und Oesterreicher 6 als einen Unterschied zwischen medialer und konzeptioneller M¨ undlichkeit bzw. Schriftlichkeit definiert. Man sollte beide Ebenen bei korpuslinguistischen Untersuchungen sorgf¨ altig trennen. Korpora gesprochener Sprache bestehen manchmal aus vorgegebenen Textmustern, die von professionellen Sprechern eingesprochen werden. Solche Korpora sind f¨ ur die Sprachgenerierung relevant. Eine andere Mischform zwischen gesprochener und geschriebener Sprache sind Korpora von Chatsprache. Hier wird im schriftlichen Medium konzeptionelle M¨ undlichkeit realisiert 7 . Wir beschr¨ anken uns in dieser Typologie auf die mediale Schriftlichkeit bzw. M¨ undlichkeit. Bei multimodalen Korpora umfassen die Prim¨ ardaten weitere Medien wie z.B. eine Videospur, die auch optische Information liefert. Essenziell ist dies zum Beispiel f¨ ur die Gestenforschung oder f¨ ur Korpora der Geb¨ ardensprache. Kriterium: Annotation Zun¨ achst unterscheiden wir, ob ¨ uberhaupt Annotationen vorliegen oder nicht. Wenn Annotationen vorhanden sind, k¨ onnen mehrere linguistische Ebenen annotiert sein: Morphosyntax, Syntax, Semantik, Pragmatik, Fehler, und weitere Ebenen, auf die wir im Buch wenig oder ¨ uberhaupt nicht eingegangen sind wie Textstruktur und Informationsstruktur 8 , Phonetik/ Prosodie, Gestik usw. F¨ ur eine genauere Erl¨ auterung der Werte verweisen wir auf Kapitel 4. Kriterium: Gr¨ oße Die ersten digitalen Korpora wie das Brown Corpus 9 umfassen ca. 1 Millionen Wortformen. Aktuelle Referenzkorpora wie das British National Corpus und das American National Corpus f¨ ur das Englische und das DWDS-Kernkorpus f¨ ur das Deutsche umfassen 5 Vgl. Sinclair (1996). 6 Vgl. Koch und Oesterreicher (1994). 7 Vgl. hierzu Lemnitzer und Naumann (2001), Abschnitt 4. 8 Vgl. hierzu aber die vorz¨ ugliche Einf¨ uhrung von Manfred Stede (2007). 9 Vgl. http: / / clu.uni.no/ icame/ manuals/ BROWN/ INDEX.HTM. 140 7 Deutschsprachige Korpora 100 Millionen Wortformen. Die aktuell m¨ ogliche Gr¨ oße f¨ ur Korpora liegt bei mehreren Milliarden Textw¨ ortern, wie etwa beim Deutschen Referenzkorpus (DeReKo) am Institut f¨ ur Deutsche Sprache und einigen Webkorpora. Die Gr¨ oße eines Korpus spielt in mehrfacher Hinsicht eine Rolle. Zum einen sind bestimmte, vor allem quantitative Analysen erst m¨ oglich, wenn die zugrundeliegenden Prim¨ ardaten so umfangreich sind, dass sich in ihnen in ausreichender Zahl Daten bzw. Beispiele finden, um eine valide statistische Aussage zu gew¨ ahrleisten. Ivanova et al. (2008, Abschnitt 6.2) zeigen dies am Beispiel von Wortprofilen (’word sketches‘ ). Eine verl¨ assliche Menge von typischen Kookkurrenzen zu einem Stichwort kommt, so zeigen die Autoren, erst zustande, wenn die Basis, f¨ ur die diese Kookkurrenzen erhoben werden, mindestens 600mal im Korpus vorkommt. Je gr¨ oßer ein Korpus ist, desto mehr W¨ orter ¨ uberschreiten diese Frequenzlinie und werden damit zu Kandidaten f¨ ur ein verl¨ assliches Wortprofil. In etwas allgemeinerer Weise zeigen Dan-Hee Yang und Kollegen 10 die Effekte von Korpusgr¨ oßen auf Verfahren der Extraktion lexikalischer Informationen. Ryohei Sasano und Kollegen 11 haben einige Experimente durchgef¨ uhrt, in denen sie zeigen, wie sich verschiedene Korpusgr¨ oßen auf die Extraktion von Kasusrahmen (f¨ ur das Japanische) auswirken. Ein anderer Aspekt betrifft Ph¨ anomene, die so selten oder komplex sind, dass ein Korpus sehr groß sein muss, damit ¨ uberhaupt ein einziges Exemplar dieses Ph¨ anomens gefunden wird. Diese Situation tritt typischerweise in korpusgest¨ utzten Untersuchungen auf, bei denen z.B. eine syntaktische Hypothese verifiziert werden soll. Das g¨ anzliche Fehlen von Evidenz spricht nicht automatisch daf¨ ur, dass die Hypothese verworfen werden muss, wie wir in Abschnitt 3.3.2 diskutiert haben. Das Vorhandensein von Evidenz ist aber ein starker Indikator, der die Plausibilit¨ at der Hypothese st¨ utzt (mehr zur Plausibilit¨ at linguistischer Hypothesen in Abschnitt 2.2). Sehr große Korpora k¨ onnen hier von großem Wert sein. Man sollte sich von der Gr¨ oße eines Korpus aber nicht zu sehr bei der Auswahl eines geeigneten Korpus f¨ ur die eigenen Untersuchungen beeinflussen lassen. Letztendlich h¨ angen Design und Gr¨ oße des Korpus von der gew¨ ahlten Fragestellung ab. Man kann auch mit relativ kleinen Korpora interessante Untersuchungen durchf¨ uhren, wie Mohsen Ghadessy et al. zeigen 12 . Kriterium: Persistenz Die meisten Korpora sind statische Korpora, d.h. sie bestehen aus einer abgeschlossenen Textmenge, die in einem bestimmten Zeitraum gesammelt wurde und dann f¨ ur die weitere Verarbeitung gespeichert ist. Auch statische Korpora m¨ ussen nicht f¨ ur immer eingefroren sein. Oft arbeiten die Projekte weiter und erg¨ anzen in bestimmten Zeitabst¨ anden das Datenmaterial. Diese Erg¨ anzungen werden normalerweise in neuen Versionen ver¨ offentlicht. Man muss bei Arbeiten zu statischen Korpora daher auf die Version der Korpora achten. Der Begriff des Monitorkorpus stammt wahrscheinlich von John Sinclair. Er bezeichnet Korpora, deren Gr¨ oße sich ¨ andert. Der Grund f¨ ur die Gr¨ oßen¨ anderung kann dar- 10 Vgl. Yang et al. (2002). 11 Vgl. Sasano et al. (2009). 12 Vgl. Ghadessy et al. (2001). 7.2 Korpustypologie 141 in liegen, dass das Korpus kontinuierlich w¨ achst, weil zum Beispiel fortlaufend neue Ausgaben einer Tageszeitung erg¨ anzt werden. Ein anderer Grund kann sein, dass das Korpusmaterial permanent erneuert und ausgetauscht wird, weil man aus Gr¨ unden der Effizienz und des Urheberrechts die Textdaten nur so lange speichert, bis eine Untersuchung, z.B. die Extraktion noch nicht registrierter Lexeme, abgeschlossen ist. Nachteil eines Monitorkorpus ist, dass die Ergebnisse einer Untersuchung nicht (oder nur bedingt) an dem gleichen Material wiederholt werden k¨ onnen. Kriterium: Bezug zum Untersuchungsgegenstand Was hiermit gemeint ist, erkl¨ aren wir am besten anhand der Werte, die dieses Kriterium haben kann. Referenzkorpora sollen die Eigenschaften des dadurch repr¨ asentierten Gegenstandes m¨ oglichst gut abdecken. Im Normalfall bedeutet Gegenstand hier eine nat¨ urliche Sprache in einer bestimmten zeitlichen Periode, zum Beispiel ’das Deutsche des 20. Jahrhunderts‘ . Referenzkorpora dienen auch als Kontrollkorpora f¨ ur Untersuchungen, die sich auf Spezialkorpora beziehen und Eigenschaften der durch dieses Spezialkorpus repr¨ asentierten Variet¨ at untersuchen. Die Besonderheiten der untersuchten Variet¨ at werden sichtbar, wenn man die Verteilung der zu untersuchenden Ph¨ anomene im Spezialkorpus und im Referenzkorpus vergleicht. Auf das Verh¨ altnis von Korpus und repr¨ asentiertem Gegenstand bezieht sich auch das Kriterium der Ausgewogenheit von Korpora 13 . Ein ausgewogenes Korpus ist in sich heterogen. Das klingt zun¨ achst nach einem Widerspruch. Es bedeutet aber nur, dass ein ausgewogenes Korpus der Heterogenit¨ at einer Sprache gerecht wird. ’Das Deutsche‘ zum Beispiel existiert nicht als abgeschlossenes Ganzes. M¨ undliches Deutsch unterscheidet sich von schriftlichem, und bei letzterem macht es einen großen Unterschied, um welche Textsorte es sich handelt. So findet man in Gesetzestexten eine andere Sprache als in Tagebuchnotizen. Nach diesem Kriterium lassen sich auch variet¨ atenspezifische Korpora charakterisieren, z.B. Dialektkorpora, Fachsprachenkorpora, Gruppensprachenkorpora. Die Datenbeschaffung stellt bei wohldefinierten Designkriterien manchmal ein Problem dar. Viele Daten stehen wegen Copyright-Beschr¨ ankungen der Forschung nicht zur Verf¨ ugung und erst recht nicht f¨ ur eine Ver¨ offentlichung als allgemein zug¨ angliches Korpus. Deshalb beruhen viele Korpora auf mehr oder weniger opportunistischen Datenzusammenstellungen, d.h. ein Text wurde vor allem deshalb zum Teil eines Korpus, weil er frei zur Verf¨ ugung stand. F¨ ur eine Verwendung von opportunistischen Korpora kann damit argumentiert werden, dass sowieso kein Korpus wirklich repr¨ asentativ ist. Bei einem opportunistischen Korpus handelt es sich im Normalfall um ein Spezialkorpus, zum Beispiel mehrere Jahrg¨ ange einer Tageszeitung. Deshalb ist opportunistisches Korpus auch nicht als eigenst¨ andiger Wert in der Korpustypologie aufgef¨ uhrt. Kriterium: Verf ¨ ugbarkeit Dieses Kriterium wird bei der Diskussion um Metadaten selten thematisiert 14 , ist aber f¨ ur Sie als potenzieller Nutzer von großem Interesse. Neben Korpora, die man ¨ uber Online-Schnittstellen frei durchsuchen oder herunterladen kann, ist es bei kostenlosen 13 Vgl. Atkins et al. (1992). 14 Vgl. aber Hunston (2008), S. 157. 142 7 Deutschsprachige Korpora Korpora oft ¨ ublich, dass man sich als Nutzer registrieren oder einen (kostenlosen) Lizenzvertrag abschließen muss. Mit den Lizenzvertr¨ agen soll sichergestellt werden, dass die Daten nicht missbraucht werden, wenn sie z.B. Informationen zu Privatpersonen beinhalten. Zum anderen sollen die Daten nicht zu kommerziellen Zwecken verwendet werden, ohne dass die Ersteller des Korpus ebenfalls davon profitieren. Bei manchen Korpora sind Annotationen kostenfrei verf¨ ugbar, man muss allerdings nachweisen, dass man Lizenzgeb¨ uhren f¨ ur die Prim¨ ardaten bezahlt hat. 7.3 Deutsche Korpuslandschaft Auf der Webseite, die dieses Buch begleitet, geben wir eine tabellarische ¨ Ubersicht ¨ uber deutschsprachige Korpussammlungen und einzelne Korpora. Diese ¨ Ubersicht ist nach den genannten Kriterien strukturiert 15 . Es ist uns wichtig, hier zu erw¨ ahnen, dass wir bei der Erstauflage dieses Buches versucht hatten, eine umfassende ¨ Ubersicht zu geben. Das Feld der deutschsprachigen Korpora hat sich seither erfreulicherweise sehr geweitet, so dass wir nicht mehr den Anspruch auf Vollst¨ andigkeit haben. Falls Sie Korpora kennen, die wir nicht auff¨ uhren, m¨ ochten wir Sie trotzdem bitten, uns dies mitzuteilen, damit wir das betreffende Korpus auf der Webseite erg¨ anzen k¨ onnen. In den folgenden Abschnitten werden wir noch einmal detaillierter auf die m¨ oglichen Werte der Kriterien unserer Typologie eingehen, wie Sie sie auch in der Tabelle auf der Webseite finden. Zus¨ atzlich beschreiben wir jeweils ein paar typische Vertreter aus der deutschen Korpuslandschaft. 7.3.1 Funktionalit¨ at der Korpora Im Zweifelsfall werden Korpora mit dem Zweck erstellt, als empirische Basis f¨ ur linguistische und/ oder computerlinguistische Forschung zu dienen. Im Bereich der Computerlinguistik gilt das oft f¨ ur große, opportunistisch gesammelte Korpora, wie z.B. das DECOW-Korpus, das an der Freien Universit¨ at Berlin aufbereitet wurde. Fast ebenso unspezifisch ist die Angabe Sprachdokumentation, die f¨ ur Korpora von ¨ alteren Sprachstufen verwendet wird, z.B. dem Bonner Fr¨ uhneuhochdeutsch-Korpus dem Referenzkorpus Mittelhochdeutsch-Korpus, sowie das Korpus Emigrantendeutsch in Israel (im Deutschen Spracharchiv in Mannheim archiviert), welches eine Variet¨ at des Deutschen der 1920er Jahre dokumentiert. Nat¨ urlich dokumentieren alle Korpora Sprache. Hier ist jedoch gemeint, dass die Korpora etwas dokumentieren, das nicht durch neue Datenerhebungen ersetzt werden kann. Als Datengrundlage f¨ ur bestimmte lexikographische Projekte wurden z.B. die IDS Handbuchkorpora oder das DWDS-Kernkorpus kompiliert. Als Material f¨ ur die Sprachlehre dienen z.B. das CG-annotierte Europarl Korpus als auch das Lernerkorpus Falko. Beide Korpora wurden aber zu ganz unterschiedlichen Zwecken in diesem Bereich konzipiert. Das Europarl-Korpus soll als konkretes ¨ Ubungsmaterial f¨ ur Lerner dienen, wohingegen das Falko-Korpus die Sprache von Lernern dokumentiert f¨ ur Untersuchungen 15 Das Kriterium Persistenz ist in der Tabelle nicht aufgef¨ uhrt. Die drei einzigen Monitorkorpora unserer Liste werden unten gesondert vorgestellt. 7.3 Deutsche Korpuslandschaft 143 zu Fragestellungen des Fremdspracherwerbs und in Hinblick auf eine sprachdidaktische Auswertung. Das Dortmunder Chat-Korpus wurde als empirische Grundlage f¨ ur Forschung im Bereich der internetbasierten Kommunikation aufgebaut. Eine konkrete computerlinguistische Motivation stand hinter der Erstellung des Hypnotic-Korpus. Es dient als Datengrundlage f¨ ur die Programmerstellung einer automatischen Klassifizierung von Webseiten. Aus dem Bereich der gesprochenen Sprache wollen wir als Beispiel noch das Vineta-Korpus nennen, das f¨ ur die Untersuchung von intonatorischen Verfahren zusammengestellt wurde, sowie das Dirndl-Korpus als Beispiel f¨ ur die Forschung an der Schnittstelle Prosodie und Informationsstruktur. 7.3.2 Sprachenauswahl der Korpora Die meisten der aufgef¨ uhrten Korpora sind monolingual Deutsch. In der Datenbank des Archivs f¨ ur gesprochenes Deutsch (AgD) am Institut f¨ ur Deutsche Sprache findet man auch Dialektkorpora und Korpora von ¨ osterreichischen und deutsch-schweizer Sprechern. Das C4-Korpus, das u.a. ¨ uber das Digitale W¨ orterbuch der deutschen Sprache in Berlin verf¨ ugbar ist, setzt sich aus Teilkorpora zusammen, die hochdeutsche, schweizerische, ¨ osterreichische und s¨ udtiroler Varianten des Deutschen repr¨ asentieren. Auch ¨ altere Sprachstufen werden in der Tabelle explizit aufgef¨ uhrt. An dieser Stelle sei auf Mediaevum verwiesen, ein Internetportal, das Informationen ¨ uber Korpora und andere Ressourcen des Mittel- und Althochdeutschen bereitstellt. Zus¨ atzlich wollen wir Sie auf die Referenzkorpora des Projekts Korpus historischer Deutscher Texte aufmerksam machen, die an verschiedenen Standorten in Deutschland zu verschiedenen Sprachstufen und Dialekten (Althochdeutsch, Mittelhochdeutsch, Fr¨ uhneuhochdeutsch, Mittelniederdeutsch/ Niederrheinisch u.a.) erarbeitet werden. Eine weitere Variante des Deutschen ist Lernerdeutsch, wobei hier zwischen dem Erstspracherwerb und dem Fremdspracherwerb unterschieden wird. F¨ ur Daten zum Erstspracherwerb verweisen wir auf die Datenbank CHILDES. Fremdspracherwerb von Erwachsenen wird z.B. im Learning Prosody (LeaP) Korpus dokumentiert. Im Falko- Korpus finden Sie Essays und andere Texte von Fremdsprachenlernern des Deutschen. Das LeaP-Korpus ist ein bilinguales Vergleichskorpus mit Tonaufnahmen von Nicht- Muttersprachlern in Englisch und Deutsch. Ein bilinguales Parallelkorpus liegt mit dem INTERSECT-Korpus aus Brighton vor, das ebenfalls das Sprachpaar Deutsch-Englisch dokumentiert, jedoch als direkte ¨ Ubersetzung. Das Korpus ist auf Satzebene aligniert. Auf der OPUS-Plattform (’open source parallel corpus‘ ) findet man Korpora mit ¨ uber zwanzig verschiedenen Sprachen, die auf Satzebene und zum Teil auf Wortebene aligniert sind; die Zahl der Korpora, die auf dieser Seite bereitgestellt wird, w¨ achst kontinuierlich. Eines dieser Korpora ist das Europarl-Korpus, das ¨ Ubersetzungen von Debatten des europ¨ aischen Parlaments in alle Amtssprachen der EU beinhaltet. In Version v3 haben Sie Zugriff auf die elf offiziellen Amtssprachen vor 2004, in Version v7 auf 21 offizielle Amtssprachen zum Stand von 2007 (alle außer Irisch). Einschr¨ ankend muss hier erw¨ ahnt werden, dass nicht alle Sprachpaare direkte ¨ Ubersetzungen voneinander darstellen, sondern dass oftmals die ¨ Ubersetzung von und ins Englische als Br¨ ucke genutzt wird. 144 7 Deutschsprachige Korpora 7.3.3 Medium der Korpora Unsere Sammlung legt entsprechend unserer pers¨ onlichen Forschungsausrichtungen einen Schwerpunkt auf Korpora der geschriebenen Sprache. Dies entspricht der Gesamttendenz unseres Buches, nicht aber dem, was an Korpusressourcen tats¨ achlich vorhanden ist. F¨ ur Korpora der gesprochenen Sprache wollen wir vor allem auf die großen Archive verweisen, das Bayerische Archiv f¨ ur Sprachsignale (BAS) und das Archiv f¨ ur gesprochenes Deutsch (DGD) in Mannheim, das nicht nur ein Archiv ist, sondern auch eine M¨ oglichkeit zur Online-Recherche bietet. Sowohl geschriebene als auch gesprochene Anteile enthalten z.B. das LIMAS-Korpus und das DWDS-Kernkorpus. Im Dirndl-Korpus sind die geschriebenen Anteile keine Transkripte der vorgelesenen Radionachrichten, sondern wurden parallel mit den Audiodaten ver¨ offentlicht. Eventuell handelt es sich dabei um die Nachrichtenmanuskripte. Zus¨ atzlich wurde die Audiospur transkribiert Das Korpus behinhaltet somit zwei aliginierte Textversionen, eine medial schriftliche und eine medial m¨ undliche. Die medial m¨ undlichen Transkriptionen dokumentieren Versprecher und andere Besonderheiten der Audiospur. Das Freiburger Videokorpus zur Aphasie ist ein multimodales Korpus. Es beinhaltet Audio- und Videospuren, Transkriptionen und weiterf¨ uhrende Annotationen. ¨ Ahnliches gilt f¨ ur das Multilingual Soccer Corpus von Thomas Schmidt. Ein Sprachkorpus der besonderen Art ist das Deutsche Geb¨ ardensprachkorpus (DGK), das an der Universit¨ at Hamburg entsteht. Hier dient die Videospur nicht nur zur Kontextualisierung der Sprache, sondern ist die prim¨ are Speicherform der Geb¨ arden, d.h. der medial visuellen Sprachzeichen. 7.3.4 Gr¨ oße der Korpora In unserer Aufstellung finden Sie einige relativ kleine Korpora, wie zum Beispiel das Vineta-Korpus, das Transkriptionen von nur ungef¨ ahr 46 Minuten Gespr¨ ach umfasst. Es wurde von Stefan Rabenus f¨ ur seine Doktorarbeit in Einzelarbeit aufgenommen und annotiert. Das Potsdam Commentary Corpus (PCC) umfasst 174 Artikel einer Tageszeitung mit 32 800 Token. Hierbei handelt es sich zwar nicht um eine Einzelarbeit, die relativ geringe Gr¨ oße erkl¨ art sich aber dadurch, dass das Korpus als Pilotprojekt f¨ ur die Annotation von sehr komplexen Diskursstrukturen betrachtet werden kann. Ein weiteres kleineres Korpus ist das Learning Prosody-Korpus (LeaP). Es ist wie das Vineta-Korpus ein Korpus der gesprochenen Sprache und umfasst in der Transkription ca. 76 000 Token. Es wurde ebenfalls im Rahmen eines Dissertationsprojekts erstellt. Manche der erw¨ ahnten Korpora sind dagegen sehr groß. Das Kernkorpus des Projekts Digitales W¨orterbuch der Deutschen Sprache umfasst 100 Millionen Token, zusammen mit den Erweiterungskorpora stehen hier knapp 3 Milliarden Token zur Recherche zur Verf¨ ugung. Deutlich mehr als diese 2 Milliarden Token k¨ onnen online beim Institut f¨ ur Deutsche Sprache oder in Webkorpora wie dem DECOW-Korpus durchforstet werden. Beachten Sie, dass die großen Referenzkorpora der deutschen Gegenwartssprache und Webkorpora st¨ andig erweitert werden. Es kann sich bei den hier genannten Zahlen also nur um Momentaufnahmen handeln. 7.3 Deutsche Korpuslandschaft 145 7.3.5 Annotation der Korpora Ohne jegliche linguistische Annotation kommen zum Beispiel die Rohtexte der Zeitungsverlage aus 16 . Auch in vielen Sammlungen historischer Texte findet man meistens keine weiterf¨ uhrende Annotationen. Die Korpora des Instituts f¨ ur Deutsche Sprache sind mit Textstruktur annotiert. Teilweise enthalten sie auch morphosyntaktische Annotation, wie ein Großteil aller aufgef¨ uhrten Korpora. Die Annotation ist in den meisten F¨ allen automatisch erstellt und daher mit gewissen Fehlern behaftet. Syntaktisch annotiert und manuell kontrolliert sind die beiden Korpora der Baumbankprojekte TIGER und T¨ uBa-D/ Z. Beispiele f¨ ur weiterf¨ uhrende Annotationen, die auf der syntaktischen Annotation aufbauen, sind die semantische Annotation in der SALSA-Baumbank und die pragmatische Annotation im Potsdam Commentary Corpus. Im Dirndl-Korpus werden pragmatische Annotationsebenen zu Informationsstatus und Koreferenz auf der Basis einer automatischen Syntaxannotation erstellt. 7.3.6 Persistenz der Korpora Dieses Kriterium taucht als einziges in der ¨ Ubersicht nicht explizit auf. Der Grund ist, dass fast alle Korpora statische Korpora sind. Anders sieht dies bei den (z.T. online und frei verf¨ ugbaren) Archiven großer Zeitungen wie etwa der ZEIT aus. Diese wachsen kontinuierlich. Ob ¨ altere Texte aus diesen Archiven entfernt oder hinter eine sog. Zahlschranke verbannt werden, das h¨ angt von der Gesch¨ aftspolitik der Verlage oder anderen kommerziellen Anbieter der Archive ab. 7.3.7 Sprachbezug der Korpora Unsere Sammlung enth¨ alt zwei Referenzkorpora: das LIMAS-Korpus und das DWDS- Kernkorpus des DWDS-Projekts. Beide sind nach sorgf¨ altig ausgew¨ ahlten Designkriterien zusammengestellt. Das LIMAS-Korpus orientiert sich dabei an den Kriterien, die bei der Erstellung des Brown-Korpus 17 verwendet wurden, so dass es 500 Textausschnitte mit je 2000 W¨ ortern umfasst. Das Kernkorpus orientiert sich hingegen eher an Kriterien, die f¨ ur das British National Corpus entwickelt wurden. So sind hier jeweils vollst¨ andige Texte enthalten und es wurde versucht, eine balancierte Mischung verschiedener Genres und Variet¨ aten abzudecken. Die meisten der von uns erw¨ ahnten Korpora sind als Spezialkorpora zu klassifizieren, wobei sie bei ausreichender Gr¨ oße durchaus auch als Referenz, z.B. f¨ ur Wortlisten, eingesetzt werden k¨ onnen. Ein Beispiel f¨ ur ein Korpus einer Individualsprache ist das Bonner Kant-Korpus. Exoten unter den Spezialkorpora sind zum Beispiel das Lufthansa- Korpus oder das SMS-Korpus, weil sie extrem eingeschr¨ ankte Dom¨ anen umfassen. 7.3.8 Verf ¨ ugbarkeit der Korpora In die Ressourcen¨ ubersicht auf der Webseite haben wir nur potenziell verf¨ ugbare Ressourcen aufgenommen. Manche Ressourcen, die an anderer Stelle im Buch genannt 16 Die Rohtexte liegen ggf. als HTML-Dokumente vor und beinhalten dann Markierungen der Textstruktur. 17 Vgl. Kuˇcera und Francis (1967). 146 7 Deutschsprachige Korpora sind, werden Sie dort deshalb nicht finden. Das diachrone Mainzer Zeitungskorpus zum Beispiel, das von Carmen Scherer f¨ ur ihre Promotion zum Wortbildungswandel 18 ausgewertet wurde, wird nicht erw¨ ahnt, weil es nicht digital zur Verf¨ ugung steht. Verlagskorpora, wie das Wahrig-Korpus 19 , haben wir aus demselben Grund ebenfalls nicht aufgenommen. Korpora, die aus rechtlichen Gr¨ unden nur institutsintern genutzt werden d¨ urfen, wie das Leipzig/ BYU Corpus of German 20 , fehlen ebenfalls. Eine Ausnahme findet sich allerdings: das Videokorpus zur Aphasie. Obwohl damit nur an der Universit¨ at Freiburg Forschung betrieben werden darf, haben wir es aufgenommen. Es handelt sich um ein weltweit einmaliges Korpus einer Langzeitstudie zu zehn akuten Aphasikern und ihren Familien, die ¨ uber einen Zeitraum von einem Jahr nach der Entlassung des Aphasikers aus der Klinik regelm¨ aßig auf Video aufgezeichnet wurden. Das Korpus eignet sich sehr gut f¨ ur Promotionsprojekte, die allerdings aus rechtlichen Gr¨ unden an der Universit¨ at Freiburg angesiedelt sein m¨ ussen. Um den Schutz der Privatsph¨ are der Teilnehmer zu wahren, werden manche Daten nur in anonymisierter Form freigegeben, so z.B. das Dortmunder Chat-Korpus. Verf¨ ugbarkeit kann folgende Werte haben: frei, wenn die Daten frei aus dem Netz kopierbar sind; auf Anfrage, wenn die Daten frei sind, aber nicht im Netz stehen; online, wenn sie kostenlos online durchbar sind (ggf. nach Registrierung); Lizenz bedeutet im Normalfall, dass man eine Lizenzgeb¨ uhr bezahlen muss. Verkauf schließlich bedeutet, dass man mehrere hundert Euro f¨ ur die Daten zahlen muss, wie es z.B. f¨ ur das Mannheimer Korpus des IDS der Fall ist, wenn man anstelle eines punktuellen Online-Zugriffs, die gesamte Datenmenge nutzen m¨ ochte. 7.3.9 ¨ Ubersicht zu Archiven und Portalen In Tabelle 25 haben wir eine Reihe von nationalen und internationalen Archiven und Portalen zusammengestellt, die Korpora archivieren bzw. Links auf Korpora bereitstellen. Manche der Initiativen erm¨ oglichen den Zugriff auf die Korpora nur gegen eine Lizenzgeb¨ uhr oder verlangen eine (kostenpflichtige) Mitgliedschaft 21 . Die Angaben sind alphabetisch, nicht thematisch sortiert. 18 Vgl. Scherer (2005). 19 Es wird allerdings von Universit¨ aten im Rahmen von gemeinsamen Projekten lizenziert und kann intern genutzt werden, so z.B. an der Universit¨ at des Saarlands in Saarbr¨ ucken. 20 Kontakt: Randall L. Jones, Brigham Young University; Erwin Tschirner, Universit¨ at Leipzig. 21 Erkundigen Sie sich, ob Ihr Institut zum Beispiel Mitglied im LDC ist. Dann st¨ unden Ihnen eine Vielzahl von Ressourcen zur Verf¨ ugung. 7.3 Deutsche Korpuslandschaft 147 Name Adresse Kommentar Archiv f¨ ur gesprochenes Deutsch (AGD) http: / / agd.idsmannheim.de/ index.shtml Stellt ¨ uber das Archiv gesprochenes Deutsch Korpora gesprochener Sprache zur Verf¨ ugung; in der Datenbank Gesprochenes Deutsch ist eine Online-Recherche in alignierten Transkripten m¨ oglich. Bayerisches Archiv f¨ ur Sprachsignale (BAS) http: / / www.phonetik.unimuenchen.de/ Bas/ BasHomede u.html Archiviert Korpora gesprochener Sprache; Daten sind frei oder unter Lizenz verf¨ ugbar. Berlin- Brandenburgische Akademie der Wissenschaften (BBAW) www.deutschestextarchiv. de und www.dwds.de Deutsches Textarchiv: gr¨ oßtes diachrones Korpus, das den Zeitraum von 1650-1900 umfasst; DWDS: ausgewogenes Referenzkorpus f¨ ur die deutsche Sprache des 20. Jahrhunderts (Kernkorpus 20), dazu Erweiterungskorpora vor allem aus Zeitungsarchiven, einige Spezialkorpora. Abfrage aller Korpora ¨ uber die Webseiten mit der Suchmaschine DDC. Child Language Data Exchange System (CHILDES) http: / / childes.psy.cmu.edu/ Internationales Archiv f¨ ur Spracherwerbsdaten; Online-Suche und teilweise frei verf¨ ugbar. CLARIN Virtual Language Observatory - Resources http: / / www.clarin.eu/ cont ent/ virtual-languageobservatory Metadaten f¨ ur Sprachressourcen fast aller europ¨ aischer Sprachen. Die meisten der hier registrierten Daten sind frei abfragbar oder herunterzuladen. Corpora List www.hit.uib.no/ corpora/ Internationale Mailingliste zu Korpora mit Archiv; ist ein Forum f¨ ur Korpusals auch f¨ ur Computerlinguisten. European Language Resources Association (ELRA) http: / / www.elra.info Internationale Organisation, die Sprachressourcen wie Korpora zur Verf¨ ugung stellt (gr¨ oßtenteils kostenpflichtig). Neu: ein Universal Catalogue (http: / / universal.elra.info/ search.php). Hamburger Zentrum f¨ ur Sprachkorpora (HZSK) https: / / corpora.unihamburg.de/ drupal/ CLARIN-Zentrum, das ¨ uber ein Webportal linguistische Korpora und Tools zur Verf¨ ugung stellt, u.a. die Korpora des ehemaligen SFBs 538 mit dem Thema Mehrsprachigkeit. Institut f¨ ur Deutsche Sprache (IDS) http: / / www.idsmannheim.de/ Gr¨ oßte zentrale Korpussammlung Deutschlands, ¨ uber 25 Milliarden W¨ orter geschriebener Standardsprache (Stand 09/ 2014); Annotation von Textstruktur, teilweise morphosyntaktisch annotiert; Online-Abfrage mit COSMAS II. 148 7 Deutschsprachige Korpora Name Adresse Kommentar Korpora des SFB 441 http: / / www.lingexp.unituebingen.de/ sfb441/ corp ora/ index-de.html Auflistung der Korpora, die im SFB 441 Linguistische Datenstrukturen erstellt wurden. Korpora des SFB 632 www.sfb632.uni-potsdam.de / en/ corpora.html Korpora des ehemaligen SFB 632 mit dem Thema Informationsstruktur. Korpora.org http: / / www.korpora.org/ Verschiedene deutschsprachige Korpora, u.a. Texte von Kant und Frege sowie das Bonner Fr¨ uhneuhochdeutsch-Korpus. Laudatio- Repository http: / / www.laudatiorepository.org/ Gut aufbereitete Metadatensammlung f¨ ur tief annotierte Korpora. Linguist List http: / / linguistlist.org/ Gr¨ oßte internationale Mailingliste zu allen Themen der Linguistik mit großem Archiv. Nat¨ urlich werden hier auch Themen der Korpuslinguistik verhandelt. Linguistic Data Consortium (LDC) http: / / www.ldc.upenn.edu Amerikanische Organisation (Zusammenschluss von Firmen, Universit¨ aten und staatlichen Stellen). Manche Korpora sind nur f¨ ur Mitgliedsinstitutionen erh¨ altlich. Deutsche Korpora gesprochener Sprache sind z.B. die Katalogeintr¨ age LDC97S43 (CALLHOME) und LDC96S51 (CALLFRIEND). Mediaevum http: / / mediaevum.de Sehr umfangreiches Portal zu lateinischen und deutschen Texten des Mittelalters; enth¨ alt Links u.a. zu Sprachressourcen und Hilfsmitteln. Project Gutenberg (Englisch) http: / / www.gutenberg.org Internationales Archiv mit frei verf¨ ugbaren, gr¨ oßtenteils englischsprachigen B¨ uchern. Projekt Gutenberg http: / / gutenberg.spiegel.de/ Archiv mit frei verf¨ ugbaren deutschsprachigen B¨ uchern. Projekt Wikisource http: / / de.wikisource.org/ wiki/ Hauptseite Sammlung von Quellentexten, die entweder urheberrechtsfrei sind oder unter einer freien Lizenz stehen. TalkBank http: / / talkbank.org/ Internationales Archiv f¨ ur Korpora gesprochener Sprache; Online-Suche und teilweise frei verf¨ ugbar. TITUS http: / / titus.unifrankfurt.de/ indexd.htm Portal f¨ ur indogermanische Text- und Sprachmaterialien an der Universit¨ at Frankfurt; bietet die M¨ oglichkeit der Online-Recherche. Tabelle 25: Nationale und internationale Korpusarchive, -sammlungen und Mailinglisten 7.4 Neue Korpusinitiativen 149 7.4 Neue Korpusinitiativen Bis vor Kurzem war der Aufbau sehr großer, ausgewogener oder opportunistischer Referenzkorpora im Zentrum der Aktivit¨ aten der großen Institute, die sich dieser Aufgabe widmen. Man kann zumindest f¨ ur das Deutsche sagen, dass es hier ein solides Fundament gibt, das in vielen F¨ allen f¨ ur die Gewinnung linguistisch relevanter und plausibler Erkenntnisse ausreicht. Dies gilt ungeachtet dessen, dass diese Korpora ausgebaut und aktualisiert werden. Daneben haben sich in den letzten Jahren eine Reihe von Initiativen gebildet, deren Ziel entweder der Aufbau ausreichend großer Spezialkorpora ist oder der Aufbau von (opportunistischen) Referenzkorpora, die in der Gr¨ oße die bisher erstellten Korpora noch deutlich ¨ ubertreffen. In Abschnitt 7.3.4 haben wir gezeigt, was mit ausreichend groß gemeint ist. Wir stellen im Folgenden zwei Initiativen vor, die auf die Sammlung von gr¨ oßeren (Referenz-)Korpora f¨ ur spezielle Gegenstandsbereiche abzielen (Deutsches Textarchiv und Deutsches Referenzkorpus der internetbasierten Kommunikation), sowie zwei Initiativen, die auf die Sammlung sehr großer Datenmengen abzielen (Deutsche Webkorpora und Google Books). 7.4.1 Das deutsche Textarchiv Das Projekt Deutsches Textarchiv (DTA) baut einen Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 auf. Die Textauswahl erfolgt auf der Grundlage einer Auswahlbibliographie. Das Ziel ist, ein hinsichtlich der repr¨ asentierten Textsorten und Disziplinen ausgewogenes Korpus zusammenzustellen. Um den historischen Sprachstand m¨ oglichst genau abzubilden, wurden als Vorlage f¨ ur die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt 22 . Die Texte wurden orthografisch normiert und linguistisch annotiert. Deshalb ist eine schreibweisentolerante und um linguistische Kategorien erweiterte Suche in den Best¨ anden m¨ oglich 23 . Das Korpus umfasst ca. 100 Millionen Token, wird aber zur Zeit noch ausgebaut. Ein Vergleich mit ¨ ahnlich großen Referenzkorpora ist nicht sinnvoll, da a) das Deutsche Textarchiv einen viel gr¨ oßeren Zeitraum abdeckt als etwas das Kernkorpus des DWDS oder das British National Corpus, und b) das Korpus aus einer kleineren Anzahl langer bis sehr langer Texte zusammengestellt wurde - was Auswirkungen auf statistische Auswertungen z.B. zur Dispersion von W¨ ortern haben kann 24 . Das Deutsche Textarchiv besteht aus den folgenden Komponenten: • Das Kernkorpus, dessen Aufbau in der alleinigen Verantwortung des DTA liegt. • Eine Erweiterungskomponente 25 ; das Projekt ist offen f¨ ur die Aufnahme und (gemeinsame) Pflege von Texten, die Wissenschaftler im Bereich der deutschen Sprache des 16. bis 19. Jahrhunderts erfasst und digitalisiert haben. Wenn Sie dazu 22 Alle Texte wurden unter eine ”Creative-Commons“-Lizenz gestellt. 23 Vgl. www.deutschestextarchiv.de. 24 Eine Aufschl¨ usselung der Korpusinhalte nach Textsorten und, im Bereich der Wissenschaften, nach dem Gegenstandsbereich gibt Geyken (2013), Abschnitt 3.1. 25 Vgl. www.deutschestextarchiv.de/ \-dtae. 150 7 Deutschsprachige Korpora geh¨ oren sollten, dann finden Sie hier die M¨ oglichkeit, ihre Texte einer gr¨ oßeren Wissenschaftlergemeinschaft zug¨ anglich zu machen, was mittlerweile auch von vielen Institutionen, die solche Arbeiten f¨ ordern, verlangt wird. Diese Erweiterungs-Texte k¨ onnen auch als Spezialkorpora betrachtet und mit dem DTA-Kernkorpus als Referenzkorpus im Hintergrund auf ihre sprachlichen Spezifika hin verglichen werden. Ein Interesse auf Seiten des DTA-Projekts liegt darin, dass durch die Erweiterung des Korpuskerns mit externen Quellen das Korpus zumindest in einigen Zeitscheiben eine Gr¨ oße erreicht, die die Anwendung von statistischen Verfahren interessant macht. • Die Webseite, ¨ uber die eine schreibungstolerante Suche ¨ uber alle Korpusdaten m¨ oglich ist; das Rechercheergebnis, also die Konkordanz, besteht aus dem Textausschnitt, in dem der Suchausdruck vorkommt und dem zugeh¨ origen Ausschnitt aus dem Digitalisat des Originaltextes. • Eine Qualit¨ atssicherungskomponente 26 , d.h. eine webbasierte Anwendung, um in XML/ TEI-annotierten Textdigitalisaten verschiedene Arten von Fehlern zu finden, zu kategorisieren und zu korrigieren; ¨ uber diese Seite bzw. Anwendung k¨ onnen sich Nutzer an der Qualit¨ atssicherung des Korpus beteiligen, indem Sie z.B. ihren Lieblingstext nach den Richtlinien des DTA korrigieren. Das DTA steht beim Aufbau des Korpus vor den folgenden, f¨ ur ein diachrones Korpus spezifischen Problemen: • Die Texterfassung ist ¨ außerst schwierig, da die Texte, alles Erstausgaben aus der Zeit von Anfang des 17. bis Ende des 19. Jahrhunderts, mit sehr stark divergierenden Schriftarten gedruckt wurden. Automatische Texterfassung mit Optical Character Recognition (OCR) kommt nicht bei allen Texten in Frage. Die Alternative ist das mehrfache Abschreiben(lassen) der Texte und der anschließende Vergleich der Ergebnisse (sog. Double Keying 27 ). • F¨ ur die strukturelle Annotation der Texte werden die Guidelines der Text Encoding Initiative (TEI) 28 herangezogen. Diese sind aber in vielen F¨ allen zu weit gefasst, um eine klare und eindeutige Abbildung zwischen dem Namen eines Elementes und dem, was mit dem Inhalt gemeint ist, zu sichern. Das DTA-eigene ”Basisformat“ (DT- ABf) beschr¨ ankt die Menge der verwendbaren TEI-Elemente und Attribute und gibt, wo immer m¨ oglich, feste Wertemengen vor. DTABf ist damit eine echte Untermenge der von der TEI definierten Elemente und Attribute. Dieses TEI-konforme Basisformat wird den interessierten Wissenschaftlern zur Verf¨ ugung gestellt 29 , es wird momentan von etwa zwanzig externen Projekten verwendet. Wissenschaftler, die ihre Texte in das Erweiterungsmodul einbringen wollen, sind verpflichtet, das Basisformat anzuwenden, damit volle Interoperabilit¨ at mit dem Kern des DTA gew¨ ahrleistet ist 30 . 26 Vgl. www.deutschestextarchiv.de/ dtaq und Geyken et al. (2012a). 27 Haaf et al. (2013) geben einen Einblick in dieses Verfahren des Double Keyings und die Qualit¨ atskontrolle. 28 Vgl. http: / / www.tei-c.org/ . 29 Vgl. http: / / www.deutschestextarchiv.de/ doku/ basisformat. 30 Geyken et al. (2012b) geben einen Einblick in Entstehung und Nutzung des Basisformats. 7.4 Neue Korpusinitiativen 151 • Die zeitlich weit gestreuten Texte weisen einen Reichtum von Schreibungsvarianten auf. Sprachliche Einheiten, die wir intuitiv als ”gleich“ ansehen und auch so suchen w¨ urden, werden ¨ uber die Jahrhunderte zum Teil in sehr vielen Schreibungen verwendet. Um die Suche nach solchen Einheiten im Korpus zu erleichtern, m¨ ussen deshalb die verschiedenen Schreibungen ”kanonisiert“ werden 31 . 7.4.2 Deutsches Referenzkorpus der internetbasierten Kommunikation Ein weiteres spezifisches Korpus, mit dem eine L¨ ucke in der Dokumentation der deutschen Sprache geschlossen werden soll, wird derzeit im Projekt Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK) 32 aufgebaut. Am Projekt beteiligt sind Wissenschaftler der TU Dortmund, der Universit¨ at Mannheim und der Berlin- Brandenburgischen Akademie der Wissenschaften. Den Kern dieses Korpus bilden nicht beliebige Webtexte, sondern die sprachlichen ¨ Außerungen in solchen Webgenres, die in der englischsprachigen Forschung im Forschungsfeld Computer-Mediated Communication (CMC) und in der deutschsprachigen Forschung unter dem Oberbegriff Internetbasierte Kommunikation (IBK) untersucht werden. Im Fokus stehen Kommunikationstechnologien, die auf der Infrastruktur des Internets und seiner Dienste aufsetzen und die f¨ ur die Realisierung dialogischer Kommunikation konzipiert sind. Prominente Beispiele f¨ ur Genres internetbasierter Kommunikation sind Chats und Instant-Messaging, Diskussions-Threads in Online-Foren und in Wikis, Threads mit Nutzerkommentaren in Weblogs, Videoplattformen (z.B. YouTube) und auf den Profilseiten sozialer Netzwerke (z.B. Facebook), die Kommunikation anhand von Twitter-Postings sowie in multimodalen Kommunikationsumgebungen. Der Fokus von DeRiK liegt auf der schriftlichen vermittelten Sprachverwendung in der internetbasierten Kommunikation. Hierunter fallen auch Genres wie Chats, die man als konzeptuell m¨ undlich auffasst. DeRiK verfolgt zwei Ziele, die das Korpus von Vorl¨ aufern wie dem in unserer Korpusliste aufgenommenen Dortmunder Chatkorpus unterscheiden: a) es wird Ausgewogenheit hinsichtlich der im Internet vertretenen dialogischen Genres angestrebt. Die Referenz hierf¨ ur ist die ARD/ ZDF-Online-Studie zur Internetnutzung, eine j¨ ahrlich im Auftrag der beiden Fernsehanstalten erhobene Nutzungsanalyse; b) es soll mit andereren Referenzkorpora wie dem Kernkorpus des DWDS kombiniert bzw. mit solchen Korpora zusammen genutzt und verglichen werden k¨ onnen. Deshalb wird eine strukturelle Annotation der Daten angestrebt, die sich an Standards im Allgemeinen und der Annotation des DWDS-Kernkorpus im Besonderen anlehnt 33 . Die Entwickler von DeRiK stehen beim Aufbau des Korpus vor den folgenden, f¨ ur ein solches Korpus spezifischen Problemen: • Die rechtlichen Bedingungen der Wiederverwendung von Daten wie Tweets oder Kommentaren auf Zeitungsportalen und Ratgeberseiten sind unklar. In der Commu- 31 In Jurish (2013) und Jurish et al. (2014) wird das Verfahren beschrieben. 32 Vgl. http: / / www.empirikom.net/ bin/ view/ Themen/ DeRiK und Beißwenger und Lemnitzer (2013). 33 Weitere Details zu Aufbau und Nutzung des Korpus finden sich in Beißwenger und Lemnitzer (2013). 152 7 Deutschsprachige Korpora nity haben sich Praktiken der Erhebung der Daten f¨ ur Detailstudien durchgesetzt, die rechtlich in einer Grauzone liegen. Diese Praxis ist f¨ ur eine begrenzte Einzelstudie gerade noch akzeptabel, aber nicht zu empfehlen, weil die Nachnutzung der Daten und damit die Replikation von Forschungsergebnissen nicht m¨ oglich ist. F¨ ur ein Korpus, das in G¨ anze einer weiteren ¨ Offentlichkeit zur Verf¨ ugung gestellt werden soll, ist dies kein gangbarer Weg. Die Entwickler von DeRiK haben sich dazu entschlossen, vom Ideal der Ausgewogenheit des Korpus entlang der Nutzungsarten und -h¨ aufigkeiten, wie sie in der Online-Studie von ARD und ZDF dokumentiert sind, abzuweichen und zun¨ achst nur Texte zu erfassen, die rechtlich unbedenklich sind 34 . • F¨ ur die strukturelle Annotation der Texte werden die Guidelines der TEI herangezogen. Diese sind aber f¨ ur die Modellierung von Dokumenten der internetbasierten Kommunikation zu eng gefasst. Zentrale Elemente von IBK-Texten wie das Posting k¨ onnen damit nicht angemessen modelliert werden. Die Projektgruppe hat deshalb eine moderate Anpassung der Guidelines vorgenommen, d.h. ein auf die Textsorte angepasstes Schema f¨ ur diese Texte entworfen. Ziel ist es, diese Modifikationen zu einem Bestandteil der TEI-Guidelines zu machen 35 . • Die Anwendung von sprachtechnologischen Basiswerkzeugen wie Tokenizer und Wortarten-Annotierer ist bei Texten, die vom ”Modell“ eines gegenwartssprachlichen Standardtextes deutlich abweichen, weniger akkurat in ihren Ergebnissen. Gleichzeitig kommt eine h¨ andische Korrektur m¨ oglicher Analysefehler bei einem Korpus dieser Gr¨ oße nicht in Frage. Stattdessen m¨ ussen die Werkzeuge an die Gegebenheiten von Texten angepasst werden, die dem gegenwartssprachlichen Standard nicht entsprechen 36 . • Schließlich sind auch die Wortarten, die das als Standard verwendete Stuttgart- T¨ ubingen Tagset (STTS, s. Abschnitt 4.3.1) f¨ ur die Annotation bereitstellt, f¨ ur die Beschreibung einiger Ph¨ anome der internetbasierten Kommunikation (das sog. ’netspeak‘ ) nicht geeignet. Thomas Barz u.a. 37 entwerfen und diskutieren notwendige Erweiterungen des Tagsets. Bisher sind in diesem Projekt die konzeptuellen Grundlagen gelegt, es wurden Daten akquiriert und zum Teil annotiert, unter den o.g. rechtlichen Restriktionen. In 2015 sollen erste Daten aus dem DeRiK-Projekt auf der Plattform des DWDS 38 verf¨ ugbar gemacht werden. 7.4.3 Deutsche Webkorpora Webkorpora sind sehr große, opportunistisch zusammengestellte Sammlungen von Texten (einer bestimmten Sprache), die von Webseiten heruntergeladen und so aufbereitet werden, dass die Texte f¨ ur typische Benutzergruppen wie Linguisten und Lexikographen 34 Ausf¨ uhrlich hierzu Beißwenger und Lemnitzer (2013), Abschnitt 3. 35 Details ¨ uber diese Arbeit und das Schema finden sich in Beißwenger et al. (2012). 36 Jurish und W¨ urzner (2013) stellen eine solche Anpassung im Bereich der Tokenisierung und Satzsegmentierung vor. 37 Vgl. Thomas Bartz (2013). 38 www.dwds.de. 7.4 Neue Korpusinitiativen 153 verwendbar sind. Hierzu geh¨ oren a) die Bereinigung der Texte, b) eine qualitativ ausreichende linguistische Annotation der Texte und c) eine Suchmaschine, ¨ uber die die Texte abfragbar sind und in gewohnten Formaten pr¨ asentiert werden, mindestens als KWIC-Konkordanz der Treffer mit Angabe der Textherkunft (typischerweise als URL der Quelle). Chris Biemann und Kollegen 39 nennen folgende Vorteile von Webkorpora gegen¨ uber den bisher verf¨ ugbaren Referenzkorpora wie dem BNC und dem Kernkorpus des DWDS: a) sie sind in der Regel als Ganzes verf¨ ugbar, wohingegen auf den traditionellen Referenzkorpora rechtliche Restriktionen der Textgeber eine Weiterverbreitung des Korpus als Ganzes unm¨ oglich machen, b) die Menge an laufenden W¨ ortern ist gr¨ oßer 40 , c) die Daten sind aktueller und d) die Vielfalt der Textsorten ist gr¨ oßer (35-36). In den letzten f¨ unf Jahren sind beim Aufbau und der Bereitstellung von Webkorpora bedeutende Fortschritte erzielt worden, zugleich sind die Probleme bzw. Herausforderungen bei der Erstellung und der Nutzung dieser Art von Korpus deutlicher geworden: • Es ist schwierig, eine ausgewogene Vielfalt von Texten aus der noch gr¨ oßeren verf¨ ugbaren Datenmenge des World Wide Web zu extrahieren. Die f¨ ur den Zugriff auf und das Herunterladen von Webseiten verwendeten Verfahren nennen sich ’Crawling‘ , die verf¨ ugbaren Werkzeuge Crawler. Ein Manko der g¨ angigen Crawlingverfahren ist es, dass sie Textsammlungen erzeugen, von denen ein Großteil von sehr wenigen Webservern stammt. Biemann et al. diskutieren die Vor- und Nachteile alternativer Crawling-Strategien (24-27). • Die heruntergeladenen Texte m¨ ussen bereinigt werden. Einige Seiten sind ganz zu entfernen, weil sie z.B. nur Navigationselemente enthalten, andere Seiten enthalten viele Textbausteine (engl. ’boilerplate text‘ ), die, wenn sie im Korpus blieben, viele statistische Auswertungen verf¨ alschten. Ein weiteres Problem ist die Zeichenkodierung. Es gibt mehrere nebeneinander verwendete Standards f¨ ur die Kodierung von Texten im Web, die in einem Korpus vereinheitlicht werden m¨ ussen. Schließlich m¨ ussen Dubletten entfernt werden, also Webseiten mit identischem Text. Einige Projekte gehen so weit, Dubletten auch auf Satzebene zu entfernen (30-35). • Die rechtliche Situation bzw. die Eigentumsverh¨ altnisse und erlaubten Nutzungsarten vieler aus dem Web heruntergeladener Texte ist und bleibt unklar. Bei den in Webkorpora-Projekten heruntergeladenen Mengen von Texten ist es unm¨ oglich, alle Urheber bzw. Rechteinhaber ausfindig zu machen und die Weiternutzung zu kl¨ aren. Viele Projekte behelfen sich damit, dass sie die Abfolge der S¨ atze eines Textes durcheinanderbringen 41 . Linguistische Untersuchungen, die sich auf die (satz¨ ubergreifende) Koh¨ arenz von Texten beziehen, sind mit solchen Korpora - oder, genauer: Satzsammlungen - nicht m¨ oglich. 39 Die Darstellung in diesem Abschnitt st¨ utzt sich auf Biemann et al. (2013). Seitenzahlen in Klammern beziehen sich darauf. 40 Wenn man den Umfang der Korpussammlungen des DWDS und am Institut f¨ ur Deutsche Sprache mit dem Umfang heute verf¨ ugbarer Webkorpora vergleicht, ist dieses Argument wenig stichhaltig. Alle Sammlungen bewegen sich momentan im einstelligen oder kleinen zweistelligen Milliardenbereich an laufenden W¨ ortern. 41 ”To avoid legal problems with copyright claims, the published corpora are sentence shuffles.“, http: / / hpsg.fu-berlin.de/ cow/ . 154 7 Deutschsprachige Korpora • Die heruntergeladenen Texte sind nicht immer S¨ atze der Sprache, f¨ ur die man ein Korpus aufbauen m¨ ochte (Zielsprache). Die durch eine automatische Spracherkennung als nicht zur Zielsprache geh¨ orenden Texte oder S¨ atze m¨ ussen entfernt werden. Auch diese Operation ist fehlerbehaftet 42 . • Es gibt zu den Texten in Webkorpora praktisch keine Metadaten, diese sind bei der Menge von Texten auch nicht mit vertretbarem Aufwand zu ermitteln oder zu rekonstruieren. Ein kleiner Test mit dem DECOW-Korpus und der Suchumgebung, wo man zu den Konkordenzzeilen zumindest die URL erh¨ alt, ergab, dass die Mehrzahl der getesteten URLs zu nicht mehr existierenden Seiten f¨ uhrten. Obwohl der Test keinesfalls repr¨ asentativ war, steht zu bef¨ urchten, dass man zur Provenienz vieler Texte gar nichts erf¨ ahrt. Anwender, die auch nur auf ein Minimum von Metadaten wie Entstehungsdatum oder Autor bzw. (bei Zeitungen) Quelle eines Textes angewiesen sind, k¨ onnen aus diesem Grund mit Webkorpora nichts anfangen. Trotz dieser nach wie vor bestehenden Probleme sind einige der deutschen Webkorpora (die wir auch in unsere Liste der Einzelkorpora aufgenommen haben) f¨ ur Linguisten, Lexikographen etc. benutzbar. Sie sind als Ganzes herunterladbar (sofern die notwendigen Rechnerkapazit¨ aten bereitstehen) oder ¨ uber Suchmaschinen abfragbar. Das deutsche COW-Korpus ist außerdem mit Wortarten annotiert und die Suchmaschine erlaubt die Suche nach Kombinationen von Wort und Wortart 43 . Sabine Schulte im Walde und Stefan M¨ uller 44 zeigen an einem Beispiel, bei dem es um die ¨ Uberpr¨ ufung und Verifizierung von Sprecherurteilen hinsichtlich semantischer Beziehungen zwischen W¨ ortern ging, den Nutzen von großen Webkorpora f¨ ur diese Art von korpusgest¨ utzter Untersuchung 45 . 7.4.4 Die Google-Familie Mit ”Google-Familie“ meinen wir neben der allseits bekannten Suchmaschine eine von Google initiierte sehr umfangreiche Sammlung von gescannten und mit OCR aufbereiteten B¨ uchern 46 und einer Anwendung, in der aus dem Bestand dieser B¨ ucher n-Gramme 42 Ein kleines Experiment: Zum Stichwort horse findet man im Webkorpus an der FU Berlin (DECOW) 40 Treffen, die Mehrzahl ist in komplett englische S¨ atze eingebettet. Im deutschen Korpus des WaCky-Projekts findet man 1162 Treffer (deWaC), nach erster Durchsicht scheinen die meisten davon (Teil von) Eigennamen zu sein. Im DWDS-Kernkorpus findet man 16 Treffer, auch hier die meisten (Teil von) Eigennamen, zwei Belege entstammen einem l¨ angeren Zitat aus einem Buch namens ”Amerikafahrt“, womit die Bandbreite der (erw¨ unschten und unerw¨ unschten) Verwendungweisen von W¨ ortern aus anderen als der Zielsprache gut abgedeckt ist. 43 Eine Suche nach dem Wort sieben mit der Wortart ”finites Verb“ f¨ ordert auch die (wenigen) Kontexte zutage, in denen dieses Wort als Verb verwendet wird. 44 Vgl. Schulte im Walde und M¨ uller (2013). 45 Die verwendeten Korpora werden auf S. 87f. beschrieben. Interessant in diesem Zusammenhang ist, dass mit SdeWac ein von deWaC abgeleitetes, d.h. nachtr¨ aglich bereinigtes Korpus verwendet wurde. Die Autoren schreiben außerdem, dass vor allem die Korpusgr¨ oße einen Einfluss auf die Qualit¨ at der Untersuchungsergebnisse hatte (S. 100). 46 S. http: / / books.google.de. 7.4 Neue Korpusinitiativen 155 bis zu einer L¨ ange von f¨ unf W¨ ortern und deren Vorkommensh¨ aufigkeiten im Verlauf der Zeit, aus der die B¨ ucher stammen, abgefragt werden k¨ onnen 47 . Besonders die letzte Anwendung l¨ asst die sprachtechnologischen Ambitionen von Google deutlich werden und gibt zu der Hoffnung Anlass, dass von hier aus Ressouren und Werkzeuge entstehen, die f¨ ur korpuslinguistische Forschung interessant sind 48 . W¨ ahrend wir in den letzten drei Abschnitten dargestellt haben, welche Herausforderungen diejenigen zu bew¨ altigen haben, die die jeweilige Ressource aufbauen wollen, m¨ ussen wir bei den Ressourcen der Google-Familie darstellen, welche Herausforderungen diejenigen zu bew¨ altigen haben, die diese Ressourcen (f¨ ur korpuslinguistische Studien) nutzen wollen. Adam Kilgarriff spricht von ”Googleology“ als schlechte Art, Wissenschaft zu betreiben 49 : Da die Ressourcen und Werkzeuge nicht prim¨ ar f¨ ur die Nutzung durch Korpuslinguisten entwickelt wurden, liegt es in der Verantwortung dieser Nutzer, zu gew¨ ahrleisten, dass die auf Grund dieser Ressourcen gewonnenen Ergebnisse wissenschaftlichen Grundanforderungen wie Verl¨ asslichkeit und Plausibilit¨ at gen¨ ugen und vor allem replizierbar sind. Kilgarriff stellt fest - mit G¨ ultigkeit f¨ ur die Zeit vor dem Jahr 2007 und beschr¨ ankt auf die Google-Suchmaschine -, dass man neben der eigenen Wissenschaft auch noch Googleologie betreiben m¨ usste, um diese Ziele zu erreichen. Kilgarriffs kritischer Einwurf kann auch als einer der Anst¨ oße f¨ ur die Korpuslinguistik gesehen werden, die Sache selber in die Hand zu nehmen und selber große Webkorpora aufzubauen und eine den Anforderungen von Korpuslinguisten gen¨ ugende Infrastruktur um diese Ressourcen herum bereitzustellen (s. voriger Abschnitt). Mark Davies 50 argumentiert auf einer ¨ ahnlichen Linie wie Adam Kilgarriff, wenn er zeigt, welche Art von Fragen (die man als Korpuslinguist gerne stellen m¨ ochte) man an ein Referenzkorpus wie das Corpus of Contemporay American English, nicht aber ¨ uber die Google-Suchmaschine stellen kann. In noch deutlicherer Weise und an Hand vieler Beispiele demonstriert Dominik Br¨ uckner 51 am Beispiel der Benutzung von Google Books f¨ ur den Zweck, Belege f¨ ur ein diachron ausgerichtetes W¨ orterbuch zu finden, dass diese Ressource und die Infrastruktur hierf¨ ur ungeeignet sind, da a) die Ergebnisliste(n) willk¨ urlich sind und sich je nach Abfrageart und in nicht nicht nachvollziehbarer Weise ¨ andern; b) die Metadaten auch durch die schlechten Resultate der automatischen Texterfassung nicht den minimalen dokumentarischen Standards gen¨ ugen und c) in der Dokumentation (so vorhanden) selbst grundlegende Dinge wie die, was unter einem Buch oder einem Suchergebnis verstanden wird, nicht erl¨ autert sind. Dem stehen andere Ansichten und Erfahrungen gegen¨ uber, die nicht verschwiegen werden sollen. Stefan Diemer 52 zeigt an einer Fallstudie, die das Aufkommen einer neuen Art von pr¨ afigierten Verben in der englischsprachigen internetbasierten Kommunikation betrifft, dass eine ausreichende Menge von Daten nur ¨ uber die Google- Suchmaschine, nicht aber ¨ uber Referenz- und Webkorpora zu erhalten war. Es zeigt sich zumindest an dieser Studie, dass die Daten und Werkzeuge der Google-Familie vor allem 47 Vgl. https: / / books.google.com/ ngrams/ . 48 Vgl. Lin et al. (2012). 49 Kilgarriff (2007). 50 Vgl. Davies (2011). 51 Vgl. Br¨ uckner (2012). 52 Vgl. Diemer (2011). 156 7 Deutschsprachige Korpora dort einen guten Dienst leisten, wo die zu untersuchenden Ph¨ anomene zu selten (oder zu neu) sind, als dass sie von Referenz- und Webkorpora schon erfasst werden konnten. Auch in der empirisch orientierten Kulturwissenschaft scheint vor allem der Ngram- Viewer mit seiner M¨ oglichkeit, sprachliche Daten f¨ ur historische L¨ angsschnittstudien zu liefern, großer Beliebtheit zu erfreuen. Diese Art der Forschung und ihre W¨ urdigung liegen außerhalb des Rahmens dieser Einf¨ uhrung, deswegen wollen wir hier nur auf die Arbeit von Philipp Sarasin 53 hinweisen, in der sich auch viele anschauliche Beispiele f¨ ur die Verwendung des Ngram-Viewers befinden. Zusammenfassend kann man sagen, dass die Ressourcen und Werkzeuge der Google- Familie korpuslinguistische Nutzungen nicht ausschließen, aber auch nicht unbedingt bef¨ ordern. Die Last, bei Nutzung dieser Ressourcen wissenschaftliche Standards zu wahren, liegt beim Benutzer, und diese Last wiegt hier schwerer als bei den anderen hier beschriebenen, genuin linguistischen Korpora. Google geizt mit Informationen zu seinen Ressourcen und Werkzeugen und zu allem, was direkt die Firmenpolitik ber¨ uhrt. In manch gl¨ ucklichem Fall m¨ ogen die Interessen der linguistischen Forschungsgemeinschaft und die Interessen von Google in die gleiche Richtung gehen, das wird man aber eher als Koinzidenz zu werten haben. In vielen F¨ allen bedeutet die explorative Verwendung dieser Ressourcen und Werkzeuge, dass man deren Nutzung, wenn man wissenschaftliche Standards wahren will oder muss, am Ende aufgibt und sich nach geeigneteren Ressourcen umsieht. Auch dies kann eine interessante Erfahrung sein. 7.5 Weiterf ¨ uhrende Literatur Wir wollen an dieser Stelle nicht auf weitere Literaturstellen verweisen, sondern auf Mailinglisten, bei denen Sie sich anmelden (subskribieren) k¨ onnen. Als angemeldeter Benutzer erhalten Sie alle an diese Listen gesendeten Beitr¨ age. Durch diese Beitr¨ age k¨ onnen Sie sich ¨ uber Entwicklungen in der Korpuslinguistik auf dem Laufenden halten. Sie k¨ onnen sich auch selbst beteiligen und dort Fragen stellen. Wenn Sie freundlich fragen, werden Sie in den meisten F¨ allen auch freundliche Antworten erhalten. Die Mailinglisten sind Corpora (http: / / clu.uni.no/ corpora/ , folgen Sie dem Link zur Info Page, dort erfahren Sie, wie Sie Mitglied werden k¨ onnen), Gespr¨ achsforschung (http: / / www.gespraechsforschung.de/ liste.htm, mit online-Registrierung) und die Linguist List (http: / / www.linguistlist.org/ ). 53 Vgl. Sarasin (2012). 8 Wie man in den Wald hineinruft . . . — Korpuslinguistik in der Praxis Nach Lekt¨ ure dieses Kapitels werden Sie in der Lage sein, selbstst¨ andig korpusbasierte linguistische Untersuchungen entsprechend den genannten Vorbildern zu planen und durchzuf¨ uhren. 8.1 ¨ Ubersicht In diesem Kapitel wollen wir linguistische Untersuchungen vorstellen, die auf deutschsprachigen Korpora basieren. Wir glauben, dass man aus diesen Beispielen etwas lernen kann - im positiven wie im negativen Sinn. Ein Blick in die germanistischen Fachzeitschriften zeigt, dass in den letzten Jahren erstaunlich viele linguistische Arbeiten entstanden sind, denen Korpora zugrunde liegen. Diese Arbeiten sind freilich von recht unterschiedlicher Qualit¨ at, wie wir noch sehen werden. Sie sind auch thematisch weit gestreut. Wir stellen hier Projekte und Untersuchungen vor, in denen Korpusdaten eine Schl¨ usselrolle bei der Bearbeitung der Untersuchungsfragen spielten. Dabei ber¨ ucksichtigen wir sowohl korpusbasierte als auch korpusgest¨ utzte Arbeiten, s. Abschnitt 2.4. Bei der Zuordnung der einzelnen Untersuchungen orientieren wir uns zun¨ achst an den linguistischen Beschreibungsebenen und w¨ ahlen einige f¨ ur Korpusarbeiten interessante aus: Orthographie, Morphologie und Wortbildung, Syntax (Abschnitte 2-4). Dem folgen Arbeiten aus einigen Feldern der Linguistik, bei denen Korpora als Quelle der Evidenz schon immer eine besondere Rolle gespielt haben: Lexikographie und Lexikologie, Computerlinguistik und Fremdsprachenerwerb und -vermittlung (Abschnitte 5-7). Eine kritische W¨ urdigung von neueren korpuslinguistischen Arbeiten rundet dieses Kapitel ab. 8.2 Orthographie Der deutschen Rechtschreibung liegt sp¨ atestens seit den Zeiten Konrad Dudens eine Norm zugrunde. Deshalb der Ausdruck Rechtschreibung. Diese Norm, die allerdings auch Wandlungen und Reformen unterliegt, wird in der Schule vermittelt, sie kann nicht verhandelt werden. Sie ist allerdings ¨ ofter der Gegenstand von Diskussionen, was gerade die meist staatlich verordneten und durchgef¨ uhrten Rechtschreibreformen zeigen. Im fachlichen Diskurs der Linguistik stehen die Prinzipien hinter der Norm sowie 158 8 Korpuslinguistik in der Praxis Fragen ihrer Angemessenheit, Schl¨ ussigkeit und Lernbarkeit zur Diskussion. Linguisten nehmen aktiv Anteil an der Weiterentwicklung dieser Norm, dabei werden sie von Zeit zu Zeit von interessierten Laien begleitet oder auch bek¨ ampft. Dementsprechend befasst sich das Gros der Arbeiten zur Orthographie-Norm mit den folgenden Themen: • Darstellung, Begr¨ undung oder Kritik der Norm; • Pr¨ asentation der Norm, als Menge von Regeln und / oder als Liste von Einzelw¨ ortern; • Vermittlung der Norm im Fremdsprachunterricht 1 . Diese Themen beziehen sich auf die festgesetzte Norm und nicht auf den tats¨ achlichen Sprachgebrauch. Empirische Untersuchungen an authentischen Sprachdaten sind hier ¨ uberfl¨ ussig. Die Liberalisierung der orthographischen Norm im Zuge der letzten Rechtschreibreform 2006 macht es nun allerdings interessanter, am tats¨ achlichen Sprachgebrauch zu untersuchen, welche (zul¨ assigen, aber auch nicht-zul¨ assigen) Varianten in welchen quantitativen Verh¨ altnissen verwendet werden. Dar¨ uber hinaus gibt es bei einigen Textsorten orthographische Besonderheiten, die nicht Teil der Norm sind. Beide Aspekte der orthographischen Praxis sind Gegenstand j¨ ungerer empirischer Untersuchungen. G¨ unter Starke 2 vergleicht die Verwendung des Bindestrichs, vor allem des Erl¨ auterungs- und des Durchkopplungsbindestrichs 3 , mit den orthographischen Regeln und Eintr¨ agen des Rechtschreibdudens. Er stellt eine deutliche ”Kluft zwischen Usus und kodifizierter Norm“ fest 4 . Das Korpus, auf das er seine Untersuchungen st¨ utzt, besteht aus vier Ausgaben der Zeitschrift Spiegel von 1992, die der Autor, so ist zu vermuten, manuell ausgewertet hat. Die Beispiele aus diesem Korpus werden erg¨ anzt durch Beispiele aus dem Rechtschreibduden und aus Monographien und Aufs¨ atzen zu diesem Thema. Die Beispiele dienen dem Autor vor allem dazu, die Bereiche zu veranschaulichen, in denen Norm und Sprachgebrauch sich auseinander entwickeln. Der Aufsatz Starkes ist ein fr¨ uhes Beispiel f¨ ur empirische Arbeiten, in denen eine Sprachnorm systematisch mit dem Sprachgebrauch kontrastiert wird. Charakteristisch f¨ ur viele empirische Arbeiten dieser Art ist die korpuslinguistische Methode: Eine kleine Textsammlung wird manuell ausgewertet. Das Material kann daher nur mehr exemplarisch sein. Die Reproduktion dieser Studie und die Erstellung einer Vergleichsstudie sind praktisch nicht m¨ oglich. Helmut Langner 5 untersucht den Wortschatz der Sachgruppe Internet auf morphologische, aber auch orthographische Besonderheiten. Er stellt fest, dass bei der Schreibung von W¨ ortern aus diesem Bereich orthographische Unsicherheiten deutlich werden: ”Erstaunlich ist . . . das starke Schwanken zwischen Zusammenschreibung und Schreibung 1 Vgl. z.B. die Sammelb¨ ande von Augst (1997) sowie Eroms und Munske (1997). 2 Vgl. Starke (1993). 3 Der Erl¨ auterungsbindestrich steht in Komposita hinter Initialw¨ ortern und Zahlen (BVB- Desaster, 4-t¨ urig). Der Durchkoppelungsbindestrich verbindet die Teile einer Wortgruppe zu einem Kompositum-Erstglied (Hals-Nasen-Ohren-Arzt), vgl. Poethe (2000). 4 Starke (1993), S. 51. Die kodifizierte Norm ist bei der Abfassung des Artikels die der zwanzigsten Auflage des Rechtschreibdudens von 1991, also noch vor der Rechtschreibreform. Die Reform hat die Norm tats¨ achlich etwas st¨ arker dem Usus angepasst. 5 Vgl. Langner (2001). Seitenzahlenangaben in Klammern beziehen sich auf diesen Text. 8.2 Orthographie 159 mit Bindestrich, nicht selten sogar im selben Text . . . Probleme haben Schreiber offensichtlich dann, wenn die Lexeme Konstituenten besitzen, die noch als fremdsprachig empfunden werden.“ (105) Langner st¨ utzt seine Beobachtungen auf eine Belegsammlung, die er im Jahr 2000 aus verschiedenen Quellen, vor allem Zeitung und Rundfunk, zusammengestellt hat (97). Die Beobachtungen Langners zeigen, dass sich nicht alles in einer Rechtschreibnorm regeln l¨ asst und manche Konzepte, wie das der Fremdworthaftigkeit mancher Ausdr¨ ucke, unscharf sind. Die reformierte Rechtschreibnorm tr¨ agt dem durch eine h¨ ohere Zahl an zugelassenen Varianten Rechnung. Dennoch wird es immer orthographische Probleme jenseits der Norm geben. Christa D¨ urscheid untersucht zwei Typen von ”Schreibungen, die in der Rechtschreibnormierung nicht geregelt sind“ 6 . Es handelt sich dabei um die Binnengroßschreibung (z.B. InterCity) und um die Getrenntschreibung von Komposita (z.B. Progamm Entwickler). Ihre These lautet, dass sich in diesen Bereichen in der Sprachverwendung Tendenzen zeigen, die fr¨ uher oder sp¨ ater die Rechtschreibnorm ver¨ andern werden. Sie st¨ utzt ihre Analysen auf unsystematisch gesammelte Belege aus verschiedenen Medien: Fernsehen, Radio, Zeitung, aber auch aus der Beschreibung von Software oder aus der Bahnwerbung. In einer anderen Arbeit 7 untersucht D¨ urscheid Verst¨ oße gegen die orthographische Norm an verschiedenen Textsorten, die Bestandteil computervermittelter Kommunikation sind. Die Daten, auf die sie diese Untersuchungen st¨ utzt, sind Mitschnitte von Chats sowie E-Mails. Ob die nicht-normgerechten Schreibweisen in der internetbasierten Kommunikation, die nicht auf technisches oder menschliches Versagen zur¨ uckzuf¨ uhren sind, Auswirkungen auf die Schreibnorm und die Schreibpraxis außerhalb dieses Mediums haben werden, kann nicht vorausgesagt werden. Die Autorin fordert hierzu weitergehende empirische Untersuchungen. Dem kann man sich nur anschließen. Es w¨ are w¨ unschenswert, wenn sich solche Untersuchungen auf ein ¨ offentlich zug¨ angliches Referenzkorpus der computervermittelten Kommunikation st¨ utzen k¨ onnten. Ein solches ist an der Universit¨ at Dortmund und an der Berlin-Brandenburgischen Akademie der Wissenschaften im Aufbau 8 . In verschiedenen Arbeiten, die um die Jahrtausendwende herum entstanden sind 9 , werden vor allem graphostilistische Elemente in internetbasierten Kommunikation, und hier vor allem bei E-Mail und Chat, untersucht: Smileys, Sonderzeichen wie Stern (*) und at-Zeichen (@), prononcierte Großschreibung ganzer W¨ orter. Der Bereich ist f¨ ur diese Formen der Kommunikation recht gut untersucht und auch solide korpuslinguistisch fundiert. Es wird in Zukunft zu zeigen sein, ob sich auch in Texten anderer neuer Medien, wie den ¨ uber Mobiltelefone verbreiteten SMS, orthographische Sonderformen etablieren. SMS-Texte d¨ urften allerdings wesentlich schwieriger zu akquirieren sein als Texte, die ¨ uber das World Wide Web verbreitet werden 10 . Es gibt dennoch einige korpusbasierte Arbeiten zu diesem Thema, z.B. Schwitalla (2002), Doering (2002), allerdings 6 Vgl. D¨ urscheid (2000b), S. 223. 7 Vgl. D¨ urscheid (2000a). 8 Vgl. Kapitel 7. 9 Vgl. Haase et al. (1997), Runkehl et al. (1998), Storrer (2000), Storrer (2001). 10 Eine von der Universit¨ at Louvain in Belgien ausgehende Initiative baut in mehreren L¨ andern, u.a. in der Schweiz, zurzeit gr¨ oßere SMS-Korpora auf, den aktuellen Stand der Arbeiten erfahren Sie unter http: / / www.sms4science.org/ . 160 8 Korpuslinguistik in der Praxis beziehen sich diese Arbeiten nicht auf die Themen Rechtschreibnorm und Rechtschreibpraxis. In dem Maße, wie gr¨ oßere Korpora mit nicht-standardsprachlichen Texten entstehen - zu nennen sind hier neben Texten der internetbasierten Kommunikation auch diachrone Korpora - stellt sich auch die Frage des Zusammenhangs zwischen standardkonformen Schreibungen und davon abweichenden Schreibungen. Im Fokus steht die graphische Einheit und Diversit¨ at des sprachlichen Zeichens. Einerseits kann das Forschungsinteresse auf den abweichend geschriebenen Formen liegen und diese Formen sollen in Korpora gefunden werden, z.B. wenn Besonderheiten der internetbasierten Kommunikation analysiert werden. Andererseits kann das Forschungsinteresse auf bestimmten sprachlichen Zeichen liegen, und das unabh¨ angig von deren konkreter Schreibung, z.B. wenn der Wandel im Sprachgebrauch sprachlicher Zeichen ¨ uber einen l¨ angeren Zeitraum untersucht werden sollen. Um beiden Suchinteressen - der Suche nach sprachlichen Zeichen in einer bestimmten grafischen Form und der Suche nach sprachlichen Zeichen unabh¨ angig von deren grafischer Form - gerecht zu werden, wird mittlerweile bei der Annotation von Korpora mit einem hohen Anteil nicht-standardkonformer Schreibungen der urspr¨ unglichen Form in den Prim¨ ardaten eine normaliserte Schreibung zur Seite gestellt. Diese Annotation normalisierter Wortformen bildet einen weiteren Index, ¨ uber den die Korpora durchsucht werden k¨ onnen. Zu nennen sind hier im Zusammenhang mit diachronen Korpora die Arbeit von Bryan Jurish, Christian Thomas und Frank Wiegand 11 und im Zusammenhang mit SMS-Korpora die Arbeit von Simone Ueberwasser 12 . Die von Ueberwasser vorgestellte Annotation von ¨ uberwiegend dialektalen Ausdr¨ ucken mit ihrem hochsprachlichen Pendant ist manuell vorgenommen worden. In der Arbeit von Jurish et al. wird hingegen ein Verfahren der automatischen Annotation dargestellt. Dieser Ansatz ist sicher der interessantere, da er sich auch auf große Korpora anwenden l¨ asst. Andererseits kann dieser Ansatz nicht vollkommen fehlerfrei sein, und eine hohe Genauigkeit der Abbildung kann nur im Dialog zwischen Computerlinguisten und Philologen erzielt werden. Auf diesem Gebiet ist noch viel Spielraum f¨ ur weitere Forschungs- und Entwicklungsarbeiten, da auch mehr diachrone Korpora der Forschergemeinschaft verf¨ ugbar gemacht werden. 8.3 Wortbildung 8.3.1 Aspekte der Wortbildung Die Wortbildung ist der kreativste Bereich einer Sprache. Sprecher schaffen auf diese Weise unz¨ ahlige neue W¨ orter, von denen viele nur dem einen, momentanen kommunikativen Zweck dienen und danach nie wieder verwendet werden (sog. Gelegenheitsbildungen). Die Bausteine, aus denen im Deutschen neue W¨ orter geformt werden, sind: • Wortst¨ amme (z.B. seh, Mutter); eine Unterklasse der St¨ amme, die nicht selbst¨ andig ein Wort bilden k¨ onnen, wird Konfix genannt (z.B. schwieger, thek). 11 Vgl. Jurish et al. (2014). 12 Vgl. Ueberwasser (2013). 8.3 Wortbildung 161 • Affixe, die nach ihrer Stellung zum Wortstamm unterschieden werden in Pr¨ afixe (z.B. be-), Suffixe (z.B. -bar) und Infixe (z.B. das Fugenelement -s-). • Zwischen diesen beiden Klassen stehen Elemente, die sich von selbst¨ andigen Wortst¨ ammen zu Affixen entwickeln, unter Verlust eines eigenen semantischen Gehalts (z.B. -m¨ aßig in W¨ ortern wie gef¨ uhlsm¨ aßig). Diese Bausteine werden in der neueren Literatur Affixoide genannt. • Flexive, die grammatische Merkmale eines Worts wie Kasus oder Tempus markieren (z.B. -en, das als Flexiv die Infinitivform und die erste und dritte Person Plural eines Verbs markieren kann). Ziel der Wortbildungsforschung als linguistischer Disziplin ist es, die Regeln und Beschr¨ ankungen zu formulieren, denen die freie Kombination dieser Bausteine unterliegt, und die Merkmale der aus der Kombination der Bausteine entstehenden Wortbildungsprodukte zu beschreiben. Zum Beispiel • darf das Suffix -bar nur mit verbalen Wortst¨ ammen kombiniert werden. Das entstehende Wort wird als Adjektiv verwendet. Der Beitrag des Suffixes zur Gesamtbedeutung des Adjektivs ist meist, dass die durch den verbalen Stamm beschriebene Handlung dem Gegenstand, auf den sich das neue Adjektiv bezieht, als Potenzial zugeschrieben wird (X ist ableitbar → X kann abgeleitet werden); • kann in manchen F¨ allen zwischen die zwei Bestandteile eines Kompositums ein Fugenelement treten. Die Notwendigkeit des Fugenelements wird phonologisch begr¨ undet, es macht den ¨ Ubergang vom letzten Phonem des ersten Wortstamms zum ersten Phonem des zweiten Wortstamms leichter (z.B. Arbeit-s-amt, Tag-e-bau). Zur Entwicklung des Gebrauchs von Fugenelementen f¨ ur neue W¨ orter im Verlauf des 20. Jahrhunderts haben Damaris N¨ ubling und Renata Szczepaniak eine interessante, korpusbasierte Studie vorgelegt 13 . Die Wortbildung als produktiver Prozess des Sprachausbaus steht im Spannungsverh¨ altnis zum Lexikon einer Sprache. Wenn t¨ aglich Dutzende von neuen W¨ ortern gebildet werden, dann kann das Lexikon einer Sprache oder eines einzelnen Sprechers niemals vollst¨ andig in Hinblick auf das Vokabular der Sprache sein. Es ist deshalb ¨ ahnlich wie in der Syntax eine wichtige linguistische Aufgabe, die Regeln zu beschreiben, denen dieser kreative Prozess unterliegt 14 . Diese Regeln steuern die Produktion neuer W¨ orter und erm¨ oglichen es den H¨ orern, neue W¨ orter korrekt zu interpretieren 15 . Empirische Sprachdaten sind auch f¨ ur Wortbildungsforschung wichtig: 13 Vgl. N¨ ubling und Szczepaniak (2011). 14 Dass in diesem Teil der Sprache Regeln wirken, sieht man an Bildungen wie unkaputtbar, die deshalb so auff¨ allig sind, weil sie gegen diese Regeln verstoßen. In diesem Beispiel ist das Ziel des Regelverstoßes, Aufmerksamkeit zu erregen, und dies ist sicher gelungen. 15 Oftmals ist daf¨ ur aber auch ein gr¨ oßerer Kotext oder Kontext erforderlich, wie das Beispiel BVB-Transfer zeigt. Ob ein BVB transferiert wird oder ein BVB etwas transferiert, erschließt sich, wenn man weiß oder erf¨ ahrt, dass der BVB ein Fußballverein ist, der seine Mannschaft durch Transfers von Spielern ver¨ andert. 162 8 Korpuslinguistik in der Praxis • Große Korpora enthalten viele Belege f¨ ur die meisten Wortbildungsmuster und durchweg mehr Beispiele, als ein W¨ orterbuch verzeichnen kann. Gerade die nicht in W¨ orterb¨ uchern verzeichneten, kontextuell gesteuerten Gelegenheitsbildungen sind ein guter Pr¨ ufstein f¨ ur theoretische Annahmen zu Regeln, Regularit¨ aten und Beschr¨ ankungen in der Wortbildung. • Viele Wortbildungsprodukte werden erst verst¨ andlich und interpretierbar, wenn man den Kotext sieht, in dem das Wort verwendet wird. Besonders Komposita bed¨ urfen oft der St¨ utzung durch den Kotext 16 . 8.3.2 Qualitative Untersuchungen In den letzten Jahren ist eine Reihe von korpusbasierten Fallstudien zu einzelnen Wortbausteinen erschienen. Hierzu geh¨ oren Arbeiten von Angelika Feine sowie von Anke L¨ udeling und Stefan Evert zur nicht-medizinischen Verwendung von -itis-Kombinationen 17 , eine Arbeit von Nikolaus Ruge zum Suffixoid -technisch 18 , eine Studie zur Valenz der be-pr¨ afigierten Verben von Piklu Gupta 19 sowie ein Aufsatz von Annette Klosa zu Verben mit dem Pr¨ afix gegen- 20 . Wir wollen in diesem Abschnitt exemplarisch die Arbeit von Susanne Riehemann zur Beschreibung der Adjektive mit dem Suffix -bar vorstellen 21 . Riehemann versucht anhand von intensiven Korpusrecherchen die Wortbildungsregeln und -beschr¨ ankungen im Zusammenhang mit der Verwendung des Suffixes -bar zu erfassen und in der Lexikonkomponente des Grammatikformalismus Head-Driven Phrase Structure Grammar (HPSG) zu beschreiben (2-3). Ihre Arbeit ist damit sowohl f¨ ur die theoretische Linguistik als auch f¨ ur die Computerlinguistik von Interesse. Riehemann st¨ utzt ihre Untersuchungen auf neun Korpora, ein großes und acht kleinere, mit insgesamt knapp 18 Millionen laufenden W¨ ortern (Token). Die Frequenzangaben zu den -bar-Adjektiven bezieht die Autorin ausdr¨ ucklich nur auf das mit 10,7 Millionen Token gr¨ oßte Korpus, das Zeitungskorpus des Instituts f¨ ur deutsche Sprache in Mannheim. Die kleineren Korpora bezeichnet sie als zu wenig repr¨ asentativ, um quantitative Aussagen darauf zu st¨ utzen (5). Im einzelnen untersucht sie die folgenden Aspekte: • Die Klassen von -bar-Ableitungen, vor allem hinsichtlich der zugrunde liegenden Verben. Riehemann ber¨ ucksichtigt die Frequenzverteilung dieser Adjektive, die das typische Profil aller produktiven sprachlichen Prozesse aufweist: Es gibt wenige hochfrequente W¨ orter, die weit ¨ uber die H¨ alfte aller vorkommenden W¨ orter ausmachen, und sehr viele selten vorkommende W¨ orter (9-12); 16 Auf den Zusammenhang hat Corinna Peschel in ihrer Monographie zum Verh¨ altnis von Wortbildung und Textkonstitution hingewiesen, vgl. Peschel (2002). 17 Handyritis, Aufschieberitis etc., vgl. Feine (2003) und L¨ udeling und Evert (2004). Auf die Arbeiten von L¨ udeling und Evert werden wir im n¨ achsten Abschnitt genauer eingehen. 18 Vgl. Ruge (2004), interessant sind hier weniger die transparenten Bildungen wie verfahrenstechnisch, sondern vielmehr neudeutsche Bildungen wie gef¨ uhlstechnisch. 19 Vgl. Gupta (2000). 20 Vgl. Klosa (2003), die Untersuchungen basieren auf den Korpora des Instituts f¨ ur deutsche Sprache und auf dem DWDS-Korpus. 21 Vgl. Riehemann (1993). Die Seitenzahlen in Klammern verweisen auf diesen Text. 8.3 Wortbildung 163 • die Form und Funktion der Wortbildungsprodukte, also der so entstandenen Adjektive, wobei sie vor allem deren syntaktische (m¨ ogliche Komplemente der Adjektive) und semantische Eigenschaften betrachtet (5-9); • in einem weiteren Abschnitt diskutiert Riehemann syntaktische, semantische und pragmatische Beschr¨ ankungen des Wortbildungsprozesses, die erkl¨ aren, warum einige Bildungen ungrammatisch sind, wohingegen andere, ebenfalls vom prototypischen Muster - mit einem transitiven Verb als Basis - abweichende W¨ orter durchaus bildbar sind (z.B. abbaubar mit einem intransitiven Verb als Basis und verformbar mit einem reflexiven Verb als Basis.) (12-16); • Riehemann zieht auch die Argumente der zugrunde liegenden Verben in Betracht, die von dem abgeleiteten Adjektiv ”ererbt“ werden (Ein Auto nach Deutschland importieren → Ein nach Deutschland importierbares Auto). Vor allem bei der Bestimmung von Beschr¨ ankungen hinsichtlich der Vererbung von Argumenten erweist sich der Blick in das Korpus als sehr hilfreich (17-19); • schließlich beschreibt Riehemann Unterschiede im attributiven und pr¨ adikativen Gebrauch dieser Adjektive. Im zweiten, dem Hauptteil der Arbeit entwickelt Riehemann eine formale Beschreibung der lexikalischen Eigenschaften dieser Adjektivgruppe im Rahmen eines HPSG- Lexikons, die all den im ersten Teil der Arbeit beschriebenen Generalisierungen gerecht wird. Die Arbeit endet mit zwei Anh¨ angen, in denen zum einen alle im Korpus vorgefundenen -bar-Adjektive, zum anderen die h¨ aufigsten 300 Adjektive in der Reihenfolge ihrer H¨ aufigkeit aufgelistet sind (70-78). Riehemanns Arbeit ist ein wichtiger Beitrag zu einer formalen Beschreibung von Wortbildungsprozessen am Beispiel des vermutlich produktivsten Suffixes der deutschen Sprache. 8.3.3 Qualitativ-quantitative Untersuchungen In j¨ ungster Zeit ist in verst¨ arktem Maße die Produktivit¨ at von Wortbildungselementen, wie z.B. dem Suffix -bar, untersucht worden. Die Produktivit¨ at in der Wortbildung hat einen qualitativen und einen quantitativen Aspekt. Beide erfordern unterschiedliche Analysemethoden. • Der qualitative Aspekt h¨ angt zusammen mit der Menge der Elemente, mit denen ein bestimmtes Morphem kombiniert werden kann. So ist z.B. der Anwendungsbereich des Suffixes -bar auf verbale Basen beschr¨ ankt, und hier fast ausschließlich auf die transitiven Verben. Das Suffix -sam hingegen tritt zusammen mit verbalen Basen (arbeit-sam) und mit adjektivischen Basen (selt-sam) auf. Der Anwendungsbereich von -bar und damit die Menge der hiermit bildbaren W¨ orter ist also beschr¨ ankter als der Anwendungsbereich von -sam; • der quantitative Aspekt der Wortbildung kann informell beschrieben werden als die Wahrscheinlichkeit, mit der man einem mit einem bestimmten Morphem gebildeten neuen Wort begegnet, nachdem man bereits eine bestimmte Anzahl von W¨ ortern beobachtet hat. In einer anderen Sichtweise wird der Produktivit¨ atsindex bestimmt von der relativen Anzahl der W¨ orter, die bisher nur einmal in den beobachteten 164 8 Korpuslinguistik in der Praxis Daten auftauchten 22 . In dieser Interpretation wird man nach Analyse eines Korpus der deutschen Gegenwartssprache feststellen, dass das Suffix -bar relativ produktiv ist, die Produktivit¨ at des Suffixes -sam hingegen gegen null tendiert. Mit anderen Worten, die W¨ orter mit dem Suffix -sam sind vollst¨ andig aufz¨ ahlbar. Wie man an den obigen Beispielen sieht, sind der qualitative und der quantitative Aspekt der Produktivit¨ at von Wortbildungselementen unabh¨ angig voneinander. Die qualitative Analyse kann anhand einer Belegsammlung durchgef¨ uhrt werden. F¨ ur die quantitative Analyse ist die Analyse eines kompletten, m¨ oglichst großen Korpus allerdings zwingend notwendig. Dies hat zwei Gr¨ unde: • Erstens kann man im Hinblick auf Vorkommensh¨ aufigkeiten von W¨ ortern oder Wortbildungsmustern weder die eigene Intuition noch die Intuition anderer Muttersprachler zu Rate ziehen. Hinsichtlich quantitativer Verh¨ altnisse ist unser Sprachgef¨ uhl zu unzuverl¨ assig; • zweitens muss man f¨ ur die hier zur Diskussion stehende Analyse eine große Menge von Texten sukzessive nach der Anzahl und H¨ aufigkeit der Vorkommen eines bestimmten Musters durchforsten. Anke L¨ udeling und Stefan Evert 23 untersuchen den quantitativen Aspekt der Produktivit¨ at des Suffixes -lich. Sie verwenden hierf¨ ur ein Zeitungskorpus von ca. 3 Millionen laufenden W¨ ortern. Die Analyse der Klasse aller mit -lich gebildeten W¨ orter ergibt ein ziemlich unscharfes Bild. Die Analyse wird aber pr¨ aziser, nachdem die Autoren vier verschiedene Klassen gebildet haben: a) -lich mit adjektivischer Basis (z.B. gr¨ un-lich), b) -lich mit verbaler Basis (z.B. vergess-lich), c) -lich mit nominaler Basis (z.B. ¨ arzt-lich) und d) -lich mit phrasaler Basis (z.B. vorweihnacht-lich). Die Kombination des Suffixes mit nominaler Basis ist sehr produktiv, die Kombination mit verbaler Basis hingegen unproduktiv. F¨ ur die beiden anderen Bildungsmuster ist die Datenmenge zu gering f¨ ur eine ausreichend genaue Bewertung. Die Autoren zeigen weiterhin, dass es auch unter den Nomen herausragend produktive St¨ amme gibt (z.B. X-geschicht-lich), was eine weitere Klassifizierung der Nomen nahe legt. Wie man an diesem Beispiel sieht, kann die qualitative Analyse von der quantitativen Analyse profitieren. Letztere fungiert sozusagen als Lackmustest f¨ ur die G¨ ute einer qualitativ begr¨ undeten Klassifizierung. Anke L¨ udeling, Stefan Evert und Ulrich Heid 24 zeigen aber auch, dass der automatischen Analyse von Korpora im Hinblick auf Anzahl und H¨ aufigkeit von Wortbildungsmustern Grenzen gesetzt sind. Dies h¨ angt mit der Fehleranf¨ alligkeit der Analysem¨ oglichkeiten zusammen, die eine manuelle Durchsicht der Daten beim heutigen Stand der Technik erforderlich machen. Probleme bereiten: • Tippfehler in den Texten; • W¨ orter, die zuf¨ allig mit der gleichen Zeichenkette wie das Suffix enden (z.B. Balsam, Sesam); 22 Eine formale Beschreibung dieses als Vocabulary Growth Curve bezeichneten Ph¨ anomens gibt Baayen (2001). Siehe hierzu auch Baayen (2008). 23 Vgl. L¨ udeling und Evert (2003). 24 Vgl. L¨ udeling et al. (2000) und Evert und L¨ udeling (2001). 8.4 Syntax 165 • W¨ orter, die scheinbar eine Derivation sind, im Grunde aber eine Komposition mit einem fr¨ uher derivierten Wort (z.B. Kadavergehorsam → Kadaver+Gehorsam, nicht jedoch → Kadavergehor-sam). Beide F¨ alle sind mit den heutigen Mitteln morphologischer Analyse nicht zu unterscheiden. So wurde z.B. unverzichtbar gebildet durch Pr¨ afigierung von verzichtbar; befahrbar wurde gebildet durch Suffigierung von befahren. Nur das letzte Wort ist relevant f¨ ur die Wortbildung mit -bar 25 . L¨ udeling und Evert zeigen das Potenzial, aber auch die Grenzen einer korpusgest¨ utzten Produktivit¨ atsanalyse beim heutigen Stand der Technik 26 . Die Relevanz solcher Untersuchungen liegt in den folgenden Anwendungsgebieten: • In der Lexikographie kann man sich bei unproduktiven Wortbildungselementen auf die Auflistung der wichtigsten lexikalischen Einheiten beschr¨ anken. F¨ ur produktive Wortbildungselemente ist der Ansatz eines eigenen Artikels zu erw¨ agen, in dem die Verwendungsregularit¨ aten erkl¨ art werden sollten; • im Fremdsprachunterricht spielt die Vermittlung der morphologischen und semantischen Regularit¨ aten produktiver Wortbildungselemente eine wichtige Rolle. Es ist wahrscheinlich, dass Lerner W¨ ortern dieses Bildungstyps begegnen werden, die nicht im W¨ orterbuch stehen 27 . 8.4 Syntax In der Syntaxforschung kommen Korpora in verschiedener Hinsicht zum Einsatz. Sie werden als Quelle f¨ ur authentische Beispiel herangezogen, die oftmals als Gegenbeispiele f¨ ur einen in der Literatur vertretenen Standpunkt dienen sollen. Korpora bilden die Datengrundlage f¨ ur die Erhebung von Frequenzangaben. Hierbei handelt es sich oft um den Vergleich von alternativen syntaktischen Realisierungsm¨ oglichkeiten und das Korpus dient dazu, Kontextfaktoren einschließlich textexterner Metadaten zu identifizieren, die einen Einfluss auf die Variantenwahl haben. Diese Herangehensweise geht teilweise damit einher, dass nicht das Korpus selbst ausgewertet wird, sondern dass das Korpus nur als Samplinggrundlage f¨ ur die eigentliche Datenbasis der Untersuchung herangezogen wird, die dann aus dem Korpus extrahiert und bei Bedarf weiter aufbereitet wird. In welcher Form ein Korpus f¨ ur syntaktische Forschungsfragen genutzt werden kann, h¨ angt stark davon ab, welche Arten von Annotationen und Abfragewerkzeuge zur 25 Die Beispiele entstammen Evert und L¨ udeling (2001). 26 Die Notwendigkeit manueller Intervention ist einer der Gr¨ unde, warum die Autoren f¨ ur ihre -lich-Studie ein relativ kleines Korpus gew¨ ahlt haben. 27 Korpusbasierte morphologische Analysen spielen auch in der Computerlinguistik und hier besonders in der Computerlexikographie eine Rolle. Korpusanalysen dienen hier dazu, das Regelhafte und das Idiosynkratische zu trennen: Alles, was nicht in Regeln gefasst werden kann, muss in Lexika beschrieben werden. Eine wichtige Rolle spielen hier die Arbeiten im Umfeld des morphologischen Lexikons IMSLex, vgl. Fitschen (2004). Wir k¨ onnen auf diesen Aspekt an dieser Stelle nicht n¨ aher eingehen und verweisen auf die computerlinguistische Fachliteratur. 166 8 Korpuslinguistik in der Praxis Verf¨ ugung stehen. Wir haben bereits in Kapitel 4 gezeigt, dass es einen Unterschied ausmacht, ob man nur ¨ uber Wortformen filtern kann oder ob auch Wortartenannotationen oder sogar weiterf¨ uhrende syntaktische Annotationen herangezogen werden k¨ onnen. In jedem Fall es sehr hilfreich, wenn man ein Suchwerkzeug mit regul¨ aren Ausdr¨ ucken verwenden kann 28 . Detmar Meurers und Stefan M¨ uller 29 diskutieren eine Reihe von Fallbeispielen, in denen sie Korpusanfragen zu syntaktischen Ph¨ anomenen durchspielen. Sie erl¨ autern anschaulich, wie man die linguistische Fragestellung in Konzepte der Korpusannotation ¨ ubersetzen kann. Siehe hierzu auch Abschnitt 5.1.2 im vierten Kapitel und Abschnitt 6.2.1 in Kapitel 5. Mangels verf¨ ugbarer Ressourcen haben Syntaktiker bisher oftmals nur mit wortbasierter Suche recherchiert z.B. Pittner (1999) oder Ehrich (2001) auf den IDS-Korpora. Das wird sich in Zukunft wahrscheinlich ¨ andern, nachdem inzwischen die IDS-Korpora in weiten Teilen mit morpho-syntaktischen Annotationen angereichert sind, ebenso die DWDS-Korpora. Außerdem stehen inzwischen ja auch vollst¨ andig syntaktisch annotierte Baumbanken wie T¨ uBa-D/ Z und TIGER zur allgemeinen Verf¨ ugung. Im Folgenden stellen wir zu den verschiedenen Nutzungsformen von Korpora in der syntaktischen Forschung stellvertretend ein paar Arbeiten vor. Ein Beispiel f¨ ur die Suche nach (Gegen-)Beispielen, sind die Arbeiten von Stefan M¨ uller zur mehrfachen Vorfeldbesetzung. Er verwendet f¨ ur seine Recherchen die IDS-Korpora ¨ uber die Online- Anfrage COSMAS, das Material, das auf den DigiBib-CDs 30 zur Verf¨ ugung steht, und die Tageszeitung taz (pers¨ onliche Auskunft). Das Ergebnis seiner Recherche sind Beispiele wie 31 : (1) ¨ Ol ins Feuer goß gestern das Rote-Khmer-Radio: ... Hier stehen zwei unabh¨ angige Konstituenten im Vorfeld vor dem finiten Verb: ¨ Ol und ins Feuer vor goß. Die Belegsammlung dokumentiert die Nat¨ urlichkeit des Ph¨ anomens. M¨ uller argumentiert, die H¨ aufigkeit des Auftretens zeige, dass man die Daten, deren Existenz in der theoretischen Literatur wegen der Ungrammatikalit¨ at von Beispielen wie (2) teilweise bestritten wurde, nicht einfach ignorieren kann. (2) * Maria Max gab ein Buch. M¨ uller selbst schl¨ agt eine Analyse im Rahmen der Head-Driven Phrase Structure Grammar (HPSG) vor 32 . Die Datenbasis macht die Vielfalt des Ph¨ anomens deutlich und erlaubt es, Muster in den Daten festzustellen 33 . Die empirischen Daten helfen, Kontexteigenschaften zu identifizieren, die eine weitere Analyse unterst¨ utzen k¨ onnen. In einer methodisch ¨ ahnlichen Arbeit untersucht Gabriele Kniffka die Syntax und Pragmatik von NP-Aufsplittung im Deutschen (im Rahmen der sogenannten DP-Hypo- 28 Siehe den Exkurs zu den Regul¨ aren Ausdr¨ ucken in Kapitel 4 auf S. 92. 29 Vgl. Meurers (2005), Meurers und M¨ uller (2008). 30 Vgl. DigiBib: https: / / www.hbz-nrw.de/ angebote/ digilink/ . 31 Quelle: taz, 18.06.1997 - in alter Rechtschreibung. 32 Konkret nimmt er an, dass die Konstituenten im Vorfeld durch ein abstraktes Verb lizenziert sind, vgl. M¨ uller (2005). 33 Siehe M¨ uller (2003) und seine Belegsammlung auf http: / / hpsg.fu-berlin.de/ Software / TS/ . 8.4 Syntax 167 these der Generativen Grammatik) 34 . Die Belege geschriebener Sprache stammen bei ihr aus verschiedenen Druckerzeugnissen, zus¨ atzlich wertet sie aber auch ein kleines Korpus der gesprochenen Sprache aus. Angelika Storrer 35 untersucht die Distribution von Nominalverbgef¨ ugen (NVG) wie Unterricht erteilen. Ein relativ allgemeines Verb (erteilen) tritt zusammen mit einer Nominalisierung als Objekt (Unterricht) in fester Wendung auf 36 . Storrer vergleicht die Verteilung der NVGs mit denen des jeweiligen Basisverbs (hier unterrichten). Motivation f¨ ur diese Arbeit ist die immer wieder zu lesende Behauptung, dass die NVG nur eine phrasale Umschreibung des Basisverbes sei - und zudem ein schlechter Sprachstil. Anders als die bisher genannten Arbeiten wertet Storrer ein spezifisches Korpus aus, das DWDS-Kernkorpus. Sie analysiert die Belege zun¨ achst qualitativ und untersucht dabei vergleichend das semantische und kombinatorische Potenzial von NVG und Basisverb, z.B. m¨ ogliche Selektionsrestriktionen oder Modifikationsm¨ oglichkeiten am Basisverb und an der Nominalisierung. Letztere bietet eine Reihe von Optionen, die beim Basisverb nicht gegeben sind, wie die Modifikation durch bestimmte Adjektive, durch Relativsatz oder Spezifikator sowie bestimmte Koordinationsm¨ oglichkeiten. Belege wie (3) im Kontrast mit dem konstruierten (4) k¨ onnen als Gegenbeispiel zur ”Umschreibungsthese“ gewertet werden. (3) ... dem Krieg eine Absage erteilen. (4) ? ... dem Krieg absagen. Eine zus¨ atzliche quantitative Auswertung zur wechselseitigen Paraphrasierbarkeit ergibt, dass die Basisverben mehrdeutig (polysem), die entsprechenden NVGs hingegen spezifischer sind und meist nur eine der Bedeutungen des Basisverbs tragen. Die NVG erlaubt es demnach Ambiguit¨ aten zu vermeiden. Zum Beispiel ist unterrichten ambig zwischen den Lesarten mitteilen und lehren, w¨ ahrend Unterricht erteilen nur die eine Bedeutung hat. Das Fazit der Studie ist, dass Nominalverbgef¨ uge keine ”semantischen Dubletten“ des Basisverbs sind - die oben erw¨ ahnte Stilfrage stellt sich damit nicht. Storrers Arbeit leitet direkt zum zweiten Verwendungstyp ¨ uber, dem der Frequenzanalyse. Die im Folgenden dargestellten Arbeiten erheben Frequenzdaten auf einem syntaktisch annotierten Korpus. Sie sind beide an der Distribution von Relativs¨ atzen interessiert und verbinden die Untersuchung der Korpusfrequenz mit psycholinguistischen Experimenten. In der ersten Arbeit untersuchen Uszkoreit et al. 37 , welche Faktoren einen Einfluss darauf haben, ob ein Relativsatz adjazent, d.h. direkt benachbart, zu seinem Bezugsnomen steht (5) oder extraponiert im Nachfeld auftritt (6). (5) Er hat [das Buch, [das er gestern erst gekauft hat],] heute gelesen. (6) Er hat [das Buch] heute gelesen, [das er gestern erst gekauft hat]. 34 Vgl. Kniffka (1996). 35 Vgl. Storrer (2006a). 36 Die Klasse der Nominalverbgef¨ uge ist in sich nicht homogen. Storrer (2006b) differenziert hier weiter und stellt einen korpusbasierten Vergleich von zwei Subklassen vor. 37 Vgl. Uszkoreit et al. (1998). 168 8 Korpuslinguistik in der Praxis Die Studie basiert auf einer Vorstufe des NEGRA-Korpus mit 12 000 vollst¨ andig syntaktisch annotierten S¨ atzen, welches sich aber als zu klein erwies, so dass die Autoren auf ein weiteres Korpus zur¨ uckgreifen. Die Untersuchung konnte so auf einer Textbasis von 1 Millionen W¨ ortern durchgef¨ uhrt werden 38 . Das Ergebnis der quantitativen Studie legt eine performanzorientierte Erkl¨ arung der Distribution nahe. Bestimmend sind die Faktoren Distanz (zwischen Bezugsnomen und potenzieller extraponierter Position) und L¨ ange (Gewicht des Relativsatzes in Wortanzahl). Eine ¨ ahnliche Auswertung, diesmal auf dem kompletten NEGRA-Korpus, wird von Schade et al. 39 durchgef¨ uhrt. Sie suchen nach geschachtelten Relativs¨ atzen in der geschriebenen Sprache und finden Beispiele wie (Klammerung wurde hinzugef¨ ugt): (7) Er hat jene Heiterkeit, [die ein Tierlehrer, [der an sich auf Pferdedressuren geeicht ist], braucht], um auch ein so spaßiges Spektakel wie den ”Schweizer Bergbauernhof“ durchzustehen. Um einen Eindruck von der spontanen Produktion zu bekommen, werten sie auch die Verbmobil-Baumbank zur gesprochenen Sprache aus 40 . Dort finden sie keine geschachtelten Relativs¨ atze, sondern nebengeordnete Strukturen wie (Klammerung wiederum hinzugef¨ ugt): (8) Ja, also erstmal zum Hotel: Da haben wir noch drei verschiedene Hotels, [die wir Ihnen anbieten k¨ onnen], [die noch Zimmer frei haben]. Die beiden Korpusstudien verwenden Schade et al. als Ausgangsbasis f¨ ur ihre weiterf¨ uhrenden psycholinguistischen Experimente zur Relativsatzperzeption. Ebenfalls eine Triangulation von Methoden setzt Amir Zeldes 41 in seiner Untersuchung des deadjektivischen, pr¨ apostional verwendeten voller in Konstruktionen wie eine Wanne voller Wasser ein. Bei diesem besonderen Wort handelt sich um einen syntaktischen Einzelg¨ anger, d.h. ein Wort das sich nicht ohne weiteres in die klassischen Wortarten eingliedern l¨ asst. An den Konstruktionen mit voller ist auffallend, dass es selbst f¨ ur Muttersprachler sehr schwierig ist, den Kasus des artikellosen Objekts von voller eindeutig zu bestimmen. Wenn ein Adjektiv eingef¨ ugt wird wie in Beispiel (9) sind die Intuitionen besser, aber auch hier streiten sich die Geister 42 . (9) eine Wanne voller warmem DAT Wasser Zeldes wertet das wortartengetaggte deWaC Web-Korpus 43 aus und extrahiert etwa 21 000 Kandidaten f¨ ur voller-Konstruktionen. Die Kandidatenliste filtert er weiter und 38 Das zweite Korpus ist nur POS-annotiert und erfordert, wie die Autoren bemerken, viel zeitaufw¨ andige Handarbeit in der Auswertung. 39 Vgl. Schade et al. (2003). 40 Die Verbmobil-Baumbank ist 2005 als T¨ uBa-D/ S ver¨ offentlicht worden. 41 Vgl. Zeldes (erscheint). 42 Wenn Sie die Konstruktion googlen, finden Sie auch Belege f¨ ur voller warmen Wasser oder voller warmen Wassers. Es sei jedem Leser selbst ¨ uberlassen, eigene Akzeptabilit¨ atsurteile zu f¨ allen. 43 deWaC umfasst 1,63 Millarden Token, vgl. Baroni et al. (2009). 8.4 Syntax 169 taggt sie mit dem RFTagger 44 , der anders als der im deWaC eingesetzte TreeTagger zus¨ atzlich zu den Wortarten auch morphologische Informationen wie Kasus, Numerus und Genus annotiert. Der quantitativen Studie liegt schlussendlich ein Datenset von etwa 20 500 morphologisch getaggten voller-Belegen zugrunde, deren Objektphrase in mehr als 87% der F¨ alle aus einem nicht weiter modifizierten Nomen besteht. Zus¨ atzlich zu den Webdaten untersucht Zeldes ein kleines Korpus mit geschriebenen Spracherwerbsdaten von Schulkindern 45 . Diese Ergebnisse sind wegen der kleinen Datengrundlage nur mehr anekdotisch, zeigen aber, dass die Kasuszuweisung in der voller-Konstruktion f¨ ur Schulkinder in der vierten Klasse ein Problem darstellt. Auf die introspektiven Daten, die Zeldes im Zusammenhang mit den quantitativen Ergebnissen diskutiert, wollen wir hier nicht weiter eingehen, sondern seine Interpretation der Daten zusammenfassen: Voller ist eine Art Pr¨ aposition, weist aber zwei Besonderheiten in Bezug auf die Nominalphrase, die es regiert, auf: Die Nominalphrase darf keinen Artikel enthalten und man beobachtet eine Art differenzielle Objektmarkierung 46 , die sonst im Deutschen nicht attestiert ist: voller weist unterschiedlichen Kasus mit unterschiedlichen Frequenzen in Abh¨ angigkeit von Eigenschaften der Objektphrase selbst zu. Eine große Rolle spielt dabei der Numerus (Dativ Singular vs. Genitiv Plural), teilweise ist auch die morphologische Klasse relevant und der Umstand, ob das Kopfnomen von einem Adjektiv modifiziert wird oder nicht. Abschließend formalisiert Zeldes seine Analyse im Rahmen der Sign-Based Construction Grammar 47 . Eine semantisch motivierte Konstruktion steht im Mittelpunkt von einer Untersuchung von Timm Lichte, die wir Ihnen hier ebenfalls vorstellen wollen 48 . Lichte arbeitet mit einem rekursiv gechunkten Korpus, der T¨ uPP-D/ Z. Er verwendet 2,7 Millionen S¨ atze des Gesamtkorpus, um automatisch sogenannte Negative Polarit¨ atselemente (NPI) 49 zu identifizieren. NPIs sind Ausdr¨ ucke, die nur im Umfeld von bestimmten negativen Ausdr¨ ucken und Fragekontexten lizenziert sind wie ganz geheuer in dem Satz Das ist mir nicht ganz geheuer. Lichte legt die Annahme zu Grunde, dass sich NPIs und ihre Lizenzierer wie Kollokationen verhalten. Außer der Menge der Lizenzierer gelten alle anderen Lemmata des Korpus als potentielle NPIs 50 . Sein System erstellt eine Rangliste der Lemmata, die manuell ¨ uberpr¨ uft werden muss. Unter den obersten 20 Kandidaten findet man sch¨ one Beispiele wie verdenken, unversucht, umhin oder lumpen. Lichte zeigt auch auf, wie seine Methode auf Mehrwort-NPIs erweitert werden kann. In einem Experiment dazu erh¨ alt er Kandidaten wie unversucht lassen, ganz geheuer, umhin zu kommen oder lumpen lassen. 44 RFTagger: vgl. Schmid und Laws (2008). 45 Das KESS-Korpus, Kompetenzen und Einstellungen von Sch¨ ulerinnen und Sch¨ ulern, wurde vom Landesinstitut f¨ ur Lehrerbildung und Schulentwicklung in Hamburg erhoben. 46 Vgl. Bossong, Georg (1985). 47 Vgl. Boas und Sag (2012). 48 Vgl. Lichte (2005). 49 Auf Englisch ’Negative Polarity Item‘ , daher die Abk¨ urzung NPI. 50 Lichte beschr¨ ankt die Untersuchung auf Lemmata, die h¨ aufiger als 40 mal im Korpus vorkommen. Er erh¨ alt damit eine Ausgangsmenge von fast 35 000 Lemmata. 170 8 Korpuslinguistik in der Praxis 8.5 Lexikologie und Lexikographie Der Nutzen von Korpora f¨ ur die Lexikographie ist vielf¨ altig, was an anderer Stelle ausf¨ uhrlich beschrieben wird 51 . Wir wollen uns hier auf eine Zusammenfassung aus der Sicht des lexikographischen Prozesses und auf einige Felder beschr¨ anken, die auch f¨ ur das Deutsche gut bearbeitet wurden. Aus der Sicht des lexikographischen Prozesses 52 werden Korpora in den folgenden Phasen konsultiert: • Bei der W¨ orterbuchplanung, besonders bei der Finanzplanung, spielen die Existenz und die Verf¨ ugbarkeit von Korpora f¨ ur den durch das W¨ orterbuch zu beschreibenden Gegenstand eine Rolle. Wichtig sind auch die Werkzeuge, die die f¨ ur die Lexikographen relevanten Informationen aus den Korpora extrahieren und pr¨ asentieren. Hier ist m¨ oglicherweise Entwicklungs- und Anpassungsarbeit notwendig. • Korpora k¨ onnen wichtige Hinweise f¨ ur die Lemmaauswahl geben. So kann die H¨ aufigkeit, mit der eine lexikalische Einheit in einem Korpus vorkommt, dar¨ uber entscheiden, ob sie in die Lemmaliste eines W¨ orterbuchs aufgenommen wird oder nicht 53 . • Den Hauptteil lexikographischer Arbeit bildet das Erstellen der W¨ orterbuchartikel zu den Lemmata. Bei einem allgemeinsprachlichen Standardw¨ orterbuch m¨ ussen die lexikalischen Zeichen auf allen linguistischen Ebenen beschrieben werden. Hierf¨ ur bilden Korpora eine Informationsquelle 54 . Betrachten wir ein Beispiel. Es muss beschrieben werden, ob bestimmte Verben, die mentale Zust¨ ande ausdr¨ ucken - wissen, glauben, meinen etc. - mit dass-S¨ atzen und ob-S¨ atzen als Erg¨ anzung verwendet werden k¨ onnen; wenn dies der Fall ist - welches, wenn beide Erg¨ anzungen m¨ oglich sind, die h¨ aufigere Variante ist oder ob eine der beiden Varianten sehr selten ist, und weiter - ob die Verwendung der Erg¨ anzungen auf bestimmte Kontexte beschr¨ ankt ist, z.B. negative Kontexte oder bestimmte Zeitformen des Verbs: (10) *Ich weiß, ob das geht. (11) Ich weiß nicht, ob das geht. (12) *Er wusste, ob das geht. (13) Er wird schon wissen, ob das geht 55 . 51 Vgl. Engelberg und Lemnitzer (2009), Wiegand (1998) und die dort erw¨ ahnte Literatur sowie, f¨ ur das Englische, Ooi (1998). 52 Vgl. hierzu vor allem Kapitel 6 in Engelberg und Lemnitzer (2009). 53 Ausf¨ uhrlich hierzu Geyken und Lemnitzer (2012). 54 Lemnitzer und Geyken (Lemnitzer und Geyken (2014) zeigen die M¨ oglichkeiten aber auch Grenzen der Extraktion von lexikographischen Angaben aller Art aus Textkorpora. 55 Wir empfehlen Ihnen, in einem W¨ orterbuch ihrer Wahl nachzuschlagen und zu pr¨ ufen, ob Sie auf die Fragen, die wir hier gestellt haben, eine Antwort finden. Wenn Sie Muttersprachler sind, versetzen Sie sich in die Situation eines Nichtmuttersprachlers, der diese Verben korrekt verwenden m¨ ochte. Oder machen Sie den Test mit einem W¨ orterbuch einer anderen Sprache. 8.5 Lexikologie und Lexikographie 171 Diese subtilen Unterscheidungen k¨ onnen am besten durch die gr¨ undliche Analyse eines Textkorpus ermittelt werden. • Korpora stellen eine wichtige Quelle von Verwendungsbeispielen dar. Lexikographen k¨ onnen auf Grund ihrer Sprachkompetenz zwar Beispiele erfinden, es hat sich aber erwiesen, dass diese bei weitem nicht an die Qualit¨ at von Korpusbelegen heranreichen 56 . • Die H¨ aufigkeit ihrer Verwendung kann ein wichtiges Kriterium f¨ ur die Anordnung von Lesarten in einem Artikel f¨ ur ein sprachliches Zeichen sein. Vor allem in Lernerw¨ orterb¨ uchern sollte das H¨ aufige vor dem Seltenen erscheinen oder das Seltene sogar unerw¨ ahnt bleiben, je nach Umfang des W¨ orterbuchs. • Ein wichtiger Aspekt der Verwendung lexikalischer Zeichen ist ihre Verwendung in typischen Kotexten. Manche lexikalischen Zeichen tauchen in nur einem oder sehr wenigen Kotexten auf (z.B. Hehl, fackeln), viele lexikalische Zeichen treten typischerweise mit einer kleinen Anzahl anderer lexikalischer Zeichen auf und bilden mit diesen Kollokationen oder idiomatische Wendungen (typische Begleiter von hart sind z.B.: Bandagen, Droge, Leben, W¨ ahrung). Statistische Verfahren, auf großen Korpora angewendet, geben Auskunft ¨ uber diese typischen Paarungen. Auch hier sind Korpora der sprachlichen Intuition - selbst der von den erfahrensten Lexikographen - ¨ uberlegen. • In den Produktionsphasen nach der Erstellung der W¨ orterbuchartikel - Korrektur und Drucklegung - spielen Korpora naturgem¨ aß eine geringe Rolle. Einzelne Entscheidungen in der Korrekturphase k¨ onnen bei Bedarf an Korpora ¨ uberpr¨ uft werden. In der Phase der Materialsammlung zwischen zwei Auflagen eines W¨ orterbuchs kommt Texten, die nach der Drucklegung der letzten Auflage erschienen sind, wieder eine gr¨ oßere Bedeutung zu. Die Werkzeuge, die Lexikographen typischerweise f¨ ur diese Arbeit verwenden, sind Programme f¨ ur die quantitative Analyse von Korpora, um z.B. die Verwendungsh¨ aufigkeit bestimmter lexikalischer Zeichen - insgesamt oder in bestimmten Lesarten - oder typische Kombinationen sprachlicher Zeichen zu ermitteln. Des Weiteren werden Programme verwendet, die f¨ ur ein bestimmtes lexikalisches Zeichen alle Vorkommenskontexte in einer vom Lexikographen festlegbaren Anordnung pr¨ asentieren 57 . Die Kombination dieser Werkzeuge hilft, aus dem Meer der Texte durch Auswahl und Filterung der Daten den Lexikographen die Informationen zu liefern, die sie f¨ ur ihr Handwerk der lexikalischen Beschreibung ben¨ otigen 58 . Wir werden uns im Folgenden auf drei Felder konzentrieren, auf denen die germanistische Korpuslinguistik bereits einige Erfolge erzielen, d.h. interessante und relevante Ergebnisse zu Tage f¨ ordern konnte. Dies sind die Lexikonbereiche der Neologismen und Anglizismen sowie die Kombination einzelner lexikalischer Zeichen in Kollokationen 56 Luise Pusch hat eine lesenswerte Satire geschrieben, f¨ ur die sie reichlich Beispiele der von den Duden-Redakteuren produzierten Belegprosa verwendet, vgl. Pusch (1984). 57 Diese Werkzeuge pr¨ asentieren ’Keywords in Context‘ , und werden deshalb KWIC-Tools genannt, die Daten, die sie erzeugen, Konkordanzen. 58 Ein Desiderat sind allerdings immer noch Werkzeuge, die automatisch die Belege ausw¨ ahlen, in denen ein Schl¨ usselwort in einer bestimmten Lesart verwendet wird. Dies ist ein Forschungsgegenstand der Computerlinguistik. 172 8 Korpuslinguistik in der Praxis und festen Wendungen. Als Spezialfall von Kollokationen werden wir im Anschluss auf Kombinationen von Modalpartikeln eingehen. 8.5.1 Neologismen Im weitesten Sinne sind Neologismen sprachliche Zeichen, also W¨ orter, Bedeutungen und Wendungen, die zu einem bestimmten Zeitpunkt von den Sprechern, die sie verwenden, als neu empfunden werden. Neologismen k¨ onnen von ihrer Form her unterteilt werden in Neulexeme und Neubedeutungen. Das Wort Podcast ist vor nicht allzu langer Zeit als ein Neulexem in den deutschen Sprachgebrauch aufgenommen worden, da es diese Wortform im Deutschen Lexikon bisher nicht gab 59 . Das Wort Maus hingegen erhielt in den fr¨ uhen siebziger Jahren eine Neubedeutung, es bezeichnet seitdem ein Steuerger¨ at am Computer. Neologismen k¨ onnen weiterhin an Hand des Grades ihrer Lexikalisierung und ihrer Integration in den deutschen Sprachgebrauch unterschieden werden. Danach bezeichnen Neologismen im engeren Sinn W¨ orter, die weitgehend lexikalisiert sind. Sie werden relativ h¨ aufig und bereits ¨ uber einen l¨ angeren Zeitraum verwendet und in die Neuauflagen allgemeinsprachlicher W¨ orterb¨ ucher aufgenommen. Hierzu geh¨ ort sicher das Verb simsen (=eine SMS verschicken). Daneben gibt es die Gelegenheitsbildungen, die nur ein oder wenige Male verwendet werden, danach wieder in Vergessenheit geraten und auch nicht in W¨ orterb¨ ucher aufgenommen werden. Ein Beispiel hierf¨ ur ist das Wort semimerkelig (womit eine Frisur im Stil von Angela Merkel bezeichnet wurde). Diese sogenannten Okkasionalismen sind von der Lexikographie und Lexikologie lange Zeit als uninteressant abgetan worden. Sie bieten aber f¨ ur die Wortbildungsforschung und f¨ ur die Lexikographie interessantes Material 60 . Entlang dieser letzten Unterscheidung haben sich zwei Formen der Neologismenlexikographie herausgebildet: • Die aktuelle Neologismenlexikographie sammelt und archiviert W¨ orter vom ersten Augenblick ihres Erscheinens an. Diese Sammlungen enthalten zwangsl¨ aufig viele Okkasionalismen, da zum Zeitpunkt des ersten Erscheinens eines Wortes nicht vorhergesagt werden kann, ob dieses Wort sich im Gebrauch etablieren wird. Erfahrene Lexikographen k¨ onnen lediglich gute Voraussagen ¨ uber die Entwicklung eines Wortes treffen. Ein Beispiel f¨ ur die aktuelle Neologismenlexikographie ist die Wortwarte 61 . • Die retrospektive Neologismenlexikographie sammelt und beschreibt in Spezialw¨ orterb¨ uchern dieses Lemmatyps die W¨ orter, die im Beschreibungszeitraum aufgekommen sind und sich bereits etabliert haben. Ein Beispiel hierf¨ ur sind die am Institut f¨ ur Deutsche Sprache erschienen W¨ orterb¨ ucher zum neuen Wortschatz 62 . Dementsprechend wird hier der Begriff Neologismus im engeren Sinn verwendet. Korpusdaten haben in der Neologismenforschung und -lexikographie die folgenden Funktionen: 59 Podcast bezeichnet die meist private Distribution von H¨ orbeitr¨ agen, im Stile eines Radiosenders, ¨ uber das World Wide Web. 60 Vgl. hierzu Peschel (2002), Tom´ aˇsikov´ a (2008) und Lemnitzer (2013). 61 Im WWW unter der Adresse www.wortwarte.de erreichbar. 62 Vgl. Herberg et al. (2004) und Steffens und al Wadi (2013). 8.5 Lexikologie und Lexikographie 173 • Bei regelm¨ aßiger Beobachtung zum Beispiel der Tagespresse l¨ asst sich mit einiger Sicherheit feststellen, wann ein Wort (in einer bestimmten Bedeutung) zum ersten Mal verwendet wurde (Erstbeleg). • Die quantitative Auswertung eines gr¨ oßeren Korpus, das den Sprachgebrauch eines bestimmten Zeitraums repr¨ asentiert, ergibt, welche W¨ orter ausreichend oft belegt sind, so dass man von einem etablierten Wort, also einem Neologismus im engeren Sinn sprechen kann. Es lassen sich auf diese Weise auch Profile der Gebrauchsh¨ aufigkeit von Neologismen, die schon l¨ anger im Gebrauch sind, ermitteln und auch feststellen, welche Neologismen nach einer gewissen Zeit wieder außer Gebrauch kommen 63 . • Anhand eines zeitlich gegliederten Korpus l¨ asst sich auch ermitteln, welche Wortbildungselemente eine wachsende Rolle bei der Bildung neuer W¨ orter spielen. So ist z.B. das Pr¨ afix Cybererst seit Ende des letzten Jahrzehnts in Verwendung und geh¨ ort seitdem zu den produktiven Wortbildungselementen. • In Korpora belegte Verwendungsgewohnheiten geben Auskunft ¨ uber sich verfestigende Eigenschaften des Gebrauchs, z.B. die Zuordnung eines Genus zu einem aus dem Englischen entlehnten Wort. • Schließlich liefern Korpora Belege, die als Vorlagen f¨ ur den Erwerb des normgerechten Gebrauchs eines neuen Wortes wichtig sind. Linguistische und lexikographische Neologismus-Forschung ist also ohne die Analyse authentischer Sprachdaten unm¨ oglich. F¨ ur lange Zeit war die manuelle Analyse und Auswertung von Printwerken die einzig machbare Arbeitsmethode, und vor allem in der W¨ orterbucherstellung werden neue W¨ orter noch heute ¨ uberwiegend auf diese Art gesammelt. Es gibt aber Projekte, in denen digitalisierte Korpora f¨ ur diese Zwecke genutzt werden. Ein Beispiel hierf¨ ur ist die Wortwarte. Seit Ende 2000 werden t¨ aglich die Online- Ausgaben mehrerer Tages- und Wochenzeitungen ausgewertet. Die W¨ orter dieser Texte werden mit der Wortliste eines Referenzkorpus abgeglichen. Die nach diesem Abgleich ¨ ubrig gebliebenen W¨ orter werden t¨ aglich durchgesehen und im Durchschnitt 15 neue W¨ orter ausgew¨ ahlt, beschrieben und mit einem Beleg aus der Fundstelle versehen. Neben dem online zug¨ anglichen W¨ orterbuch mit mittlerweile ¨ uber 60 000 Eintr¨ agen stehen alle Wortlisten zur Verf¨ ugung. Mit diesen Daten lassen sich z.B. Aussagen ¨ uber Tendenzen der Wortbildung treffen 64 . Auch in diesem Projekt wird mit einem weiten Begriff von Neologismus gearbeitet, der auch Gelegenheitsbildungen umfasst. Zweitens wird in diesem Projekt, und dies ist ein neuer Ansatz, versucht, das Web, genauer: einen kleinen Ausschnitt daraus, als kontinuierliche Quelle aktueller Sprachdaten zu nutzen. Ein gr¨ oßeres Spezialw¨ orterbuch des Lemmatyps Neologismen, das der retrospektiven Neologismenlexikographie verpflichtet ist, bildet die vom Institut f¨ ur deutsche Sprache herausgegebene Sammlung Neuer Wortschatz. Neologismen der 90er Jahre von Die- 63 Steffens und al-Wadi nennen dies Zeitverlaufgrafik, vgl. Steffens und al Wadi (2013), S. XXIVf. 64 Die Eintr¨ age sind auf der Website der Wortwarte, www.wortwarte.de, ver¨ offentlicht, welche t¨ aglich aktualisiert wird. Auf der Website befinden sich auch weitere Informationen zum Projekt. Die Wortlisten k¨ onnen beim Autor angefordert werden. 174 8 Korpuslinguistik in der Praxis ter Herberg, Michael Kinne und Doris Steffens 65 . Bei der Erstellung dieses W¨ orterbuchs wurde mit einem engeren Neologismusbegriff gearbeitet. Gegenstand des W¨ orterbuchs sind die Neuw¨ orter und Neubedeutungen, die in den 90er Jahren des 20. Jahrhunderts in der deutschen Allgemeinsprache aufgekommen sind, sich darin ausgebreitet haben, als sprachliche Norm allgemein akzeptiert und in diesem Jahrzehnt von der Mehrheit der deutschen Sprachbenutzer ¨ uber eine gewisse Zeit hin als neu empfunden wurden. (Herberg et al. 2004, S. XXIII) 66 Das Erscheinungsjahr des W¨ orterbuchs, 2004, und das der Fortsetzung, 2013, zeugen, dass die Autoren zwar zeitlich relativ nah an ihrem Beschreibungsgegenstand sind, aber doch weit genug entfernt, um den Prozess der Lexikalisierung aus der R¨ uckschau beobachten zu k¨ onnen. Als Prim¨ arquelle des Werks diente ein Teil der IDS-Korpora, das Texte des untersuchten Zeitraums umfasst. Dazu kam eine Wortkartei mit ca. 10 000 Eintr¨ agen (S. XVI f.). Inwiefern sich ein solches lemmabezogenes Spezialw¨ orterbuch neben aktuellen allgemeinsprachlichen W¨ orterb¨ uchern, vor allem dem Rechtschreibduden, etablieren wird, bleibt abzuwarten. Die beiden B¨ ucher und die begleitende Online-Version 67 sind jedenfalls eine interessante Quelle f¨ ur die Fremdvermittlung bei fortgeschrittenen Lernern. Vielleicht ergeben sich aus dieser konsequent korpusbezogenen Arbeit auch Impulse f¨ ur die traditionelle Lexikographie des Deutschen und deren Produkte. Schließlich sollen noch einige Spezialarbeiten zu Neologismen aus linguistischer Sicht, und hier vor allem die Beitr¨ age von Hilke Elsen zu Neologismen in einigen Varit¨ aten des Deutschen, erw¨ ahnt werden 68 . Mit den beschriebenen Projekten hat sich eine linguistische und lexikographische Praxis der Analyse von Neologismen auch des Deutschen etabliert. Neu sind vor allem die Nutzung des World Wide Web als Datenquelle und die st¨ arkere Ber¨ ucksichtigung von Okkasionalismen. 8.5.2 Anglizismen Anglizismen sind ein weiterer markierter Bereich des deutschen Wortschatzes. Unter dem Begriff Anglizismus versteht man alle aus dem Sprachkontakt einer Sprache mit dem Englischen resultierenden Ph¨ anomene der Entlehnung und der Beeinflussung des Sprachsystems der (in unserem Fall deutschen) Zielsprache 69 . Aus vielerlei Gr¨ unden ist das Englische nach 1945 zur st¨ arksten Gebersprache im linguistischen Kontakt geworden. Aus dem britischen und vor allem dem amerikanischen Englisch entlehnte lexikalische Einheiten bilden einen nicht zu vernachl¨ assigenden Teil des Vokabulars der deutschen Sprache. Die Integration dieser W¨ orter ist dabei in das System der deutschen 65 Herberg et al. (2004). Mit Steffens und al Wadi (2013) ist mittlerweile eine Fortsetzung erschienen, deren Darstellungszeitraum die Jahre 2001-2010 ist. Ein weiteres solches W¨ orterbuch, auf das hier nur kurz hingewiesen werden kann, ist Quasthoff (2007). 66 Besonders das letzte Kriterium steht auf empirisch schwachen F¨ ußen. Es ist zu vermuten, dass das Sprachgef¨ uhl der Autoren hier repr¨ asentativ f¨ ur das Sprachgef¨ uhl aller Sprachbenutzer gesetzt wird. 67 Unter www.owid.de am Institut f¨ ur Deutsche Sprache verf¨ ugbar. 68 Vgl. Elsen (2002), Elsen (2004) und Elsen und Dzikowicz (2005). 69 Vgl. Bartsch (2002), S. 312. 8.5 Lexikologie und Lexikographie 175 Sprache ist dabei mehr oder weniger fortgeschritten. Anglizismen stellen das System und vor allem den Gebrauch der deutschen Sprache vor besondere Schwierigkeiten. • Orthographisch weicht die Norm der Getrennt- und Zusammenschreibung sowie der Bindestrichschreibung von der englischen Norm und orthographischen Praxis ab 70 . • Die Aussprache kann sich eher am englischen Original orientieren (z.B. Banker [bæNk@] anstatt [baNk@] oder kiten [kaItn" ] anstatt [ki: tn" ]) oder am phonologischen System des Deutschen (z.B. bei Download wird die zweite Silbe eher als [lo: t] gesprochen mit deutscher Auslautverh¨ artung anstatt des urspr¨ unglichen [l@Ud]). • Morphologisch ergeben sich Probleme bei der Genitiv- und der Pluralbildung (Flyer → ? Flyers oder ? Flyer) und der Konjugation (? geuploaded, ? upgeloaded) 71 . • Die gr¨ oßten Probleme entstehen beim Genus, das im Englischen nicht festgelegt ist (der / die / das Engine, Toolbar, Airbag? ). In einer Untersuchung zu diesem Thema kommt Rudolf-Josef Fischer, der u.a. auch Sprecherurteile einbezieht, zu dem Ergebnis, dass keine Kombination der in der Literatur zur Genuszuweisung bei (neuen) Substantiven diskutierten Prinzipien dazu in der Lage ist, diesen Prozess vollst¨ andig zu erkl¨ aren 72 . • Grammatisch ergeben sich die geringsten Probleme, da die Systeme sich hier sehr ¨ ahneln (heißt es Aktien traden oder mit Aktien traden, letzteres in Analogie zu handeln? ). • Weiterhin bringen Anglizismen Unsicherheiten in der Verwendung mit sich - Searchengine wird man wahrscheinlich nicht im Gespr¨ ach mit der Großmutter verwenden und abchillen nicht im Gespr¨ ach mit dem Chef. Wie man sieht, m¨ ussen die Verwendungsbedingungen von entlehnten W¨ ortern erst im Prozess der Entlehnung ausgehandelt werden, besonders dort, wo sie in der Gebersprache nicht ausreichend spezifiziert sind 73 . Die Integration in das sprachliche System des Deutschen kann unterschiedlich weit fortschreiten (vgl. Majon¨ ase oder Kode, im Gegensatz dazu ist der Ausdruck Computer kaum integriert). Sie wird von Normen wie etwa der zur Rechtschreibung gesteuert, und die Aufnahme eines Anglizismus in die W¨ orterb¨ ucher des Deutschen geht mit Festlegungen der Verwendungsnorm auf den verschiedenen linguistischen Ebenen einher. Anglizismen werden bevorzugt in drei W¨ orterbuchtypen aufgenommen: • Spezialw¨ orterb¨ ucher des Lemmatyps Anglizismus. Hier ist vor allem das sprachdokumentarische W¨orterbuch der Anglizismen von Carstensen und Busse zu nennen 74 . 70 Vgl. hierzu, aus dem Blickwinkel der alten Rechtschreibnorm, Augst (1992). 71 Der Rechtschreibduden schl¨ agt als Norm f¨ ur das Perfektpartizip des Lexems e-mailen die Form gee-mailt vor. ¨ Ahnlich ungew¨ ohnlich nimmt sich die immerhin im DWDS-Korpus mehrfach belegte Form ge-e-mailt aus. Auch dies ist ein Beispiel f¨ ur die Schwierigkeiten bei der (orthographischen) Integration englischer Lehnw¨ orter. 72 Vgl. Fischer (2005). 73 Die nicht vorhandene Genusmarkierung bei englischen Nomen ist hierf¨ ur ein Beispiel. 74 Vgl. Carstensen und Busse (1993). Die lexikographische Arbeit st¨ utzt sich auf das Paderborner Korpus, im Wesentlichen eine Belegsammlung, sowie die Korpora, die Mitte der achtziger Jahre am Institut f¨ ur deutsche Sprache zur Verf¨ ugung standen, vgl. Carstensen und Busse (1993), S. 47-53. 176 8 Korpuslinguistik in der Praxis Es gibt aber auch einige sprachpuristisch ausgerichtete Werke auf diesem Regalbrett, z.B. das W¨orterbuch ¨ uberfl¨ ussiger Anglizismen von Bartzsch 75 . • Fremdw¨ orterb¨ ucher, in denen die aus anderen Sprachen entlehnten oder aus dem Griechischen und Lateinischen ¨ uberkommenen lexikalischen Einheiten versammelt sind, deren Gebrauch in der Alltagssprache weniger ¨ ublich ist (z.B. Parallaxe, Chintz). • Allgemeinsprachliche Standardw¨ orterb¨ ucher wie das Duden Universalw¨ orterbuch oder Spezialw¨ orterb¨ ucher z.B. zur Rechtschreibung. Normunsicherheit besteht vor allem bei W¨ ortern, die noch nicht in W¨ orterb¨ uchern registriert sind. Im Prinzip sollten hier die generellen orthographischen und grammatischen Normen des Deutschen hinreichend pr¨ azise Richtlinien f¨ ur den Gebrauch geben. Augst zeigt jedoch, dass zumindest die Regeln der (alten) Rechtschreibung nicht ausreichen und selbst in den W¨ orterb¨ uchern bei einzelnen lexikalischen Einheiten inkonsequent angewendet wurden 76 . Auch die Regeln der reformierten Rechtschreibung erleichtern es nicht, die korrekte Schreibung eines Anglizismus zu erschließen, wie J¨ urgen Dittmann und Christian Zitzke zeigen 77 . Die Autoren zeigen weiterhin in einer korpusbasierten Studie, dass in einigen Bereichen der Sprachgebrauch deutlich von den Normen, der offiziellen wie auch der der Nachrichtenagenturen, abweicht 78 : • Bei rein englischen Komposita dominiert die Getrenntschreibung, eine deutliche Abweichung von beiden Normen (z.B. Key Accounter, Call Center); • bei den Mischkomposita mit englischen und deutschen Bestandteilen dominiert die normgerechte Zusammenschreibung, gefolgt von der Bindestrichschreibung, die von der Norm zumindest toleriert wird (z.B. Produktmanager, Softwareentwicklungsmethoden); mehrgliedrige Komposita mit einem Funktionswort als Bestandteil (z.B. Business-to-Business) werden ebenfalls meist normkonform mit Bindestrich gebildet und durchgekoppelt, es bestehen hier aber große Unsicherheiten hinsichtlich der Klein-/ Großschreibung der einzelnen Bestandteile - nominale Bestandteile m¨ ussen hier groß-, nicht-nominale Bestandteile kleingeschrieben werden. Die Autoren beobachten, dass erstens die Anlehnung an den Gebrauch in der Quellsprache (bei den rein englischen Komposita), zweitens die Vertrautheit der einzelnen fremdsprachlichen Elemente und drittens die L¨ ange des Gesamtkompositums eine Rolle bei der Wahl der Schreibweise (getrennt, mit Bindestrich oder zusammen) spielen. Eine Ausrichtung an der Norm d¨ urfte eher zuf¨ allig sein, zumal, wie die Autoren im ersten Teil ihrer Arbeit zeigen, sich aus der Norm nur schwer Gebrauchs-Richtlinien ableiten 75 Vgl. Bartzsch (2004). 76 Vgl. Augst (1992), u.a. S. 58. 77 Vgl. Dittmann und Zitzke (2000), vor allem S. 70-76. Dittmann und Zitzke untersuchen in dieser Hinsicht sowohl die offiziellen Regeln als auch die Richtlinien der Nachrichtenagenturen. 78 Die Autoren verwenden als Datenbasis die Stellenanzeigen aus der Frankfurter Allgemeinen Zeitung, der S¨ uddeutschen Zeitung und der Welt vom 24. April 1999 und der Neuen Z¨ urcher Zeitung vom 5. Mai 1999. Ihre quantitative Auswertung st¨ utzen sie auf die 4225 Vorkommen von Anglizismen in den beiden erstgenannten Zeitungen, vgl. Dittmann und Zitzke (2000), S. 77. 8.5 Lexikologie und Lexikographie 177 lassen. Dittmann und Zitzke belegen all ihre Befunde mit exakten Zahlen, die sie durch Ausz¨ ahlung der Vorkommen in ihrem Korpus ermitteln. Eine neuere und methodisch interessante, weil konsequent korpusgest¨ utzte Arbeit zu diesem Thema hat Peter Eisenberg vorgelegt 79 . Er bezieht sich in seinen Untersuchungen auf zwei ausgew¨ ahlte Zeitscheiben aus dem Kernkorpus des DWDS, n¨ amlich die Jahre 1905-1914 und 1995-2014 (62). Die Wortformen dieser Korpustexte mit einem Umfang von jeweils etwa 10 Millionen Token wurden lemmatisiert, was f¨ ur jede Zeitscheibe eine Lemmaliste von knapp 400 000 Eintr¨ agen ergibt (63). Die Anglizismen in dieser Liste wurden nach einer Arbeitsdefinition des Konzepts Anglizismus (69ff.) manuell annotiert (64). Damit liegt eine quantitativ wie qualitativ auswertbare Datenbank f¨ ur zwei jeweils zehnj¨ ahrige und weit auseinander liegende Perioden des 20. und fr¨ uhen 21. Jahrhunderts vor. In den folgenden Abschnitten der Arbeit werden die Daten quantitativ und qualitativ nach den ¨ ublichen Beschreibungsebenen wie Orthographie, Phonologie und Morphologie untersucht (75-114). Eisenberg kommt dabei zu den folgenden, hier nur kurz zusammengefassten Schl¨ ussen: a) Anglizismen stehen im Deutschen unter starkem Anpassungsdruck der deutschen Kerngrammatik. Im Gegenzug haben sie bisher die deutsche Kerngrammatik kaum beeinflusst; b) im intensiven Kontakt des Deutschen mit dem (britischen und amerikanischen) Englisch werden vor allem dort Entlehnungen gemacht, wo ein Benennungsbedarf f¨ ur neue Gegenst¨ ande und Sachverhalte besteht; c) Kritik ist am Gebrauch von Anglizismen, aber auch von W¨ ortern anderer Arten, gerechtfertigt, wo dieser eigentlich einen Missbrauch darstellt, weil er unakzeptablen Zwecken dient. Nur hier hat die Sprachgebrauchskritik, auch die, die sich auf Anglizismen bezieht, eine gewisse Berechtigung (115). 8.5.3 Kollokationen und Phraseme Als Kollokation wird das gemeinsame Vorkommen zweier sprachlicher Zeichen miteinander bezeichnet. Ein Element einer Kollokation tritt im Umfeld des anderen Teils auf. So kommt im vorletzten Satz z.B. als im Umfeld von Kollokation vor, sprachlicher im Umfeld von Zeichen etc. Wichtig ist, dass dieses gemeinsame Vorkommen nicht zuf¨ allig ist. Nun kann man mit Recht behaupten, dass die Wahl eines Wortes in einem durchdachten Text niemals zuf¨ allig ist. Wir m¨ ussen es also etwas anders formulieren. Wir sprechen von einer Kollokation, wenn ein lexikalisches Zeichen ein anderes lexikalisches Zeichen als Kotext bestimmt, meist unter Ausschluss anderer, bedeutungs¨ ahnlicher Zeichen. Der Charakter dieser Auswahl wird deutlich, wenn wir einige in etwa gleichbedeutende Wortverbindungen in verschiedenen Sprachen betrachten. In Tabelle 10 haben wir einige Paare zusammengestellt. Man sieht an den Daten in Tabelle 26, dass • die Auswahl eines Wortes durch ein anderes arbitr¨ ar und zugleich in einer Einzelsprache konventionalisiert ist, es sich also bei Kollokationen um komplexe sprachliche Zeichen handelt; • die Auswahl eines Wortes durch ein anderes sich nicht regelhaft beschreiben l¨ asst. Man putzt sich die Z¨ ahne und w¨ ascht sich die Haare oder H¨ ande, man ist mit etwas hoch zufrieden oder ¨ uber etwas stark entt¨ auscht oder gar von etwas voll genervt. 79 Vgl. Eisenberg (2013). Die Seitenzahlen in Klammern beziehen sich auf diese Arbeit. 178 8 Korpuslinguistik in der Praxis Diese Wortverbindungen m¨ ussen deshalb als Ganzes gelernt bzw. im W¨ orterbuch gesucht werden. Sprache 1 Sprache2 W¨ ortliche ¨ Ubersetzung Schlange stehen spa: hacer cola Schlange machen sich die Z¨ ahne putzen fra: se laver les dents sich die Z¨ ahne waschen den Tisch decken eng: lay the table den Tisch legen dichtes Haar eng: thick hair dickes Haar harte W¨ ahrung fra: devises fortes starke W¨ ahrung Tabelle 26: Kollokationen in verschiedenen Sprachen Als Kollokation im weiteren Sinn hat man im Umfeld des Kontextualismus jedes gemeinsame Vorkommen zweier W¨ orter im gleichen Kotext bezeichnet 80 . Dieser sehr weite Begriff wird bereits im Umfeld des Kontextualismus weiter eingegrenzt, zun¨ achst auf die Wortpaare, die ¨ ublicherweise miteinander vorkommen 81 . Sidney Greenbaum ber¨ ucksichtigt zudem die syntaktischen Relationen zwischen den miteinander vorkommenden W¨ ortern 82 . So k¨ onnten die Beziehungen zwischen den miteinander vorkommenden W¨ ortern der Wortklassen Nomen und Adjektiv oder Nomen und Verb gezielt untersucht werden. Die Verbindung von Als und Kollokation aus unserem obigen Beispiel w¨ urde sich dagegen nicht als Kollokation qualifizieren. Franz Josef Hausmann schließlich f¨ uhrt den Unterschied zwischen Basis und Kollokator ein. Zwischen diesen beiden Elementen besteht eine gerichtete Beziehung; die Basis bestimmt den Kollokator. Welche Konsequenzen f¨ ur die Lexikographie das hat, wollen wir an dem Beispiel der Kollokation sch¨ utteres Haar erl¨ autern. Wenn ein Sprecher oder Schreiber einen Text produzieren m¨ ochte, dann ist ihm daran gelegen zu erfahren, welche Pr¨ adikate dem Gegenstand Haar sprachlich zugeschrieben werden k¨ onnen (z.B. lang, kurz, blond, rot, braun, graumeliert, str¨ ahnig, voll, dicht, sch¨ utter). Dieser potenzielle Benutzer eines W¨ orterbuchs wird bei der Basis (Haar) nachschlagen, um Unsicherheiten bei der Wortwahl zu kl¨ aren. Hausmann geht es in erster Linie um die Verbesserung der lexikographischen Praxis, die in Einklang zu bringen sei mit den unterschiedlichen Nachschlagebed¨ urfnissen von Benutzern, die einen Text verstehen, 80 ”[...] innerhalb der britischen Schule des Kontextualismus [...] wurde unter Kollokation das faktische Miteinandervorkommen zweier oder mehrerer beliebiger W¨ orter und/ oder lexikalischer Einheiten [...] verstanden [...]. Der Terminus Kollokation war in der Theorie des Kontextualismus an keinerlei normative Bewertung hinsichtlich Korrektheit oder Grammatikalit¨ at der untersuchten Wortverbindungen gekoppelt.“, vgl. Lehr (1996), S. 2. 81 ”By collocation is meant the habitual association of a word in a language with other particular words in sentences.“, vgl. Robins (1964), zit. nach Lehr (1996), S. 5. 82 ”A more valuable, if more modest, contribution might be made to the study of collocations if a relatively homogenous class of items were selected and an investigation undertaken of the collocation of each item in the class with other items that are related syntactically in a given way.“, vgl. Greenbaum (1970), S. 13. 8.5 Lexikologie und Lexikographie 179 und Nutzern, die einen Text erstellen wollen 83 . Wir teilen Hausmanns Meinung, dass es sinnvoll ist, dem Begriff Kollokation ein sch¨ arferes Profil zu geben. F¨ ur sprachtechnologische Zwecke aber mag es gen¨ ugen, die Wortpaare zu finden, die h¨ aufiger als erwartbar miteinander vorkommen. Um beiden Ph¨ anomenen gerecht zu werden, wollen wir hier zwischen Kookkurrenz und Kollokation (im engeren Sinn) unterscheiden. • Als Kookkurrenz soll das gemeinsame Vorkommen zweier W¨ orter in einem gemeinsamen Kotext betrachtet werden. Die L¨ ange des betrachteten Kotextes kann als Textfenster einer bestimmten L¨ ange festgelegt werden. Im Allgemeinen wird vom einzelnen Beleg abstrahiert und das gemeinsame Vorkommen zweier W¨ orter in vielen Kotexten betrachtet werden. Es kann zudem die Reihenfolge des Auftretens beider W¨ orter in den Belegen als unterscheidendes Kriterium zweier Kookkurrenzen festgelegt werden 84 . Ferner kann festgelegt werden, dass die W¨ orter einer Kookkurrenz h¨ aufiger (im gegebenen Textfenster) miteinander vorkommen, als dies der Fall w¨ are, wenn die W¨ orter zuf¨ allig verteilt w¨ aren. Man spricht in diesem Fall von einem signifikanten Kovorkommen beider W¨ orter und verwendet statistische Assoziationsmaße, um dies zu messen 85 . • Eine Kollokation muss nat¨ urlich den oben genannten Kriterien gen¨ ugen, dar¨ uber hinaus aber auch eine innere Struktur, in Form einer Hierarchie zwischen Kollokationsbasis und Kollokator aufweisen. Dar¨ uber hinaus m¨ ussen die Glieder einer Kollokation in einer syntaktischen Beziehung zueinander stehen, z.B. als Kopf einer Verbalphrase und Kopf einer gleich- oder untergeordneten Nominalphrase, oder als Kopf einer Nominalphrase und Kopf einer untergeordneten Adjektivphrase 86 . Es ist offensichtlich, dass Korpora f¨ ur das Aufsp¨ uren von Kookkurrenzen und Kollokationen von großem Nutzen, wenn nicht gar unverzichtbar sind. Je gr¨ oßer das Korpus, desto mehr Belege f¨ ur ein beliebiges Wortpaar wird man darin finden. Dies macht die darauf basierenden Statistiken zuverl¨ assiger. Im einfachsten Fall, dem der Kookkurrenz, reicht es, das Korpus in eine Menge von Textfenstern aufzuteilen und zu ermitteln: a) in wie vielen Fenstern Wort 1 und Wort 2 gemeinsam vorkommen, b) in wie vielen Fenstern nur Wort 1 vorkommt, c) in wie vielen Fenstern nur Wort 2 vorkommt und d) in wie vielen Fenstern weder Wort 1 noch Wort 2 vorkommen. Die meisten Assoziationsmaße setzen diese vier Werte bzw. ihre Summen miteinander in Beziehung. Das Ergebnis der Anwendung eines Assoziationsmaßes auf ein Wortpaar ist eine Kennziffer, durch die dieses Wortpaar mit anderen Wortpaaren in Beziehung gesetzt werden kann. Wortpaare mit hohen Kennziffern sind signifikante Kookkurrenzen und damit gute Kandidaten f¨ ur Kollokationen. Die anderen Bedingungen f¨ ur eine Kollokation m¨ ussen allerdings auch gegeben sein. Um dies zu pr¨ ufen, braucht man ein Korpus, bei dem zumindest die Wortarten annotiert sind, oder eine Belegsammlung. 83 Zu dieser Position vgl. vor allem Hausmann (1985) und Hausmann (2004). 84 Die Wortfolge doch eben bedeutet eben doch etwas anderes als die Wortfolge eben doch. 85 Eine ¨ Ubersicht ¨ uber statistische Assoziationsmaße geben Lemnitzer (1997), Kapitel 4, und Evert (2004). 86 Einige Beispiele f¨ ur diese Beziehungen befinden sich in Tabelle 26. 180 8 Korpuslinguistik in der Praxis Elisabeth Breidt wendet ein solches Verfahren auf ein wortartenannotiertes Korpus an, um Nomen-Verb-Kollokationen zu ermitteln 87 . Lothar Lemnitzer 88 experimentiert mit verschiedenen Assoziationsmaßen und arbeitet ebenfalls mit einem wortartengetaggten Korpus und exemplifiziert dessen Nutzen am Beispiel der Kollokanten des lexikalischen Zeichens hart 89 . Joachim Wermter und Udo Hahn extrahieren Kollokationen zwischen Pr¨ apositionalphrasen und Verben aus einem großen, ebenfalls wortartengetaggten Korpus 90 . Von hoher praktischer Relevanz sind schließlich auch die Arbeiten am Institut f¨ ur maschinelle Sprachverarbeitung der Universit¨ at Stuttgart. Stellvertretend sei hier auf die Arbeit von Heike Zinsmeister und Ulrich Heid hingewiesen 91 . Die Autoren extrahieren aus einem getaggten und partiell geparsten Zeitungskorpus Kombinationen von Verb, Nomen und modifizierendem Adjektiv, trennen die relevanten von den irrelevanten Kombinationen und klassifizieren die relevanten Tripel halbautomatisch in sechs Klassen, die das Spektrum von der idiomatischen Wendung (z.B. offene T¨ uren einrennen) bis zur g¨ anzlich freien F¨ ugung (z.B. konkrete Zahlen nennen) abdecken. Die Relevanz dieser Arbeit f¨ ur die praktische Lexikographie ist offensichtlich. Die Autoren diskutieren auch die Grenzen und Probleme ihres Ansatzes. So gibt es zur Zeit kein Verfahren, das auf der Basis der Unterschiede der sechs Klassen eine vollst¨ andige und vollkommene Klassifizierung erreichen kann 92 . Beim Digitalen W¨ orterbuch der deutschen Sprache wird f¨ ur die Ermittlung von Kollokationen f¨ ur die zu bearbeitenden Stichw¨ orter ein Wortprofil verwendet 93 . Diese Software ist in vielerlei Hinsicht mit der ’Word Sketch Engine‘ von Adam Kilgarriff vergleichbar 94 und hat die folgenden Eigenschaften: a) es werden zu W¨ ortern, die h¨ aufig genug in den zugrunde liegenden Korpora vorkommen, die Kookkurrenzen ermittelt; b) da die zugrunde liegenden Korpora syntaktisch geparst und annotiert sind, sind die Kookkurrenzen nach den syntaktischen Relationen, in denen die Wortpaare stehen, geordnet; c) der zugeordnete Salienzwert bezieht sich auf ein Wortpaar in der jeweiligen syntaktischen Relation (wird also lokal und nicht global bestimmt); d) die Ergebnisse k¨ onnen als Tabelle, geordnet nach Salienz des Paares, oder als Wortwolke angezeigt werden; e) es ist eine vergleichende Analyse f¨ ur zwei Kollokationsbasen m¨ oglich - in dem Fall werden einerseits die f¨ ur jeweils eine Kollokationsbasis typischen Kookkurrenzen, andererseits die f¨ ur die beiden Basen gleich typischen Kookkurrenzen angezeigt. Die korpusbasierte Untersuchung von festen Redewendungen, Phraseme genannt, steht hinter der Untersuchung von Kollokationen bisher deutlich zur¨ uck. Eine Ausnahme bildet eine Arbeitsgruppe um Christiane Fellbaum an der Berlin-Brandenburgischen Akademie der Wissenschaften. Diese Gruppe hat es sich zum Ziel gesetzt, systematisch, 87 Vgl. Breidt (1993). 88 Vgl. Lemnitzer (1997), Kap. 4. 89 Vgl. Lemnitzer (1997), Kap. 5. Das Hauptziel dieser Arbeit ist es, korpusgest¨ utzt Mehrwortlexeme zu ermitteln, Kollokationen sind dort nur ein Aspekt unter mehreren. 90 Vgl. Wermter und Hahn (2004). Zwei ihrer Beispiele sind unter Druck geraten und in den Griff bekommen. 91 Vgl. Zinsmeister und Heid (2003). 92 Einige Beispiele f¨ ur alle sechs Klassen werden in Zinsmeister und Heid (2003), Tabelle 5, pr¨ asentiert. 93 Vgl. Geyken (2011). 94 Vgl. Kilgarriff et al. (2004). 8.5 Lexikologie und Lexikographie 181 m¨ oglichst vollst¨ andig und mit synchroner und diachroner Perspektive die Gruppe der aus einer Verbalphrase und einer untergeordneten Nominalphrase bestehenden Phraseme zu untersuchen 95 . Phraseme zeichnen sich dadurch aus, dass • sie nach der Grammatik der entsprechenden Sprache nicht immer wohlgeformt sind (z.B. ganz Ohr sein); • sie semantisch intransparent sind, die einzelnen Bestandteile also nicht die Bedeutung haben, die sie in freier Verwendung haben (z.B. die Katze aus dem Sack lassen); • sie nur begrenzt modifizierbar sind (vgl. einen Kater haben, einen furchtbaren Kater haben, einen grau gescheckten Kater haben, im letzten Fall geht die idiomatische Lesart - unter den Folgen ¨ uberh¨ ohten Alkoholgenusses leiden - verloren) 96 . Die von Fellbaum und ihrem Team untersuchten verbalen Phraseme zeichnen sich dadurch aus, dass sie oft komplexe Sachverhalte benennen und deshalb nicht einfach in die semantischen Strukturen des Lexikons einer Sprache eingef¨ ugt werden k¨ onnen 97 . In einer detaillierten Arbeit untersuchen sie die Funktion der hochgradig unspezifischen Pronomen etwas und ein(en) als Erg¨ anzungen verbaler Phraseme 98 . In manchen F¨ allen haben diese Erg¨ anzungen Argumentstatus und referieren auf etwas, wenn auch sehr Unspezifisches (z.B. etwas auf der hohen Kante haben). In anderen F¨ allen hat etwas keinen Argumentstatus und referiert nicht (z.B. jemandem etwas husten). Die Autoren vermuten, dass der ”Platzhalter“ hier grammatische Funktionen ¨ ubernimmt. Zum einen erm¨ oglicht er die Einf¨ uhrung eines indirekten Objekts (das die Existenz eines direkten Objekts voraussetzt; etwas f¨ ullt diesen Platz aus). Zum anderen erzwingt etwas die Interpretation des Verbs und damit des gesamten Phrasems als zeitlich eingegrenztes Ereignis. Zwischen diesen beiden Verwendungen von etwas gibt es, wie die Autoren zeigen, etliche Zwischenstufen. ¨ Ahnliche Befunde werden bei der Analyse von ein(en) ermittelt. Die Arbeit ist vor allem f¨ ur die lexikographische Praxis relevant. Da die beiden Hauptfunktionen von etwas und ein(en) die m¨ oglichen Modifikationen des Phrasems im Gebrauch beeinflussen, sollten bei der lexikographischen Ansatzform diese beiden Elemente zumindest graphisch unterschieden werden 99 . 8.5.4 Partikeln Eine korpuslinguistisch sehr gute bearbeitete Wortart sind die Partikeln. Wir wollen hier die wichtigsten korpusbezogenen Arbeiten als Beispiele f¨ ur korpusbasierte linguistische Forschung im Bereich der Wortarten vorstellen. 95 Vgl. Fellbaum (2002), Abschnitt 6. 96 F¨ ur eine detaillierte Analyse vgl. Keil (1997). 97 einen zwitschern ist eben mehr als eine bestimmte Art zu trinken, das Phrasem evoziert eine ganze Szene, bei der das Trinken alkoholischer Getr¨ anke eine Rolle spielt. Dieses ”mehr“ ist es, was die Forscher vor allem interessiert, vgl. Fellbaum (2002), Abschnitt 3. 98 Vgl. Fellbaum et al. (2004). 99 Vgl. Fellbaum et al. (2004), Abschnitt 5. 182 8 Korpuslinguistik in der Praxis Es herrscht weitgehend Uneinigkeit dar¨ uber, welche W¨ orter zu den Partikeln z¨ ahlen und in welche Unterklassen diese Wortklasse zerf¨ allt. Die Duden Grammatik 100 subsumiert die Adverbien, Pr¨ apositionen und Konjunktionen unter die Partikeln und w¨ ahlt damit eine sehr weite Definition, die die meisten nicht flektierenden W¨ orter umfasst 101 . In einem engeren Sinn verwendet etwa Helbig diesen Begriff 102 . Er bezeichnet mit Partikel ”solche morphologisch unflektierbaren W¨ orter, die ¨ uber keine solchen syntaktischen Funktionen verf¨ ugen, wie sie den W¨ ortern anderer unflektierter Wortklassen zukommen“(S. 20). Eine noch engere Definition fasst lediglich die Modalpartikeln in diese Kategorie (S. 21). Helbig unterscheidet die folgenden Subklassen von Partikeln: • Abt¨ onungs- oder Modalpartikeln (z.B. auch, bloß, denn); • Gradpartikeln (z.B. auch, gerade, sogar); • Steigerungspartikeln (z.B. außerordentlich, etwas, ganz); • Temporalpartikeln (z.B. erst, noch, schon); • Antwort- oder Satzpartikeln (z.B. ja, doch, eben); • Vergleichspartikeln (z.B. wie, als); • Interjektionspartikeln (z.B. au, oh je); • Negationspartikeln (z.B. kein, nicht); • Infinitivpartikel zu. Wie kaum eine andere Wortart beziehen die Partikeln ihre Bedeutung durch ihren Kontext. Die Partikeln tragen nichts zur propositionalen Bedeutung einer ¨ Außerung bei, wie man an dem folgenden Beispiel sieht: (14) Was macht Peter jetzt (eigentlich)? Auch ohne die Modalpartikel eigentlich ist der Satz als Frage ¨ uber Peters momentane, z.B. berufliche, Aktivit¨ aten verst¨ andlich. Die Partikel erf¨ ullt hier die Funktion, die Frage als Er¨ offnung eines neuen Themas zu markieren, z.B. in einem Dialog wie dem folgenden: (15) A: Stell dir vor, da steht: 100 km Stau! - B: Na, da wirds wieder gekracht haben. - A: Sag mal, wie hoch ist man eigentlich versichert, wenns mal so richtig kracht? 103 Sie hat hier also gespr¨ achssteuernde Funktion und sichert außerdem die Koh¨ arenz, die bei einem abrupten Themenwechsel sonst gef¨ ahrdet w¨ are. Modalpartikeln k¨ onnen außerdem dazu verwendet werden, um die Haltung des Sprechers zum Beispiel zum Wissen oder den Haltungen der Gespr¨ achspartner zu signalisieren: (16) Und sie bewegt sich doch. (17) Das kann schon mal etwas wackeln. Sie bewegt sich ja. 100 Vgl. Fabricius-Hansen et al. (2009). 101 Dies stimmt nur so ungef¨ ahr, da den Interjektionen ein eigenes Kapitel gewidmet ist. 102 Vgl. Helbig (1994). 103 Dieses leicht modifizierte Beispiel entstammt Thurmair (1989), S. 176. 8.5 Lexikologie und Lexikographie 183 In Beispiel (16) signalisiert der Sprecher seine Annahme, dass die Gespr¨ achspartner seine Behauptung (bisher) nicht teilen, in Beispiel (17) hingegen wird signalisiert, dass das Behauptete auch den Gespr¨ achspartnern bekannt ist. Die Redundanz der ¨ Außerung wird dadurch abgemildert. Die Analyse und Beschreibung von Partikeln ist eine besondere Herausforderung f¨ ur die theoretische Linguistik, die Lexikographie, die maschinelle Sprachverarbeitung und f¨ ur die Fremdsprachvermittlung 104 . Viele Partikeln stellen die theoretische Linguistik und Lexikographie vor schwierige Aufgaben: Da sie nichts zur Proposition einer ¨ Außerung, in der sie auftauchen, beitragen, m¨ ussen die kontextreferentiellen Funktionen dieser sprachlichen Einheiten bestimmt und beschrieben werden. Dies muss in so allgemeiner Weise geschehen, dass m¨ oglichst alle Verwendungsweisen bzw. Verwendungssituationen mit dieser Beschreibung abgedeckt werden. Die Gefahr einer solchen generischen Beschreibung ist, dass sie zu allgemein und damit wertlos wird. Will man andererseits das Spezifische der Verwendungskontexte aller Modalpartikeln erfassen, l¨ auft man Gefahr, das Gemeinsame aller Verwendungsinstanzen in den Details zu verlieren. Das Problem der Analyse von Partikeln stellt sich in versch¨ arftem Maße bei der maschinellen Analyse nat¨ urlicher Sprache. Die spezifische ”Bedeutung“ bzw. ihre pragmatische Funktion kann nur erfasst werden, wenn Wissen ¨ uber den Kontext der jeweiligen ¨ Außerung vorhanden ist. Selbst wenn dieses Kontextwissen nicht in ein Computerlexikon geh¨ ort, so doch zumindest eine lexikalische Beschreibung, die Angaben zu den m¨ oglichen Vorkommenskontexten umfasst. Viele lexikalische Elemente der Partikelklasse geh¨ oren mehreren Unterklassen an und einige dar¨ uber hinaus auch anderen Wortklassen 105 . Die Verwendung dieser lexikalischen Elemente muss einerseits von einander abgegrenzt, andererseits miteinander in Beziehung gesetzt werden. Einige Typen von Partikeln, z.B. die Modalpartikeln, treten zudem in zahlreichen Kombinationen auf. Maria Thurmair 106 listet weit ¨ uber 100 Kombinationen auf, von denen viele aber nur eingeschr¨ ankt akzeptabel seien. All diese Aspekte von Partikeln machen diese zu einem besonders guten Gegenstand f¨ ur korpuslinguistische Untersuchungen. Umfangreiche linguistische und lexikologische Studien zu den Partikeln von Harald Weydt erschienen bereits 1979 und Anfang der 1980er Jahre 107 . Gerhard Helbig 108 widmet den Partikeln ein eigenes W¨ orterbuch. Dar¨ uber hinaus ist die Frage der angemessenen ¨ Ubersetzung der Abt¨ onungspartikeln in eine andere Sprache ein wichtiges Problem. K¨ onig, Stark und Requardt f¨ ullen eine L¨ ucke mit ihrem deutsch-englischen Spezialw¨ orterbuch zum Wortschatzbereich der Adverbien und Partikeln 109 . 104 Wir gehen im Abschnitt zum Fremdspracherwerb und -vermittlung u.a. auf eine Arbeit zur didaktischen Vermittlung des Gebrauchs von Modalpartikeln ein. 105 So kann z.B. doch als Antwortpartikel und als Modalpartikel entsprechend der Klassifikation von Helbig und als Konjunktion verwendet werden. 106 Vgl. Thurmair (1989). 107 Vgl. Weydt (1979), Weydt (1983) u.a. 108 Helbig (1994). 109 Vgl. K¨ onig et al. (1990). 184 8 Korpuslinguistik in der Praxis Mittlerweile sind zahlreiche Monographien und detaillierte Arbeiten auch zu einzelnen Partikeln oder zu Partikelgruppen erschienen 110 . Von besonderem Interesse sind dabei die Bedeutungs- oder Funktionskontraste nah verwandter Partikeln 111 . Es wurde aber zu Recht kritisiert, dass linguistische Arbeiten zu den Partikeln allzu oft auf erfundene oder konstruierte Beispiele aufbauen 112 . Diese m¨ ogen als Testmaterial zur Ermittlung von Akzeptabilit¨ atsurteilen oder zur Ermittlung von Kontrasten geeignet sein, erscheinen aber in vielen F¨ allen unnat¨ urlich und k¨ onnen nicht das wiedergeben, was in authentischen Gespr¨ achen geschieht 113 . Die Situation hat sich in den letzten Jahren gebessert, was auch durch die bessere Verf¨ ugbarkeit von Korpora geschriebener, vor allem aber auch gesprochener Sprache bedingt ist. Thurmair, die in einer Monographie die Kombinierbarkeit von Modalpartikeln untersucht 114 , erw¨ ahnt einen Vorschlag von Collins aus dem Jahre 1938: It would be an alluring task to pick out in German a certain number of simple particles, combine them in pairs or triplets or even larger groups, and try to discover which groups are the most commonly used, which have the most characteristic functions, and which cannot be combined with which, or at least not in a particular order. (Zit. nach Thurmair 1989, S. 203) Tats¨ achlich ist durch die Existenz sehr großer Korpora und der entsprechenden Werkzeuge zu ihrer Analyse nun die M¨ oglichkeit gegeben, zumindest eine der von Collins gestellten Fragen zu beantworten, n¨ amlich die nach der Vorkommensh¨ aufigkeit, Reihenfolge und Bindungsst¨ arke einzelner Partikelkombinationen. Collins schneidet außerdem wichtige Fragen an, mit deren Beantwortung erst begonnen wurde: • Sind die Restriktionen, denen die Kombinierbarkeit von Abt¨ onungspartikeln unterliegt, systematisch zu beschreiben? Dies betrifft sowohl die M¨ oglichkeit des Kovorkommens zweier Abt¨ onungspartikeln als auch die Reihenfolge ihres Auftretens. Die allgemeinste Beschr¨ ankung des Kovorkommens ist dadurch gegeben, dass zwei Partikeln, deren Modus inkompatibel ist, nicht zusammen auftreten. 115 • Wenn zwei Abt¨ onungspartikeln miteinander in einem Satz vorkommen k¨ onnen, ist ihre Abfolge durch Prinzipien beschreibbar, die sich aus ihren Merkmalen ergeben? Helbig bildet zwar Distributionsklassen f¨ ur eine Reihe der Partikeln, um deren Reihenfolgebeziehung bei der Kettenbildung zu erfassen, die Belege f¨ ur seine Hypothesen sind allerdings wenig ¨ uberzeugende Eigenkonstruktionen. 116 Thurmair verwendet eine Menge von semantischen Merkmalen, nach denen die einzelnen Partikeln im ersten Teil ihrer Arbeit klassifiziert werden. Mit diesen Mitteln sol- 110 Einen guten ¨ Uberblick gibt das Literaturverzeichnis in Moellering (2004). 111 Zum Beispiel die der Gradpartikeln auch und noch, die im Mittelpunkt der Monographie von Ulrike Nederstigt (2003) stehen. 112 Unter anderem von Ulrike Nederstigt, vgl. Nederstigt (2003). 113 Vgl. Nederstigt (2003), S. 12. 114 Vgl. Thurmair (1989). 115 Vgl. Helbig (1994), S. 76 und Thurmair (1989), S. 204f. 116 Vgl. Helbig (1994), S. 75f. 8.5 Lexikologie und Lexikographie 185 len Selektionsrestriktionen und Kombinationspr¨ aferenzen beschrieben werden. Diese semantischen Merkmale gehen in die Partikelkombinationen ein. Die Einzelbedeutungen der Partikeln werden nach Auffassung der Autorin zur Gesamtbedeutung der Partikelkombinationen addiert: Es soll hier davon ausgegangen werden, daß eine Kombination der Partikel A mit der Partikel B eine Addition ihrer Bedeutung und damit ihrer Merkmale bedeutet; d.h. also, daß sich die Kombinationen in ihre Einzelteile zerlegen lassen. (Thurmair 1989, S. 205) Thurmair f¨ uhrt dieses Programm in ihrer Monographie dadurch aus, dass sie die Bedeutung und Funktion der einzelnen Modalpartikeln 117 und im Anschluss daran die akzeptablen, bedingt akzeptablen und inakzeptablen Kombinationen beschreibt 118 . Sie beschließt ihre Arbeit mit einer Synopse der Partikelkombinationen (S. 278), mit einer ¨ Ubersicht ¨ uber die Distribution der Kombinationen ¨ uber verschiedene Satztypen (S. 282, Tabelle 13) und einer ¨ Ubersicht ¨ uber Stellungsregeln f¨ ur einzelne Modalpartikeln (S. 285-289). Ob das Postulat der additiven Bedeutung von Partikelkombinationen durchzuhalten ist, bleibt unklar. Hier setzt die Kritik von Lothar Lemnitzer 119 an, der davon ausgeht, dass Partikelkombinationen als komplexe Lexeme nicht transparent und analysierbar sind. Lemnitzer pr¨ asentiert als Fallstudie die Kombinationen mit der Modalpartikel denn 120 und untersucht, ¨ ahnlich wie Thurmair, systematisch alle Kombinationen, konzentriert sich aber bei den Einzeldarstellungen auf die h¨ aufigsten. Er trifft allerdings keine Aussage zur psychologischen Plausibilit¨ at seiner Vermutung, dass es sich hier um Mehrwortlexeme handelt. Im Zentrum seiner Arbeit steht vor allem die Analyse und (computer-)lexikographische Erfassung dieser komplexen sprachlichen Einheiten. Die Aneignung des korrekten Gebrauchs von Partikeln im Zuge des Erstspracherwerbs verfolgt Ulrike Nederstigt am Beispiel der Gradpartikeln auch und noch 121 . Der Erwerb des komplexen sprachlichen Wissens, das f¨ ur die korrekte Verwendung der Partikeln notwendig ist, demonstriert die Autorin am Gebrauch dieser Partikeln durch erwachsene Sprecher. Verschiedene linguistische Versuche, die phonologischen, syntaktischen, semantischen und diskursiven Aspekte des Gebrauchs dieser Partikeln zu beschreiben und zu erkl¨ aren, stellt die Autorin auf den Pr¨ ufstand. Sie verwendet hierf¨ ur mehrere Korpora gesprochener Sprache, von denen einige den Sprachgebrauch Erwachsener, andere den Sprachgebrauch eines M¨ adchens in der Phase zwischen dem zweiten und vierten Lebensjahr wiedergeben 122 . Die Verwendung von Korpora, vor allem solcher der gesprochenen Sprache, erlaubt ihr, gemessen an den bisherigen linguistischen Arbeiten zum Thema, einen neuen Blick auf die von ihr beschriebenen Partikeln 123 . Die wichtigsten Erkenntnisse sind: 117 Abschnitt 2, S. 94-202. 118 Abschnitt 3, S. 203-284. 119 Vgl. vor allem Lemnitzer (2001). 120 Vgl. Lemnitzer (1997). 121 Vgl. Nederstigt (2003). Die Autorin spricht von ”focus particles“, dies entspricht aber der von Helbig definierten Klasse der Gradpartikeln. 122 Zu den verwendeten Korpora vgl. Kapitel 3.2, S. 80-83 (Korpora der Erwachsenensprache) und Kapitel 7.2, S. 211 (Korpus der Kindersprache) in Nederstigt (2003). 123 Kapitel 6 ist ¨ uberschrieben mit ”A fresh look at focus particles“. 186 8 Korpuslinguistik in der Praxis • Die Gradpartikel noch hat mehr Bedeutungen als gemeinhin angenommen, es werden insgesamt neun Bedeutungen unterschieden: - additiv (Nimm dir noch einen Nachtisch, bitte! ); - additiv, weiteres Element einer Menge (Davor habe ich noch einen Termin.); - additiv, vor einer Wende (Damals haben wir noch ohne fließend Wasser gewohnt.); - temporal (Der Platz ist noch frei.); - temporal, perfektiv (Wir k¨onnen uns gern noch in diesem Monat treffen.); - temporal, mit abnehmender Menge von Objekten (und jetzt brauche ich noch eine Siebenerleiste.); - mit einmal, repetitiv (Dann sind wir noch einmal Karussell gefahren.); - mit einmal, restitutiv (Kn¨opf die Jacke am besten noch einmal auf.); - mit einmal, additiv (Wir sollten uns dann noch einmal Zeit nehmen, wenn das heute nicht klappt.) 124 . Der Kontrast zwischen diesen Bedeutungen korrespondiert mit Unterschieden in den phonologischen und syntaktischen Merkmalen der Partikel bzw. mit Unterschieden in den Verwendungskontexten 125 . • Bei der Gradpartikel auch unterscheidet die Autorin zwischen einer betonten Variante und einer unbetonten Variante. Die betonte Variante weist Merkmale einer Antwortpartikel auf. Ihr Gebrauch signalisiert, dass einer vorhergehenden positiven (oder negativen) Antwort eine weitere positive (oder negative) Antwort hinzugef¨ ugt wird, wie in dem folgenden Beispiel: (18) Mitte der Woche habe ich AUCH nicht so gerne . . . Der Kontext dieser ¨ Außerung ist die telefonische Suche nach einem Termin f¨ ur ein Treffen. Der Sprecher hat bereits vorher einige Terminvorschl¨ age negativ beschieden. Das Beispiel wird hier als eine weitere Ablehnung interpretiert 126 . Die unbetonte Variante weist die typischen Merkmale einer Gradpartikel auf, besonders eine gr¨ oßere Variabilit¨ at in der Wortstellung, wie die beiden folgenden Beispiele zeigen 127 . (19) Wir k¨ onnen sonst auch Freitag oder Samstag nehmen. (20) Auch Freitag oder Samstag k¨ onnen wir sonst nehmen. • Wenn man die betonte und unbetonte Variante der Fokuspartikel auch als zwei verschiedene lexikalische Elemente betrachtet, dann wird eine homogene Beschreibung der Funktionen der unbetonten Variante und der Fokuspartikel noch m¨ oglich. Es bleiben semantische Unterschiede zwischen beiden Partikeln, die aber ihrer Subsumierung in eine Klasse nicht entgegenstehen. 124 Vgl. ebd., S. 100-106. Die hier gew¨ ahlten Beispiele sind erfunden, Nederstigt pr¨ asentiert authentische, aber auch etwas komplexere Beispiele. 125 Vgl. ebd., Kapitel 4.2.2, S. 167-171. 126 Vgl. ebd., S. 190f. Die Großschreibung der Partikel in unserer Wiedergabe des Beispiels signalisiert, dass sie betont ist. 127 In Anlehnung an Nederstigt, weitere Beispiele in ihrer Arbeit auf S. 200. 8.6 Computerlinguistik 187 Die Untersuchung von Spracherwerbsdaten in Hinblick auf die beiden Partikeln - und der Partikel auch in beiden Betonungsvarianten - zeigt, dass die Unterscheidung der beiden Varianten von auch kognitiv plausibel ist: Die betonte Variante von auch wird fr¨ uher erworben als die unbetonte Variante, und letztere wiederum in etwa zur gleichen Zeit wie die Partikel noch 128 . Nederstigt st¨ utzt ihre Erkenntnisse auf Langzeitaufzeichnungen der Sprachentwicklung eines Kindes namens Caroline. Caroline beginnt mit einem Jahr und neun Monaten, AUCH zu verwenden, und mit gut zwei Jahren, ungef¨ ahr zur gleichen Zeit, auch und noch. Durch die gr¨ undliche qualitative Analyse von Korpusbelegen, die aus mehreren Korpora gesprochener Sprache stammen, gelingt es der Autorin, hinsichtlich einer der beiden untersuchten Partikeln (auch) eine Unterscheidung zwischen zwei Varianten zu treffen. Der Schnitt, den sie macht, erlaubt es, eine Variante dieser Partikel konsistent in das System der Fokuspartikeln zu integrieren. 8.6 Computerlinguistik Die Computerlinguistik ist ein Bereich, in dem Korpora eine wichtige Rolle spielen 129 . Zun¨ achst dienen sie als Datenquelle f¨ ur das empirische Arbeiten. Der Computerlinguist sichtet Korpusdaten, um seine Hypothesen, Modelle oder Programme an authentischem Material zu entwickeln und zu pr¨ ufen. In diesem Vorgehen unterscheidet er sich nicht von anderen Linguisten. Der Unterschied besteht darin, dass der Computerlinguist Korpora auch in großem Maßstab zum Entwickeln und Pr¨ ufen seiner Programme nutzen kann. Was ist damit gemeint? Bei der Entwicklung von Programmen nutzt er die Frequenzinformationen, die in einem Korpus stecken, z.B. beim Training von statistischen Programmen 130 . Diese Programme beinhalten Regeln, deren Anwendungen ¨ uber so genannte Gewichte gesteuert werden. Eine Regel mit h¨ oherem Gewicht wird bevorzugt angewendet. Die Werte f¨ ur die Gewichte werden aus Korpora abgeleitet, indem man die Wahrscheinlichkeiten f¨ ur die Regeln anhand eines Korpus ermittelt (in der Computerlinguistik sagt man, das Programm lernt die Wahrscheinlichkeiten beim Training). Stark vereinfacht z¨ ahlt das Programm dabei, wie oft eine Regel bei der Analyse des Korpus angewendet wird 131 . Ein Beispiel f¨ ur das Lernen aus Korpora ist die Grammatikinduktion. Aus den Annotationsstrukturen eines Korpus werden Frequenzen f¨ ur Grammatikregeln abgelesen. Im Extremfall leitet man sogar die Grammatikregeln selbst aus dem Korpus ab (Anette Frank 132 erzeugte z.B. eine lexikalisierte Tree Adjoining Grammar auf der Basis des NEGRA-Korpus). 128 Vgl. ebd., Abschnitt 9.4.1, vor allem Abbildung 9.7 auf S. 340. 129 Ein guter ¨ Uberblick ¨ uber das Verh¨ altnis von Computerlinguistik und Korpuslinguistik liegt mit Dipper (2008) vor. 130 Im vierten Kapitel hatten wir Ihnen im Exkurs zum Part-of-Speech Tagging z.B. das Training des Brill-Taggers vorgestellt. 131 Zwei empfehlenswerte englischsprachige Einf¨ uhrungen zur statistischen Sprachverarbeitung sind Jurafsky und Martin (2000) und Manning und Sch¨ utze (1999). 132 Vgl. Frank (2001). 188 8 Korpuslinguistik in der Praxis Das Training kann auch unter indirekter Nutzung eines Korpus stattfinden. Manchmal werden zuerst Daten aus einem Korpus extrahiert und zum Beispiel in einer Datenbank gesammelt. Die im Abschnitt zur Syntax beschriebene Arbeit von Timm Lichte ist ein Beispiel daf¨ ur. Lichte listet Kookkurrenzen von W¨ ortern und Lizenzierern f¨ ur Negative Polarit¨ atselemente auf, um mit Hilfe eines statistischen Programms Kandidaten f¨ ur Negative Polarit¨ atselemente zu bestimmen. Sabine Schulte im Walde 133 zeigt, wie man mit computerlinguistischen Methoden die Verbklassen von Levin (1993) auf deutschen Daten nachvollziehen kann. Sie trainiert zun¨ achst eine Grammatik auf dem Huge German Corpus, um Frequenzinformationen ¨ uber Verben, deren Argumentrahmen und die aufgetretenen nominalen Realisierungen der Argumente zu erfassen. In einem zweiten Schritt entwickelt sie ein Programm, das aus diesen Informationen Klassen von Verben bilden kann (das Programm clustert die Verben in Gruppen), z.B. 134 : (21) Verben, die sich auf eine Basis beziehen: basieren, beruhen, resultieren, stammen (22) Verben der Maߨ anderung: reduzieren, senken, steigern, verbessern, vergr¨ oßern, verkleinern, verringern, versch¨ arfen, verst¨ arken, ver¨ andern (...) Eine weitere Verwendungsweise von Korpora in der Computerlinguistik ist das Testen von Programmen, anders ausgedr¨ uckt die Evaluierung. Hierzu ben¨ otigt man ein linguistisch annotiertes Korpus (den Goldstandard), das idealerweise mit den Strukturen annotiert ist, die das Programm erzeugen soll. Der Idealfall ist allerdings nicht immer gegeben, da - wie Sie ja inzwischen wissen - Annotation sehr aufw¨ andig und kostenintensiv ist. Man muss manchmal Kompromisse eingehen und z.B. die Ausgabe des eigenen Programms auf das vorgegebene Format des Testkorpus abbilden. Letzteres hat den einen Vorteil, dass man auf diese Art verschiedene Programme unmittelbar anhand desselben Testkorpus vergleichen kann. Wenn man testet, muss man sich klar machen, dass auch das Testkorpus Fehler enthalten kann. Es bietet sich daher an, als obere Grenze bei einer Evaluierung nicht 100% ¨ Ubereinstimmung zu verlangen, sondern sich an der ¨ Ubereinstimmung der Annotatoren des Goldstandards zu orientieren (am Inter-Annotator Agreement). 8.7 Fremdspracherwerb und -vermittlung Im sechsten Kapitel haben wir die Dichotomie von Korpora im Fremdspracherwerb und -vermittlung schon erw¨ ahnt: Sie umfassen sowohl muttersprachliche Korpora, die als Datenressource im Unterricht eingesetzt werden k¨ onnen, als auch Korpora, die den Fremdspracherwerb dokumentieren, also Sprache von Nichtmuttersprachlern enthalten. 133 Vgl. Schulte im Walde (2003). 134 Wir stellen hier nur korrekte Beispiele vor, um das Ergebnis zu veranschaulichen. Das Programm clustert teilweise auch Verben in eine Gruppe, die keine gemeinsame Bedeutung besitzen. 8.7 Fremdspracherwerb und -vermittlung 189 Joybrato Mukherjee 135 beschreibt in seiner Einf¨ uhrung in die Korpuslinguistik ausf¨ uhrlich, wie Korpora f¨ ur den Englischunterricht eingesetzt werden k¨ onnen, sowohl in der Unterrichtsvorbereitung als auch im Unterricht selbst. Sie dienen als Quelle f¨ ur nat¨ urliche Beispiele und geben dem Sprachlerner fr¨ uhzeitig Kontakt zur nat¨ urlichen Sprachverwendung. Diese Verwendungsweise bietet sich insbesondere auch f¨ ur die Erstellung von Lehrb¨ uchern an. Dieter Mindt 136 analysiert Lehrb¨ ucher f¨ ur den Englischunterricht, die an deutschen Schulen eingesetzt werden, und stellt fest, dass sie teilweise irref¨ uhrend dahingehend sind, dass weniger h¨ aufig verwendete Formen fr¨ uher eingef¨ uhrt werden als die eigentlich g¨ angigen. Dadurch entsteht beim Lernen ein falsches Gewicht. Als Negativbeispiel stellt er das Englische going to-Futur vor, das in mehreren Standardlehrb¨ uchern fr¨ uher eingef¨ uhrt wird als das viel h¨ aufiger verwendete will-Futur. Er argumentiert, dass Lehrwerke, die auf der Basis von korpusbestimmten quantitativen Untersuchungen von Wortschatz und Verwendungsweisen erstellt werden, solche Verzerrungen nicht enthalten 137 . Guy Aston 138 nennt diese Verwendung von Korpora in der Lehre, bei der der Sprachlerner keinen direkten Zugang zu den Korpora bekommt, den Hinter den Kulissen-Ansatz (’Behind the Scenes Approach‘ ). Er kontrastiert ihn mit dem Auf der B¨ uhne- Ansatz (’On Stage Approach‘ ), bei dem der Lerner direkt mit dem Korpus arbeitet. Bei diesem Ansatz kann Data-Driven Learning zum Einsatz kommen, d.h. Lerner leiten von den Daten Generalisierungen ab, die sie dann auf die Analyse neuer Daten anwenden. Die Analyse von Sprache wird so direkt mit ihrer nat¨ urlichen Verwendung gekoppelt. Technische Voraussetzungen daf¨ ur sind ein Korpus, ein Konkordanzwerkzeug und Werkzeuge zur eigenen Datenextraktion. Konkrete Anwendungsszenarien sind das Nachschlagen von Wortverwendungen im Satzkontext f¨ ur die Textproduktion und -rezeption, das systematische Untersuchen bestimmter Sprachverwendungen oder Grammatikkonstruktionen und das ”gen¨ ussliche Schm¨ okern“ (’serendipitous exploration‘ ). Sogar eine Art enzyklop¨ adischer Verwendung ist m¨ oglich, da man durch das Korpus Informationen zu bestimmten Orten oder Personen erhalten kann, sowie ¨ uber die Kultur der Sprachgemeinschaft, wenn z.B. nach Stereotypen und Vorurteilen geforscht wird 139 . Aston geht auch auf begleitende Effekte des Korpuseinsatzes im Klassenzimmer ein, z.B. den kommunikativen Aspekt bei gemeinsamer Korpusarbeit (Korpusanfrage, Finden von Mustern, Interpretation usw.). Als Zielgruppe f¨ ur diese Art von Korpuseinsatz im Unterricht empfiehlt er fortgeschrittene (erwachsene) Lerner und Lehrer, da es z.B. schwieriger ist, Konkordanzzeilen zu interpretieren, als ein Lernerw¨ orterbuch zu lesen 140 . Im d¨ anischen Visual Interactive Syntax Learning-Projekt (kurz: VISL) 141 kommen linguistisch annotierte Korpora direkt zum Einsatz, wenn auch nicht ganz offen ”auf der 135 Vgl. Mukherjee (2002). 136 Vgl. Mindt (1996). 137 Bereits seit 1980 werden im Rahmen des COBUILD-Projekts - eine Kooperation zwischen einem Verlag und der Universit¨ at Birmingham - in einem korpusbasierten Ansatz Materialien und Referenzwerke f¨ ur den Englischunterricht f¨ ur Nicht-Muttersprachler erstellt (Sinclair, 1987). 138 Vgl. Aston (2000), auch http: / / www.sslmit.unibo.it/ ~guy/ barc.htm. 139 Stubbs (1996). 140 Ein Beispiel f¨ ur eine Konkordanz finden Sie in Abschnitt 5.1.2. 141 http: / / visl.sdu.dk/ visl/ de. 190 8 Korpuslinguistik in der Praxis B¨ uhne“, wie Aston es beschrieben hat. Auf den Projektseiten im Internet kann man online verschiedene Grammatik¨ ubungen in mehr als 25 Sprachen ausf¨ uhren 142 . Die ¨ Ubungen basieren zum Teil auf manuell vorannotierten S¨ atzen, zum Teil auf großen, automatisch geparsten Korpora. Dem Lerner kann dadurch eine enorme Vielfalt an authentischem ¨ Ubungsmaterial angeboten werden. Neben den Syntax¨ ubungen enth¨ alt die Seite auch eine Reihe von Sprachspielen, die sehr ansprechend aufgebaut sind. Es gibt z.B. ein kleines Fellkn¨ auel, den Grammar Man, den man durch ein Labyrinth von Wortarten leiten muss, ohne einem Gespenst zu begegnen. Der richtige Weg wird jeweils durch einen Beispielsatz vorgegeben, den man aber zuerst analysieren muss. Im Hintergrund des Systems l¨ auft ein kategorialgrammatischer Parser 143 , der den S¨ atzen eine Dependenzanalyse zuweist. Ein Beispiel f¨ ur den zweiten Typ von Korpuseinsatz in der Fremdsprachenerwerbsforschung ist das Berliner Falko-Korpus. Im vierten Kapitel sind wir kurz auf die Annotation des Lernerkorpus eingegangen. Im Umfeld von Falko entstanden mehrere Arbeiten zum Fremdsprachenerwerb und der Didaktik von Deutsch als Fremdsprache; Maik Walter 144 zum Beispiel untersucht Satzkonnektoren wie da, weil oder obwohl, deren Verwendung gemeinhin als Indikator f¨ ur die Niveaueinstufung von Lernern genutzt wird. Die Frage, ob Konnektoren tats¨ achlich gute Indikatoren sind, versucht Walter korpusbasiert und im Vergleich mit Daten von Muttersprachlern zu kl¨ aren. Die Korpusauswertung zeigt systematische Abweichungen in der Wortstellung und der Konnektorenwahl. Hirschmann (2015) hinterfragt die Unterscheidung von Modifikatoren und Erg¨ anzungen sowie die Klassifizierung von Modifikatoren. Neben anderen Textsorten untersucht er den Gebrauch von Modifikatoren bei Deutschlernern im Falko-Korpus. Modalpartikeln wie wohl, halt oder doch in S¨ atzen wie (23) und Modalw¨ ortern (auch: Satzadverbien, wie wahrscheinlich, hoffentlich oder erfreulicherweise) erweisen sich dabei als besonders problematisch. (23) Sie ist wohl/ halt/ doch krank. Fremdsprachenlerner verwenden diese Wortarten signifikant seltener als Muttersprachler. Modalpartikel werden teilweise in Kontexten verwendet, in denen sie nicht angemessen sind. Hirschmann entwirft ein Gesamtsystem der modifizierenden Wortarten und gliedert dabei die sonst oft als idiosynkratisch geltenden Modalpartikeln zusammen mit den Modalw¨ ortern in das System ein. Wir stellen im Folgenden zwei Arbeiten vor, in denen das Potenzial von Korpusanalyse und didaktischer Aufbereitung von Belegen f¨ ur den Fremdsprachunterricht demonstriert wird. Es handelt sich also in beiden F¨ allen um Korpusarbeit Hinter den Kulissen. Die erste Arbeit bezieht sich auf Modalpartikeln, die zweite auf Pr¨ apositionen. F¨ ur den Sprachlerner stellen Modalpartikeln eine besondere Herausforderung dar. Sie sind weder allein dem Lexikon noch der Grammatik zuzurechnen, ihre Funktion kann deshalb nicht einfach durch Verwendung der entsprechenden Referenzwerke erschlossen werden. Zweitens ist das komplexe Wechselspiel zwischen Partikelfunktion, Kotext und Kontext nicht leicht zu verstehen. Gerade dieses Wechselspiel kann nur anhand von au- 142 Vgl. Bick (2005). 143 Vgl. Karlsson (1990). 144 Vgl. Walter (in Vorbereitung). 8.7 Fremdspracherwerb und -vermittlung 191 thentischen Beispielen vermittelt und verstanden werden 145 . Moellering begegnet diesen Problemen mit einem fremdsprachendidaktischen Programm, das auf die Verwendung authentischer Beispiele setzt. Als Materialgrundlage dienen ihr vor allem Korpora gesprochener Sprache 146 , da Modalpartikeln vor allem im gesprochenen Deutsch verwendet werden. Sie ermittelt die Vorkommensh¨ aufigkeit aller Modalpartikeln in diesen Korpora und widmet die weiteren Ausf¨ uhrungen den h¨ aufigsten Partikeln: eben, nur, denn, schon, doch, mal, aber, auch, ja. F¨ ur jede Partikel erarbeitet sie Arbeitsbl¨ atter auf der Basis von authentischen Belegen. Diese Arbeitsbl¨ atter sollen den Lernern helfen: a) die Verwendung der einzelnen lexikalischen Einheiten als Modalpartikeln von den anderen Verwendungen dieser Einheiten, z.B. als Konjunktion oder als Gradpartikel, zu unterscheiden und b) Funktion und Bedeutung der Modalpartikeln zu verstehen 147 . In Kapitel 5 dieser Arbeit werden die partikelbezogenen Lehrmaterialien vorgestellt und diskutiert. Die Materialien wurden in der Praxis erprobt, die Einstellung der Sch¨ uler zum Lernen an authentischem Sprachmaterial wurde evaluiert. Moellering sieht sich mit ihrer Arbeit in einem Trend der Fremdsprachvermittlung, die im Lehrer eher einen Vermittler als einen Wissensproduzenten sieht und Fremdsprachlernen als aktive Auseinandersetzung der Lernenden mit authentischen ¨ Außerungen der Zielsprache 148 . Randall Jones 149 ist an Pr¨ apositionen aus der Perspektive der Fremdsprachvermittlung interessiert. Ziel seiner Studie ist es, die Beschreibungen und Lernhilfen in Lehrb¨ uchern und Lernergrammatiken, die Pr¨ apositionen betreffen, mit den Ergebnissen der Analyse eines Korpus gesprochener Sprache zu vergleichen. F¨ ur seine Untersuchungen verwendet er ein an der Brigham Young University erstelltes Korpus des gesprochenen Deutsch (S. 118). Er betrachtet die neun am h¨ aufigsten im Korpus vorkommenden Pr¨ apositionen: hinter, neben, zwischen, unter, vor, ¨ uber, an, auf und in (Tabelle 1 auf S. 120.) und stellt fest, dass eine solche Korpusanalyse andere Informationen zu Tage f¨ ordert, als sie in Sprachlehrwerken vermittelt werden. Im Detail: • Die prototypische Unterscheidung von Ort und Richtung hilft bei der Bestimmung des Kasus, den die Pr¨ aposition regiert, wenig, weil bei fast allen Pr¨ apositionen die wenigsten Vorkommen sich diesem Schema zuordnen ließen. Die meisten Vorkommen hatten keine klare lokale oder direktionale Bedeutung. Viele Pr¨ apositionen sind Teil von Pr¨ apositionalerg¨ anzungen von Verben oder Teil von idiomatischen Wendungen. In diesen F¨ allen ist der regierte Kasus aber nicht regelhaft erschließbar; • die Verwendung des Akkusativs und die Verwendung des Dativs sind bei keiner Pr¨ aposition ausgewogen. Bei hinter dominierte der Dativ mit ¨ uber 80 Prozent, bei ¨ uber der Akkusativ mit ¨ uber 99 Prozent. Diese quantitativen Tendenzen zu kennen, kann f¨ ur Lerner wichtig sein; 145 Vgl. hierzu Moellering (2004), Kapitel 1. 146 Zu den verwendeten Korpora s. S. 101-104. Auf S. 249 diskutiert Moellering einige Schw¨ achen des von ihr verwendeten Korpus. Es sei erstens relativ klein und zweitens sei die ¨ uberaus hohe Frequenz von ja dessen h¨ aufiger Verwendung als Gespr¨ achspartikel in Telefondialogen geschuldet. 147 Der Autorin geht es ausdr¨ ucklich nicht darum, die aktive Verwendung der Partikeln einzu¨ uben, sondern nur darum, das Verstehen zu erleichtern, vgl. S. 244. 148 Moellering (2004), S. 250. 149 Vgl. Jones (2000). 192 8 Korpuslinguistik in der Praxis • die Pr¨ apositionen selbst kommen unterschiedlich oft vor - am seltensten hinter und am h¨ aufigsten in (Tabelle 2, S. 141). Diese Erkenntnis mag vor allem f¨ ur Muttersprachler banal sein, sie wird aber f¨ ur den Lerner durch die Gleichbehandlung der Pr¨ apositionen in vielen Lehrb¨ uchern verdeckt. Jones schl¨ agt hier ein Vorgehen vom H¨ aufigeren zum Selteneren vor. Als Fazit schl¨ agt Jones den verst¨ arkten Einbezug von Korpora gesprochener und geschriebener Sprache f¨ ur die Fremdsprachvermittlung oder doch zumindest f¨ ur die Erstellung von Lehrwerken vor, da sie das Verst¨ andnis der komplexen Maschinerie des Deutschen erleichtern (S. 142). Diese Arbeiten leisten einen wertvollen Beitrag zu Forschungen, die den Lernprozess nicht aus der Sicht der kognitiven Leistungen der Lernenden, sondern aus der Sicht der Besonderheiten des authentischen Sprachgebrauchs betrachten. Es bleibt zu hoffen, dass diese Erkenntnisse bei den Verlagen, die Lehrmaterialien f¨ ur Deutsch als Fremdsprache erstellen, auch ankommen. 8.8 Fazit Wie wir eingangs erw¨ ahnt haben, k¨ onnen die in diesem Kapitel dargestellten Arbeiten zum Teil als gute, zum Teil als schlechte Beispiele korpuslinguistischer Forschung aufgefasst werden. Wir wollen die methodischen Tendenzen, die in diesen Arbeiten deutlich werden, hier zusammenfassen und daraus Empfehlungen f¨ ur ein gutes methodisches Arbeiten ableiten. Zun¨ achst f¨ allt auf, dass viele Arbeiten sich auf kleinere Korpora st¨ utzen, die sich ¨ uberwiegend im Besitz der Autoren befinden bzw. f¨ ur diese zum Zweck der Untersuchung erstellt wurden. Es ist auch oft nicht klar, ob die Korpora digital vorliegen und maschinell ausgewertet wurden. Es ist im Prinzip nichts gegen die manuelle Auswertung eines (kleinen) Gesamtkorpus einzuwenden. Diese Methode erschwert aber die ¨ Uberpr¨ ufung oder Reproduktion der Ergebnisse. Das einzige Bewertungskriterium ist in diesem Fall die Plausibilit¨ at der Ergebnisse. Die linguistische Forschung wird auch weiterhin auf Spezialkorpora angewiesen sein, die ad hoc zum Zwecke einer bestimmten Untersuchung zusammengestellt werden. Es sollte aber gefordert werden, dass diese Spezialkorpora a) digital erfasst und b) begleitend zur Publikation der ¨ Offentlichkeit zur Verf¨ ugung gestellt werden, soweit keine urheberrechtlichen oder personenrechtlichen Gr¨ unde dagegen sprechen. Die Publikation der Daten kann entweder ¨ uber die Homepage des Forschers oder ¨ uber eine zentrale Sammel- und Dokumentationsstelle f¨ ur Korpora geschehen. Eine solche Stelle existiert allerdings noch nicht. Auch die Beschreibung dieser Korpora mit Metadaten ist w¨ unschenswert. Es ist erfreulich und der Konsolidierung der Korpuslinguistik als seri¨ ose Wissenschaft f¨ orderlich, dass immer mehr Institutionen der Forschungsf¨ orderung (z.B. die Deutsche Forschungsgemeinschaft) es inzwischen als ein F¨ orderkriterium f¨ ur Forschungsarbeiten, die sich auf Korpusdaten st¨ utzen, ansieht, dass die Daten f¨ ur die ¨ Offentlichkeit verf¨ ugbar sind bzw. verf¨ ugbar gemacht werden. Andererseits entstehen Forschungsinfrastrukturen wie CLARIN (www.clarin.eu), die es Forschern erm¨ oglichen, ihre projektspezifischen Daten dauerhaft zu sichern und der wissenschaftlichen Gemeinschaft zur Verf¨ ugung zu stellen. 8.8 Fazit 193 Ein ¨ ahnliches Problem ergibt sich, wenn nicht zu wenig, sondern zu viel Daten zur Verf¨ ugung stehen. Dies ist bei Forschungen zur computervermittelten Kommunikation der Fall. Hier besteht die Tendenz, Daten in wenig kontrollierter und opportunistischer Weise zu sammeln. Auch dies erschwert letztendlich die Generalisierbarkeit der gewonnenen Erkenntnisse. Dem k¨ onnte durch den Aufbau textsorten- oder medienspezifischer Referenzkorpora abgeholfen werden. Dies ist freilich nicht die Aufgabe einzelner Wissenschaftler, sondern muss institutionell geregelt werden. Einzelne Forscher k¨ onnen und sollten zu einem solchen Referenzkorpus beitragen. Es gibt nach wie vor nicht das Referenzkorpus des Deutschen, wie es etwa das British National Corpus f¨ ur das Britische Englisch war und ist. Die meisten Forscher verwenden die Korpora des Instituts f¨ ur Deutsche Sprache und des Digitalen W¨ orterbuchs der Deutschen Sprache (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften. Dies bedeutet auf der anderen Seite eine gewisse Verantwortung f¨ ur diese Institutionen, diese Korpora permanent zur Verf¨ ugung zu stellen, zu pflegen und aktuell zu halten. Wir hoffen, mit der Darstellung der Korpuslandschaft des Deutschen in Kapitel 7 dazu beitragen zu k¨ onnen, dass die erw¨ ahnten Korpora st¨ arker genutzt werden. Es gibt kaum einen (korpus-)linguistischen Bereich oder Fragenkomplex, dem sich mehrere Arbeiten widmen. Am ehesten ist dies bisher im Bereich der Modalpartikeln geschehen. Gerade die in den vorhergehenden Kapiteln beschriebenen Probleme mit Korpusdaten als Grundlage linguistischer Erkenntnis sollten zur Reproduktion bzw. Kontrolle einmal erzielter Ergebnisse ermuntern. Verstehen Sie als Leser dieses Buches dies auch als Aufforderung, die hier beschriebenen Arbeiten und daraus gewonnenen Erkenntnisse selbst zu ¨ uberpr¨ ufen. Nicht in allen Arbeiten wird das Verh¨ altnis von quantitativer und qualitativer Analyse reflektiert. Ein Musterbeispiel ist hier die Arbeit von Nederstigt (2003), die f¨ ur alle analysierten W¨ orter eine die kompletten Korpusdaten umfassende quantitative Analyse vornimmt, f¨ ur die darauf folgende qualitative Analyse aber f¨ ur jedes Wort eine gleich große Anzahl von Belegen ausw¨ ahlt. Letzteres erlaubt ihr, die Analyse der beschriebenen W¨ orter vergleichbar zu machen. Auch die Arbeit von Peter Eisenberg zu den Anglizismen im Deutschen (Eisenberg, 2013) ist in dieser Hinsicht vorbildlich und deshalb auch unter diesem Aspekt zur Lekt¨ ure empfohlen. Die saubere Trennung beider Aspekte sollte bereits Gegenstand des Forschungsdesigns sein und vor der Auswahl der Korpora und weiteren Analysemitteln stehen. Letztendlich m¨ ussen auch die grunds¨ atzlichen Fragen beantwortet werden, die wir in den vorhergehenden Kapiteln aufgeworfen haben: Ist ein Korpus ¨ uberhaupt geeignet zur Beantwortung der Forschungsfrage? Gibt es Alternativen oder Erg¨ anzungen? In welchem Verh¨ altnis stehen die ausgew¨ ahlten Korpusdaten zum beschriebenen Gegenstand, sind Generalisierungen ¨ uber die Korpusdaten hinaus m¨ oglich? Diese grunds¨ atzlichen Fragen werden in den hier beschriebenen Arbeiten keinesfalls ausgeblendet, sie k¨ onnten u.E. aber st¨ arker reflektiert werden. 194 8 Korpuslinguistik in der Praxis 8.9 Weiterf ¨ uhrende Literatur Es gibt mittlerweile mit dem Handbuch Corpus Linguistics, herausgegeben von Anke L¨ udeling und Merja Kyt¨ o, eine Publikation, welche die in diesem Kapitel dargestellten korpuslinguistischen Ans¨ atze und Themengebiete in geschlossener Form pr¨ asentiert, dies vor allem im 2009 erschienenen zweiten Band. Im Jahr 2006 ist eine Einf¨ uhrung in die Korpuslinguistik f¨ ur Germanisten von Carmen Scherer erscheinen. Wir denken, dass sich die Lekt¨ ure des Buches erg¨ anzend zu diesem Buch lohnen wird. F¨ ur das Englische ist das ’Resource Book‘ zur Korpuslinguistik von Tony McEnery, Richard Xiao und Yukio Tono zu empfehlen, nicht nur aber besonders auch wegen der vielen detaillierten Fallstudien in Teil C (McEnery et al., 2006). Ansonsten ist ein regelm¨ aßiger Blick in die Fachzeitschriften zu empfehlen. Ergiebige Quellen sind die Zeitschriften Deutsche Sprache, Zeitschrift f¨ ur germanistische Linguistik, Muttersprache. Sie sollten außerdem die Beitr¨ age der englischsprachigen Zeitschrift Corpus Linguistics und des computerlinguistisch orientierten Journal for Language Technology and Computational Linguistics (http: / / www.jlcl.org, Open Access) zur Kenntnis nehmen, wenn Sie up-to-date bleiben m¨ ochten. Aus der letztgenannten Zeitschrift stammt auch eine Reihe von Erfahrungsberichten ¨ uber den Einsatz von Korpora und korpuslinguistischen Methoden im Universit¨ atsunterricht, die wir vor allem den Lehrenden unter unseren Lesern ans Herz legen wollen (Beißwenger und Storrer, 2011; Bubenhofer, 2011; Dipper, 2011; Zinsmeister, 2011). 8.10 Aufgaben 1. Sie wollen untersuchen, wie oft verschiedene orthographische Varianten eines Wortes verwendet werden, oder, anders formuliert, welche Variante eines Wortes ¨ uberwiegt. Sie w¨ ahlen das Web als Korpus und wollen eine Suchmaschine verwenden, um anhand der gelieferten Treffer zu jeder Variante eine ungef¨ ahre Absch¨ atzung der Verwendungsh¨ aufigkeit vorzunehmen. Arbeiten Sie mit den folgenden Beispielen: a) Buddyliste / Buddy-Liste / Buddy Liste, b) Musikdownload, Musik-Download, Musik Download, oder w¨ ahlen Sie ein eigenes Beispiel. Testen Sie die Suchmaschinen Google (www.google.de) und Yahoo (search.yahoo.com). Welche Ergebnisse bringt die jeweilige Trefferliste? Pr¨ ufen Sie einige Treffer, auch solche, die weiter hinten in der Liste stehen. Sind die Treffer korrekt? Sind Sie, nach Durchsicht der Ergebnisse, der Meinung, dass eine oder mehrere der Suchmaschinen sich f¨ ur solche linguistischen Untersuchungen eignen? 2. F¨ ur eine Untersuchung zu Anglizismen im Deutschen m¨ ochten Sie aus einem Korpus m¨ oglichst viele Anglizismen extrahieren. Welche M¨ oglichkeiten sehen Sie, Anglizismen von nativen deutschen W¨ ortern zu unterscheiden, ohne jedes einzelne Wort zu ¨ uberpr¨ ufen? 3. Bearbeiten Sie die Vorsilbe zwischen als Vorsilbe zu Verben wie z.B. zwischenfinanzieren. Suchen Sie Belege aus einem Korpus oder aus dem Web. Verfassen Sie einen W¨ orterbuchartikel f¨ ur dieses Pr¨ afix. Erarbeiten Sie eine ¨ Ubung f¨ ur den Fremdsprachunterricht. 8.10 Aufgaben 195 4. Betrachten Sie die E-Mail in Ihrem Postfach als eine Art Korpus. Diskutieren Sie, wenn m¨ oglich in einer Gruppe, nach welchen Textsorten Sie diese Mail sortieren k¨ onnten. Untersuchen Sie auch die Header Ihrer Mail. Welche Informationen aus dem Header lassen sich f¨ ur eine Klassifikation der Nachrichten in Textsorten nutzen? 5. Auf unserer begleitenden Webseite haben wir Listen von m¨ oglichen Kollokanten f¨ ur einige Schl¨ usselw¨ orter bereitgestellt. Die Liste der Kollokanten wurde mit statistischen Mitteln aus einem sehr großen Korpus extrahiert. W¨ ahlen Sie aus diesen Listen alle Wortpaare aus Schl¨ usselwort und Kollokant aus, die Sie f¨ ur die Aufnahme in ein W¨ orterbuch f¨ ur w¨ urdig halten. Markieren Sie das Stichwort, unter dem Sie die Kollokation einordnen w¨ urden. Vergleichen Sie die Ergebnisse mit Ihren Kollegen und ermitteln Sie, wie hoch die ¨ Ubereinstimmung ist. Vergleichen Sie Ihre Ergebnisse auch mit den Kollokationen in einem ein- oder zweisprachigen W¨ orterbuch. Welche Kollokationen zum Stichwort fallen Ihnen ein und welche Kollokationen finden Sie im W¨ orterbuch, die in der Liste nicht enthalten sind? 6. Eine eigene, etwas systematischere, aber keinesfalls ersch¨ opfende Untersuchung des Wortwarte-Korpus f¨ orderte die folgenden W¨ orter mit BinnenGroßSchreibung zutage: eBay, eBook, eGovernment, eLearning, GamerInnen, geWAPnet, LinuxTag, MUDder, WinNT. Klassifizieren Sie diese Einheiten nach den Motiven, die zu diesen Bildungen f¨ uhrten. Fallen Ihnen weitere Beispiele ein? Nehmen Sie Stellung zu der Frage, ob die Rechtschreibnorm solche Formen zulassen sollte. 9 Glossar Abfragesprache Eine A. erm¨ oglicht das Suchen und Finden von Informationen in Korpora. Die gesuchten Objekte k¨ onnen einfache W¨ orter sein oder komplexe syntaktische Konstruktionen. Eine bekannte Abfragesprache ist CQP, eine weitere COSMAS, die f¨ ur die Abfrage der Korpora am Institut f¨ ur deutschen Sprache in Mannheim entwickelt wurde. Alignierung In Parallelkorpora werden die Texteinheiten der ¨ Ubersetzung den entsprechenden Texteinheiten des Quelltexts zugeordnet. Je nach Textsorte und Freiheit der ¨ Ubersetzung, kann die A. z.B. auf Paragraphenebene stattfinden, auf Satzebene (Satzalignierung), auf Wortebene (Wortalignierung) oder z.B. bei Gedichten auch auf Versebene. Annotation Unter A. versteht man die linguistische Anreicherung der Prim¨ ardaten eines Korpus. Annotationsschema Ein A. ist die systematische Beschreibung von Annotationskategorien und ihre Anwendung auf Korpusdaten. Es dient als Richtlinie (Annotationsguidelines) beim Erstellen von annotierten Korpora und nachtr¨ aglich als Dokumentation f¨ ur die Annotation der erstellten Ressourcen. Belegsammlung Eine B. ist eine Sammlung von Ausschnitten aus einem Korpus, die als Belege f¨ ur ein bestimmtes linguistisches Ph¨ anomen Gegenstand weiterer linguistischer Untersuchung sind. Generative Grammatik Als g. G. wird ein Grammatikmodell bezeichnet, nach dem durch ein begrenztes Inventar von Regeln alle wohlgeformten S¨ atze einer Sprache generiert werden k¨ onnen. Der Terminus bezeichnet außerdem die sprachwissenschaftliche Schule, in der dieses Grammatikmodell eine zentrale Rolle spielt. Index Ein Index ist eine Liste von Wortformen, die in einem Korpus vorkommen. Die Wortformen werden zu Types zusammengefasst. Meist werden zus¨ atzliche Informationen wie z.B. die absolute oder relative H¨ aufigkeit des Vorkommens oder das Lemma angegeben. Kollokation Als K. wird das wiederholte gemeinsame Vorkommen zweier W¨ orter in einer strukturell interessanten Einheit bezeichnet. In einer Kollokation beeinflusst ein Wort die Auswahl eines anderen Wortes zuungunsten von W¨ ortern mit gleicher oder ¨ ahnlicher Bedeutung Konkordanz Eine K. ist eine Sammlung von Kotexten eines bestimmten Schl¨ usselworts. Kotexte einer bestimmten L¨ ange (von Buchstaben, W¨ ortern oder S¨ atzen) um ein Schl¨ usselwort herum werden aus einem Korpus extrahiert und meist mit dem Schl¨ usselwort im Zentrum angeordnet. Konkordanzen werden vor allem bei wortbezogenen Untersuchungen verwendet. 197 Kontextualismus Als K. wird eine Richtung der Sprachwissenschaft bezeichnet, in der linguistische Einheiten immer im Kotext einer ¨ Außerung und ¨ Außerungen bzw. Texte immer im Kontext ihrer Produktion und Rezeption untersucht werden. Kontrastives Korpus Ein k. K. enth¨ alt Texte von zwei oder mehreren Sprachen, die keine ¨ Ubersetzungen voneinander sind, jedoch aus vergleichbaren Fachdom¨ anen oder Sprachvariet¨ aten stammen. K. K. werden vor allem f¨ ur sprachvergleichende linguistische oder stilistische Untersuchungen verwendet. Kookkurrenz Als K. wird das gemeinsame Vorkommen zweier oder mehrerer W¨ orter in einem Kontext von fest definierter Gr¨ oße bezeichnet. Das gemeinsame Vorkommen sollte h¨ oher sein, als bei einer Zufallsverteilung aller W¨ orter erwartbar w¨ are. Lemma Das L. ist die Grundform einer bestimmten lexikalischen Einheit und steht stellvertretend f¨ ur alle Wortformen dieser lexikalischen Einheit. Lernerkorpus In einem L. werden ¨ Außerungen von Lernern einer Sprache gesammelt. Zus¨ atzlich werden in den meisten F¨ allen zielsprachliche Normalisierungen (’Zielhypothesen‘ ) und/ oder typische Lernerfehler annotiert. L. werden in der Spracherwerbsforschung und f¨ ur die Sprachlehre verwendet. Ein L. der deutschen Sprache ist z.B. das Falko-Korpus an der Humboldt-Universit¨ at zu Berlin. Typischerweise dokumentieren L. den Fremdspracherwerb im Gegensatz zu Korpora des Erstspracherwerbs. Metadaten Als M. werden Beschreibungen der Prim¨ ardaten eines Korpus bezeichnet. M. geben z.B. Auskunft ¨ uber die Herkunft und den Umfang der Prim¨ ardaten. Monitorkorpus Ein M. wird in relativ kurzen Abst¨ anden um neue Texte erg¨ anzt, daf¨ ur werden ¨ altere Texte entfernt. Ein M. eignet sich gut f¨ ur Untersuchungen, die in kurzen Zeitabst¨ anden wiederholt werden, z.B. in der Lexikographie (Aufnahme und Beschreibung neuer W¨ orter und Wendungen). Neologismus Als N. wird eine lexikalische Einheit bezeichnet, die zum Zeitpunkt der Beschreibung von vielen Sprechern als neu empfunden wird und deren Verwendung sich so weit verbreitet, dass sie in die g¨ angigen W¨ orterb¨ ucher der Sprache aufgenommen wird. Normalisierung Die N. bezeichnet allgemein eine Vereinheitlichung von Texten. Sie betrifft unterschiedliche Ebenen: (i) Zeichen- oder Dokumentkodierung z.B. Abbildung auf UNICODE; (ii) sprachlicher Ausdruck und Form z.B. in Korpora historischer Sprachstufen, von Transkripten gesprochener Sprache oder internetbasierter Kommunikation, ebenso in Lernerkorpora. Normalisierter Text kann als zus¨ atzliche Annotationsebene vorgehalten werden oder dient als Vorverarbeitungsschritt f¨ ur weiterf¨ uhrende Analysetools wie das Wortartentagging. Operationalisierung Durch eine angemessene O. werden linguistische Ph¨ anomene auf Einheiten oder Relationen abgebildet, die in einem Korpus beobachtbar und wiederauffindbar sind. Sie ist die Grundlage f¨ ur quantitative Auswertungen von linguistischen Konzepten und die ¨ Uberpr¨ ufung von Hypothesen anhand von Korpora. Opportunistisches Korpus Ein o. K. ist ein Korpus, welches ohne vorher festgelegte Designprinzipien danach zusammengestellt wird, welche Texte gerade verf¨ ugbar sind. O. K. sind vor allem dort angemessen, wo es allein um die Menge der Daten geht, also vor allem bei quantitativen Untersuchungen. Paralleles Korpus Ein p. K. ist ein Korpus aus zwei oder mehr Sprachen. Die Korpustexte sind ¨ Ubersetzungen von einander bzw. von einer gemeinsamen Quelle. P. K. 9 Glossar 198 9 Glossar werden meist auf Absatz- oder Satzebene aligniert - die passenden (Ab-)S¨ atze werden einander zugeordnet. Parallele Korpora werden vor allem f¨ ur kontrastive linguistische Studien verwendet. Parsing Das P. bezeichnet allgemein den Prozess der syntaktischen Textanalyse. In der Psycholinguistik untersucht man das menschliche P., in der Computerlinguistik das maschinelle. Ein Parser ist ein Computerprogramm, das Texten eine syntaktische Analyse zuweist, z.B. in der Form eines Phrasenstruktur- oder Dependenzbaums. Prim¨ ardaten Als P. werden die Texte bzw. ¨ Außerungen bezeichnet, die in einem Korpus versammelt sind. Referenzkorpus Ein R. wird als Grundlage vieler linguistischer Untersuchungen verwendet. Die Ergebnisse von Untersuchungen, die auf einem R. basieren, k¨ onnen so besser nachvollzogen und verglichen werden. Ein R. sollte hinsichtlich des abgebildeten Gegenstandes einen hohen Grad der Abdeckung und strukturellen ¨ Ahnlichkeit aufweisen. Kandidaten f¨ ur ein Referenzkorpus der deutschen Gegenwartssprache sind die Korpora am Institut f¨ ur deutsche Sprache in Mannheim und an der Berlin- Brandenburgischen Akademie der Wissenschaften in Berlin. Tagging Beim T. werden den Token eines Korpus Wortartenlabel (so genannte Tags) zugeordnet. Ein Computerprogramm, das das automatisch macht, heißt Tagger. Tagset Die Liste aller (morphosyntaktischen, grammatischen oder funktionalen Label, die bei einer Annotation verwendet werden. Tokenisierung Bei der T. werden Texte in S¨ atze, und diese in Worttoken zerlegt. Ein Tokenizer ist ein Computerprogramm, das diese Zerlegung durchf¨ uhrt. Vergleichskorpus Ein V. wird zur ¨ Uberpr¨ ufung von Erkenntnissen verwendet, die auf Grund eines anderen Korpus gewonnen wurden. Durch das Hinzuziehen eines V. k¨ onnen Artefakte aufgedeckt und korrigiert werden, deren Ursache in dem f¨ ur die Untersuchung verwendeten Korpus liegt. Worttoken, Token Ein W. bezeichnet das Vorkommen eines Wortes an einer bestimmten Stelle im Korpus. Worttype, Type In einem W. werden die Token eines Korpus zusammengefasst, die nach einem festgelegten Kriterium ¨ ahnlich oder gleich sind, z.B. W¨ orter mit gleicher orthographischer Form. Literaturverzeichnis Abney, Steven (1991): “Parsing by Chunks”. In: Principle-Based Parsing, herausgegeben von Berwick, Robert; Abney, Steven und Tenny, Carol, Dordrecht: Kluwer Academic Publishers. Albert, Stefanie; Anderssen, Jan; Bader, Regine; Becker, Stephanie; Bracht, Tobias; Brants, Sabine; Brants, Thorsten; Demberg, Vera; Dipper, Stefanie; Eisenberg, Peter; Hansen, Silvia; Hirschmann, Hagen; Janitzek, Juliane; Kirstein, Carolin; Langner, Robert; Michelbacher, Lukas; Plaehn, Oliver; Preis, Cordula; Pußel, Marcus; Rower, Marco; Schrader, Bettina; Schwartz, Anne; Smith, George und Uszkoreit, Hans (2003): TIGER Annotationsschema, Manuskript. Universit¨ at des Saarlandes, Universit¨ at Stuttgart, Universit¨ at Potsdam. http: / / www.linguistics.ruhr-uni-bochum.de/ ~dipper/ papers/ tiger_annot.pdf . Allwood, Jens (2008): “Multimodal Corpora”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 207-225. Altrichter, Helmut (2001): “Retrodigitalisierung in Deutschland - Versuch einer Zwischenbilanz”. http: / / www.bsb-muenchen.de/ mdz/ forum/ altrichter/ . Artstein, Ron und Poesio, Massimo (2008): “Inter-coder agreement for computational linguistics”. Computational Linguistics 34 (4): S. 555-596. https: / / aclweb.org/ antho logy/ J/ J08/ J08-4004.pdf/ . Aston, Guy (2000): “Learning English with the British National Corpus”. In: VI jornada de corpus ling¨ u´ıstics, herausgegeben von Battaner, M.P. und L’opez, C. Barcelona, S. 15-40. http: / / www.sslmit.unibo.it/ ~guy/ barc.htm . Atkins, Sue; Clear, Jeremy und Ostler, Nick (1992): “Corpus Design Criteria”. Literary & Linguistic Computing 7 (1): S. 1-16. Augst, Gerhard (1992): “Die orthographische Integration von zusammengesetzten Anglizismen”. Sprachwissenschaft 17: S. 45-61. Augst, Gerhard u.a. (Herausgeber) (1997): Zur Neuregelung der deutschen Orthographie. T¨ ubingen. Baayen, Harald (2001): Word Frequency Distributions. Dordrecht: Kluwer. Baayen, Rolf Harald (2008): Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge University Press. http: / / www.sfs.uni-tuebingen.de/ ~hbaayen/ pub lications/ baayenCUPstats.pdf . Baroni, Marco und Bernardini, Silvia (Herausgeber) (2006): WaCky! Working papers on the web as corpus. Bologna: Gedit. Baroni, Marco; Bernardini, Silvia; Ferraresi, Adriano und Zanchetta, Eros (2009): “The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-crawled Corpora”. Language Resources and Evaluation 43 (3): S. 209-226. 200 Literaturverzeichnis Baroni, Marco und Evert, Stefan (2008): “Statistical Methods for Corpus Exploitation”. In: Corpus Linguistics. An International Handbook, herausgegeben von Anke L¨ udeling und Merja Kyt¨ o, Berlin: Mouton de Gruyter, S. 777-803. Bartsch, Sabine (2002): “Anglizismen in Fachsprachen des Deutschen. Eine Untersuchung auf Basis des Darmst¨ adter Corpus Deutscher Fachsprachen”. Muttersprache 112 (4): S. 309- 323. Bartzsch, Rudolf (2004): W¨orterbuch ¨ uberfl¨ ussiger Anglizismen. Paderborn, 6. Auflage. Baumann, Stefan und Riester, Arndt (2012): “Referential and Lexical Givenness: Semantic, Prosodic and Cognitive Aspects”. In: Prosody and meaning, herausgegeben von Elordieta, Gorka und Prieto, Pilar, Band 25, S. 119-162. Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar und Storrer, Angelika (2012): “A TEI Schema for the Representation of Computer-mediated Communication”. Journal of the Text Encoding Initiative [Online] (3). http: / / jtei.revues.org/ 476 . Beißwenger, Michael und Lemnitzer, Lothar (2013): “Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente f¨ ur die Korpora im Projekt ’Digitales W¨ orterbuch der deutschen Sprache‘ (DWDS)”. JLCL 28 (2): S. 1-22. www.jlcl.org/ 2013_Heft2/ 1BeiLem.pdf . Beißwenger, Michael und Storrer, Angelika (2011): “Digitale Sprachressourcen in Lehramtsstudieng¨ angen: Kompetenzen - Erfahrungen - Desiderate”. JLCL 26 (1): S. 119-139. http: / / www.jlcl.org/ 2011_Heft1/ 9.pdf . Bergh, Gunnar und Zanchetta, Eros (2008): “Web linguistics”. In: Corpus Linguistics. An International Handbook, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin: Mouton de Gruyter, Handb¨ ucher zur Sprache und Kommunikationswissenschaft. Volume 1, Kapitel 35, S. 309-327. Berry, Michael W.; Drmac, Z. und Jessup, E. R. (1999): “Matrices, Vector Spaces, and Information Retrieval”. SIAM Review 41: S. 335-362. Biber, Douglas (1988): Variation across speech and writing. Cambridge: Cambridge University Press. Biber, Douglas und Jones, James K. (2009): “Quantitative Methods in Corpus Linguistics”. In: Corpus linguistics: An International Handbook, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin: Mouton de Gruyter, Handb¨ ucher zur Sprache und Kommunikationswissenschaft. Volume 2, Kapitel 61, S. 1286-1304. Bick, Eckhard (2005): “Grammar for Fun: IT-based Grammar Learning with VISL”. In: CALL for the Nordic Languages, herausgegeben von Henriksen, Peter Juel. Kopenhagen, Copenhagen Studies in Language, S. 49-64. Bickerton, Derek (1984): “The language bioprogram hypothesis”. The Behavioral and Brain Sciences 7: S. 173-188. Biemann, Chris; Bildhauer, Felix; Evert, Stefan; Goldhahn, Dirk; Quasthoff, Uwe; Sch¨ afer, Roland; Simon, Johannes; Swiezinski, Leonard und Zesch, Torsten (2013): “Scalable Construction of High-Quality Web Corpora”. JLCL 28 (2): S. 23-59. www.jlcl.org/ 2013_Heft 2/ 2Biemann.pdf . Bierwisch, Manfred (1970): “Fehler-Linguistik”. Linguistic Inquiry 1: S. 397-414. Bird, Steven und Simons, Gary (2003): “Seven Dimensions of Portability for Language Documentation and Description”. Language 79: S. 557-582. Bj¨ orkelund, Anders; Eckart, Kerstin; Riester, Arndt; Schauffler, Nadja und Schweitzer, Katrin (2014): “The Extended DIRNDL Corpus as a Resource for Coreference and Bridging Re- Literaturverzeichnis 201 solution”. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). Reykjavik, Island: European Language Resources Association (EL- RA), S. 3222-3228. http: / / www.lrec-conf.org/ proceedings/ lrec2014/ pdf/ 891_Paper. pdf . Bloomfield, Leonard (1926): “A set of postulates for the science of language”. Language 2: S. 153-164. Boas, Hans C. und Sag, Ivan A. (Herausgeber) (2012): Sign-based Construction Grammar. CSLI Publications/ Center for the Study of Language and Information. B¨ ogel, Thomas; Gertz, Michael; Gius, Evelyn; Jacke, Janina; Meister, Jan Christoph; Petris, Marco und Str¨ otgen, Jannik (2015): “Gleiche Textdaten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widerspr¨ uchlicher Zug¨ ange zu Textanalyse”. In: Von Daten zu Erkenntnissen. Book of Abstracts - Vortr¨ age. Graz, S. 119 -126. http: / / gams.unigraz.at/ o: dhd2015.abstracts-vortraege . Bortz, J¨ urgen und Schuster, Christof (2010): Statistik f¨ ur Human- und Sozialwissenschaftler. Lehrbuch mit Online-Materialien. Berlin / Heidelberg / New York: Springer, 7. Auflage. Bossong, Georg (1985): Empirische Universalienforschung. Differentielle Objektmarkierung in der neuiranischen Sprachen. T¨ ubingen: Narr. Brants, Thorsten (2000): “Inter-Annotator Agreement for a German Newspaper Corpus”. In: Second International Conference on Language Resources and Evaluation (LREC-2000). Athen. http: / / www.lrec-conf.org/ proceedings/ lrec2000/ pdf/ 333.pdf . Brants, Thorsten und Plaehn, Oliver (2000): “Interactive Corpus Annotation”. In: Proceedings of the Second International Conference on Language Resources and Evaluation (LREC-2000). Athens, Greece. http: / / www.lrec-conf.org/ proceedings/ lrec2000/ pdf/ 334.pdf . Breidt, Lisa (1993): “Extraction of V-N-Collocations from Text Corpora: A Feasibility Study for German”. In: Proc. Workshop on Very Large Corpora. Academic and IndustrialPerspectives. Columbus (OH). Bresnan, Joan; Cueni, Anna; Nikitina, Tatiana und Baayen, Harald (2007): “Predicting the Dative Alternation”. In: Cognitive Foundations of Interpretation, herausgegeben von Bouma, G.; Kraemer, I. und Zwarts, J., Royal Netherlands Academy of Arts and Sciences, S. 69-94. Brill, Eric (1995): “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”. Computational Linguistics 21 (4): S. 543- 565. https: / / aclweb.org/ anthology/ J/ J95/ J95-4004.pdf . Br¨ uckner, Dominik (2012): “Google B¨ ucher aus dem Blickwinkel des Lexikographen”. Trefwoord, tijdschrift voor lexicografie 14. Bubenhofer, Noah (2001): “Einf¨ uhrung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge”. http: / / www.bubenhofer.com/ korpuslinguistik/ kurs/ . Bubenhofer, Noah (2011): “Korpuslinguistik in der linguistischen Lehre: Erfolge und Misserfolge”. JLCL 26 (1): S. 141-156. www.jlcl.org/ 2011_Heft1/ 10.pdf . Camp, D. De und Hancock, I. (1974): Pidgins and creoles: Current trends and prospects. Washington. Carstensen, Broder und Busse, Ulrich (1993): Anglizismen-W¨orterbuch. Der Einfluß des Englischen auf den deutschen Wortschatz nach 1945. Berlin / New York: de Gruyter. Carstensen, Kai Uwe; Ebert, Christian; Ebert, Cornelia; Jekat, Susanne; Klabunde, Ralf und Langer, Hagen (Herausgeber) (2010): Computerlinguistik und Sprachtechnologie. Ei- 202 Literaturverzeichnis ne Einf¨ uhrung. Elsevier, Spektrum Akademischer Verlag. 3. ¨ uberarbeitete und erweiterte Auflage. Chafe, Wallace (1992): “The importance of corpus linguistics to understanding the nature of language”. In: Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, herausgegeben von Svartvik, Jan, Berlin / New York: Mouton de Gruyter, Band 65 von Trends in Linguistics. Studies and Monographs, S. 79-97. Chomsky, Noam (1957): Syntactic Structures. Den Haag: Mouton. Chomsky, Noam (1969): Aspekte der Syntax-Theorie. Frankfurt: Suhrkamp Verlag. Chomsky, Noam (1981): Lectures on Government and Binding. Dordrecht: Foris. Chomsky, Noam (1986): Knowledge of Language. Convergence. New York / Westport / London: Praeger. Christ, Oliver und Schulze, B. Maximilian (1995): “Ein flexibles und modulares Anfragesystem f¨ ur Textcorpora”. In: Tagungsbericht des Arbeitstreffen Lexikon + Text. T¨ ubingen: Niemeyer. Claridge, Claudia (2008): “Historical Corpora”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 242-259. Clear, Jeremy (1992): “Corpus Sampling”. In: New Directions in English Language Corpora. Methodology, Results, Software Development, herausgegeben von Leitner, Gerhard, Berlin / New York: Narr, S. 21-31. Cramer, Irene und Sabine Schulte im Walde im Auftrag des Instituts f¨ ur Deutsche Sprache, Mannheim (Herausgeber) (2006): Studienbibliographie Computerlinguistik und Sprachtechnologie. Studienbibliographien Sprachwissenschaft. T¨ ubingen: Stauffenburg Verlag Brigitte Narr GmbH. http: / / www.coli.uni-saarland.de/ projects/ stud-bib/ . Davies, Mark (2011): “The Corpus of Contemporary American English (COCA) and Google / Web as Corpus”. http: / / view.byu.edu/ coca/ compare-google.asp . den Besten, Hans und Edmondson, Jerold A. (1983): “The Verbal Complex in Continental West Germanic”. In: On the Formal Syntax of the Westgermania, herausgegeben von Abraham, Werner, Amsterdam / Philadelphia: John Benjamins, S. 155-216. Dern, Christa (2003): “”Unh¨ oflichkeit ist es nicht.“ Sprachliche H¨ oflichkeit in Erpresserbriefen”. Deutsche Sprache 31 (2): S. 127-141. Diemer, Stefan (2011): “Corpus linguistics with google? ” In: Proceedings of the ISLE 2011 Conference. Boston/ Ma. Dipper, Stefanie (2005): “XML-based Stand-off Representation and Exploitation of Multi- Level Linguistic Annotation.” In: Proceedings der Berliner XML Tage 2005 (BXML 2005). Berlin, S. 39-50. Dipper, Stefanie (2008): “Theory-driven and corpus-driven computational linguistics, and the use of corpora”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 68-96. Dipper, Stefanie (2011): “Digitale Korpora in der Lehre - Anwendungsbeispiele aus der Theoretischen Linguistik und der Computerlinguistik”. JLCL 26 (1): S. 81-95. www.jlcl.org / 2011_Heft1/ 7.pdf . Dipper, Stefanie; Donhauser, Karin; Klein, Thomas; Linde, Sonja; M¨ uller, Stefan und Wegera, Klaus-Peter (2013): “HiTS: ein Tagset f¨ ur historische Sprachstufen des Deutschen”. JLCL 28 (1): S. 85-137. www.jlcl.org/ 2013_Heft1/ 5Dipper.pdf . Dittmann, J¨ urgen und Zitzke, Christine (2000): “Zur Schreibung fremdsprachlicher Komposita im Wirtschaftsdeutsch. Sprachgebrauch und neue Regelung”. Zeitschrift f¨ ur ange- Literaturverzeichnis 203 wandte Linguistik 33: S. 45-68. http: / / userpages.uni-koblenz.de/ ~diekmann/ zfal/ zfa larchiv/ zfal33_3.pdf . Dodd, Bill (2000): Working with German corpora. Birmingham: Birmingham University Press. Doering, Nicola (2002): “’Kurzm. wird gesendet‘ Abk¨ urzungen und Akronyme in der SMS- Kommunikation”. Muttersprache 112 (2): S. 97-114. Draxler, Christoph (Herausgeber) (2008): Korpusbasierte Sprachverarbeitung. Eine Einf¨ uhrung. narr Studienb¨ ucher. T¨ ubingen: Gunter Narr. D¨ urscheid, Christa (2000a): “Rechtschreibung in elektronischen Texten”. Muttersprache 110 (1): S. 53-62. D¨ urscheid, Christa (2000b): “Verschriftlichungstendenzen jenseits der Rechtschreibreform”. Zeitschrift f¨ ur germanistische Linguistik 28: S. 223-236. Ehrich, Veronika (2001): “Was nicht m¨ ussen und nicht k¨ onnen (nicht) bedeuten k¨ onnen: Zum Skopus der Negation bei den Modalverben des Deutschen”. Linguistische Berichte Sonderheft 9. Eisenberg, Peter (2013): “Anglizismen im Deutschen”. In: Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache, herausgegeben von f¨ ur Sprache und Dichtung, Deutsche Akademie und der deutschen Akademien der Wissenschaften, Union, Berlin: De Gruyter, S. 57-119. Elsen, Hilke (2002): “Neologismen in der Jugendsprache”. Muttersprache 112 (2): S. 136- 154. Elsen, Hilke (2004): Neologismen. Formen und Funktionen neuer W¨orter in verschiedenen Variet¨ aten des Deutschen. T¨ ubingen: Narr. Elsen, Hilke und Dzikowicz, Edyta (2005): “Neologismen in der Zeitungssprache”. Deutsch als Fremdsprache 42 (2): S. 80-85. Engelberg, Stefan und Lemnitzer, Lothar (Herausgeber) (2001): Lexikographie und W¨orterbuchbenutzung, Band 14 von Einf¨ uhrungen. T¨ ubingen: Stauffenburg. Engelberg, Stefan und Lemnitzer, Lothar (Herausgeber) (2009): Lexikographie und W¨orterbuchbenutzung, Band 14 von Einf¨ uhrungen. T¨ ubingen: Stauffenburg, 4. Auflage. Engfer, Hans-J¨ urgen (1996): Empirismus vs. Rationalismus? Kritik eines philosophiegeschichtlichen Schemas. Paderborn: Ferdinand Sch¨ oningh Verlag. Erk, Katrin; Kowalski, Andrea und Pinkal, Manfred (2003): “A Corpus Resource for Lexical Semantics”. In: Proceedings of the Fifth International Workshop on Computational Semantics (IWCS). Tilburg. Eroms, Hans-Werner und Munske, Horst Haider (Herausgeber) (1997): Die Rechtschreibreform. Pro und Kontra. Berlin. Evert, Stefan (2004): “An on-line repository of association measures”. http: / / www.collocat ions.cd/ AM . Evert, Stefan (2006): “How random is a corpus? The library metaphor”. Zeitschrift f¨ ur Anglistik und Amerikanistik 54 (2): S. 177-190. http: / / www.zaa.uni-tuebingen.de/ wp-content/ uploads/ 2006-02-Evert.pdf . Evert, Stefan und L¨ udeling, Anke (2001): “Measuring morphological productivity: Is automatic preprocessing sufficient? ” In: Proceedings of the Corpus Linguistics 2001 conference, herausgegeben von Rayson, Paul; Wilson, Andrew; McEnery, Tony; Hardie, Andrew und Khoja, Shereen. S. 167-175. 204 Literaturverzeichnis Evert, Stefan und das OCWB Development Team (2010): The CQP Query Language Tutorial (CWB version 3.0). Manual. http: / / cwb.sourceforge.net/ files/ CQP_Tutorial/ Fabricius-Hansen, Cathrine; Gallman, Peter; Eisenberg, Peter; Fieler, Reinhard und Peters, J¨ org (Herausgeber) (2009): Duden 4. Die Grammatik. Mannheim: Verlag Bibliographisches Institut, 8. Auflage. Fanselow, Gisbert (1987): Konfigurationalit¨ at. T¨ ubingen: Narr. Featherston, Sam (2007): “Data in generative grammar: the stick and the carrot”. Theoretical Linguistics 33: S. 269-318. Featherston, Sam (2009): “Relax, lean back, and be a linguist”. Zeitschrift f¨ ur Sprachwissenschaft 28 (1): S. 127-132. Feine, Angelika (2003): “Fußballitis, Handyritis, Cham¨ aleonistis. ’-itis‘ -Kombinationen in der deutschen Gegenwartssprache”. Sprachwissenschaft 28: S. 437-466. Fellbaum, Christiane (2002): “VP idioms in the Lexicon: Topics for Research Using a Very Large Corpus”. In: Konvens 2002 - 6. Konferenz zur Verarbeitung nat¨ urlicher Sprache. DFKI, Saarbr¨ ucken. Fellbaum, Christiane; Kramer, Undine und Stantcheva, Diana (2004): “Eins, einen und etwas in deutschen VP-Idiomen”. In: Wortverbindungen - mehr oder weniger fest, herausgegeben von Steyer, Kathrin, Berlin / New York: De Gruyter, S. 167-193. http: / / konvens2002.df ki.de/ cd/ pdf/ fellbaum.pdf . Fillmore, Charles J. (1968): “The Case for Case”. In: Universals in Linguistic Theory, herausgegeben von Bach, Emmon und Harms, Robert T., Holt, Rinehart and Winston, Inc. Fillmore, Charles (1992): “’Corpus linguistics‘ or ’computer-aided armchair linguistics‘ ”. In: Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, herausgegeben von Svartvik, Jan, Berlin / New York: Mouton de Gruyter, Band 65 von Trends in Linguistics. Studies and Monographs, S. 35-60. Firth, John Rupert (1968a): “Descriptive Linguistics and the Study of English”. In: Selected papers of J.R. Firth 1952-1959, herausgegeben von Palmer, F.R., London: Longmans, S. 96-113. Firth, John Rupert (1968b): “A synopsis of Linguistic Theory”. In: Selected papers of J.R. Firth 1952-1959, herausgegeben von Palmer, F.R., London: Longmans, S. 168-205. Firth, John Rupert (1991): “Personality and Language in Society”. In: Papers in Linguistics 1934-1951, herausgegeben von Firth, John Rupert, London, S. 177-189. Fischer, Rudolf-Josef (2005): Genuszuordnung. Theorie und Praxis am Beispiel des Deutschen. Frankfurt: Peter Lang. Fitschen, Arne (2004): Ein computerlinguistisches Lexikon als komplexes System, Dissertation, Universit¨ a Stuttgart, Stuttgart. Ver¨ offentlicht als AIMS, Vol 10, No. 3. Foth, Kilian A. (2006): Eine umfassende Constraint-Dependenz-Grammatik des Deutschen. Manual. Hamburg: Fachbereich Informatik. http: / / edoc.sub.uni-hamburg.de/ informatik/ volltexte/ 2014/ 204/ . Foth, Kilian A.; K¨ ohn, Arne; Beuck, Niels und Menzel, Wolfgang (2014): “Because size does matter: The Hamburg Dependency Treebank”. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). Reykjavik, Island: European Language Resources Association (ELRA), S. 2326-2333. http: / / www.lrec-conf.org/ pro ceedings/ lrec2014/ pdf/ 860_Paper.pdf . Francis, Gill (1993): “A Corpus-Driven Approach to Grammar - Prinicples, Methods and Examples”. In: Text and Technology. In Honour of John Sinclair, herausgegeben von Baker, Literaturverzeichnis 205 Mona; Francis, Gill und Tognini-Bonelli, Elena, Philadelphia / Amsterdam: John Benjamins, S. 137-156. Frank, Anette (2001): “Treebank Conversion for LTAG Grammar Extraction”. presented at: Third Workshop on Linguistically Interpreted Corpora (LINC’01). Gadamer, Hans-Georg (2010): Gesammelte Werke: Hermeneutik: Wahrheit und Methode.-1. Grundz¨ uge einer philosophischen Hermeneutik. Bd. 1. T¨ ubingen: Mohr Siebeck. Garrapa, Luigia (2011): Vowel Elision in Florentine Italian. Nummer 50 in Europ¨ aische Hochschulschriften. Bern u.a.: Peter Lang. Gee, James Paul und Grosjean, Franc ¸ois (1983): “Performance Structures: A Psycholinguistic and Linguistic Appraisal”. Cognitive Psychology 15: S. 411-458. Geyken, Alexander (2007): “The DWDS corpus: a reference corpus for the German language of the twentieth century”. In: Idioms and Collocations. Corpus-based Linguistic and Lexicographic Studies, herausgegeben von Fellbaum, Christiane, continuum, S. 23-40. Geyken, Alexander (2011): “Die dynamische Verkn¨ upfung von Kollokationen mit Korpusbelegen und deren Repr¨ asentation im DWDS-W¨ orterbuch”. OPAL - Online publizierte Arbeiten zur Linguistik (2): S. 9-22. Geyken, Alexander (2013): “Wege zu einem historischen Referenzkorpus des Deutschen: das Projekt Deutsches Textarchiv”. In: Perspektiven einer corpusbasierten historischen Linguistik und Philologie. Internationale Tagung des Akademienvorhabens Alt¨ agyptisches W¨orterbuch an der Berlin-Brandenburgischen Akademie der Wissenschaften, herausgegeben von Hafemann, Ingelore. Berlin: Berlin-Brandenburgische Akademie der Wissenschaften, S. 221- 234. urn: nbn: de: kobv: b4-opus-24424 . Geyken, Alexander; Haaf, Susanne; Jurish, Bryan; Schulz, Matthias; Thomas, Christian und Wiegand, Frank (2012a): “TEI und Textkorpora: Fehlerklassifikation und Qualit¨ atskontrolle vor, w¨ ahrend und nach der Texterfassung im Deutschen Textarchiv”. Jahrbuch f¨ ur Computerphilologie - online. www.computerphilologie.de/ jg09/ geykenetal.pdf . Geyken, Alexander; Haaf, Susanne und Wiegand, Frank (2012b): “The dta base format: A tei-subset for the compilation of interoperable corpora”. In: 11th Conference on Natural Language Processing (KONVENS) - Empirical Methods in Natural Language Processing, herausgegeben von Jancsary, Jeremy. Wien, S. 383-391. Geyken, Alexander und Lemnitzer, Lothar (2012): “Using Google Books Unigrams to Improve the Update of Large Monolingual Reference Dictionaries ”. In: Proceedings of EU- RALEX 2012. Oslo, S. 362-366. ww.euralex.org/ elx_proceedings/ Euralex2012/ pp362- 366%20Geyken%20and%20Lemnitzer.pdf . Ghadessy, Mohsen; Henry, Alex und Roseberry, Robert L. (2001): Small Corpus Studies in ELT. Studies in Corpus Linguistics. Amsterdam / Philadelphia: John Benjamins. Grabilovich, E. und Markovitch, S. (2007): “Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis”. In: Proceedings of The 20th International Joint Conference on Artificial Intelligence (IJCAI). Hyderabad, Indien. http: / / www.aaai.o rg/ Papers/ IJCAI/ 2007/ IJCAI07-259.pdf . Greenbaum, Sidney (1970): Verb-Intensifier collocations in English - an experimental approach. Nummer 86 in Janua Linguarum, Series minor. Den Haag: Mouton. Greenberg, Joseph (1963): “Some Universals of Grammar with Particular Reference to the Order of Meaningful Elements”. In: Unversals of Language, herausgegeben von Greenberg, Joseph, MIT Press, S. 73-113. 206 Literaturverzeichnis Greene, B. B. und Rubin, G. M. (1971): “Automatic grammatical tagging of English”. Technischer Bericht, Department of Linguistics, Brown University. Grewendorf, G¨ unther (1995): “Syntactic Sketches. German”. In: Syntax. Ein internationales Handbuch zeitgen¨ossicher Forschung, herausgegeben von Jacobs, Joachim; von Stechow, Arnim; Sternefeld, Wolfgang und Vennemann, Theo, Berlin / New York: De Gruyter, S. 1288-1319. Gries, Stefan Th. (2008): “Dispersion and adjusted frequencies in corpora”. International Journal of Corpus Linguistics 13 (4): S. 403-437. Gupta, Piklu (2000): “German be-verbs revisited: using corpus evidence to investigate valency”. In: Working with German corpora, herausgegeben von Dodd, Bill, Birmingham: Birmingham University Press, S. 96-115. Haaf, Susanne; Wiegand, Frank und Geyken, Alexander (2013): “Measuring the Correctness of Double-Keying: Error Classification and Quality Control in a Large Corpus of TEI- Annotated Historical Text.” Journal of the TEI - online 4. https: / / jtei.revues.org/ 739 . Haase, Martin; Huber, Michael; Krumeich, Alexander und Rehm, Georg (1997): “Internetkommunikation und Sprachwandel”. In: Sprachwandel durch Computer, herausgegeben von Weingarten, R¨ udiger, Opladen, S. 51-85. Haider, Hubert (1985): “The case of German”. In: Studies in German grammar, herausgegeben von Toman, Jindˇrich, Dordrecht: Foris, S. 65-101. Halliday, M.A.K. (1992): “Language as system and language as instance: The corpus as a theoretical construct”. In: Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, herausgegeben von Svartvik, Jan, Berlin / New York: Mouton de Gruyter, Band 65 von Trends in Linguistics. Studies and Monographs, S. 61-77. Harris, Randy Allen (1995): The linguistics wars. Oxford: Oxford Univ. Press. Harris, Zellig S. (1951): Methods in Structural Linguistics. Chicago: University of Chicago Press. Neuaufgelegt als Structural Linguistics, 1960. Hausmann, Franz Josef (1985): “Kollokationen im deutschen W¨ orterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels”. In: Lexikographie und Grammatik. Akten des Essener Kolloquiums zur Grammatik im W¨orterbuch, 28.-30.6 1984, herausgegeben von Bergenholtz, Henning und Mugdan, Joachim, T¨ ubingen: Niemeyer, S. 118-129. Hausmann, Franz Josef (2004): “Was sind eigentlich Kollokationen? ” In: Wortverbindungen mehr oder weniger fest. Jahrbuch 2003 des Instituts f¨ ur deutsche Sprache, herausgegeben von Steyer, Kathrin, Berlin / New York, S. 309-334. Helbig, Gerhard (1994): Lexikon deutscher Partikeln. Leipzig: Langenscheidt. Herberg, Dieter; Kinne, Michael und Steffens, Doris (2004): Neuer Wortschatz. Neologismen der 90er Jahre im Deutschen. Berlin: De Gruyter. Hinrichs, Erhard; K¨ ubler, Sandra; Naumann, Karin; Telljohann, Heike und Trushkina, Julia (2004): “Recent Developments in Linguistic Annotations of the T¨ uBa-D/ Z Treebank”. In: Proceedings of the 3rd Workshop on Treebanks and Linguistic Theories (TLT). Hirschmann, Hagen (2015): Modifikatoren im Deutschen. Ihre Klassifizierung und variet¨ atenspezifische Verwendung. Nummer 86 in Studien zur deutschen Grammatik. T¨ ubingen: Stauffenburg. Hjelmslev, Louis (1974): Prolegomena zu einer Sprachtheorie, Band 9 von Linguistische Reihe. M¨ unchen: Hueber. Hockett, Charles F. (1964): “Sound Change”. Language 41: S. 185-204. Literaturverzeichnis 207 H¨ ohle, Tilmann N. (1986): “Der Begriff ‘Mittelfeld’. Anmerkungen ¨ uber die Theorie der topologischen Felder”. In: Akten des Vii.Internationalen Germanisten-Kongresses G¨ottingen 1985, T¨ ubingen: Niemeyer, Band 3, S. 329-340. Hovy, Eduard; Marcus, Mitchell; Palmer, Martha; Ramshaw, Lance und Weischedel, Ralph (2006): “OntoNotes: The 90% Solution”. In: Proceedings of the Human Language Technology Conference of the NAACL, Companion Volume: Short Papers. New York City, USA: Association for Computational Linguistics, S. 57-60. http: / / www.aclweb.org/ anthology/ N09- 4006 . Hundt, Marianne; Nesselhauf, Nadja und Biewer, Carolin (2007): Corpus Linguistics and the Web. Amsterdam / New York: Rodopi. Hundt, Markus (2006): “Deutschsprachige Einf¨ uhrung in die Korpuslinguistik. Rezension zu Lothar Lemnitzer / Heike Zinsmeister, Korpuslinguistik. Eine Einf¨ uhrung. T¨ ubingen: Narr 2006”. Sprachreport 4: S. 19-22. Hunston, Susan (2008): “Collection strategies and design decisions”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 154-168. Ide, Nancy und Suderman, Keith (2007): “GrAF: A graph-based format for linguistic annotations”. In: Proceedings of the Linguistic Annotation Workshop. Prague, Czech Republic: Association for Computational Linguistics, S. 1-8. www.aclweb.org/ anthology/ W07-1501 . Ivanova, Kremena; Heid, Ulrich; Schulte im Walde, Sabine; Kilgarriff, Adam und Pomik´ alek, Jan (2008): “Evaluating a German Sketch Grammar: A Case Study on Noun Phrase Case”. In: Proceedings of the 6th International Conference on Language Resources and Evaluation. Marrakech, Morocco, S. 2101-2107. http: / / www.lrec-conf.org/ proceedings/ lrec2008/ pdf/ 537_paper.pdf . Jackendoff, Ray S. (1977): X Syntax: A Study of Phrase Structure. Cambridge: Massachusetts, London: England: The MIT Press. Johnson, Keith (2008): Quantitative Methods in Linguistics. Oxford: Blackwell Publishing. Jones, Randall L. (2000): “A corpus-based study of German accusative/ dative prepositions”. In: Working with German corpora, herausgegeben von Dodd, Bill, Birmingham: Birmingham University Press, S. 116-142. Jurafsky, Daniel S. und Martin, James H. (2000): Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, NJ: Prentice Hall. Jurafsky, Daniel S. und Martin, James H. (2008): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Auflage. Jurish, Bryan (2013): “Canonicalizing the Deutsches Textarchiv”. In: Perspektiven einer corpusbasierten historischen Linguistik und Philologie. Internationale Tagung des Akademienvorhabens Alt¨ agyptisches W¨orterbuch an der Berlin-Brandenburgischen Akademie der Wissenschaften, herausgegeben von Hafemann, Ingelore. Berlin: Berlin-Brandenburgische Akademie der Wissenschaften, S. 235-244. urn: nbn: de: kobv: b4-opus-24433 . Jurish, Bryan; Thomas, Christian und Wiegand, Frank (2014): “Querying the Deutsches Textarchiv”. In: Proceedings of the Workshop MindTheGap 2014: Beyond Single-Shot Text Queries: Bridging the Gap(s) between Research Communities, herausgegeben von Kruschwitz, U.; Hopfgartner, F. und Gurrin, C. Berlin, S. 25-30. http: / / ceur-ws.org/ Vol- 1131/ mindthegap14_7.pdf . 208 Literaturverzeichnis Jurish, Bryan und W¨ urzner, Kay-Michael (2013): “Word and Sentence Tokenization with Hidden Markov Models”. JLCL 28 (2): S. 61-83. www.jlcl.org/ 2013_Heft2/ 3Jurish.pdf . Kamp, Hans und Reyle, Uwe (1993): From Discourse to Logic: Introduction to Modeltheoretic Semantics of Natural Language, Formal Logic and Discourse Representation Theory. Dordrecht: Kluwer Academic Publishers. Karlsson, Fred (1990): “Constraint grammar as a framework for parsing running text”. In: Papers presented to the 13th International Conference on Computational Linguistics, herausgegeben von Karlgren, Hans. Helsinki, Band 3, S. 168-173. Karlsson, Fred (2008): “Early generative linguistics and empirical methodology”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 14-32. Keil, Martina (1997): Wort f¨ ur Wort: Repr¨ asentation und Verarbeitung verbaler Phraseologismen (Phraseo-Lex). Nummer 35 in Sprache und Information. T¨ ubingen: Niemeyer. Kenny, Dorothy (2000): “Translators at play: exploitations of collocational norms in German- English translation”. In: Working with German corpora, herausgegeben von Dodd, Bill, Birmingham: Birmingham University Press, S. 143-160. Kepser, Stefan und Reis, Marga (2008): Linguistic Evidence. Empirical, Theoretical and Computational Perspectives. Berlin / Boston: De Gruyter Mouton. Kermes, Hannah (2003): Off-line (and On-line) Text Analysis for Computational Lexicography. Dissertation, Universit¨ a Stuttgart, Stuttgart. Ver¨ offentlicht als AIMS, Vol 9, No. 3. Kert´esz, Andr´ as und R´ akosi, Csilla (2012): Data and Evidence in Linguistics. A Plausible Argumentation Model. Cambridge: CUP. Kilgarriff, Adam (2007): “Googleology is Bad Science”. Computational Linguistics 33 (1): S. 147-151. https: / / aclweb.org/ anthology/ J/ J07/ J07-1010.pdf . Kilgarriff, Adam und Grefenstette, Gregory (2003): “Introduction to the special issue on the web as corpus”. Computational Linguistics 29 (3): S. 333-347. https: / / aclweb.org/ ant hology/ J/ J03/ J03-3001.pdf . Kilgarriff, Adam; Rychly, Pavel; Smrz, Pavel und Tugwell, David (2004): “The Sketch Engine”. In: Proceedings of EURALEX 2004. Lorient, S. 105-116. https: / / aclweb.org/ anthology/ J/ J03/ J03-3001.pdf . Kiss, Tibor (2011): “Bedingungen f¨ ur den Wegfall eines Artikels: Distribution und Interpretation von Pr¨ aposition-Nomen-Kombinationen”. In: Sprachliches Wissen zwischen Lexikon und Grammatik (= Jahrbuch des Instituts f¨ ur deutsche Sprache), herausgegeben von Engelberg, Stefan; Holler, Anke und Proost, Kristel, Berlin / New York: Walter de Gruyter, S. 251-283. Kiss, Tibor; M¨ uller, Antje; Roch, Claudia; Stadtfeld, Tobias; B¨ orner, Katharina und Duzy, Monika (2014): “Ein Handbuch f¨ ur die Bestimmung und Annotation von Pr¨ apositionsbedeutungen im Deutschen”. Bochumer Linguistische Arbeitsberichte 14. http: / / www.lingui stics.ruhr-uni-bochum.de/ bla/ 014-kiss_etal2014.pdf . Klenk, Ursula (2003): Generative Syntax. narr studienb¨ ucher. T¨ ubingen: Narr. Klosa, Annette (2003): “gegen-Verben - ein neues Wortbildungsmuster”. Sprachwissenschaft 28: S. 467-494. Kniffka, Gabriele (1996): NP-Aufspaltung im Deutschen. K¨ olner linguistische Arbeiten - Germanistik; 31. H¨ urth: Gabel. Literaturverzeichnis 209 Koch, Peter und Oesterreicher, Wulf (1994): “Schriftlichkeit und Sprache”. In: Schrift und Schriftlichkeit, herausgegeben von G¨ unther, H. und Ludwig, O., Berlin / New York: De Gruyter, Band 1 von Handb¨ ucher f¨ ur Sprach- und Kommunikationswissenschaft, S. 587-604. K¨ onig, Ekkehard; Stark, Detlef und Requardt, Susanne (Herausgeber) (1990): Adverbien und Partikeln: ein deutsch-englisches W¨orterbuch. Heidelberg: Groos. Krasselt, Julia; Bollmann, Marcel; Dipper, Stefanie und Petran, Florian (2015): “Guidelines f¨ ur die Normalisierung historischer deutscher Texte / Guidelines for Normalizing Historical German Texts”. Bochumer Linguistische Arbeitsberichte 15. www.linguistics.ruhruni-bochum.de/ bla/ 015-krasselt_etal2015.pdf . K¨ ubler, Sandra und Zinsmeister, Heike (2015): Corpus Linguistics and Linguistically Annotated Corpora. Bloomsbury Publishing. Kuˇcera, Henry und Francis, Nelson W. (1967): Computational Analysis of Present-day American English. Providence: Brown University Press. Labov, William (1975): What is a Linguistic Fact? Lisse: The Peter de Ridder Press. Landauer, T. K. und Dumais, S. T. (1997): “A Solution to Plato’s Problem. The Latent Semantic Analysis theory of the acquisition, induction and representation of knowledge”. Psychological Review 104 (2): S. 211-240. Landauer, T. K.; Foltz, P. W. und Laham, D. (1998): “Introduction to Latent Semantic Analysis”. Discourse Processes 25: S. 259-284. Langer, Hagen (2010): “Syntax und Parsing”. In: Computerlinguistik und Sprachtechnologie. Eine Einf¨ uhrung, herausgegeben von Carstensen, Kai-Uwe; Ebert, Christian; Ebert, Cornelia; Jekat, Susanne; Klabunde, Ralf und Langer, Hagen, Spektrum Akademischer Verlag, S. 280-329. 3. Auflage. Langner, Helmut (2001): “Zum Wortschatz der Sachgruppe Internet”. Muttersprache 111 (2): S. 97-109. Larson-Hall, Jenifer (2010): A Guide to Doing Statistics in Second Language Research using SPSS. New York / London: Routledge. Leech, Geoffrey (1992): “Corpora and theories of linguistic performance”. In: Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, herausgegeben von Svartvik, Jan, Berlin / New York: Mouton de Gruyter, Band 65 von Trends in Linguistics. Studies and Monographs, S. 105-122. Leech, Geoffrey (1997): “Introducing Corpus Annotation”. In: Corpus Annotation. Linguistic Information from Computer Text Corpora, herausgegeben von Garside, Roger; Leech, Geoffrey und McEnery, Tony, London / New York: Longman, S. 1-18. Leech, Geoffrey und Wilson, Andrew (1996): “EAGLES. Recommendations for the Morphosyntactic Annotation of Corpora”. Technischer Bericht, Expert Advisory Group on Language Engineering Standards. EAGLES Document EAG-TCWG-MAC/ R. www.ilc.cnr.it / EAGLES/ annotate/ annotate.html . Lehmberg, Timm; Rehm, Georg; Witt, Andreas und Zimmermann, Felix (2008): “Digital text collections, linguistic research data, and mashups: Notes on the legal situation”. Library Trends 57 (1): S. 52-71. Lehr, Andrea (1996): Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze, Band 168 von RGL. T¨ ubingen: Niemeyer. Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. T¨ ubingen: Niemeyer. 210 Literaturverzeichnis Lemnitzer, Lothar (2001): “Wann kommt er denn nun wohl endlich zur Sache? Modalpartikel-Kombinationen. Eine korpusbasierte Untersuchung”. In: Sprache im Alltag. Beitr¨ age zu neuen Perspektiven in der Linguistik, herausgegeben von et al., Andrea Lehr, Berlin / New York, S. 349-371. Lemnitzer, Lothar (2013): “Making sense of nonce words ”. In: Nye Ord, herausgegeben von Andersen, Margrethe Heidemann und Jensen, Joergen Noerby, Kopenhagen, S. 7-18. Lemnitzer, Lothar und Geyken, Alexander (2014): “Extraktion lexikographischer Informationen aus Textkorpora”. In: Internetlexikographie, herausgegeben von Klosa, Annette, Berlin: De Gruyter. Lemnitzer, Lothar und Naumann, Karin (2001): “”Auf Wiederlesen ! “ - das schriftlich verfaßte Unterrichtsgespr¨ ach in der computervermittelten Kommunikation. Bericht von einem virtuellen Seminar”. In: Chat-Kommunikation. Sprache, Interaktion, Sozialit¨ at & Identit¨ at in synchroner computervermittelter Kommunikation. Perspektiven auf ein interdisziplin¨ ares Forschungsfeld, herausgegeben von Beißwenger, Michael, Stuttgart: ibidem, S. 469-491. Leuninger, Helen (1996): Reden ist Schweigen, Silber ist Gold. Gesammelte Versprecher. M¨ unchen: dtv. Levin, Beth (1993): English Verb Classes and Alternations. Chicago: The University of Chicago Press. Lezius, Wolfgang (2002): Ein Suchwerkzeug f¨ ur syntaktisch annotierte Textkorpora. Dissertation, Universit¨ at Stuttgart, Stuttgart. Ver¨ offentlicht als AIMS, Vol 8, No. 4. http: / / www.wolfganglezius.de/ lib/ exe/ fetch.php? media=cl: disslezius.pdf . Lichte, Timm (2005): “Corpus-based Acquisition of Complex Negative Polarity Items”. In: Proceedings of the Tenth ESSLLI Student Session. Edinburgh. Lin, Yuri; Michel, Jean-Baptiste; Aiden, Erez Lieberman; Orwant, Jon; Brockman, Will und Petrov, Slav (2012): “Syntactic Annotations for the Google Books NGram Corpus”. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, herausgegeben von for Computational Linguistics, Association. Jeju, S. 169-174. https: / / aclweb.org/ anthology/ P/ P12/ P12-3029.pdf . Lobin, Henning (2000): Informationsmodellierung in XML und SGML. Berlin: Springer. L¨ udeling, Anke und Evert, Stefan (2003): “Linguistic experience and productivity: Corpus evidence for fine-grained distinctions”. In: Proceedings of the Corpus Linguistics 2003 conference, herausgegeben von Archer, Dawn; Rayson, Paul; Wilson, Andrew und McEnery, Tony. S. 475-483. L¨ udeling, Anke und Evert, Stefan (2004): “The emergence of productive non-medical -itis: Corpus evidence and qualitative analysis”. In: Proceedings of the First International Conference on Linguistic Evidence. L¨ udeling, Anke; Evert, Stefan und Heid, Ulrich (2000): “On Measuring Morphological Productivity”. In: KONVENS-2000 - Sprachkommunikation, herausgegeben von Schukat- Talamazzini, Ernst G. und Z¨ uhlke, Werner. S. 215-220. L¨ udeling, Anke und Kyt¨ o, Merja (Herausgeber) (2008): Corpus Linguistics. An International Handbook. Volume 1. Handb¨ ucher zur Sprach- und Kommunikationswissenschaft. Berlin: De Gruyter. L¨ udeling, Anke und Kyt¨ o, Merja (Herausgeber) (2009): Corpus Linguistics. An International Handbook. Volume 2. Handb¨ ucher zur Sprach- und Kommunikationswissenschaft. Berlin: De Gruyter. Literaturverzeichnis 211 L¨ udeling, Anke; Poschenrieder, Thorwald und Faulstich, Lukas C. (2005a): “DeutschDiachronDigital - ein diachrones Korpus des Deutschen”. In: Jahrbuch f¨ ur Computerphilologie 2004, herausgegeben von Georg Braungart, Peter Gendolla, Fotis Jannidis. mentis Verlag. http: / / www.informatik.hu-berlin.de/ Forschung_Lehre/ wbi/ publications/ 2005/ ddd-computerphilologie.pdf . L¨ udeling, Anke und Walter, Maik (2010): “Korpuslinguistik”. In: Handbuch Deutsch als Fremd- und Zweitsprache, herausgegeben von Krumm, Hans-J¨ urgen; Fandrych, Christian; Hufeisen, Britta und Riemer, Claudia. Berlin: Mouton de Gruyter. L¨ udeling, Anke; Walter, Maik; Kroymann, Emil und Adolphs, Peter (2005b): “Multi-Level Error Annotation in Learner Corpora”. In: Proceedings of the Corpus Linguistics 2005. Birmingham. Maden-Weinberger, Ursula (2008): “Modality as Indicator of L2 Proficiency? A corpus-based investigation into advanced German interlanguage”. In: Fortgeschrittene Lernervariet¨ aten und Zweitspracherwerbsforschung, herausgegeben von Walter, Maik und Grommes, Patrick, Berlin: De Gruyter, S. 141-164. Mahlberg, Michaela und Brook O’Donnell, Matthew (2010): Terms in Corpus Linguistics. London: continuum. Mann, William C. und Thompson, Sandra A. (1988): “Rhetorical Structure Theory: Toward a functional theory of text organization”. Text 8 (3): S. 243-281. Manning, Christopher D. und Sch¨ utze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge (Mass.) and London: The M.I.T. Press. Marcus, Mitchell; Kim, Grace; Marcinkiewicz, Mary Ann; MacIntyre, Robert; Bies, Ann; Ferguson, Mark; Katz, Karen und Schasberger, Britta (1994): “The Penn treebank: Annotating predicate argument structure”. In: ARPA Human Language Technology Workshop. Marcus, Mitchell P.; Santorini, Beatrice und Marcinkiewicz, Mary Ann (1993): “Building a large annotated corpus of English: the Penn Treebank”. Computational Linguistics 19: S. 313-330. https: / / aclweb.org/ anthology/ J/ J93/ J93-2004.pdf . McEnery, Tony und Hardie, Andrew (2012): Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. McEnery, Tony und Wilson, Andrew (1996): Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh: Edinburgh University Press. McEnery, Tony und Wilson, Andrew (2001): Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh: Edinburgh University Press, 2. Auflage. McEnery, Tony; Xiao, Richard und Tono, Yukio (2006): Corpus-Based Language Studies. An advanced resource book. Routledge Applied Linguistics. London: Routledge. Meindl, Claudia (2011): Methodik f¨ ur Linguisten: eine Einf¨ uhrung in Statistik und Versuchsplanung. T¨ ubingen: Narr. Meurers, W. Detmar (2005): “On the use of electronic corpora for theoretical linguistics. Case studies from the syntax of German”. Lingua 115: S. 1619-1639. Meurers, W. Detmar und M¨ uller, Stefan (2008): “Corpora and Syntax”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin: De Gruyter, S. 920-933. Meyer, Markus (2009): “Sprachliche Wohlgeformtheit eine kritische Bestandsaufnahme”. Zeitschrift f¨ ur Sprachwissenschaft 28 (1): S. 141-150. 212 Literaturverzeichnis Mindt, Dieter (1996): “English corpus linguistics and the foreign language teaching syllabus”. In: Using corpora for language research. Studies in the honour of Geoffrey Leech, herausgegeben von Thomas, Jenny und Short, Mick, London: Longman, S. 232-248. Mitkov, Ruslan; Evans, Richard; Orasan, Constantin; Barbu, Catalina; Jones, Lisa und Sotirova, Violeta (2000): “Coreference and Anaphora: Developing Annotating Tools, Annotated Resources and Annotation Strategies”. In: Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC 2000). Lancaster. Moellering, Martina (2004): The Acquisition of German Modal Particles. A Corpus-based Approach, Band 10 von Linguistic Insights. Studies in Language and Communication. Bern: Peter Lang. Mukherjee, Joybrato (2002): Korpuslinguistik und Englischunterricht: eine Einf¨ uhrung, Band 14 von Sprache im Kontext. Frankfurt: Peter Lang. Mukherjee, Joybrato (2009): Anglistische Korpuslinguistik: Eine Einf¨ uhrung. Grundlagen der Anglistik und Amerikanistik 33. Berlin: Erich Schmidt. M¨ uller, Antje (2013): Spatiale Bedeutungen deutscher Pr¨ apositionen. Bedeutungsdifferenzierung und Annotation. Dissertation, Bochum. Ver¨ offentlicht als Bochumer Linguistische Arbeitsberichte (BLA) 11. http: / / www.linguistics.ruhr-uni-bochum.de/ bla/ 011mueller2013.pdf M¨ uller, Frank H. (2004): Stylebook for the T¨ ubingen Partially Parsed Corpus of Written German (T¨ uPP-D/ Z). Universit¨ at T¨ ubingen. http: / / www.sfs.uni-tuebingen.de/ tupp/ doc/ styleb ook.pdf . M¨ uller, Stefan (2003): “Mehrfache Vorfeldbesetzung”. Deutsche Sprache 31 (1): S. 29-62. http: / / hpsg.fu-berlin.de/ ~stefan/ PS/ vorfeld-ds2003.pdf . M¨ uller, Stefan (2005): “Zur Analyse der scheinbar mehrfachen Vorfeldbesetzung”. Linguistische Berichte 203: S. 297-330. https: / / hpsg.fu-berlin.de/ ~stefan/ Pub/ mehr-vf-lb .html . Naumann, Karin (2005): Manual for the Annotation of in-document Referential Relations. Universit¨ at T¨ ubingen. http: / / www.sfs.uni-tuebingen.de/ fileadmin/ static/ ascl/ resourc es/ tuebadz-coreference-manual-2007.pdf . Nederstigt, Ulrike (2003): Auch and noch in child and adult German, Band 23 von Studies in Language Acquisition. Berlin / New York: Mouton de Gruyter. Nesselhauf, Nadja (2004): “Learner Corpora and their Potential for Language Teaching”. In: How to Use Corpora in Language Teaching, herausgegeben von Sinclair, John, Amsterdam: John Benjamins, S. 125-152. Nivre, Joakim (2008): “Treebanks”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 225-241. N¨ ubling, Damaris und Szczepaniak, Renata (2011): “Merkmal(s? )analyse, Seminar(s? )arbeit und Essen(s? )ausgabe: Zweifelsf¨ alle der Verfugung als Indikatoren f¨ ur Sprachwandel ”. Zeitschrift f¨ ur Sprachwissenschaft 30: S. 45-73. http: / / tinyurl.com/ oh72ky3 . Oakes, Michael P. (1998): Statistics for Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh: Edinburgh University Press. Ooi, Vincent B.Y. (1998): Computer Corpus Lexicography. Edinburgh: Edinburgh University Press. Ossner, Jakob und Zinsmeister, Heike (2014): Sprachwissenschaft f¸r das Lehramt. Paderborn: Ferdinand Sch¨ oningh. Literaturverzeichnis 213 Palmer, Martha; Gildea, Dan und Kingsbury, Paul (2005): “The Proposition Bank: A Corpus Annotated with Semantic Roles”. Computational Linguistics 31 (1). https: / / aclweb.org / anthology/ J/ J05/ J05-1004.pdf . Paprott´e, Wolf (1992): “Korpuslinguistik - R¨ uckkehr zum Strukturalismus oder Erneuerung der Computerlinguistik? ” LDV-Forum 9.2: S. 3-14. Paprott´e, Wolf (1994): “Theorie und Empirie in der Linguistik: Neue Wege der Korpuslinguistik”. In: Satz - Text - Diskurs. Akten des 27. Linguistischen Kolloquiums, M¨ unster 1992, herausgegeben von Beckmann, Susanne und Frilling, Sabine. T¨ ubingen: Niemeyer, Band 2, S. 19-26. Perkuhn, Rainer; Keibel, Holger und Kupietz, Marc (2012): Korpuslinguistik. Paderborn: Wilhelm Fink. Peschel, Corinna (2002): Zum Zusammenhang von Wortneubildung und Textkonstitution, Band 237 von RGL. T¨ ubingen: Niemeyer. Pittner, Karin (1999): Adverbiale im Deutschen. Untersuchungen zu ihrer Stellung und Interpretation. Studien zur deutschen Grammatik 60. T¨ ubingen: Stauffenburg. Pittner, Karin und Berman, Judith (2013): Deutsche Syntax. Ein Arbeitsbuch. Narr Studienb¨ ucher. T¨ ubingen: Narr, 5. Auflage. Poesio, Massimo (2004): “Coreference”. MATE Dialogue Annotation Guidelines-Deliverable 2.1, S. 126-182. http: / / www.andreasmengel.de/ pubs/ mdag.pdf . Poesio, Massimo und Vieira, Renata (1998): “A Corpus-based Investigation of Definite Description Use”. Computational Linguistics 24 (2): S. 183-216. https: / / aclweb.org/ antho logy/ J/ J98/ J98-2001.pdf . Poethe, Hannelore (2000): “Wortbildung und Orthographie”. Muttersprache 110 (1): S. 37- 51. Prince, Ellen F. (1981): “Toward a taxonomy of given-new information”. In: Radical Pragmatics, herausgegeben von Cole, Peter, New York: Academic Press, S. 223-255. Prince, Ellen F. (1992): “The ZPG Letter: Subjects, Definiteness, and Information-status”. In: Discourse Description: Diverse Analyses of a Fund Raising Text, herausgegeben von Mann, William C. und Sandra A. Thompson, Amsterdam / Philadelphia: John Benjamins Publishing Company, S. 295-325. Pullum, Geoffrey K. (1991): The Great Eskimo Vocabulary Hoax and Other Irreverent Essays on the Study of Language. Chicago: The University of Chicago Press. Pullum, Geoffrey K. (2003): “Corpus fetishism”. Language Log, 16. Nov. 2003. http: / / itre .cis.upenn.edu/ ~myl/ languagelog/ archives/ 000122.html . Pusch, Luise (1984): “Sie sah zu ihm auf wie zu einem Gott. Das Duden- Bedeutungsw¨ orterbuch als Trivialroman”. In: Das Deutsche als M¨ annersprache, herausgegeben von Pusch, Luise, Frankfurt/ M.: Suhrkamp, S. 135-144. Pustejovsky, James und Stubbs, Amber (2012): Natural Language Annotation for Machine Learning. O’Reilly Media, Inc. Quasthoff, Uwe (Herausgeber) (2007): Deutsches Neologismenw¨orterbuch. Neue W¨orter und Wortbedeutungen in der Gegenwartssprache. Berlin: De Gruyter. Rehbein, Ines (2010): “Der Einfluss der Dependenzgrammatik auf die Computerlinguistik”. Zeitschrift f¨ ur Germanistische Linguistik (ZGL) 38 (2): S. 224-248. Reznicek, Marc; L¨ udeling, Anke und Hirschmann, Hagen (2013): “Competing target hypotheses in the Falko Corpus: A flexible multi-layer corpus architecture”. In: Automatic Treat- 214 Literaturverzeichnis ment and Analysis of Learner Corpus Data, herausgegeben von D´ıaz-Negrillo, Ana; Ballier, Nicolas und Thompson, Paul, Amsterdam: John Benjamins, S. 101-123. Reznicek, Marc; L¨ udeling, Anke; Krummes, Cedric; Schwantuschke, Franziska; Walter, Maik; Schmidt, Karin; Hirschmann, Hagen und Andreas, Torsten Andreas (2012): Das Falko-Handbuch. Korpusaufbau und Annotationen. Humboldt-Universit¨ at zu Berlin, 2. Auflage. https: / / www.linguistik.hu-berlin.de/ de/ institut/ professuren/ korpusli nguistik/ forschung/ falko/ . Reznicek, Marc und Zinsmeister, Heike (2013): “STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten”. JLCL 28 (1): S. 63-83. http: / / www.jlcl.org/ 2013_Heft1/ 4Re znicek.pdf . Riehemann, Susanne (1993): “Word Formation in Lexical Type Hierarchies - A Case Study of bar-Adjectives in German”. SfS Report 2-93, Seminar f¨ ur Sprachwissenschaft, Eberhard- Karls-Universit¨ at T¨ ubingen. Ruge, Nikolaus (2004): “Das Suffixoid ’-technisch‘ in der Wortbildung der deutschen Gegenwartssprache”. Muttersprache 114 (1): S. 29-41. Runkehl, Jens; Schlobinski, Peter und Siever, Torsten (1998): “Sprache und Kommunikation im Internet”. https: / / www.mediensprache.net/ de/ literatur/ show.aspx? id=2 . Ruppenhofer, Josef; Ellsworth, Michael; Petruck, Miriam RL; Johnson, Christopher R und Scheffczyk, Jan (2006): “FrameNet II: Extended theory and practice”. Technischer Bericht, International Computer Science Institute, Berkeley, CA. http: / / framenet2.icsi.berkele y.edu/ docs/ r1.5/ book.pdf . Sampson, Geoffrey (1996): “From central embedding to corpus linguistics”. In: Using corpora for language research. Studies in the honour of Geoffrey Leech, herausgegeben von Thomas, Jenny und Short, Mick, London: Longman, S. 14-26. Sampson, Geoffrey (2003): “Thoughts of Two Decades of Drawing Trees”. In: Treebanks. Building and Using Parsed Corpora, herausgegeben von Abeill´e, Anne, Kluwer Academic Publisher, S. 23-41. Sampson, Geoffrey und McCarthy, Diana (2004): Corpus Linguistics: Readings in a Widening Discipline. Open Linguistics Series. Continuum. Sarasin, Philipp (2012): “Sozialgeschichte vs. Foucault im Google Books NGram Viewer. Ein alter Streitfall in einem neuen Tool”. In: Wozu noch Sozialgeschichte? Eine Disziplin im Umbruch, herausgegeben von Maeder, Pascal; L¨ uthi, Barbara und Mergel, Tomas, G¨ ottingen: Vandenhoek und Ruprecht, S. 151-174. Sasaki, Felix und Witt, Andreas (2004): “Linguistische Korpora”. In: Texttechnologie - Perspektiven und Anwendungen, herausgegeben von Lobin, Henning und Lemnitzer, Lothar, T¨ ubingen: Stauffenburg, S. 13-49. Mit einem Exkurs von Eva Anna Lenz. Sasano, Ryohei; Kawahara, Daisuke und Kurahashi, Sadaho (2009): “The Effect of Corpus Size on Case Frame Acquisition for Discourse Analysis”. In: Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL. Boulder/ Colorado, S. 521-529. https: / / aclweb.org/ anthology/ N/ N09/ N09-1059.pdf . Schade, Ulrich; Barattelli, Stefan; Lingnau, Beate; Hadelich, Kerstin und Dipper, Stefanie (2003): “Relativsatzproduktion”. Linguistische Berichte 193: S. 33-53. Scherer, Carmen (2005): Wortbildungswandel und Produktivit¨ at. Eine empirische Studie zur nominalen -er-Derivation im Deutschen. T¨ ubingen: Niemeyer. Schiller, Anne; Teufel, Simone; St¨ ockert, Christine und Thielen, Christine (1999): “Guidelines f¨ ur das Tagging deutscher Textcorpora mit STTS”. Technischer Bericht, Institut f¨ ur ma- Literaturverzeichnis 215 schinelle Sprachverarbeitung, Stuttgart. http: / / www.ims.uni-stuttgart.de/ forschung/ r essourcen/ lexika/ TagSets/ stts-1999.pdf . Schmid, Helmut (1995): “Improvements in part-of-speech tagging with an application to German”. In: Proceedings of the ACL SIGDAT-Workshop. Schmid, Helmut (2008): “Tokenizing and Part-of-Speech Tagging”. In: Corpus Linguistics. An International Handbook. Volume 1, herausgegeben von L¨ udeling, Anke und Kyt¨ o, Merja, Berlin, S. 527-551. Schmid, Helmut und Laws, Florian (2008): “Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-grained POS Tagging”. In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK, S. 777-784. https: / / aclweb.org/ anthology/ C/ C08/ C08-1098.pdf . Schmidt, Ingrid (2004): “Modellierung von Metadaten”. In: Texttechnologie - Perspektiven und Anwendungen, herausgegeben von Lobin, Henning und Lemnitzer, Lothar, T¨ ubingen: Stauffenburg, S. 143-164. Schmidt, Thomas (2005): “Modellbildung und Modellierungsparadigmen in der computergest¨ utzten Korpuslinguistik”. In: Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen. Beitr¨ age zur GLDV-Tagung 2005 in Bonn, herausgegeben von Fisseni, Bernhard; Schmitz, Hans-Christian; Schr¨ oder, Bernhard und Wagner, Petra. Frankfurt/ M.: Peter Lang, S. 290-301. Schmidt, Thomas und W¨ orner, Kai (2012): Multilingual Corpora and Multilingual Corpus Analysis, Band 14 von Hamburg Studies in Multilingualism. Amsterdam: John Benjamins. Scholze-Stubenrecht, Werner (2002): “’Die Auswahl der Eintr¨ age ist ¨ außerst beliebig.‘ Warum Jagdherr und Pok´emon nicht im Duden stehen”. Sprachwissenschaft 27: S. 225-248. Schulte im Walde, Sabine (2003): Experiments on the Automatic Induction of German Semantic Verb Classes. Dissertation, Universit¨ at Stuttgart. Published as AIMS Report 9(2). http: / / www.schulteimwalde.de/ research/ phd.html Schulte im Walde, Sabine und M¨ uller, Stefan (2013): “Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge”. JLCL 28 (2): S. 85-105. http: / / www.jlcl.o rg/ 2013_Heft2/ 4siw-mueller.pdf . Schwitalla, Johannes (2002): “Kleine Botschaften. Telegramm- und SMS-Texte”. Osnabr¨ ucker Beitr¨ age zur Sprachtheorie (64): S. 33-56. Sharoff, Serge (2006): “Creating general-purpose corpora using automated search engine queries”. In: WaCky! Working papers on the web as corpus, herausgegeben von Baroni, Marco und Bernardini, Silvia, Bologna: Gedit. Corpora und Abfrage: http: / / corpus.lee ds.ac.uk/ internet.html . Silverman, Kim; Beckman, Mary; Pitrelli, John; Ostendorf, Mari; Wightman, Colin; Price, Patti; Pierrehumbert, Janet und Hirschberg, Julia (1992): “TOBI: a standard for labeling English prosody.” In: The Second International Conference on Spoken Language Processing, ICSLP 1992, Banff, Alberta, Canada, October 13-16, 1992. http: / / www.isca-speech.org/ a rchive/ icslp_1992/ i92_0867.html . Simov, Kiril und Osenova, Petya (2003): “Practical Annotation Scheme for an HPSG Treebank of Bulgarian”. In: Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-2003). Budapest, S. 17-24. https: / / aclweb.org/ anthology/ W/ W03/ W03- 2403.pdf . 216 Literaturverzeichnis Sinclair, John (Herausgeber) (1987): Looking up: An account of the COBUILD project in lexical computing and the development of the Collins COBUILD English language dictionary. London. Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Sinclair, John (1996): “EAGLES Preliminary recommendations on Corpus Typology”. http: / / www.ilc.cnr.it/ EAGLES/ corpustyp/ corpustyp.html . Starke, G¨ unter (1993): “Droht uns eine Bindestrich-Inflation? ” Muttersprache 103: S. 50-60. Stede, Manfred (2004): “The Potsdam Commentary Corpus”. In: Proceeding of the ACL- 04 Workshop on Discourse Annotation. Barcelona. https: / / aclweb.org/ anthology/ W/ W04/ W04-0213.pdf . Stede, Manfred (2007): Korpusgest¨ utzte Textanalyse. Grundz¨ uge der Ebenen-orientierten Textlinguistik. narr Studienb¨ ucher. T¨ ubingen: Gunter Narr. Steffens, Doris und al Wadi, Doris (2013): Neuer Wortschatz. Neologismen im Deutschen 2001- 2010. 2 B¨ ande. Berlin: De Gruyter. Storrer, Angelika (2000): “Schriftverkehr auf der Datenautobahn: Besonderheiten der schriftlichen Kommunikation im Internet”. In: Neue Medien im Alltag: Begriffsbestimmungen eines interdisziplin¨ aren Forschungsfeldes, herausgegeben von Voß, Gerd-G¨ unter; Holly, W. und Boehnke, K., Opladen, S. 151-176. Storrer, Angelika (2001): “Getippte Gespr¨ ache oder dialogische Texte? Zur kommunikativen Einordnung der Chat-Kommunikation”. In: Sprache im Alltag. Beitr¨ age zu neuen Perspektiven in der Linguistik, herausgegeben von et al., Andrea Lehr, Berlin / New York, S. 439-465. Storrer, Angelika (2006a): “Funktionen von nominalisierungsverbgef¨ ugen im text. eine korpusbasierte fallstudie”. In: Von der Intentionalit¨ at zur Bedeutung konventionalisierter Zeichen. Festschrift f¨ ur Gisela Harras zum 65. Geburtstag, herausgegeben von Prost, Kristel und Winkler, Edeltraud, T¨ ubingen: Narr, S. 147-178. Storrer, Angelika (2006b): “Zum Status der nominalen Komponente in Nominalisierungsverbgef¨ ugen”. In: Grammatische Untersuchungen. Analysen und Reflexionen, herausgegeben von Breindl, Eva; Gunkel, Lutz und Strecker, Bruno, T¨ ubingen: Narr, S. 275-295. Strube, Michael und Hahn, Udo (1999): “Functional Centering - Grounding Referential Coherence in Information Structures”. Computational Linguistics 25: S. 309-344. https: / / aclweb.org/ anthology/ J/ J99/ J99-3001.pdf . Stubbs, Michael (1996): Text and corpus analysis: Computer-assisted studies of language and culture, Band 23 von Language in society. Oxford: Blackwell. Svartvik, Jan (Herausgeber) (1992): Directions in corpus linguistics: Proceedings of Nobel symposium 82, Stockholm, 4 - 8 August 1991, Band 65 von Trends in Linguistics: Studies and Monographs. Berlin / New York: Mouton de Gruyter. Telljohann, Heike; Hinrichs, Erhard W. und K¨ ubler, Sandra (2004): “The t¨ uba-d/ z treebank: Annotating german with a context-free backbone”. In: Proceedings of the Fourth International Conference on Language Resources and Evaluation. Lissabon. Telljohann, Heike; Hinrichs, Erhard W. K¨ ubler, Sandra; Zinsmeister, Heike und Beck, Kathrin (2012): Stylebook for the T¨ ubingen Treebank of Written German (T¨ uBa-D/ Z). Seminar f¨ ur Sprachwissenschaft, Universit¨ at T¨ ubingen. http: / / www.sfs.uni-tuebingen.de/ filea dmin/ static/ ascl/ resources/ tuebadz-stylebook-1201.pdf . Tesni`ere, Lucien (1959): ´ Elem´ents de syntaxe structurale. Paris: Klincksieck. Literaturverzeichnis 217 Thomas Bartz, Michael Beißwenger, Angelika Storrer (2013): “Optimierung des Stuttgart- T¨ ubingen-Tagset f¨ ur die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Ph¨ anomene, Herausforderungen, Erweiterungsvorschl¨ age”. JLCL 28 (1): S. 157-198. http: / / www.jlcl.org/ 2013_Heft1/ 7Bartz.pdf . Thurmair, Maria (1989): Modalpartikeln und ihre Kombinationen, Band 223 von Linguistische Arbeiten. T¨ ubingen: Niemeyer. Tognini-Bonelli, Elena (2001): Corpus Linguistics at Work, Band 6 von Studies in Corpus Linguistics. Amsterdam: Benjamins. Tom´ aˇsikov´ a, Slavom´ıra (2008): “Okkasionalismen in den deutschen Medien”. In: Medi´ a a text II, herausgegeben von Boˇc´ ak, Michal und Rusn´ ak, Juraj, Preˇsove, S. 246-256. Ueberwasser, Simone (2013): “Non-standard data in Swiss text messages with a special focus on dialectal forms”. In: Non-Standard Data Sources in Corpus-Based Research, herausgegeben von Zampieri, Marcos und Diwersy, Sascha, Aachen: Shaker Verlag, S. 7-24. Ule, Tylman und Hinrichs, Erhard (2004): “Linguistische Annotation”. In: Texttechnologie - Perspektiven und Anwendungen, herausgegeben von Lobin, Henning und Lemnitzer, Lothar, T¨ ubingen: Stauffenburg, S. 217-343. Uszkoreit, Hans; Brants, Thorsten; Duchier, Denys; Krenn, Brigitte; Konieczny, Lars; Oepen, Stephan und Skut, Wojciech (1998): “Studien zur performanzorientierten Linguistik. Aspekte der Relativsatzextraposition im Deutschen”. CLAUS Report 99, Universit¨ at des Saarlandes. ww.osgk.ac.at/ ~brigitte.krenn/ papers/ rel_satz_springer98.pdf . Volk, Martin (1995): Einsatz einer Testsatzsammlung im Grammar Engineering, Band 30 von Sprache und Information. T¨ ubingen: Niemeyer. Wagner, Andreas und Zeisler, Bettina (2004): “A syntactically annotated corpus of Tibetan”. In: Proceedings of LREC 2004. Lissabon, S. 1141-1144. http: / / www.lrec-conf.org/ proce edings/ lrec2004/ pdf/ 293.pdf . Walter, Maik (in Vorbereitung): Der Gebrauch von Konnektoren in fortgeschrittenen Lernervariet¨ aten: Eine korpusbasierte Analyse. Dissertation, Humboldt-Universit¨ at, Berlin. Weber, Heinz J. (1997): Dependenzgrammatik. Ein interaktives Arbeitsbuch. narr studienb¨ ucher. T¨ ubingen: Gunter Narr, 2. Auflage. Wermter, Joachim und Hahn, Udo (2004): “Collocation Extraction Based on Modifiability Statistics”. In: COLING’04 - Proceedings of the 20th International Conference on Computational Linguistics, Geneva, Switzerland. Genf. https: / / aclweb.org/ anthology/ C/ C04/ C04- 1141.pdf . Weydt, Harald (Herausgeber) (1979): Die Partikeln der deutschen Sprache. Berlin: De Gruyter. Weydt, Harald (1983): Partikeln und Interaktion. RGL. T¨ ubingen: Niemeyer. Widdows, Dominic (2004): Geometry and Meaning. Stanford: CSLI publications. Wiegand, Herbert Ernst (1998): W¨orterbuchforschung. Untersuchungen zur Theorie, Geschichte, Kritik und Automatisierung der Lexikographie, 1. Teilband. Berlin / New York: Mouton de Gruyter. Wittgenstein, Ludwig (1967): Philosophische Untersuchungen. Frankfurt/ M.: Suhrkamp. Yang, Dan-Hee; Lee, Ik-Hwan und Cantos, Pascual (2002): “On the Corpus Size Needed for Compiling a Comprehensive Computational Lexicon by Automatic Lexical Acquisition”. Computers and the Humanities 36: S. 171-190. 218 Literaturverzeichnis Zeldes, Amir (erscheint): “The Case for Caseless Prepositional Constructions with voller in German”. In: Constructional Approaches to Syntactic Structures in German, herausgegeben von Boas, Hans C. und Ziem, Alexander, Berlin: De Gruyter. Zeldes, Amir; Zipser, Florian und Neumann, Arne (2013): “PAULA XML documentation”. Forschungsbericht. 2013, 38 Seiten. < hal-00783716 > http: / / hal.inria.fr/ hal-00783716/ . Zinsmeister, Heike (2011): “Chancen und Probleme der Nutzung von Korpora, Taggern und anderen Sprachressourcen in Seminaren”. JLCL 26 (1): S. 67-79. http: / / media.dwds.d e/ jlcl/ 2011_Heft1/ 6.pdf . Zinsmeister, Heike (2015): “Chancen und Grenzen von automatischer Annotation”. Maschinelle Textanalyse, Themenheft der Zeitschrift f¨ ur Germanistische Linguistik (ZGL) 43 (1): S. 84-111. Zinsmeister, Heike und Breckle, Margit (2012): “The ALeSKo learner corpus: design - annotation - quantitative analyses”. In: Multilingual Corpora and Multilingual Corpus Analysis, herausgegeben von Schmidt, Thomas und W¨ orner, Kai, Amsterdam: John Benjamins, Hamburg Studies in Multilingualism, S. 71-96. Zinsmeister, Heike und Heid, Ulrich (2003): “Significant Triples: Adjective+Noun+Verb Combinations”. In: Proceedings of Complex. http: / / citeseerx.ist.psu.edu/ viewdoc/ do wnload? doi=10.1.1.404.4254&rep=rep1&type=pdf . Index Die fettgedruckten Ziffern weisen auf Textstellen hin, an denen der Indexterm definiert wird. Abbild eines Textes 43 Abfolge lineare 96 Abfragesprache 196 Ableitung 162 Abt¨ onungspartikel 182 Adjektiv 113 Adverb 182 ¨ Außerung 22 Kontext 31 nicht-wohlgeformte 29 wohlgeformte 23, 29 Affix 161 Affixoid 161 Akkusativ 191 Akzeptabilit¨ at 25 Akzeptabilit¨ atsurteil 184 ALeSKo-Korpus 117, 121 Alignierung 138, 143, 196 Alternativhypothese 116 Ambiguit¨ at 58 strukturelle 59 systematische 66 American National Corpus 139 Analyse qualitative 193 quantitative 193 Anapher 82 Anfrage unterspezifizierte 91, 93 Anglizismenw¨ orterbuch 175 Anglizismus 174 ANNIS 91, 95, 111 Annotate (Tool) 60, 80 Annotation 13, 43, 196 automatisch 60, 65 Eigennamen 81 kollaborative 105 Lesarten 81 linguistische 39 manuell 60 morphosyntaktische 63 pragmatische 82 semantische 81 syntaktische 71 Annotationsebenen 61 Annotationsqualit¨ at 60, 104 Annotationsschema 63, 87, 101, 196 Annotationstools 105, 107 Annotationszyklus 103 Annotator 60 Anselm-Korpus 86 AntConc 94 Antezedens 82 AntPConc 94 Antwortpartikel 182, 186 Aphasiekorpus 144, 146 Arborator 105 Archiv f¨ ur gesprochenes Deutsch 143, 144, 147 Argument 163 Argumentvererbung 163 Assoziationsmaß 179 Atomic 105 Auspr¨ agung 117 Ausreißer 126, 127 Aussprache von Anglizismen 175 Backslash 93 Basis 178 Baumbank 71 Bayerisches Archiv f¨ ur Sprachsignale 144, 147 Beispiel konstruiertes 184 Belegsammlung 41, 196 Beobachtung 11 Berkeley-Parser 106 Berlin-Brandenburgische Akademie der Wissenschaften 147 Beziehung paradigmatische 33 syntagmatische 33 Bibliothek digitale 40 Bindestrich 158 Bindestrichschreibung 175, 176 Binnengroßschreibung 159 BitPar-Parser 106 Bonner Fr¨ uhneuhochdeutsch- Korpus 142 Boxplot 126 Bracketing Format siehe Klammerstruktur 220 Index brat 105 Brill-Tagger 187 British National Corpus 27, 63, 64, 66, 139, 145 Brown Corpus 40, 70, 139, 145 C4-Korpus 143 CATMA 106 CES 47, 101 Chat 159 Chat-Korpus 143, 146 Chatprotokoll 40 Chi-Quadrat-Test 133 CHILDES 143, 147 Chunk 75 Chunking 76, 94 CLARIN 95, 106, 136, 147 Component Metadata Infrastructure (CMDI) 47 Computer-Mediated Communication siehe Internetbasierte Kommunikation Computerlexikon 183 Computerlinguistik 15 Corpora List 147 Corpus Christianorum 40 Corpus Encoding Standard siehe CES Corpus Iuris Canonici 40 Corpus Iuris Civilis 40 Corpus Query Processor siehe CQP Corpus Workbench 91, 94 CorpusEye 90 COSMAS 90, 147, 166 CQP 94, 96 Crawling 153 CWB siehe Corpus Workbench Daten bibliographische 48 Datenabdeckung 29 Dativ 191 DECOW-Korpus 142 Deduktion 21 Dependens 73 Dependenzanalyse 73 Dependenzannotation 76 Dependenzen 73 Dependenzstruktur 72 DeReKo 140 Designkriterien 138 Deutsches Textarchiv 149 Digital Humanities 104, 106 Dirndl-Korpus 83, 84, 143-145 Diskursstruktur 85 Distribution 64 Distributionsklasse 184 Dominanz 96 DTA-Basisformat 150 Dublin Core 46 Dublin Core Metadata Element Set 46 Durchschnitt siehe arithmetisches Mittel DWDS 193 DWDS-Kernkorpus 49, 90, 107, 139, 142, 144, 162, 167, 177 E-Mail 159 EAGLES 47, 101 Editiertag 87 Eigennamen 67 Eigensprache 14 Empirismus 19 Entscheidungsbaum 67 Ereignis sprachliches 14 Erstspracherwerb 185 Europarl 94 Europarl-Korpus 137, 142 European Language Resources Association (ELRA) 147 Evaluierung 188 EXMARaLDA 105 Experiment 26 Expert Advisory Group on Language Engineering Standards siehe EAGLES Extensible Markup Language siehe XML Falko-Korpus 86, 111, 142, 143, 190 Falsifikation 21 Flexionsmorphologie 67 Flexiv 161 Fokus 84 Fokuspartikel 186 Formulieren von Suchanfragen 96 Frame 81 Frankfurter Rundschau- Korpus 137 Fremdsprachunterricht 15 Fremdsprachvermittlung 191 Fremdw¨ orterbuch 176 Fremdworthaftigkeit 159 Frequenzverteilung 162 Fugenelement 161 Funktion gespr¨ achssteuernde 182 grammatische 59 funktionale Analyse 73 Funktionalit¨ at 138 GATE 105 Gebrauch attributiver 163 pr¨ adikativer 163 Gebrauchstheorie der Bedeutung 32 Gegenprobe 51 Gelegenheitsbildung 162, 172 Genus 175 Gesetzesaussage 21 Getrenntschreibung 159, 175, 176 Goldstandard 70, 188 Google 155 Gradpartikel 182, 185 GRAF 101 Grammatik 11, 25, 27, 28 generative 12, 20, 22, 30, 34, 37, 196 Grammatikalit¨ at 25, 31 Grammatiktestumgebung 41 grammatisch 24 grammatische Funktion 73 Index 221 Großschreibung 176 Grundgesamtheit 48 Grundgrammatik 28 Guidelines siehe Annotationsschema Habitualit¨ at 31 H¨ aufigkeit relative 35, 129 Hamburg Dependency Treebank 76 Handbuchkorpora 142 Head-Driven Phrase Structure Grammar siehe HPSG Header CES 47 HPSG 162, 166 HPSG-Lexikon 163 Huge German Corpus 188 Hypnotic-Korpus 143 Hypothese 11, 116, 130 idiomatische Wendung 171, 180, 191 IDS-Korpora 144, 145, 193 Index 196 Induktion 21 Infinitivpartikel 182 Infix 161 Informationsobjekt 45 Informationsstatus 83, 114 Informationsstruktur 115, 148 Informationsverteilung 43 Institut f¨ ur Deutsche Sprache 147 Inter-Annotatoren- ¨ Ubereinstimmung 61, 188 Interjektionspartikel 182 Interlanguage 86 Internetbasierte Kommunikation 151, 159 Interoperabilit¨ at 151 Interoperabilit¨ ate 46 Interquartilsabstand 126 INTERSECT-Korpus 143 ISO-Space 101 ISOcat Registry 101 Kant-Korpus 145 Kante 71 kreuzende 79, 80 sekund¨ are 72, 79 kappa-Maß 61 Kategorie syntaktische 73 linguistische 58 Keyword in Context siehe Konkordanz Klammerstruktur 88 Kleinschreibung 176 Knoten nicht-terminaler 72 pr¨ aterminaler 72 terminaler 72 Wurzel 71 Kobalt-Korpus 121 Kodierung 48 KoKo-Korpus 86 Kolligation 31, 32 Kollokation 19, 31, 94, 171, 179, 196 Kollokator 178 Kombinationspr¨ aferenz 185 Kommunikation computervermittelte 85, 159 internetbasierte 159 Kompetenz 23 Kompositum 162 Konfix 160 Konjugation 175 Konjunktion 182 Konkordanz 91, 95, 171, 196 Konstituente 72 Konstituentenstruktur 72 Konstituententests 72 Kontext 30, 31, 190 Kontextualismus 30, 32, 34, 37, 178, 197 und Korpuslinguistik 32 Kontrollkorpus 141 Kookkurrenz 19, 179, 197 Koreferenzannotation 82 Korpus 13, 39 ausgewogenes 49 bilinguales 138 diachrones 139 geschriebene Sprache 139 gesprochene Sprache 139 kontrastives 197 linguistisches 39 monolinguales 138 multilinguales 138 multimediales 13 multimodales 13, 139 opportunistisches 141, 197 paralleles 198 statisches 140 Typologie 137 virtuelles 50 Korpusdaten authentische 18 Korpuslinguistik 14 Kotext 31, 171, 190 Kovorkommen 19 Kreolsprache 26 Kriterien externe 50 interne 50 KWIC-Format siehe Keyword in Context latent-semantische Analyse 34, 36 latent-semantische Indexierung 36 Laudatio-Repositorium 148 Lemma 67, 197 Lernerkorpus 86, 121, 142, 197 Lernerw¨ orterbuch 171 Lesart 58, 81 Lexikographie 15 Lexikologie 183 LIMAS-Korpus 144, 145 Linguist List 148 Linguistic Data Consortium 148 Linguistik korpusbasierte 34 korpusgest¨ utzte 22, 34, 37 Lufthansa-Korpus 145 MATE-Parser 106 222 Index Maximum 126 Mediaevum 143 Median 126 Mehrwortlexem 62 Merkmal semantisches 184 Meta-Metadaten 45 Metadaten 13, 39, 43, 44, 192, 197 Metazeichen 93 Minimum 126 Mittel arithmetisches 123, 126 Mittelhochdeutsch-Korpus 142 Mittelwert siehe arithmetisches Mittel Modalpartikel 182 Monitorkorpus 140, 197 Multifunktionalit¨ at 138 Multilingual Soccer Corpus 144 Mustersuche 91 n-Gramm 35, 155 Negationspartikel 182 Negative Polarit¨ atelemente 169 Neologismenlexikographie aktuelle 172 retrospektive 172 Neologismus 172, 197 Neubedeutung 172 Neulexem 172 NGram-Viewer 156 Nominalphrase 58, 60 Norm 158 Normalisieren 129 Normalisierung 85, 197 NPI 188 Nullhypothese 116 Oberfl¨ achenstruktur 20 Objekt 21 Okkasionalismus siehe Gelegenheitsbildung OLiA 101 Online-Abfrage 90 OntoNotes-Korpus 81, 82 Operationalisierung 96, 113-115, 130, 197 Optical Character Recognition 150, 155 Opus 90 OPUS-Korpora 143 Parallelkorpus 138, 143 Parsing 198 Part-of-Speech Tagging 63, 68 Partial Parsing 76 Partikelfunktion 190 PAULA 101 Penn Treebank 81 Annotation 74 Performanz 23 Phrase endozentrisch 74 exozentrisch 74 syntaktische 59 Plausibilit¨ at 52 Pluralbildung 175 Portmanteau-Tag 66 POS Tagging siehe Part-of- Speech Tagging Potsdam Commentary Corpus 84, 144, 145 PP-Attachment 59 Pr¨ afix 161 Pr¨ aposition 182, 191 Pr¨ apositionalerg¨ anzung 191 Pr¨ azedenz 96 Prague Dependency Treebank 73 Prim¨ ardatum 13, 24, 44, 198 Profil 48 Projekt Gutenberg 40, 148 Pronomen 65 Proposition Bank 81 Proxy 114 Prozess lexikographischer 170 Quantil 126 Quellsprache 176 Rationalismus 19, 20 Rechtschreibreform 157 Rechtschreibw¨ orterbuch 176 Referent 83 Referenzkorpus 141, 159, 193, 198 Regens 73 Regionalsprache 45 Regul¨ arer Ausdruck 91 Rekursion 75 Repr¨ asentativit¨ at 28, 39 Retrodigitalisierung 15 Revisionsgeschichte 48 Rhetorical Structure Theory 85, 105 Richtlinien siehe Annotationsschema Roman 40 RSTTool 105 SALSA-Korpus 81, 137, 145 SaltNPepper 95 Sampling-Kriterien siehe Designkriterien Satz wohlgeformter 11 Satzalignierung 196 Satzgrenzen 62 automatische Erkennung 62 Satzpartikel 182 Schriftgr¨ oße 43 Schriftschnitt 43 Schrifttyp 43 Segmentierung 61 Selbstauskunft 12 Selektionsrestriktion 185 Sign-Based Construction Grammar 169 Signal parasprachliches 43 Singifikanztests 133 Skalentypen Nominal 119 Ordinal 119 Ratio 119 Verh¨ altnis 119 SMS 40 SMS-Korpus 145 SOV-Sprache 20 Spaltenformat 88 Spezialkorpus 141, 145 Sprachdaten authentische 11, 22 Index 223 Sprachdatenbank 88 Sprachdokumentation 15, 142 Sprache 13 gesprochene 85 nat¨ urliche 15 Sprachenauswahl 138 Spracherkennung 154 Sprachgebrauch 158 Sprachgef¨ uhl 11, 25 Sprachkompetenz 11 Sprachlerner 190 Sprachnorm 158 Sprachpurismus 176 Sprachressource 45 Sprachst¨ orung 26 Sprachstufe 45 Sprachsystem 30 Sprachtheorie 11 generative 12 Sprachtypologie 20 Sprachverarbeitung maschinelle 15 Sprachverm¨ ogen 12, 14 Sprecherurteil 22, 24, 28 unzuverl¨ assiges 27 Standards 98 Standardw¨ orterbuch 170, 176 Stapeldiagramm 131 Statistiksoftware R 133 Steigerungspartikel 182 Stichprobe 48, 115 Streudiagramm 122 Strukturalismus 34 Strukturanalyse hybride 73 Strukturbaum 71 STTS 63, 64, 66, 77, 106, 113 Stuttgart-T¨ ubingen Tagset siehe STTS Subjekt 21 Substantiv unz¨ ahlbares 27 z¨ ahlbares 27 Suche grafische 94 Suchwerkzeug 91 Suffix 161 SVO-Sprache 20 t-test 133 Tag unterspezifiziert 65 XML-Element 99 Tagger 59, 65 Tagging 198 Tagset 63, 198 phrasenstrukturell 77 TalkBank 148 TEI 47, 67, 150, 152 Teilkorpus 44 Temporalpartikel 182 Testsatzsammlung 41 Text Encoding Initiative siehe TEI Textarchiv 40 Textfenster 179 Textsorte 45, 50 Textstruktur 61 Tiefenstruktur 20 TIGER-Korpus 77, 81, 100, 106, 137, 145 TIGERRegistry 95 TIGERSearch 94, 97 TIME-ML 101 TITUS 148 TnT-Tagger 70 Token 62, 198 Tokenisierung 62, 198 Topik 84 Training statistisches 70, 187 Transkript 139 Transkription 43 TreeTagger 69, 70, 105, 106 T¨ uBa-D/ S 58, 77, 168 T¨ uBa-D/ Z 58, 59, 77, 78, 81, 83, 95, 97, 100, 106, 110, 145 T¨ ubinger Baumbank des Deutschen Spontansprache siehe T¨ uBa-D/ S Zeitungskorpus siehe T¨ uBa-D/ Z T¨ ubinger Partiell Geparstes Korpus 76 T¨ uNDRA 95, 97, 110 Type 198 Typologie 137 Kriterien 137 ungrammatisch 23, 24 Universalgrammatik 12 Urdatenset 117, 131 Variable 116, 117 Verbalgruppe 72 Vergleichskorpus 138, 143, 198 Vergleichspartikel 182 Versprecher 26 Verwechslungsmatrix 103 Verwendung von Anglizismen 175 Verwendungsbeispiel 171 Verwendungskontext 183, 186 Vineta-Korpus 143, 144 Virtual Language Observatory 136 VISL-Projekt 90 Visual Interactive Syntax Learning 189 Vorkommen 191 Web siehe World Wide Web WebAnno 105 WebCorp 95 Webkorpus 144, 153 WebLicht 95, 106 Wiederverwendbarkeit von Annotationen 59 Wikisource 148 Wissen sprachliches 11, 12 Word Sense siehe Lesart WordFreak 105 WordNet 81 WordSmith 94 World Wide Web 42, 95, 173, 174 Wortart 13, 63 Wortartentags 63 Wortbildung 160 ungrammatische 163 Wortbildungselement 173 Wortbildungsforschung 172 Wortbildungsmuster 162 224 Index Wortbildungsprodukt 163 Wortbildungsprozess Beschr¨ ankung 163 Wortstamm 160 Worttoken 198 Worttrennung 43 Worttype 198 Wortwarte 173 X-Bar-Struktur 74 XCES 101 XML 89, 99, 101 Standoff 100 Zeichen lexikalisches 171 Zeichenkette 35 Zeitungsartikel 40 Zielhypothese 86 Zusammenschreibung 175, 176 Zustand mentaler 25 ISBN 978-3-8233-6886-1