Empirisches Arbeiten in Linguistik und Sprachlehrforschung

Ruth Albert; Nicole Marx

eBooks

Empirisches Arbeiten in Linguistik und Sprachlehrforschung

2017

978-3-8233-9128-9

Gunter Narr Verlag

Ruth Albert

Nicole Marx

< für einen schnellen Einstieg ins Thema < Grundbegriffe und wichtige Zusammenhänge schnell erfasst < ideal für die Seminarvorbereitung in den ersten Semestern Zu Beginn des Studiums lässt man sich durch Aussagen wie "Das ist empirisch überprüft" leicht beeindrucken. Aber empirische Untersuchungen kommen mitunter zu unterschiedlichen Ergebnissen, obwohl sie von denselben Fragestellung ausgehen. Dieser STARTER bietet eine systematische Anleitung für Studierende zum Beurteilen quantitativ vorgehender empirischer Untersuchungen im Bereich der Linguistik und Sprachlehr-/-lernforschung, wie man sie für das Anfertigen von Seminar- und Bachelorarbeiten braucht. Er geht ein auf die Fragen, in welchen Fällen empirische Untersuchungen sinnvoll sind und wie man die Angemessenheit des gewählten Verfahrens, der Auswertung und der Vorgehensweise bei der Interpretation beurteilt, und endet mit Vorschlägen für die Darstellung der eigenen Ergebnisse.

ISBN978-3-8233-8128-0 wichtige Punkte für einen erfolgreichen Start ins Thema für einen schnellen Einstieg ins Thema Grundbegriffe und wichtige Zusammenhänge schnell erfasst ideal für die Seminarvorbereitung in den ersten Semestern Zu Beginn des Studiums lässt man sich durch Aussagen wie „Das ist empirisch überprüft“ leicht beeindrucken. Aber empirische Untersuchungen kommen mitunter zu unterschiedlichen Ergebnissen, obwohl sie von derselben Fragestellung ausgehen. Dieser STARTER bietet eine systematische Anleitung für Studierende zum Beurteilen quantitativ vorgehender empirischer Untersuchungen im Bereich der Linguistik und Sprachlehr-/ -lernforschung, wie man sie für das Anfertigen von Seminar- und Bachelorarbeiten braucht. Es geht ein auf die Fragen, in welchen Fällen empirische Untersuchungen sinnvoll sind und wie man die Angemessenheit des gewählten Verfahrens, der Auswertung und der Vorgehensweise bei der Interpretation beurteilt, und endet mit Vorschlägen für das Resümieren von Studien in den eigenen Hausarbeiten. www.narr-starter.de www.narr-studienbuecher.de www.narr.de Ruth Albert/ Nicole Marx Empirisches Arbeiten Empirisches Arbeiten in Linguistik und Sprachlehrforschung zusammengefasst von Ruth Albert und Nicole Marx Dr. Ruth Albert ist pensionierte Professorin für Deutsch als Fremdsprache am Institut für Germanistische Sprachwissenschaft der Philipps-Universität Marburg. MIT narr STARTER BEGINNEN, MIT narr STUDIENBÜCHER VERTIEFEN, ERFOLGREICH STUDIEREN! www.narr-STARTER.de Dr. Nicole Marx ist Professorin für Deutsch als Zweitsprache und Deutsch als Fremdsprache am Institut für Sprach- und Literaturwissenschaften der Universität Bremen. Ruth Albert / Nicole Marx Empirisches Arbeiten in Linguistik und Sprachlehrforschung Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. © 2017 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Internet: www.narr-starter.de www.narr-studienbuecher.de E-Mail: info@narr.de Satz: typoscript GmbH, Walddorfhäslach Printed in the EU ISSN 2509-6036 ISBN 978-3-8233-8128-0 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1. Welche Fragen können empirisch untersucht werden? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Die wichtigsten Hinweise zusammengefasst . . . . . 12 2. Woran erkennt man eine gute empirische Untersuchung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Geltungsbereich . . . . . . . . . . . . . . . . . . . . . . . . 17 Die wichtigsten Hinweise zusammengefasst . . . . . 20 3. Welche Verfahren stehen zur Wahl? . . . . . . . . . . . 21 3.1 Die Beobachtung . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 Die Befragung . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.1 Fragebogen-Befragungen . . . . . . . . . . . 25 3.2.2 Interviews zum Elizitieren von sprachlichen Phänomenen . . . . . . . . . . 28 3.3 Korpusanalysen . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.4 Experimente und Interventionen . . . . . . . . . 33 3.5 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.6 Metaanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Die wichtigsten Hinweise zusammengefasst . . . . . 41 narr-starter.de 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Die wichtigsten Hinweise zusammengefasst . . . . . 46 5. Ist die Statistik in Ordnung? . . . . . . . . . . . . . . . . . 47 5.1 Um was für Daten geht es? . . . . . . . . . . . . . . 48 5.2 Beschreibende (deskriptive) Statistik . . . . . . 50 5.3 Inferenzen über die Population . . . . . . . . . . . 56 5.4 Was hat es mit Signifikanz und Aussagekraft auf sich? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Die wichtigsten Hinweise zusammengefasst . . . . . 64 6. Ist die Interpretation angemessen? . . . . . . . . . . . . 66 7. Wie stelle ich meine Beurteilung in einer Seminararbeit dar? . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Lösungshinweise zu den Aufgaben . . . . . . . . . . . . . . . 78 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Register . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Inhalt 6 narr-starter.de Vorwort Im Studium der Linguistik, der Fremdsprachenfächer und der Sprachlehr- und -lernforschung wird erwartet, dass Sie empirische Studien lesen, verstehen und in Bezug zu einander setzen können, um an Seminardiskussionen teilzunehmen und schriftliche Arbeiten zu verfassen. Dabei ist es manchmal schwer, sich unter den vielen Arten von wissenschaftlichen Studien zurechtzufinden. Dieses Buch handelt von solchen empirischen Untersuchungen, die quantitativ vorgehen (also mit Zahlen arbeiten). Sie erhalten einen Überblick darüber, wann empirisches Arbeiten sinnvoll und angemessen ist, welche Verfahren es in der Linguistik und Sprachlehrforschung gibt und Hinweise darauf, wie man die Qualität von empirischen Arbeiten beurteilen kann. Das soll Ihnen helfen, sich in Ihren Hausarbeiten und Referaten auf wirklich aussagekräftige empirische Untersuchungen zu stützen und angreifbare Untersuchungen durch gute Argumentationen zu widerlegen. Um den Text möglichst gut lesbar zu gestalten, haben wir in den Fällen, in denen keine gebräuchlichen geschlechtsneutralen Personenbezeichnungen existieren, mit etwas Bauchschmerzen die maskuline Form als Bezeichnung für alle Geschlechter gewählt. Möglicherweise finden Sie im Text einige Begriffe, die Ihnen im Studium bisher nicht begegnet sind. Deshalb gibt es am Ende des Buchs ein Glossar, in dem Sie kurze Erklärungen dieser Begriffe finden können. Im Register narr-starter.de können Sie zudem für die wichtigsten Begriffen nachschlagen, wo sie im Buch erklärt werden. In allen Kapiteln sind Übungsaufgaben zu finden. Die Lösungen dazu finden Sie am Ende des Buches. Eine längere Zusatzaufgabe finden Sie unter www.narr-starter.de Dieser STARTER behandelt quantitativ vorgehende empirische Forschung aus der rezeptiven Perspektive, also der Perspektive des Lesers der Untersuchungen. Wenn Sie eigene empirische Untersuchungen planen, empfehlen wir das dazu gehörende Studienbuch Empirisches Arbeiten in Linguistik und Sprachlehrforschung. Anleitung zu quantitativen Studien von der Planungsphase bis zum Forschungsbericht (Albert/ Marx 2016) aus der Reihe narr STUDIEN- BÜCHER. Wir danken Frau Vanessa Weihgold vom Narr-Verlag für ihre Unterstützung beim Layout und die Beantwortung der vielen Fragen dazu sowie Frau Margarete von Legat für ihre sorgfältige Lektüre des Manuskripts. Ganz besonders danken wir Tillmann Bub, der uns zu diesem Buch überredet hat und es sorgfältig Korrektur gelesen hat. Ettlingen/ Bremen im August 2017 Ruth Albert Nicole Marx Vorwort 8 narr-starter.de 1. Welche Fragen können empirisch untersucht werden? Nicht alle Fragen, die man sich als Sprachlehrforscher oder Linguist stellt, sind nur mit empirischer Forschung zu beantworten. Angenommen, Sie wollen wissen, ob im Deutschen das prädikative Adjektiv - wie etwa in den romanischen Sprachen, vgl. die Beispiele in (1) - flektiert wird, so können Sie sich sicher auf Ihr eigenes Sprachvermögen als kompetenter Sprecher des Deutschen verlassen. Sie betrachten also ein paar Sätze mit prädikativen Adjektiven wie in (2). 1. Ce lecteur est intelligent/ Cette lectrice est intelligente/ Nos lecteurs sont intelligents. 2. Dieser Leser ist klug/ Diese Leserin ist klug (*kluge)/ Unsere Leser sind klug (*kluge). 1 Dabei können Sie feststellen, dass hier das Adjektiv nicht flektiert wird. Vorsichtshalber überprüfen Sie noch, ob klug denn überhaupt flektierbar ist (manche Adjektive wie lila z. B. werden ja von vielen Sprechern des Deutschen nicht flektiert, vgl. das lila Tuch), aber da es für Sie eindeutig die kluge Leserin und die klugen Leser heißt und es keinerlei Anlass für die Annahme gibt, dass sich das bei irgendeinem kompetenten Sprecher des Deutschen anders verhält, ist die Frage beantwortet, ohne dass man eine repräsentative Aus- 1 In der Linguistik markiert man Sprachbeispiele, die nicht den Regeln der Sprache entsprechen (man sagt, sie sind „ ungrammatisch “ ) mit einem Sternchen (Asterisk). narr-starter.de wahl von Sprechern des Deutschen hätte befragen oder endlose Textkorpora durchsuchen müssen. Leider sind aber nicht alle Fragen in der Sprachanalyse und in der Sprachlehrforschung so einfach durch Introspektion zu lösen. In diesen Fällen wendet man empirische Verfahren an. Damit ist gemeint, dass man eine systematisch zu erfassende Erfahrung zur Grundlage macht, um die zu untersuchende Fragestellung zu lösen. Im weiteren Verlauf dieses Buchs werden unterschiedliche dafür mögliche Verfahren eingeführt: Beobachtung, Befragung, Korpusanalyse, Experiment und Test. Zudem wird ein Verfahren zur Interpretation der Ergebnisse mehrerer Studien, die Metaanalyse, eingeführt. Bei empirischen Arbeiten wird normalerweise zwischen „ qualitativ “ und „ quantitativ “ vorgehenden Studien unterschieden. Qualitativ vorgehende Studien sind oft nötig, wenn über einen Gegenstandsbereich noch sehr wenig bekannt ist, sodass man erst einmal eine Wissensbasis schaffen muss, auf deren Grundlage man Hypothesen entwickeln und diese in einer quantitativ vorgehenden Studie überprüfen kann. In diesem Buch besprechen wir nur quantitativ vorgehende empirische Untersuchungen. Quantitativ-empirische Untersuchungen sind entweder hypothesenprüfend oder hypothesenbildend. Letztere sind meist vorbereitende, explorative Arbeiten, die dazu dienen, dass man Hypothesen bilden kann. Für eine Hypothese, die man empirisch überprüfen kann, gelten gewisse Bedingungen. ● Sie muss eine Aussage sein, nicht eine Frage. ● Sie muss durch die Datenerhebung in der Realität falsifizierbar sein. 1. Welche Fragen können empirisch untersucht werden? 10 narr-starter.de ● Alle Begriffe in der Aussage müssen eindeutig definiert und operationalisierbar (das bedeutet: bestimmt und messbar) sein. Wichtig ist, dass eine Hypothese begründet sein muss. Das bedeutet nicht, dass Autoren einen „ weil “ -Satz zur Hypothese hinzufügen (sollten), sondern dass eine Hypothese auf der Basis vorhergehender Forschung oder zumindest logischer Deduktion entwickelt werden muss. Als Leser müssen Sie dann nachvollziehen können, warum die Annahme gemacht wurde. Überlegen wir folgendes Beispiel: Weibliche Babys fangen schneller an zu sprechen als männliche Babys. (Wir gehen davon aus, dass die Autoren einen guten Grund haben, diese Annahme zu machen, und dies in ihrem Artikel bereits dargelegt haben.) Die Hypothese genügt dem ersten Kriterium (sie ist eine Aussage). Es gibt auch weibliche und männliche Babys in der Realität, und wenn wir genug davon finden, können wir die Hypothese bestätigen oder falsifizieren (also ablehnen). Danach wird es aber etwas komplizierter, denn die Begriffe müssen deutlich sein. Was bedeutet hier schneller? Meinen die Autoren früher? Was ist sprechen? Gilt es schon als Sprechen, wenn das Kind in der Phase des Silbenplapperns ist? Muss eine kommunikative Absicht deutlich sein? Soll nur das erste Wort gesprochen werden (und wenn ja, ab wann ist zu bestimmen, dass [papa] z. B. kein Silbenplappern ist, sondern auf eine Person verweist)? Und überhaupt: Was für Babys sollen untersucht werden? Denn Kinder, die z. B. trilingual aufwachsen, beginnen oft etwas später, selbst sprachlich produktiv zu werden. Man müsste daher bestimmen, ob die Babys monolingual aufwachsen. Ebenfalls wäre wichtig, dass sie keine Auffälligkeiten (z. B. Hörstörungen) aufweisen und dass sie in einem ähnlichen sozialen Umfeld aufwachsen, weil 1. Welche Fragen können empirisch untersucht werden? 11 narr-starter.de nachgewiesen wurde, dass dies mit der Art der Kommunikation zwischen Eltern und Kindern zusammenhängt. Aufgabe 1: Schauen Sie folgende Hypothesen an. Welche weiteren Informationen brauchen Sie, damit diese den notwendigen Kriterien genügen? 1. Frauen sprechen am Tag mehr als Männer. 2. DaZ-Kinder, die an einem sprachlichen Förderprogramm teilnehmen, verbessern ihre Sprachkompetenzen im Vergleich zu DaZ-Kindern, die an keinem Förderprogramm teilnehmen. 3. Wer bereits Englisch als Fremdsprache gelernt hat, braucht weniger Zeit, um das gleiche Niveau im Französischen zu erreichen. Die wichtigsten Hinweise zusammengefasst ● Wenn Sie eine empirische Untersuchung lesen, versuchen Sie zuerst, zu bestimmen, ob es sich um eine quantitative, eine qualitative oder eine mixed-methods (beide Vorgehensweisen)-Studie handelt. Das können Sie normalerweise schon im Abstract herausfinden. So können Sie sich in die Lektüre besser orientieren. ● Forschung muss nicht immer empirisch sein. Es gibt sehr viele Fragestellungen, die besser auf nichtempirische Weise zu lösen sind. ● Wenn die Autoren Hypothesen aufstellen, nehmen Sie sich einige Minuten Zeit und überlegen Sie, ob diese den Anforderungen an wissenschaftlichen Hypothesen genügen. Fehlen Ihnen als Leser wichtige Informationen über die in der Hypothese genannten Konstrukte? Können alle Begriffe operationalisiert werden, d. h. zu Kategorien gemacht werden, die man in der realen Welt messen kann? 1. Welche Fragen können empirisch untersucht werden? 12 narr-starter.de 2. Woran erkennt man eine gute empirische Untersuchung? Wie bei allen Arbeiten gibt es bestimmte Merkmale, anhand derer Sie erkennen können, ob eine Studie den geltenden Anforderungen an eine wissenschaftliche Arbeit entspricht. Wir beginnen mit einem Beispiel: Ein Forscher will herausfinden, ob Schüler, die mit ihren Eltern zu Hause i. d. R. eine Herkunftssprache sprechen, und Schüler, die mit ihren Eltern nur Deutsch sprechen, unterschiedliche Sprachkenntnisse in der Fremdsprache Englisch haben. Um möglichst viele Schüler zu untersuchen, geht er an eine Schule, an der fast alle Schüler andere Familiensprachen haben, und an eine andere Schule, an der fast alle Schüler nur Deutsch zu Hause sprechen. Er lässt alle Schüler der 6. Klasse dieser beiden Schulen eine Bildbeschreibung schreiben, korrigiert diese und vergleicht die Fehlerquoten der Schüler mit nur deutscher Familiensprache mit denen von Schülern mit Herkunftssprachen. Aufgabe 1: Denken Sie zuerst darüber nach: Was ist problematisch an dieser Untersuchung? Wir gehen im Folgenden auf einige Aspekte ein, die Ihnen helfen, solche Forschungsstudien zu bewerten. 2.1 Gütekriterien Von einer empirischen Untersuchung erwartet man vor allem drei Dinge: narr-starter.de ● Reliabilität, d. h. dass sie mit den gleichen Ergebnissen wiederholt werden könnte ● Validität, d. h. dass sie misst, was sie messen soll ● Objektivität, d. h. dass sie unabhängig von der Person, die die Untersuchung durchführt, auswertet oder interpretiert, stets dasselbe Ergebnis liefert. Dies klingt nach Selbstverständlichkeiten, ist jedoch im konkreten Einzelfall nicht immer leicht zu erreichen. Worauf sollten Sie dann achten, wenn Sie empirische Studien lesen und für die eigene Arbeit bewerten sollen? Bei der Zuverlässigkeit oder Verlässlichkeit (Reliabilität) geht es darum sicherzustellen, dass das Ergebnis der Untersuchung bei Gleichheit aller relevanten Bedingungen immer gleich ist. Dies ist wichtig, weil wir sicherstellen wollen, dass es sich nicht um einen Einzelfall handelt. Stellen Sie sich vor, jemand wollte beweisen, dass seine Lehrmethode besser ist als eine andere, und er lässt zwei Schülergruppen dieselben Vokabeln lernen, die eine mit seiner Methode und die andere mit der anderen. Wenn er nicht vorher überprüft hat, dass die zu lernenden Vokabeln in beiden Gruppen komplett unbekannt sind (oder in beiden Gruppen gleich viele Vokabeln gleich vielen Schülern schon bekannt), dann ist dieses Messverfahren unzuverlässig und man kann bei einer anderen Messung mit anderen Vokabeln ein anderes Ergebnis erhalten. Die fehlende Reliabilität eines Messverfahrens oder einer Untersuchungsmethode ist in der Linguistik und Sprachlehrforschung nicht immer so offensichtlich. Am einfachsten lässt sich dies prüfen, wenn man eine Untersuchung versucht zu wiederholen: Wird z. B. bei einem Experiment nicht dasselbe Ergebnis erzielt, dann könnte es sein, dass der 2. Woran erkennt man eine gute empirische Untersuchung? 14 narr-starter.de Zufall die Ursache für eins der erzielten Ergebnisse war. Auch bei Befragungen z. B. sollte es nicht vorkommen, dass die Ergebnisse verschieden sind, wenn Frau X oder Herr Y die Fragen stellen. Deswegen sind Replikationsstudien wichtig - das sind Untersuchungen, die unter sehr ähnlichen Bedingungen eine andere Studie zu wiederholen versuchen, um zu sehen, ob die gleichen Ergebnisse entstehen (in der medizinischen Forschung ist dies ganz besonders wichtig). Da Sie aber im Normalfall Studien nicht replizieren werden, müssen Sie die Reliabilität durch Logik zu prüfen versuchen. Es kann auch sein, dass ein Untersuchungsergebnis zwar perfekt wiederholbar ist, aber dass die Untersuchung gar nichts über das aussagt, worüber sie etwas aussagen will, also nicht valide ist. Dieses Phänomen ist das Thema vieler Scherze, sogar ein humorvoller Erfinder eines Intelligenztests soll gesagt haben: „ Intelligenz ist das, was meine Tests messen. “ Auch bei linguistischen Untersuchungen kann es durchaus sein, dass man etwas anderes erforscht als das, was man erforschen will. Das kann z. B. bei ungeschickt gemachten Befragungen passieren. Die Situation, bei vorgelegten Sätzen ein Urteil über die grammatische Richtigkeit abzugeben, ist für die befragten Personen recht ungewöhnlich, wenn sie nicht Linguistik studiert haben. Wir schauen dafür ein Beispiel an: Jemand soll Sätze nach ihrer grammatischen Korrektheit beurteilen, und ein Satz ist: Rosenkohl ist lecker. Grammatikalisch ist der Satz korrekt, nur für einen (uns sehr befremdlich erscheinenden) Bevölkerungsteil stimmt der Satz aber inhaltlich. 2.1 Gütekriterien 15 narr-starter.de Es kann also gut sein, dass die Sätze nach inhaltlichen Kriterien oder der Gebräuchlichkeit der verwendeten Wörter als „ gut “ oder „ schlecht “ beurteilt werden, und somit wird etwas ganz anderes gemessen als das, was man messen wollte. Auch kann man seine Daten so ungeschickt wählen, dass ein Faktor mit hereinspielt, der dafür sorgt, dass man etwas anderes misst, als man messen wollte. Generell ist es wichtig für die Planung einer Untersuchung, dass man sich überlegt, welche Ergebnisse möglich sind und ob sie geeignet sind, die Untersuchungsfrage zu beantworten. Gerade wenn man die Leistung von Sprachlernern beurteilen will, ist die Objektivität nicht immer einfach zu erreichen. Einzelne Beurteiler oder Sprachlehrpersonen werden z. B. frei geschriebene Lernertexte unterschiedlich beurteilen. Deswegen ist es wichtig, genau nachzulesen, wie Leistungen bewertet wurden. Haben die Forscher sehr genaue Vorschriften für die Beurteilung gemacht, haben sie dafür gesorgt, dass das gleiche Ergebnis unabhängig vom Bewerter (sie werden oft Rater genannt) erreicht wird? Haben sie vielleicht zwei oder mehr Bewerter eingesetzt und die sogenannte Interrater-Reliabilität gemessen, weil Unterschiede in vielen Fällen trotzdem nicht vermeidbar sind (mehr hierzu in Kapitel 5)? Je stärker der Test für die Lerner standardisiert ist, umso größer ist die Objektivität. Ein Multiple-Choice-Test, bei dem es immer nur eine richtige Antwortmöglichkeit gibt, ist zum Beispiel objektiver als ein Prüfungsgespräch über ein Thema oder ein frei geschriebener Text. Aufgabe 2: Denken Sie wieder über das Beispiel vom Beginn des Kapitels nach. Welche Beschränkungen der drei Gütekriterien könnte es geben, und warum? Was hätte der Forscher anders machen müssen? 2. Woran erkennt man eine gute empirische Untersuchung? 16 narr-starter.de 2.2 Geltungsbereich Darüber hinaus muss eine Untersuchung einen angemessenen Geltungsbereich haben, d. h. dass sie über mehr als nur die konkret untersuchten Personen/ Situationen Aufschluss gibt. Das untersuchte Material muss so gut ausgewählt und so umfangreich sein, dass das gefundene Ergebnis für den Bereich gilt, über den man etwas aussagen will (Geltungsbereich). Begreiflicherweise wird sich niemand für eine Feststellung wie „ Die 17 Personen, die an meiner Untersuchung zum Vokabellernen teilgenommen haben, hatten die besten Ergebnisse mit dem Lernen anhand von Mindmaps “ interessieren. Eine Untersuchung sollte also so anlegelegt sein, dass ein größerer Geltungsbereich abgedeckt ist als die wenigen Personen oder Daten, die tatsächlich in der Untersuchung erforscht wurden. Damit wären wir schon bei einem weiteren Kriterium für die Qualität einer empirischen Untersuchung, nämlich die Frage, ob die Untersuchung anhand einer sinnvoll gewählten Stichprobe durchgeführt wurde. So gut wie nie soll nur eine Aussage über diejenigen Informanten oder Texte gemacht werden, die tatsächlich erforscht wurden, sondern normalerweise über die Gruppe, der sie angehören (und das können z. B. „ kompetente Sprecher des Deutschen “ oder „ deutschsprachige Zeitungstexte “ sein). Da man niemals alle kompetenten Sprecher des Deutschen oder alle deutschsprachigen Zeitungstexte untersuchen kann, muss man eine Stichprobe aus der Grundgesamtheit, über die man Aussagen machen will, ziehen. Hier kommt es leider häufig vor, dass die Stichproben nicht gut gewählt sind oder Gruppen, die verglichen werden, aus unterschiedlichen Gründen nicht vergleichbar sind. Das 2.2 Geltungsbereich 17 narr-starter.de liegt oft an „ konfundierenden Faktoren “ - also an Merkmalen der Personen oder einer Situation, die die Untersuchungsergebnisse stören können. Im Vergleich von Schülergruppen können das z. B. Faktoren sein wie sonstige Leistungen der Schüler, das jeweilige Klassenleistungsniveau, das Lernalter der Schüler (seit wann und wie intensiv sie eine Sprache lernen) oder die Teilnahme an Förderangeboten, aber auch soziale Faktoren wie der höchste Bildungsabschluss der Eltern oder das Einzugsgebiet einer Schule, oder auch institutionelle Faktoren wie die Menge an Unterrichtsausfall. Als Leser müssen Sie darauf achten, wer genau untersucht wurde, um somit zu beurteilen, ob die Ergebnisse überhaupt von Interesse sein könnten. Aufgabe 3: Gehen Sie ein letztes Mal zur Beispieluntersuchung zu Beginn des Kapitels. Wie hätte der Forscher die Stichprobe auswählen müssen? Es gibt zwei verschiedene akzeptierte Verfahren zum Ziehen einer Stichprobe, nämlich das Zufalls- und das Quotenverfahren. Beim Zufallsverfahren muss jedes Mitglied der Grundgesamtheit dieselbe Chance haben, in die Stichprobe zu gelangen, beim Quotenverfahren versucht man, die Gruppen möglichst zu „ balancieren “ . Das bedeutet nichts anderes, als (1) dass versucht wird, die zu vergleichenden Gruppen zum Untersuchungsbeginn möglichst ähnlich zusammenzustellen (so dass Störfaktoren wie soziale Faktoren keine Rolle spielen) oder (2) dass die untersuchte Gruppe möglichst genau bei für die Untersuchung wichtigen Merkmalen wie Alter, Geschlecht, Leistung usw. der Grundgesamtheit entspricht. Zufallsverfahren haben den Vorteil, dass sie unvoreingenommen Informanten einbeziehen und damit 2. Woran erkennt man eine gute empirische Untersuchung? 18 narr-starter.de auch nicht bedachte Störfaktoren ausgleichen können; sie haben aber den eindeutigen Nachteil, dass meist eine sehr große Strichprobe notwendig ist, um zufällig entstandene Differenzen zu vermeiden. Es gibt auch Mischformen: In der PISA-Studie wird z. B. nicht jeder 15-jährige Schüler in Deutschland geprüft. Stattdessen wird eine Stichprobe gewählt, bei der zunächst bestimmt wird, wie viele Schulen welcher Schulform (Gesamtschule, Hauptschule, Gymnasium, Förderschule, Berufsschule etc.) in welchen Bundesländern teilzunehmen haben. Das soll sicherstellen, dass ein möglichst repräsentatives Sample aller Schüler in Deutschland erhoben wird. Innerhalb dieser ausgewählten Schulen werden Schüler, deren Ergebnisse für den internationalen Vergleich genutzt werden sollen, nach dem Zufallsverfahren ausgewählt. Deswegen kann man darauf vertrauen, dass die Ergebnisse repräsentativ für Deutschland sind, obwohl an PISA 2015 nur 6500 Schüler in Deutschland aus insgesamt ca. 260 Schulen teilgenommen haben. Die Stichprobenziehung kann als „ best practice “ für größer angelegten Studien gelten. Aufgabe 4: Finden Sie fünf Studien, die Daten von Informanten (man nennt sie auch „ Probanden “ , „ Versuchspersonen “ , „ Versuchsteilnehmer “ , „ Befragte “ usw., je nach Art der Untersuchung) oder Texten erheben. Wie wurden die Stichproben jeweils gezogen? Sind sie Ihrer Meinung nach repräsentativ für die Grundgesamtheit? Warum? (Hinweis: Am besten untersuchen Sie hierfür linguistische Zeitschriften oder Zeitschriften mit einem Schwerpunkt in der Sprachlehrforschung.) 2.2 Geltungsbereich 19 narr-starter.de Die wichtigsten Hinweise zusammengefasst Wenn Sie eine empirische Untersuchung lesen, prüfen Sie, inwiefern die Gütekriterien eingehalten wurden. Stellen Sie sich beim Lesen Fragen wie: ● Ist das Vorgehen der Studie so dargelegt worden, dass man sie wiederholen und damit auf Reliabilität prüfen könnte? Wurde versucht, sonstige Einflüsse auf die Erhebungssituation zu vermeiden? ● Sind Sie selber davon überzeugt, dass die erhobenen Daten für die Fragestellung relevant sind? Oder wurde etwas anderes geprüft oder erhoben als das, was eigentlich in der Fragestellung oder in den Hypothesen beabsichtigt wurde? ● Wie wurden die Daten aufbereitet, ausgewertet und analysiert? Wurden Schritte vorgenommen, um sicherzustellen, dass die Auswertung möglichst objektiv erfolgen konnte? Wurden im Falle von Ratings mindestens zwei Personen eingesetzt, und ihre Auswertungen miteinander verglichen? ● Sind die Ergebnisse möglichst repräsentativ, d. h.: Ist die Untersuchungsgruppe so gewählt, dass sie die Grundgesamtheit gut abbildet? Ist die untersuchte Erwerbs-, Verwendungs- oder Lernsituation der realen Welt möglichst ähnlich? 2. Woran erkennt man eine gute empirische Untersuchung? 20 narr-starter.de 3. Welche Verfahren stehen zur Wahl? Je nachdem, welches Phänomen oder Verhalten einen Forscher interessiert, wird eine Untersuchungsmethode gewählt, die am besten dazu passt. In vielen Fällen werden die Methoden kombiniert oder zwei oder mehrere Methoden in derselben Studie eingesetzt, um möglichst unterschiedliche Perspektiven zu erhalten; dies nennt man Methodentriangulation. In diesem Kapitel werden die häufigsten Herangehensweisen genannt und ihre typischen Einsatzmöglichkeiten beschrieben. 3.1 Die Beobachtung Wenn wir etwas über Sprachverhalten oder Kommunikationsverhalten erfahren wollen, dann ist es ein naheliegender Gedanke, dass wir dieses Verhalten einfach dort untersuchen, wo es natürlicherweise stattfindet. Das würde heißen, wir nehmen an der Kommunikationssituation teil, über die wir Aufschluss haben wollen, oder wir bringen ein Aufzeichnungsgerät mit an den Ort, an dem das Geschehen stattfindet. Die beobachteten Daten in einer sinnvollen Form zu dokumentieren, zu klassifizieren und auszuwerten, ist allerdings sehr zeitaufwändig. Deshalb greift man meist nur dann zum Verfahren der Beobachtung, wenn Verfahren wie Befragung oder Experiment nicht in Frage kommen. Das ist z. B. dann der Fall, wenn die zu befragenden Personen durch eine direkte Frage nach ihrem Verhalten bereits beeinflusst würden, wenn sie sich nicht genau daran erinnern können oder es nicht reflektieren können, oder wenn das zu unternarr-starter.de suchende Phänomen nur im realen situativen Kontext vorkommt und nicht simulierbar ist. Bei der Beobachtung steht man generell vor einem Problem. Wir möchten das zu untersuchende Verhalten so beobachten, wie es stattfinden würde, wenn es nicht beobachtet würde (Beobachterparadox). Das ist aber nicht einfach, denn im Normalfall ändert sich das Verhalten, wenn es beobachtet wird. Die Veränderungen, die sich unter der Beobachtung ergeben, nennt man „ Beobachtereffekte “ . Es gibt verschiedene Tricks, wie man sie so gering wie möglich halten kann. Es liegt zum Beispiel nahe, die beobachtete Person nicht merken zu lassen, dass man sie beobachtet (verdeckte Beobachtung). Dies schafft aber moralische und legale Probleme. Privatpersonen in nicht-öffentlichen Situationen ohne ihr Einverständnis auf Ton- oder Videoband u. ä. aufzunehmen, ist nicht erlaubt. Und öffentliche Situationen lassen nur eingeschränkt Rückschlüsse auf das tatsächliche Verhalten in nicht-öffentlichen Situationen zu, weil immer auch für das Publikum agiert wird. Die offene Beobachtung ist moralisch und legal weniger angreifbar, aber sehr anfällig für die erwähnten Beobachtereffekte. Es gibt unterschiedliche Methoden, diese Effekte zu minimieren: ● Man kann die wirklich auszuwertenden Beobachtungen erst nach einer Eingewöhnungsphase machen. Die fünfte Begegnung mit dem Videoteam im Unterricht ist nicht mehr so aufregend wie die erste, und allmählich stellt sich wieder das alltägliche Verhalten ein. ● Man gibt einen anderen als den tatsächlichen Zweck der Untersuchung als Beobachtungsgrund an. Wenn man z. B. untersuchen will, welche sprachlichen Interferenzen mehrsprachige Personen produzieren, kann man sie 3. Welche Verfahren stehen zur Wahl? 22 narr-starter.de fragen, wie sie sich „ zwischen den Kulturen “ fühlen. Oder wenn man wissen will, wie Lehrpersonen Fehler korrigieren, kann man sagen, es gehe darum, Schülerantworten zu analysieren. Wenn Sie also Artikel lesen, in denen die Ergebnisse von Beobachtungen geschildert werden, sollten Sie darauf achten, was die Forschenden unternommen haben, um Beobachtungseffekte so gering wie möglich zu halten, und trotzdem valide Daten zu erhalten. Das zweite Problem mit dieser Methode ist, dass die reale Situation weit mehr Informationen enthält, als für die Untersuchung gebraucht werden. Dokumentiert werden sollte nur das, was Anlass zu Interpretationen in Bezug auf die Untersuchungsfrage geben könnte. Gleichzeitig müssen alle Daten so gut dokumentiert sein, dass auch die Daten zugänglich sind, die zu abweichenden Interpretationen Anlass geben könnten. Hierfür müssen sinnvolle Beobachtungskategorien entwickelt und für die Klassifikation der Daten eingesetzt werden. Es gibt unterschiedliche Möglichkeiten der Dokumentation: ● Die Beobachtung nur mit einem Beobachtungsbogen beeinflusst das Verhalten der Informanten oft erheblich weniger als das Anfertigen von Aufnahmen, ist jedoch aus gutem Grund in der Sprachlehrforschung weniger verbreitet als ● die Dokumentation in Form von Audio und/ oder Video und das anschließende Verschriftlichen des Beobachteten, das sogenannte Transkribieren. Dies hat den Vorteil, dass die beobachtete Situation immer wieder angeschaut oder angehört werden kann. Weil man die Aufnahmen 3.1 Die Beobachtung 23 narr-starter.de dann beliebig wieder anschauen oder anhören kann, können auch noch Beobachtungskategorien hinzugefügt werden, wenn sich herausstellt, dass die Beobachtungskategorien nicht sinnvoll gewählt sind. Für die Überprüfbarkeit der Ergebnisse ist es wichtig, die benutzten Klassifizierungskriterien offen zu legen. Wenn Sie eine Beobachtungsstudie lesen, sollen Sie überprüfen, ob die Klassifikation der Daten detailliert genug und nachvollziehbar im Rahmen der Forschungsfrage ist (sie ist valide), und auch, ob die Kategorien ausreichend detailliert beschrieben sind, so dass sie auch objektive Daten ergeben. Ebenfalls sollten Sie darauf achten, ob alle notwendigen Daten aufgenommen wurden - dass z. B. genug Videokameras in einem Klassenzimmer aufgestellt wurden, so dass keine Schüler ausgeblendet wurden. Die Autoren sollten solche Information im Kapitel „ Design “ immer angeben. 3.2 Die Befragung Die wohl bekannteste Art der Datenerhebung ist die Befragung. Sie wird meistens eingesetzt, um z. B.: ● Personen nach ihren Erfahrungen, Meinungen oder Empfindungen zu fragen, die der direkten Beobachtung nicht zugänglich sind (z. B. wie gerne man Deutsch lernt oder welchen Problemen man im Unterrichtsalltag begegnet), ● die Akzeptabilität grammatischer Erscheinungen beurteilen zu lassen, ● bestimmte Sprachmerkmale (z. B. „ Fehler “ ) zu elizitieren, oder 3. Welche Verfahren stehen zur Wahl? 24 narr-starter.de ● sogenannte „ personenbezogene “ oder „ individuelle “ Merkmale wie z. B. Erstsprache, Lieblingsfächer, Alter, Familiensprachen oder Literalitätserfahrungen im Rahmen anderer Untersuchungen zu erheben. Der zeitliche Aufwand für die Datenerhebung ist erheblich geringer als bei der Beobachtung. Aber auch bei der Befragung gibt es verschiedene Dinge zu beachten, wenn man verlässliche Ergebnisse erhalten will. Im Folgenden werden zwei häufig vorkommende Arten von Befragungen exemplarisch besprochen (weitere Befragungsverfahren mit ihren Vor- und Nachteilen werden in Albert/ Marx (2016, 67 - 76) diskutiert). Jede Befragung ist eine Kommunikation zwischen zwei oder mehr Personen; auf das Antwortverhalten wirken sowohl der Kontext der Kommunikationssituation ein als auch die gegenseitigen Erwartungen von Befrager und Befragtem. Dadurch wird das Ergebnis beeinflusst, es entstehen sogenannte Interviewereffekte. Diese Effekte können durchaus auch bei schriftlichen Befragungen entstehen. 3.2.1 Fragebogen-Befragungen Befragungen werden in der Linguistik vor allem bei der Einschätzung von sprachlichem Material auf Angemessenheit oder grammatische Korrektheit und in der Sprachlehrforschung am häufigsten zur Ermittlung von Einstellungen und Präferenzen beim Lernen durchgeführt. Wenn man sich nicht ausschließlich auf sein eigenes Urteil stützen will, dann ist es sinnvoll, eine gut ausgewählte Stichprobe der relevanten Zielgruppe zu befragen. Das einfachste Verfahren dazu ist die Befragung mit einem schriftlichen Fragebogen. 3.2 Die Befragung 25 narr-starter.de Vorteile eines Fragebogens sind: ● Die Befragten haben die Fragen genau vor Augen. ● Die Art der Fragestellung ist bei allen Befragten gleich. ● Die Art der Befragung ist gut dokumentiert. ● Wegen des im Vergleich zur Face-to-face-Befragung geringen Aufwandes kann man mehr Personen in derselben Zeit befragen. ● Durch die gute Dokumentation ist es leicht möglich, dass andere Forscher den Fragebogen untersuchen können. Das macht Kritik möglich, und auch verbesserte Versionen der Befragung. Natürlich gibt es auch einige Nachteile, vor allem wenn der Forscher nicht anwesend ist, während der Fragebogen ausgefüllt wird. Dann ist nämlich nicht sicher, ob überhaupt die Person den Fragebogen ausgefüllt hat, die man befragen wollte, und auch nicht, ob sie die Fragen wirklich verstanden hat. Ein weiteres Problem ist, dass man nicht immer alle Fragebogen zurückbekommt. Dadurch entsteht das, was man eine Selbstselektion der Stichprobe nennt: Vor allem diejenigen, die sich besonders für das Thema interessieren, schicken den Fragebogen zurück. Das sind bei Meinungsumfragen beispielsweise meist die besonders Begeisterten und die besonders Unzufriedenen. Der Fragebogen selbst ist auch eine mögliche Fehlerquelle. Es ist ganz wichtig, dass die erwarteten Antworten nicht aus der Anordnung oder Formulierung der Fragen zu ersehen sind. Die befragten Personen haben nämlich normalerweise kein besonderes Interesse an der zu untersuchenden Fragestellung, und so sind sie geneigt, die vermutete Meinung der Forscher zu bestätigen (das nennt man auch Hawthorne-Effekt). 3. Welche Verfahren stehen zur Wahl? 26 narr-starter.de Ganz besonders bei Fragen nach der Beurteilung von sprachlichem Material, nach seiner Akzeptabilität werden oft Fehler gemacht, z. B. indem die Sätze im Fragebogen so angeordnet werden, wie der Forscher sie selbst für akzeptabel hält. Um zu vermeiden, dass die erwarteten Antworten zu offensichtlich sind, verwenden viele Forscher zudem Ablenkungsfragen (Distraktoren). Wichtig für das Gelingen der Fragebogen-Befragung ist natürlich auch noch, welche Antwortmöglichkeiten man für die Akzeptabilität der untersuchten Sätze vorgibt. Viele Forscher entscheiden sich für vorformulierte, Likert-skalierte Antwortmöglichkeiten, die eine Anreihung von Einschätzungen ermöglichen. Das hilft, Einschätzungen besser zu bestimmen, und unterstützt später die statistische Auswertung, also z. B. Für wie richtig halten Sie die Aussage: „ Ich will lecker Pommes essen “ ? völlig richtig 1 2 3 4 5 6 7 völlig unmöglich Es gibt Fragen, bei denen man die Antwortmöglichkeiten vorgibt. Diese nennt man geschlossene Fragen. Die Befragten haben dann nur die Möglichkeit, sich für eine der vorgegebenen Antworten zu entscheiden (z. B. bei Multiple-Choice-Fragen). Wenn man sie ihre Antwort selbst formulieren lässt, handelt es sich um offene Fragen. Diese sind oft nötig, um Sprachmaterial zu elizitieren. Aufgabe 1: Prüfen Sie den folgenden Ausschnitt aus einem Fragebogen für eine Studie mit dem Thema „ Lernerpräferenzen für Akzentbeibehaltung “ . Die Informanten der Studie sind ausländische 3.2 Die Befragung 27 narr-starter.de Studierende in studienvorbereitenden Deutschkursen in Deutschland. Was finden Sie daran problematisch? Kreisen Sie für jede Aussage diejenige Antwort ein, die am ehesten Ihrem Gefühl entspricht! stimme gar nicht zu 1 2 3 stimme sehr stark zu 1. Ich möchte, dass andere Leute meine deutsche Aussprache verstehen. 2. Wenn ich Deutsch spreche, bevorzuge ich dabei meinen muttersprachlichen Akzent. 3. Ich möchte, dass andere meine Muttersprache durch meinen Akzent im Deutschen erkennen können. 4. Mit meinem muttersprachlichen Akzent zu sprechen ist ein Zeichen meines Nationalstolzes. 5. Mein muttersprachlicher Akzent ist ein wichtiger Teil meiner persönlichen Identität. 3.2.2 Interviews zum Elizitieren von sprachlichen Phänomenen Eine in der Linguistik häufig verwendete Technik sind persönliche Befragungen, bei denen im Unterschied zu sonstigen Interviews - die auch in Linguistik und Sprachlehrforschung eingesetzt werden - nicht der Inhalt, sondern die sprachliche Form der Antwort interessiert. Mit Elizitieren ist gemeint, dass man jemanden in eine Situation versetzt, in der er mit genau der erwünschten sprachlichen Äußerung reagiert, also ein „ Herauslocken “ einer bestimmten sprachlichen Reaktion. Die Interviewfragen dienen also dazu, günstige Kontexte zu schaffen für die Verwendung des sprachlichen Phänomens, das man untersuchen möchte. Auch in der Sprachlehrforschung kommt so etwas vor, z. B. wenn man untersuchen will, ob die Lerner ein bestimmtes im Unterricht vermitteltes Phänomen in der freien Rede anwenden können. 3. Welche Verfahren stehen zur Wahl? 28 narr-starter.de Eine Untersuchung zum Gebrauch der Vergangenheitstempora stellt Fragen wie: „ Beschreiben Sie Ihren letzten Urlaub! “ . (Sie merken: Die Fragen verwenden selber keine Vergangenheitstempora, der Interviewer fragt also nicht: „ Wie war Ihr letzter Urlaub? “ oder „ Was haben Sie im letzten Urlaub gemacht? “ . Interviews müssen auch genau geplant werden, denn das Verhalten des Interviewers und sonstiger Personen können die Ergebnisse verzerren. Ähnliche Interviewer-Effekte kommen - sogar noch viel stärker - bei Befragungen zu Meinungen der Befragten vor. Beim Beurteilen der Qualität von Befragungen wird man Interviewereffekte nur bemerken können, wenn die Dokumentation sehr ausführlich ist. Deswegen ist es wichtig, dass das genaue Vorgehen durch die Autoren immer dargelegt wird. Untersuchen Sie immer, ob Informationen zum Vermeiden von Interviewereffekten gegeben werden. Typisch hier sind spezifische Anweisungen der Interviewer zur Mimik (z. B. keine Grimassen ziehen, nicht mit dem Kopf nicken oder keine Überraschung zeigen), zur Gestik und zu Hörersignalen (häufige Signale wie hm, hmhm könnten als Zustimmung des Interviewers gedeutet werden). Die Auswertung von Interviewdaten ist meist umständlicher als die von Fragebogendaten - auch ein Grund, warum sie in der Sprachlehrforschung eher im Rahmen qualitativer empirischer Arbeiten eingesetzt und mit anderen Verfahren analysiert werden. Für linguistische Untersuchungen eignen sie sich manchmal besser als Fragebogen, weswegen sie hier doch häufiger vorkommen. Wenn es um Aussprache/ Intonation geht, sind sie sogar unvermeidlich. Als Leser sollten 3.2 Die Befragung 29 narr-starter.de Sie überlegen, ob die Entscheidung für einen Fragebogen oder ein Interview nachvollziehbar dargelegt wird. 3.3 Korpusanalysen Das Arbeiten mit Textkorpora hätte man auch unter Beobachtung abhandeln können, das Verfahren gleicht vom Prinzip her einer Beobachtung. Somit gelten bei der Auswertung der Daten keine anderen Bedingungen als für Beobachtungen allgemein. Viele Forscher stellen sich für ihre Forschungsarbeit ein eigenes Textkorpus zusammen. Da aber inzwischen mehr darauf geachtet wird, Korpora anderen für Forschungszwecke zur Verfügung zu stellen, kommt es auch in der Sprachlehrforschung immer häufiger vor, dass bereits vorhandene Korpora benutzt werden. Ein linguistisches Korpus (Achtung: das Korpus! ) ist eine Sammlung von (mündlichen oder schriftlichen) Texten, die je nach Größe des Korpus ein paar Hundert oder viele Millionen Wörter umfassen kann. Korpora, die von einzelnen Forschern für ihre eigene Forschung zusammengestellt wurden, können u. U. nicht für alle Forschungszwecke genutzt werden (wenn z. B. Übersetzungen untersucht werden, dann können diese nicht auch zur Untersuchung „ normalen “ Sprachgebrauchs verwendet werden). Daneben gibt es Korpora, die von Anfang an für unterschiedliche Benutzer zusammengestellt wurden, wobei es den Erstellern darum ging, eine möglichst große und möglichst repräsentative Menge an Texten zu sammeln und deren Nutzung so einfach wie möglich zu machen. Hierzu gehören häufig benutzte (schriftliche) Korpora wie das DeReKo (Deutsches Referenzkorpus) des Instituts für deutsche Sprache mit seinen über 31 Milliarden Wörtern, das schriftliche Texte v. a. aus 3. Welche Verfahren stehen zur Wahl? 30 narr-starter.de Zeitungen sammelt und laufend erweitert. Wenn eine Studie mit einem Korpus arbeitet, muss gesichert sein, dass die in diesem Korpus als Stichprobe zusammengestellten Texte tatsächlich repräsentativ sind für die Grundgesamtheit, über die Aussagen gemacht wird. Zum Beispiel kann man schlecht für eine Erscheinung, die in der gesprochenen Sprache erheblich häufiger vorkommt als in der geschriebenen, auf ein Korpus wie das DeReKo zurückgreifen. Korpora sind besonders beliebt, wenn es darum geht, das Vorkommen spezifischer sprachlicher Phänomene zu untersuchen. Da sie digital gespeichert sind, können sie mit einigen Einschränkungen recht mühelos untersucht werden. Als Rezipient muss man auf einige Dinge achten, die die Validität von Aussagen einer Korpusanalyse beeinträchtigen können. Dies betrifft erstens, wie das Korpus gewählt (oder zusammengestellt) wurde, und zweitens, wie mit dem Korpus umgegangen wird. Wenn ein Forscher ein bereits bestehendes Korpus für seine Untersuchung gewählt hat, müssen Sie als Leser sicherstellen, dass das Korpus überhaupt die Fragestellung beantworten kann. Hierzu ein Beispiel: Ein Forscher will herausfinden, ob die Verwendung des Präteritums (oder einer äquivalenten Form) in unterschiedlichen Sprachen unterschiedlich häufig vorkommt. Dafür stellt er ein mehrsprachiges Korpus zusammen aus Übersetzungen der Bibel. Das Korpus ist nicht sehr gut gewählt, weil die Validität beeinträchtigt wird: Erstens eignen sich Übersetzungen nicht zum Vergleich sprachlicher Phänomene in unterschiedlichen Sprachen, weil der Rückgriff auf einen Quelltext die Übersetzung beeinflussen kann (wenn im Quelltext mehr Präteritumformen vorkommen, dann wird dies in der Übersetzung oft auch so sein). Zweitens kann man hier nur geschriebene Sprache, keine ge- 3.3 Korpusanalysen 31 narr-starter.de sprochene untersuchen. Und drittens spiegeln die Bibel und ihre vielen unterschiedlichen Übersetzungsvarianten nicht unbedingt den tatsächlichen Gebrauch einer (modernen) Sprache wieder. Das Gleiche gilt für Situationen, in denen man auf Korpora zurückgreift, um z. B. Erwerbs- oder Lernverläufe zu untersuchen. Wenn man die Entwicklung von Pluralformen bei bilingualen Kindern erforscht, sind Fallstudien von einem oder zwei Kindern interessant, allerdings nicht unbedingt repräsentativ für die Grundgesamtheit. Oder sollten argumentative Schülertexte untersucht werden, dann bringt eine Analyse eines Korpus von Geschichten vermutlich wenig. Wurde das Korpus vom Forscher selber zusammengestellt, sollte darauf geachtet werden, dass es repräsentativ ist. Bei Analysen von Zeitschriftenkorpora kann z. B. problematisch sein, dass journalistische Texte bestimmte Merkmale aufweisen, die wissenschaftliche oder sonstige akademische Texte nicht haben (z. B. mehr Fragen, einfachere Syntax, andere Fachwörter o. ä.). Sie sind nicht repräsentativ für den schriftsprachlichen Gebrauch allgemein, sondern für journalistische Texte. Wenn Schülertexte untersucht werden, dann muss darauf geachtet werden, dass auch diese möglichst repräsentativ sind, also von einer entsprechenden Bandbreite von Schülern erhoben wurden. Zweitens ist wichtig, wie das Korpus ausgewertet wurde. Denn je nachdem, wie mit dem Korpus umgegangen wird, können die empirischen Gütekriterien (s. Kapitel 2) beeinträchtigt werden. Hierzu sind Fragen zu stellen wie: ● Wurde das gesamte Korpus ausgewählt und analysiert, oder nur einen Teil davon? 3. Welche Verfahren stehen zur Wahl? 32 narr-starter.de ● Wie wurde sichergestellt, dass alle Erscheinungen der zu erforschenden Form auch in die Auswertung kommen? (Das ist besonders in Lernerkorpora, in denen häufig Lernerfehler stehen, ein Problem. So würde man *die Manner trotzdem als Pluralbildung annotieren, auch wenn der Umlaut fehlt.) ● Sind die Analysekategorien sinnvoll? (Wenn es z. B. um die gesamte Pluralbildung im Deutschen geht, dann müssen auch alle Pluralmorpheme einbezogen werden, und nicht nur z. B. -en und -s.) 3.4 Experimente und Interventionen Ein Experiment ist sinnvoll, wenn man den Einfluss eines Phänomens auf ein anderes untersuchen will. Dazu manipuliert man eine Variable und betrachtet, ob eine Änderung bei dieser Variablen (der unabhängigen Variablen) eine Änderung bei der anderen (der abhängigen Variablen) bewirkt. Experimente werden oft auch in der Sprachlehrforschung durchgeführt, in diesem Fall sind sie meist Interventionen, die bestimmte Lehrmethoden oder -materialien einsetzen und diese auf ihre Wirksamkeit prüfen (weswegen sie auch manchmal Wirksamkeitsstudien genannt werden). Alle Variablen müssen genau bestimmt und messbar gemacht ( „ operationalisiert “ ) werden. Angenommen, es sollte überprüft werde, ob der Genuss von alkoholischen Getränken die Ausspracheleistung im Englischen als Fremdsprache beeinflusst, dann wäre eine mögliche Operationalisierung für die unabhängige Variable die Anzahl von (gleich großen) Gläsern Wein, die die Versuchsteilnehmer getrunken haben. Die abhängige Variable könnte operationalisiert 3.4 Experimente und Interventionen 33 narr-starter.de werden als eine Note auf einer Skala von 1 ( „ hervorragend “ ) bis 6 ( „ nicht mehr verständlich “ ), die die Probanden von Muttersprachlern des Englischen für ihre Aussprache bekommen. Die erste Variable wird manipuliert, d. h. die entsprechenden Zustände werden herbeigeführt. Die - nüchtern angekommenen - Versuchsteilnehmer lesen zunächst mit 0 Gläsern Wein einen kurzen englischen Text auf Tonband vor, dann nach einem Glas Wein, dann nach 2 Gläsern Wein, dann nach 3 Gläsern Wein usw. In diesem Fall gibt es wiederholte Messungen nach demselben Verfahren bei jeweils denselben Personen. Jedes Mal wird die Ausspracheleistung Muttersprachlern vom Band vorgespielt, wobei die Beurteiler natürlich nicht wissen, wie viele Gläser Wein vor der entsprechenden Aufnahme getrunken wurden. Sie können sich das Ergebnis eines solchen Experiments sicher gut vorstellen, nach einem Glas wird die Aussprache bei den meisten durch den Abbau von Hemmungen besser, bei einigen auch noch nach dem zweiten, danach wird die Aussprache mit steigendem Alkoholkonsum kontinuierlich schlechter. In diesem Fall würden eindeutig die Änderungen (Manipulationen) bei der unabhängigen Variablen Änderungen bei der anderen, abhängigen Variable bewirken. Wir haben es in dem geschilderten Experiment mit einem „ wiederholte Messungen “ -Design zu tun, weil dieselben Personen in mehreren Zuständen untersucht wurden. Man könnte auch verschiedene Personen nehmen, die 0, 1, 2, 3 Gläser Wein getrunken haben, in diesem Fall handelt es sich um ein „ unabhängige Gruppen-Design “ . Dieses Design braucht man oft, wenn man Lernen untersucht, denn dieselben Personen können nicht dasselbe mehrmals lernen. Unabhängige Gruppen müssen aber in möglichst allen relevanten Merkmalen übereinstimmen, sonst untersucht 3. Welche Verfahren stehen zur Wahl? 34 narr-starter.de man Unterschiede zwischen Gruppen und nicht zwischen den Zuständen der in ihren Auswirkungen zu untersuchenden Variablen. Deswegen werden Gruppen oft balanciert, d. h. die relevanten Merkmale werden gleichmäßig in allen Gruppen vertreten. Weil es sehr schwer ist, wirklich in allen relevanten Merkmalen gleiche Gruppen zu finden, gibt es einen Ausweg: das lateinische Quadrat-Design. Damit werden die Effekte, die auf die unterschiedlichen Gruppen zurückzuführen sind, dadurch neutralisiert, dass man zwei Gruppen jeweils zwei Ausprägungen der zu untersuchenden Variablen aussetzt und zwar so, dass sie „ über Kreuz “ auf die Gruppen verteilt werden (s. Tab. 1): Gruppe A Gruppe B Variablenausprägung X Material 1 Material 2 Variablenausprägung Y Material 2 Material 1 Tab. 1: Lateinisches-Quadrat-Design Wenn Sie Darstellungen von Experimenten lesen, achten Sie auch darauf, ob es sich um ein Labor- oder ein Feldexperiment handelt (Achtung: Meistens werden sie in der Studie nicht als solche bezeichnet). In einem Laborexperiment wird versucht, alle Faktoren, die nichts mit der Untersuchungsfrage zu tun haben, entweder konstant zu halten oder gänzlich zu eliminieren. In einem Feldexperiment wird versucht, in der Situation, in der das Erforschte normalerweise stattfindet, eine Variable zu manipulieren. Wenn zwei verschiedene mögliche Grammatikerklärungen zum selben Lernstoff im normalen Unterricht in zwei Klassen von Deutschlernern erprobt würden, dann wäre das ein Beispiel für ein Feldexperiment. Der Nachteil von Feldexperimenten ist, dass es ausgesprochen schwierig ist, in 3.4 Experimente und Interventionen 35 narr-starter.de der „ echten “ Situation alle möglichen Einflussfaktoren konstant zu halten. Wo bekommt der Forscher zwei wirklich gleich gute und gleich lernfähige Schulklassen her, die noch dazu auf demselben Wissensstand sind? Und wenn sie gefunden sind, sind ihre Unterrichtssituationen wirklich vergleichbar? Es gibt also meist verschiedene nicht kontrollierbare Elemente, die als sogenannte „ Störvariablen “ wirken können, so dass nicht nur der Einfluss der unabhängigen, sondern auch der der Störvariable auf die abhängige gemessen wird, und das ist nicht Sinn der Sache. Deshalb weicht man oft auf Laborexperimente aus. Natürlich haben auch Laborexperimente Nachteile. Die Laborsituation ist so eingeschränkt und so künstlich, dass man nicht unbedingt sicher sein kann, dass in der realen Kommunikationssituation dieselben Strategien angewendet werden wie in der Testsituation. Somit kann ein Rückschluss auf das tatsächliche Verhalten unter Umständen gewagt sein. Psycholinguistische Experimente arbeiten oft in einer solchen „ künstlichen “ Situation, z. B., wenn Reaktionszeiten als abhängige Variable erhoben werden. Dabei setzt man seine Versuchsteilnehmer vor einen Computer, der ihnen sprachliches Material präsentiert, und misst die Zeit, die sie für eine Aufgabe zu diesem sprachlichen Material brauchen. Die Versuchsteilnehmer stehen unter Zeitdruck. Das hat den Zweck, die für die Sprachverarbeitung schwierigen Aufgaben von den leichten Aufgaben zu trennen. Mit genügend Zeit wird alles richtig gemacht, werden alle Fehler erkannt und kommen überlegte, aber nicht spontane Reaktionen zustande. Nur die schnellen, unüberlegten Reaktionen sind aber aussagefähig für die mentalen Prozesse bei der Sprachverarbeitung, die Linguisten normalerweise untersuchen wollen. 3. Welche Verfahren stehen zur Wahl? 36 narr-starter.de Verbindungen im mentalen Lexikon werden üblicherweise mit einer Experimentform untersucht, die sich „ lexikalische Entscheidungsaufgabe “ nennt. Dabei sitzen die Versuchsteilnehmer vor einem Bildschirm und es werden ihnen in unregelmäßiger Folge echte Wörter oder Buchstabenfolgen präsentiert, die nach den Regeln der entsprechenden Sprache zwar Wörter sein könnten, aber nicht als Wörter existieren. Die Versuchsteilnehmer müssen so schnell wie möglich auf einen Knopf drücken, wenn sie etwas als Wort erkannt haben, und auf einen anderen, wenn sie erkannt haben, dass die Buchstabenfolge kein Wort ist. Die Nichtwörter sind nur „ Ablenker “ und verhindern, dass immer gleich auf den „ Ja-Knopf “ gedrückt wird. Man hat festgestellt, dass die Reaktion auf Wörter schneller ist, wenn vorher ein Wort gezeigt wurde, das in einer Beziehung zu dem Wort steht, auf das reagiert werden soll. Die Reaktionszeit auf Bäcker ist also z. B. kürzer, wenn vorher Brot oder backen gezeigt wurde, als wenn vorher Jacke gezeigt wurde. Die vorher gezeigten Wörter nennt man primes und das Verfahren, die Reaktionszeit durch vorher gezeigte Wörter zu beeinflussen, primen. Wenn man herausfinden will, ob auch z. B. Kollokationen (häufig zusammen vorkommende Wörter wie ergreifen zu Maßnahmen oder bellen zu Hund) automatisch aktiviert werden, wäre es am besten mit eindeutig verbundenen Wörtern, eindeutig nicht verbundenen Wörtern und Kollokationen zu primen. Der Prime wird als unabhängige Variable manipuliert und die unterschiedlichen Reaktionszeiten für verschiedene Ausprägungen der unabhängigen Variablen werden verglichen - also wird überprüft, ob die Versuchsteilnehmer beim Erkennen von mit Kollokationen geprimten Wörtern schneller waren als bei Wörtern ohne Zusammenhang. 3.4 Experimente und Interventionen 37 narr-starter.de 3.5 Tests Häufig werden auch Tests eingesetzt, z. B. wenn Personen im Hinblick auf bestimmte Merkmale geprüft oder sogar verglichen werden sollen. Es kann sich aber auch um ein Instrument handeln, das im Rahmen eines anderen Verfahrens wie einem Experiment eingesetzt wird. Wenn überprüft werden soll, ob die Versuchsteilnehmer etwas gelernt haben, dann wird normalerweise der Wissensstand vor und nach der Intervention (z. B. Unterricht mit einer neuen Lehrmethode) oder das Lernergebnis von Gruppe A, die mit Methode X, und Gruppe B, die mit Methode Y dasselbe gelernt hat, getestet und verglichen. Für Tests gelten besondere Kriterien. Für die Validität der Untersuchung ist es wichtig, dass die verwendeten Tests auch wissenschaftlichen Standards entsprechen. Die erste Frage dabei ist, ob der Test denn überhaupt das testet, was untersucht werden soll. Gerade für sprachliche Fertigkeiten gibt es oft fertige Tests, die bereits erprobt sind. Wenn Sie einen Forschungsbericht lesen, in dem ein solcher fertiger Test verwendet wurde, müssen Sie allerdings überprüfen, ob der Test nicht ganz andere sprachliche Fertigkeiten abprüft als die, um die es in der Fragestellung der Untersuchung geht. Wenn z. B. auch pragmatische Fähigkeiten untersucht werden sollen, wird ein Test, in dem Grammatik, Lese- und Hörverständnis und Wortschatz überprüft werden, sich nicht eignen. Die nächste Frage wäre die nach der Objektivität des Tests. Ist sichergestellt, dass unabhängig vom Beurteiler immer dasselbe Ergebnis bei derselben Leistung herauskommen würde? Die Beachtung der Objektivität des Tests ist besonders wichtig für Untersuchungen, in denen der For- 3. Welche Verfahren stehen zur Wahl? 38 narr-starter.de scher an einem bestimmten Ergebnis interessiert war, z. B. weil er beweisen wollte, dass eine bestimmte Lehrmethode besser als andere ist. Wenn er dann noch einen nicht objektiven Test verwendet und ihn selbst ausgewertet hat, ist höchste Vorsicht geboten. Auch die Frage nach der Zuverlässigkeit des verwendeten Tests müssen Sie sich unter Umständen stellen, z. B. wenn der Test sehr kurz war. Aufgabe 2: Die DSH-Prüfung (Deutschprüfung für den Hochschulzugang) soll „ Studierfähigkeit “ testen. Geprüft wird „ Leseverstehen und Grammatik “ , „ Hörverstehen “ und „ Textproduktion “ . Wenn dieser schriftliche Teil bestanden ist, gibt es an den meisten Universitäten noch eine mündliche Prüfung, in der über einen vorbereiteten Lesetext gesprochen wird. Wo sehen Sie Probleme? Sie können auch eine konkrete DSH mit Lösungen ansehen, z. B. http: / / www.sz.uni-erlangen.de/ abteilungen/ daf/ pruefungen/ dsh/ mus terpruefung 3.6 Metaanalysen Metanalysen sind Analysen von Analysen. Nur ausgesprochen wenige Forscher führen solche Studien durch, da sie nicht nur zeitintensiv sind, sondern auch hohe fachliche und methodische Kenntnisse erfordern und zudem sehr problematisch sein können. Da bestimmte Metaanalysen immer wieder zitiert werden, sollten Sie zumindest wissen, worum es geht. Wenn Forschungsstudien (oft Interventionen bzw. Experimente) zu ähnlichen Themen durchgeführt werden - z. B. welche Vokabellehrmethode die effektivste ist - , ergeben sie oft divergierende Ergebnisse. Eine Metaanalyse versucht, 3.6 Metaanalysen 39 narr-starter.de diese zu einem Ergebnis zusammenzufassen. Das geht weit über die intensive Literaturrecherche hinaus, die man im Rahmen einer Forschungsstudie (oder einer Hausarbeit) betreibt. Das Ziel ist, nach dem erschließbaren Ergebnis unterschiedlicher Studien zu suchen. Dies ist nur möglich, wenn publizierte Studien ihre Ergebnisse ausreichend umfangreich darlegen. Dann können die Autoren einer Metaanalyse den Effekt (s. Kapitel 5.4) von z. B. einer Lehrmethode in einer Studie mit dem Effekt in einer anderen Studie vergleichen und zusammenfassen. Metaanalysen sichten oft zunächst sehr viele Studien und wählen dann eine gewisse Anzahl nach bestimmten Kriterien aus, die sie dann auswerten. Bei der Beurteilung von Metaanalysen braucht man oft spezifisches Wissen darüber, was die Autoren genau gemacht haben. Am wichtigsten ist, welche Auswahlkriterien sie festgelegt haben. Handelt es sich z. B. um Studien, die die wissenschaftlichen Gütekriterien streng eingehalten haben? Wurden nur Studien, die auf Englisch erschienen sind, in die engere Auswahl genommen (dies kann die Validität einschränken)? Die derzeit wohl bekannteste Metaanalyse stammt von John Hattie, der in seinem 2008 erschienenen Buch „ Visible Learning “ die Ergebnisse einer Metaanalyse von über 800 Einzelstudien zusammenfasst. Hattie konnte z. B. zeigen, dass Wortschatzprogramme (in der Erstsprache) durchschnittlich eine große, positive Auswirkung auf den Lernerfolg hatten, während andere Faktoren wie jahrgangsübergreifender Unterricht keinen Einfluss gezeigt haben oder sogar einen negativen Effekt auf den Lernerfolg hatten (wie Fernsehschauen). 3. Welche Verfahren stehen zur Wahl? 40 narr-starter.de Die wichtigsten Hinweise zusammengefasst ● Eine empirische Untersuchung sollte ein für die untersuchte Fragestellung geeignetes Verfahren der Datenerhebung wählen. Jedes der möglichen Verfahren hat Vor- und Nachteile, nur für die konkrete Fragestellung kann man entscheiden, ob die Vorteile eines Verfahrens überwiegen. ● Die Beobachtung ist ein sehr aufwändiges Verfahren, das meist erheblich mehr Daten erzeugt, als für die Beantwortung der Untersuchungsfrage nötig sind. ● Die Korpusanalyse ist eine Form der Beobachtung sprachlicher Erscheinungen, die den Aufwand der Beobachtung stark reduziert. ● Die Befragung (ob schriftlich oder mündlich) filtert die darzustellende Wirklichkeit durch die Wahrnehmung der Wirklichkeit durch die Befragten und dadurch, dass der Forscher nicht zu allen möglichen Aspekten Fragen stellt. ● Experimente haben den Vorteil, die notwendigen Bedingungen herstellen zu können, um die Untersuchungsfrage zu beantworten. Allerdings können sie künstlich und in ihrer Validität beeinträchtigt sein. ● Studien, die mit Methodentriangulation arbeiten, haben oft spezifische Probleme. Wenn die Anwendung der einzelnen Methoden zu verschiedenen Ergebnissen führt, ist zu überprüfen, welche der Methoden am ehesten den Gütekriterien entspricht. Ungeachtet dessen müssen Sie überprüfen, dass alle Teile nach den geltenden Regeln geplant und durchgeführt wurden. Die wichtigsten Hinweise zusammengefasst 41 narr-starter.de 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? Das Design ist das Herzstück einer Untersuchung: Nur Studien mit gut überlegten und sorgfältig umgesetzten Designs produzieren Ergebnisse, die für die Wissenschaft relevant sein können. Deswegen ist es so wichtig, etwas über den Aufbau empirischer Studien zu wissen. Hierfür beginnen wir mit einem Beispiel: Eine Untersuchung sollte herausfinden, ob es eine Rolle für die Geschwindigkeit der Sprachproduktion spielt, wenn man ein bedeutungstragendes oder ein rein kontextuelles Flexionselement hinzufügen muss. Aus diesem Grund wurde ein Satzergänzungsexperiment durchgeführt, in dem jeweils -s-Suffixe zur Pluralmarkierung (bedeutungstragend) und zur Genitivmarkierung (kontextuell) vorkommen. Die Sätze wurden so konstruiert, dass das Wort mit -s-Suffix das letzte Wort des Satzes war. Alle verwendeten Wörter haben einen -s-Plural und im Genitiv auch ein -s-Suffix. Die Versuchsteilnehmer ergänzten in Sätzen, die in Einzelwörtern vom Computer präsentiert wurden, das letzte Wort in der korrekten Form, indem sie es laut aussprachen. Die Reaktionszeit für Sätze wie: a. Dies ist der Anorak des (Eskimo) und b. Hier leben seit langem viele (Eskimo) wurde gemessen. Das Ergebnis war, dass die Ergänzung des Plurals im Durchschnitt länger dauerte. Ist die Untersuchung aussagefähig? Untersucht sie das, was sie untersuchen soll? Was ist der Fehler, wenn es einen gibt? narr-starter.de Die Fehler, die mit für die Fragestellung unpassenden Designs gemacht werden können, sind so vielfältig, dass man kaum alle behandeln kann. Es kann sich um Planungsfehler handeln, die auf nicht bedachte Phänomene zurückzuführen sind wie in unserem Übungsbeispiel. Hier waren die Forscher so sicher, dass die für die Kommunikation unnötige, nicht Bedeutung tragende Flexion mehr Zeit erfordern würde als die bedeutungstragende, dass sie nicht bedacht haben, dass für die Pluralmarkierung aus mehreren Möglichkeiten gewählt werden muss (- ∅ , -e, -er, -en, -n, -s). Insofern kann die längere Zeit dafür auch dadurch verursacht werden, dass eine Auswahl aus mehr Möglichkeiten getroffen werden muss als beim Genitiv (-s, - ∅ , -en). Wenn Sie solche Fehler suchen, brauchen Sie also auch Fachwissen über das untersuchte Phänomen. Wir betrachten eine Fragestellung. Eine Untersuchung 2 sollte herausfinden, welche Phänomene die Wortstellung im sogenannten „ Mittelfeld “ (also dem Teil des Satzes zwischen dem finiten Verb an 2. Stelle und dem infiniten Verbteil) Sprecher und Lerner des Deutschen am meisten in ihren Urteilen über die Akzeptabilität entsprechender Sätze beeinflussen. Es ging dabei um Sätze mit mehreren vollen Nominalgruppen im Mittelfeld wie Offensichtlich hat das Kind den Apfel gegessen. Die normale Abfolge ist in diesen Fällen erst das Subjekt, dann das direkte Objekt. Es gibt aber auch Fälle, in denen andere Wortstellungen akzeptiert werden, einige Bedingungen dafür wurden in der vor Beginn der Studie vorliegenden wissenschaftlichen Literatur beschrieben, u. a.: 2 Wir danken Ira Kreuzer, dass wir ihre Untersuchung benutzen durften und bitten um Entschuldigung dafür, dass wir ihre viel umfangreichere Untersuchung auf wenige Phänomene reduziert und zu Übungszwecken ein paar Fehler eingebaut haben. 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? 43 narr-starter.de ● das Subjekt ist indefinit, das direkte Objekt definit ● das Subjekt ist unbelebt, das direkte Objekt belebt. Die Untersuchung ging folgendermaßen vor: Eine Gruppe von 25 erstsprachlich deutschen Studierenden und eine Gruppe von 25 Studierenden mit anderer Erstsprache beurteilten ein Set von Sätzen. Alle Befragten waren Studierende philologischer Fächer derselben Universität. Die Akzeptabilität beurteilten sie auf einer Likert-Skala mit 1 „ völlig akzeptabel “ bis 6 „ überhaupt nicht akzeptabel “ . Die gewählten Sätze enthielten jeweils ein Adverb an erster Stelle und danach verschiedene mögliche Kombinationen. Für jede Kombination gab es drei unterschiedliche Sätze, wir bringen nur einige Beispiele und nur im ersten Fall auch die Parallelsätze, die in jedem Fall vorhanden waren: - Bedauerlicherweise hat den Hangar das Flugzeug gestreift. (beide unbelebt und definit) - Offensichtlich hat den Förster der Ast gestreift. (Parallelsatz) - Leider hat die Mauer der Ast überwuchert. (Parallelsatz) - Bedauerlicherweise hat den Hangar ein Flugzeug gestreift. (beide unbelebt, indefinites Subjekt) - Bedauerlicherweise hat einen Hangar ein Flugzeug gestreift. (Belebtheit wie oben, aber Subjekt und Objekt indefinit) - Bedauerlicherweise hat den Einweiser ein Flugzeug überfahren. (Objekt belebt und definit, Subjekt unbelebt und indefinit) - Leider hat den Einweiser das Flugzeug überfahren. (Objekt belebt, Subjekt unbelebt, beide definit) Die 120 Sätze, die noch einige weitere Faktoren berücksichtigten, wurden auf zwei Versionen des Fragebogens verteilt, sodass immer für die Fälle, in denen sich die Sätze nur in einem relevanten Merkmal unterschieden, die andere Version durch einen der Parallelsätze realisiert wurde. Außerdem wurden die Sätze in unterschiedlicher Reihenfolge präsentiert. Die Reihenfolgen wurden nach dem Zufallsprinzip vergeben (Ziehen der Nummern einer nummerierten Version der umfangreichen Satzliste). 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? 44 narr-starter.de Nachdem die Fragebogen in linguistischen Seminaren außerhalb der Germanistik (da wäre eventuell die Fragestellung einmal im Seminar besprochen worden) verteilt worden waren, wurden pro Satz alle Urteile in eine Tabelle eingearbeitet, und zwar getrennt nach den Muttersprachlern und den Nicht-Muttersprachlern. Seltsamerweise gab es keinen Satz, der durchschnittlich die schlechteste Note (6) bekam, also selbst so ungewöhnliche Exemplare wie Leider hat einen Einweiser ein Flugzeug überfahren wurden nicht gänzlich abgelehnt, sondern der schlechteste Durchschnittswert lag noch zwischen 4 und 5. Die statistische Analyse mit einer Varianzanalyse ergab im Wesentlichen keine Unterschiede zwischen den Muttersprachlern und den Nicht- Muttersprachlern, der Faktor der Definitheit erwies sich als nicht signifikant für die Beurteilung der Sätze, wohl aber der Faktor der Belebtheit. Die Sätze mit einem belebten vorangestellten direkten Objekt wurden gegenüber denen mit einem vorangestellten unbelebten direkten Objekt deutlich präferiert. Aufgabe 1: Überlegen Sie, was an diesem Design gelungen erscheint und was eher problematisch sein könnte. Eine weitere Frage ist, ob ein anderes Datenerhebungsverfahren nötig gewesen wäre, also ob man z. B. versucht hat, etwas mit einer Befragung zu erheben, obwohl die Befragungssituation die Ergebnisse beeinflussen könnte. In der Linguistik ist dies häufig der Fall, wenn die Befragten durch die Frage an sprachliche Normen erinnert werden, von denen sie annehmen, dass sie sie befolgen. Es könnte, wenn wir auf unser Beispiel zurückkommen, z. B. sehr gut sein, dass die Nicht-Muttersprachler in ihrem Deutschunterricht gelernt hatten, die Abfolge müsse immer Subjekt-direktes Objekt sein, wenn beides im Mittelfeld steht, denn dies findet sich (als Übergeneralisierung der für Pronomina geltenden Re- 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? 45 narr-starter.de gel) normalerweise in Lernergrammatiken, die ja nicht auf selten gebrauchte Ausnahmen hinweisen wollen. Mit einem Antworten nach der internalisierten Norm muss man auch bei Lehrpersonen rechnen, die normalerweise von sich selbst annehmen, dass sie sich zumindest den Normen entsprechend verhalten, die sie selbst für richtig halten. Diese Selbsteinschätzung, z. B. zu ihrem Korrekturverhalten im Unterricht, die sie in einer Befragung wiedergeben, muss aber keineswegs ihrem tatsächlichen Verhalten entsprechen. Die wichtigsten Hinweise zusammengefasst ● Achten Sie darauf, ob das für die Fragestellung passende Verfahren angewandt wurde. ● Sehr wichtig ist die Kontrolle, ob das Design geeignet ist, Störvariablen so gut wie möglich auszuschließen (bei Vergleichen zwischen Gruppen z. B. durch das Lateinische-Quadrat-Design, s. Kapitel 3.4). 4. Ist das Forschungsdesign sinnvoll für die Fragestellung? 46 narr-starter.de 5. Ist die Statistik in Ordnung? Bei der Darstellung der statistischen Ergebnisse hören viele Studierende auf zu lesen, sie überspringen diesen Ergebnisteil und gehen direkt zu der Diskussion und den Schlussfolgerungen über. Dies ist aber ein sehr tückischer Fehler, denn Datenauswertungsverfahren sollen möglichst offen gelegt und die Ergebnisse nach gültigen Kriterien präsentiert werden, damit die Lesenden und andere Forschende sie überprüfen können. Und dies ist auch wichtig. Denn es passiert recht häufig, dass z. B. „ Unterschiede “ zwischen untersuchten Gruppen in der Ergebnisdiskussion eines Artikels behauptet werden, obwohl nur wenige Seiten davor die Differenzen als „ nicht statistisch signifikant “ bezeichnet wurden. Wie Sie die Ergebnisdarstellung etwas aufmerksamer lesen können, ohne sofort vor den vielen Zahlenreihen und unbekannten Notationen zu kapitulieren, ist Thema von Kapitel 5. Bevor man statistische Angaben beurteilen kann, muss man über zwei sehr grundlegende Unterscheidungen Bescheid wissen: erstens, welche Skalierung die erhobenen Daten haben, und zweitens, was der Unterschied zwischen beschreibenden und prüfenden statistischen Verfahren ist. Hier vorweg: Die beschreibende Statistik dient dazu, Daten möglichst klar und überschaubar darzustellen. Die prüfende Statistik überprüft, ob ein Zusammenhang oder Unterschied zwischen den Daten zufällig entstanden sein kann oder nicht. Es gibt sehr viele verschiedene statistische Verfahren, die wir hier nicht behandeln können. Wir gehen in diesem STARTER daher auf einige einfache, häufig vorkommende narr-starter.de Verfahren ein und empfehlen Ihnen, sich über weitere von Fall zu Fall zu informieren. Für eine Untersuchung wurden zwei 5. Klassen zusammengestellt, so dass sie möglichst ähnlich waren. Die Klasse 5A wurde mit einer tollen neuen Methode unterrichtet, während die Klasse 5B mit der herkömmlichen Methode unterrichtet wurde. Ansonsten war alles sehr ähnlich: gleicher Lernstoff, gleich lange Unterrichtszeit, gleich motivierte Schüler und Lehrpersonen. Nach vier Wochen Unterricht schrieben die Schüler einen Test, in dem dieser Lernstoff abgeprüft wurde und bei dem man höchstens 20 Punkte erreichen konnte. Die Autoren berichten über die Ergebnisse wie folgt: Der Posttest hat ergeben, dass Schüler der Klasse 5A den Mittelwert M = 13,2 ( σ = 5,93), Schüler der Klasse 5B den Mittelwert M = 12,8 ( σ = 0,84) erreicht haben. Unterscheiden sich die Testergebnisse von Klasse 5A und 5B wirklich? Woher weiß man das? Und wie stehen ihre Ergebnisse im Verhältnis zu der Note im geprüften Fach? 5.1 Um was für Daten geht es? Bevor wir überhaupt herausfinden können, wie sich die Schüler verhalten, müssen wir eine wichtige Größe determinieren, nämlich mit welcher Art von Daten die Studie agiert. Es gibt in der Linguistik und Sprachlehrforschung drei gängige Arten von Variablen, mit denen wir arbeiten. Für die richtige Anwendung statistischer Verfahren ist es ausgesprochen wichtig zu wissen, dass sie unterschiedliche Messskalen verwenden: Metrische (Verhältnis- und Intervall-), Ordinal- und Nominalskala. 5. Ist die Statistik in Ordnung? 48 narr-starter.de ● Bei Daten, die metrisch skaliert sind, können wir die genaue Distanz (Intervall) zwischen den einzelnen Ergebnissen bestimmen und somit sagen, wie weit sie voneinander entfernt sind. Typisch metrischskalierte Daten sind z. B. Alter (in Jahren oder Monaten), Anzahl der Punkte, die bei einem Test erreicht wurden (wie im Beispiel oben), oder die Zeit, die man für die Erledigung einer Aufgabe braucht, darunter auch Reaktionszeiten in der Psycholinguistik. ● Daten, die ordinalskaliert sind, können in eine Reihung gebracht werden, aber die Abstände zwischen den einzelnen Ergebnissen sind nicht genau zu bestimmen. Typisch hierfür sind Schulnoten oder Daten aus Befragungen, die mit einer Likert-Skala erhoben wurden (der Abstand zwischen einer 3 und einer 4 ist u. U. geringer als der zwischen einer 5 und einer 6). ● Nominalskalierte Daten entstammen kategorialen Variablen: Es geht um Daten wie Geschlecht, Erstsprache, Schulform oder dichotome Entscheidungen wie bestanden/ nicht bestanden. Als Leser sollen Sie immer prüfen, ob die unterschiedlichen Arten von Daten mit den für diese Art von Daten passenden statistischen Verfahren 3 berechnet wurden. Darauf gehen wir im Folgenden ein. 3 Für sehr große Studien wie z. B. PISA gelten andere Regeln, auf die wir hier nicht eingehen. Sie können aber bei solchen Studien i. d. R. davon ausgehen, dass die Daten korrekt ausgewertet wurden. 5.1 Um was für Daten geht es? 49 narr-starter.de 5.2 Beschreibende (deskriptive) Statistik Beschreibende Statistik sollte jeder Linguistikstudent verstehen können; sie ist recht einfach und wurde bereits im Mathematikunterricht der Sekundarstufe I besprochen. Die meisten Studierenden brauchen aber eine kleine Auffrischung. Es gibt viele gute youtube-Tutorials hierzu, wir empfehlen an dieser Stelle, bei Unklarheiten das eine oder andere Video anzuschauen. Die beschreibende Statistik umfasst meistens: ● Maße der zentralen Tendenz: zeigen an, was der „ normale “ Wert von einer Gruppe ist: Mittelwert, Median, Modus. ● Maße der Variabilität: zeigen an, wie weit die meisten Ergebnisse um diesen normalen Wert verteilt liegen: Standardabweichung, Quartile. ● Transformierte Messwerte: zeigen an, wie ein einzelnes Ergebnis sich im Vergleich zu den anderen verhält, z. B.: z-Werte. Diese können für folgende Skalierungen berechnet werden (Tab. 2): metrischskaliert ordinalskaliert nominalskaliert Mittelwert ( M , μ ) x Median ( m ) x x Modus x x x Standardabweichung ( S, σ ) x Quartile x x z x Tab. 2: Maße beschreibender Statistik 5. Ist die Statistik in Ordnung? 50 narr-starter.de Maße der zentralen Tendenz Nehmen wir an, wir wollen zunächst nur beschreiben, wie die Ergebnisse des Vokabellernunterrichts ausgefallen sind. Eine tabellarische Darstellung aller Daten ist völlig ungeeignet, einen schnellen Überblick zu geben, besonders dann, wenn sehr viele Personen getestet werden. Deshalb berechnet man den Mittelwert (M), also das arithmetische Mittel aller Daten. Im Beispiel oben hat Klasse 5A den Mittelwert 13,2 und Klasse 5B den Mittelwert 12,8. So vermutet man schnell, dass Klasse 5A einen besseren Durchschnitt erzielt hat. (Ob dies aussagefähig ist, finden wir allerdings erst mit der Prüfstatistik heraus.) Für ordinalskalierte Daten können übrigens keine Mittelwerte berechnet werden, dies liegt daran, dass die Abstände zwischen den Stufen nicht gleich sind. Für sie berechnet man den Median, also den in der Mitte liegenden Wert, wenn alle Werte von klein bis groß aufgereiht sind (dies geht natürlich auch für metrische Daten). Und bei nominalen Daten kann man nur den Modus angeben - also welche Kategorie am häufigsten vorkommt (z. B. ob es in einer Untersuchung mehr Schüler mit Deutsch als Erstsprache gab als Schüler mit Russisch als Erstsprache). Maße der Variabilität Interessant ist auch noch, wie sich die Werte um den Mittelwert verteilen, ob also alle Ergebnisse nahe beim Mittelwert liegen (dann haben wir eine geringe Streuung) oder ob es auch viele Werte gibt, die weit vom Mittelwert entfernt liegen (dann haben wir eine große Streuung). Die Streuung für metrischskalierte Daten wird meist mit der Standardabweichung ( σ oder SD) angegeben. Dies zeigt an, 5.2 Beschreibende (deskriptive) Statistik 51 narr-starter.de in welcher Entfernung vom Mittelwert der Großteil - um genau zu sein, 68,2 % 4 - aller Ergebnisse zu finden ist. Ohne Angabe der Variabilität wie der Standardabweichung sagt ein Mittelwert übrigens fast nichts aus, denn wir wissen nicht, ob es überhaupt einen „ normalen “ Wert gibt. In unserem Beispiel oben haben die Autoren die Standardabweichung angegeben: für Klasse 5A σ = 5,93 und für Klasse 5B σ = 0,84 Punkte. Die meisten Ergebnisse von Klasse 5A werden dann +/ - 5,93 Punkte vom Gruppenmittelwert liegen, die meisten von 5B +/ - 0,84 Punkte. Das bedeutet, dass in der Klasse 5A die meisten Schüler zwischen 7,27 und 19,13 Punkten hatten, in der Klasse 5B zwischen 11,96 und 13,64 Punkten. Die Klasse 5B verhält sich also deutlich homogener, die Klasse 5A hat kaum „ normale “ Werte. Was das für Sie bedeutet: Wahrscheinlich gibt es überhaupt keine „ echten “ Unterschiede zwischen Klasse 5A und Klasse 5B. Wenn ordinalskalierte Daten oder Daten mit sehr hoher Variabilität dargestellt werden, werden oft die Quartilbereiche genannt. Der Interquartilbereich ist nichts anderes als alle Daten, die nicht zu den kleinsten oder zu den größten Messungen gehören (inter = zwischen; Quartil = ¼). Hier sehen wir, welche Ergebnisse zwischen dem oberen Viertel der Daten und dem unteren Viertel der Daten liegen, also zu den mittleren 50 % aller Werte gehören. Sehr häufig sieht man solche Informationen als Grafik in einem sogenannten „ Boxplot “ abgebildet, für unseren Posttest wie in Abb. 1. 4 Warum das so ist, können wir in diesem STARTER nicht besprechen, Sie finden aber eine umfangreichere Erklärung im Studienbuch Empirisches Arbeiten in L inguistik und Sprachlehrforschung (Albert/ Marx 2016). 5. Ist die Statistik in Ordnung? 52 narr-starter.de Einen Boxplot kann man so lesen: Das Viereck umrahmt die mittleren 50 % aller Ergebnisse. Der dicke Strich bildet den Median, also den mittleren Wert aller Ergebnisse ab. Und das obere und untere „ T “ zeigt an, bis wohin die restlichen 25 % aller Daten oberhalb und unterhalb der mittleren Quartile reichen. 5 Abb. 1: Boxplot zur Angabe des Interquartilbereichs Aufgabe 1: Schauen Sie Abb. 1 an und vergleichen Sie diese mit den Mittelwerten. Was fällt Ihnen noch auf? 5 Es kann übrigens sein, dass auch kleine Sternchen oder Kreuze abgebildet werden, die noch weiter von der Box entfernt liegen. Dabei handelt es sich immer um Ausreißer, womit wir uns hier nicht beschäftigen. 5.2 Beschreibende (deskriptive) Statistik 53 narr-starter.de Transformierte Messwerte Manche Studien berichten von Einzelergebnissen oder auch von bestimmten Gruppen und wie sie sich im Vergleich zur Gesamtstichprobe verhalten. Im Alltag sprechen wir von „ überdurchschnittlich “ und „ unterdurchschnittlich “ . Nun können Testwerte transformiert werden, um herauszufinden, wie genau über- oder unterdurchschnittlich ein bestimmtes Ergebnis (eine bestimmte Person mit Bezug auf eine bestimmte Eigenschaft etc.) ist. In der einfachsten Form wird ein Ergebnis so transformiert, dass nicht das Rohergebnis, sondern die genaue Anzahl von Standardabweichungen für den Wert angegeben wird (das nennt man Standardwert). Von Interesse war ebenfalls, wie die Klassenstärksten abgeschnitten haben. Aus Klasse 5A erreichte Hugo mit 20 Punkten z = 1,15, aus Klasse 5B Catherine mit 14 Punkten z = 1,43. Hier sehen wir, dass, obwohl Catherine deutlich schlechter abgeschnitten hat als Hugo, sie einen höheren Standardwert hatte - also im Vergleich zu allen anderen in ihrer Klasse doch besser war. Besonders wichtig sind transformierte Messwerte in größeren Vergleichsstudien. Das liegt daran, dass man in den größeren Vergleichsstudien Werte haben will, die man über unterschiedliche Fächer (z. B. Mathe, Deutsch, Englisch, Naturwissenschaften), Länder und Schülergruppen gleich interpretieren kann. Nehmen wir ein Beispiel aus der PISA-Studie 2009. Hier werden die Werte so normiert, dass der „ Mittelwert “ immer gleich ist. Die Skala der 5. Ist die Statistik in Ordnung? 54 narr-starter.de Kompetenzwerte hat immer einen Mittelwert von 500 und eine Standardabweichung von 100. Angenommen, die Kompetenzen sind normalverteilt, liegen 68 % aller Schüler innerhalb von einer Standardabweichung unter bzw. über dem Mittelwert, also zwischen 400 und 600 Punkten. Aufgabe 2: Erklären Sie vor diesem Hintergrund, wie die folgenden Ergebnisse für den Kompetenzbereich „ Deutsch - Lesen “ aus PISA 2009 (Klieme et al. 2010, 220) interpretiert werden sollen (beachten Sie, dass statistisch bereits die Störfaktoren „ Sozioökonomischer Hintergrund der Eltern “ , „ Kulturgüter “ und „ Bildungsniveau der Eltern “ kontrolliert wurden, d. h. dass diese Faktoren bei den Unterschieden wahrscheinlich keine Rolle spielen werden): ● Schüler ohne Migrationshintergrund: 515 Punkte ● Schüler mit einem im Ausland geborenen Elternteil: 511 Punkte ● Schüler mit zwei im Ausland geborenen Eltern und selber im Ausland geboren: 476 Punkte ● Schüler mit zwei im Ausland geborenen Eltern, aber selber in Deutschland geboren: 490 Punkte Man sieht: Mit beschreibender Statistik kann vieles über eine Stichprobe erschlossen werden. Viele unerfahrene Forscher hören an dieser Stelle mit ihrer Darstellung auf, sie zeigen den Mittelwertunterschied, nennen die Standardabweichung, vielleicht machen sie auch noch hübsche Graphiken dazu. Das reicht in vielen Fällen, wenn es wirklich nur darum geht, eine Stichprobe zu beschreiben. Wenn es aber darum geht, Unterschiede zwischen Gruppen herauszufinden, wie im Beispiel vom Anfang des Kapitels, reicht das nicht aus. Rein aufgrund von beschreibender Statistik kann man niemals sagen, dass eine Hypothese durch die Daten bestätigt wurde. Wenn man zwei Gruppen bildet, ist es erheblich wahrscheinlicher, dass man 5.2 Beschreibende (deskriptive) Statistik 55 narr-starter.de Unterschiede zwischen ihnen findet, als dass man keinen Unterschied zwischen ihnen findet. Man könnte z. B. aus beiden Klassen die dunkelhaarigen Schüler nehmen und deren Testergebnisse mit denen der blonden und rothaarigen Schüler vergleichen, und man wird mit größter Wahrscheinlichkeit einen Mittelwertunterschied finden. Trotzdem wäre es wenig angebracht, nun anzunehmen, dass die Haarfarbe eine Rolle spiele für die Erfolge beim Sprachenlernen. Um Unterschiede zwischen Gruppen zu prüfen, braucht man die Prüfstatistik. 5.3 Inferenzen über die Population Es kommt häufig vor, dass Forscher nicht nur das Verhalten einer bestimmten Gruppe beschreiben wollen, sondern über die in einer einzigen Studie erhobenen Daten hinausgehen und auf andere Situationen generalisieren wollen. Man möchte nämlich inferieren, also aus einer bestimmten Stichprobe Schlüsse auf die Gesamtpopulation ziehen. Man stellt eine Hypothese darüber auf, wie sich die Population verhält, und prüft sie an einer Stichprobe. Aus diesem Grund wird die inferentielle Statistik auch Prüfstatistik genannt. Nötig ist dazu die Auswahl eines angemessenen Designs und die richtige Wahl des statistischen Prüfverfahrens. Als Leser ist es anfangs oft schwierig, sich innerhalb der Vielfalt der inferentiellen Verfahren zu orientieren. So begegnet man unterschiedlichen Kenngrößen wie r, χ 2 , Spearman ’ s Rho ( ρ ), t, F, z, U u. a., die einem wie mathematisches Geheimwissen vorkommen. Hier können wir unmöglich auf 5. Ist die Statistik in Ordnung? 56 narr-starter.de alle Verfahren eingehen. Sie müssen aber drei ganz wichtige Unterscheidungen identifizieren können, und zwar: 1. Wurde der richtige Test für die entsprechende Datenskala verwendet? 2. Wann werden Zusammenhänge, wann Unterschiede untersucht und berechnet? 3. Was ist der Unterschied zwischen Zusammenhängen und Kausalitäten? Erstens zur Wahl des richtigen statistischen Tests: Wie bei der beschreibenden Statistik ist es wichtig, nur den richtigen Test für die Auswertung der Daten heranzuziehen. So darf man keine Werte wie die Pearson Product-Moment-Korrelation (r) für Daten verwenden, die ordinalskaliert sind, und der t-Test darf nur verwendet werden, wenn es sich um nur zwei Datenreihen von metrisch skalierten Daten handelt. Hier empfehlen wir Ihnen zur Vertiefung eine Lektüre des Studienbuchs (Kapitel 9 und 10) sowie ein Gespräch mit jemandem, der etwas mehr über Statistik weiß. Zweitens sind die Verfahren zur Berechnung von Zusammenhängen und Unterschieden anders. Das sieht man gut am Beispiel der Fragen vom Anfang dieses Kapitels: Unterscheiden sich die Testergebnisse von Klasse 5A und 5B wirklich? Und wie stehen ihre Ergebnisse im Test im Verhältnis zu der Note im selben Fach? Bei der ersten Frage geht es um Unterschiedsmaße: Man will wissen, ob zwei Gruppen, die einen unterschiedlichen Unterricht hatten, sich auch unterschiedlich verhalten. In diesem Fall wird wahrscheinlich ein t-Test für unabhängige Stich- 5.3 Inferenzen über die Population 57 narr-starter.de proben (der berichtete Kennwert ist dann t) durchgeführt. Bei der zweiten Frage geht es darum, in welchem Verhältnis das Testergebnis zu der Fachnote steht. Hier holen die Forscher sich die Fachnoten von jedem Schüler in den zwei Klassen und berechnen den Zusammenhang zwischen Note und Testergebnis (der berichtete Kennwert ist dann Spearmans Rho ( ρ ), das manchmal auch als Spearmans Korrelation bezeichnet wird). Der häufigste Kennwert - der allerdings nur für metrischskalierte Daten verwendet werden darf - ist hier Pearsons Korrelation (r). Achtung: Es geht hier nur darum, ob zwei Variablen in irgendeinem Verhältnis zueinander stehen - und nicht darum, ob die eine die andere beeinflusst! Diese können Sie auch selber in einem ersten Schritt mit Hilfe der Tabelle 3 beurteilen: Häufige Kennwerte für Zusammenhangsmaße Häufige Kennwerte für Unterschiedsmaße Pearsons Korrelation (r) Chi Quadrat ( χ 2 ) Spearmans Rho ( ρ ) t (für t-Tests) F (für ANOVAs) Wilcoxon z Mann-Whitney U Chi Quadrat ( χ 2 ) Tab. 3: Häufige Kennwerte der Prüfstatistik Drittens kommt es häufig vor, dass man Aussagen liest wie die folgende (hier ein wenig übertrieben): Es konnte herausgefunden werden, dass es einen hohen Zusammenhang zwischen der wöchentlichen Menge an verzehrter Schokolade und der Note im Englischunterricht gab (r = 0,78, p < 0,05). Das Essen von Schokolade führt also zu besseren Englischnoten. 5. Ist die Statistik in Ordnung? 58 narr-starter.de Hier verwechselt der Autor eindeutig zwei Situationen. Denn ein nachgewiesener Zusammenhang zwischen zwei Variablen (wie hier: Menge an Schokolade, die man wöchentlich isst, und Englischnote) heißt noch längst nicht, dass das eine zum anderen führt. (Es kann natürlich sein, dass Schokolade besonders gut für die Förderung englischer Sprachkenntnisse ist. Andererseits könnten Schüler, die gute Englischnoten haben, von ihren Eltern als Belohnung besonders viel Schokolade erhalten. Oder vielleicht haben sie einfach gar nichts miteinander zu tun, was man als irreführende Korrelation 6 bezeichnet). Aufgabe 3: Bestimmen Sie: Welche Skalierung haben die untersuchten Daten? Und was wird untersucht: ein Zusammenhang oder ein Unterschied zwischen den Variablen? 1. Ob weibliche oder männliche Babys das Wort Auto früher produzieren. 2. Ob das Pluralmorphem -en, -e, -er, -s oder - ∅ in der Lernersprache häufiger vorkommt. 3. Ob Lerner, die tendenziell eher möchten, dass die Gesprächspartner ihre deutsche Aussprache verstehen, tendenziell weniger ihren muttersprachlichen Akzent vorziehen. 4. Ob die Reihenfolge Subjekt - Direktes Objekt im Mittelfeld nur unter bestimmten Bedingungen akzeptabler wirkt als die Reihenfolge Direktes Objekt - Subjekt. 5.4 Was hat es mit Signifikanz und Aussagekraft auf sich? Ein Vorteil der Prüfstatistik ist, dass sie mit einiger Sicherheit nachweisen kann, wie wahrscheinlich es ist, dass der 6 Für eine witzige Darstellung solcher - echten! - irreführenden Zusammenhänge, empfehlen wir http: / / www.tylervigen.com. 5.4 Was hat es mit Signifikanz und Aussagekraft auf sich? 59 narr-starter.de Zufall die Ursache für die gefundenen Unterschiede ist. Wenn der Zufall mit einer genügend großen Wahrscheinlichkeit ausgeschlossen werden kann, sagt man, der Wert ist signifikant. Und um zu wissen, ob dieser nicht zufällige Wert auch bedeutend ist, wird die Aussagekraft geprüft. Signifikanz Signifikanz ist ein wichtiger Begriff in Untersuchungen, nicht nur, weil er häufig fehlerhaft verwendet wird. Als Leser werden Sie vielen Kennwerten der inferentiellen Statistik begegnen. Zu diesen Kennwerten wird aber Signifikanz immer angegeben, und da sie immer gleich interpretiert wird, müssen Sie sich darüber unbedingt informieren. Zum Beispiel würden die Autoren der Studie vom Beginn des Kapitels nicht nur die Mittelwerte berechnen; sie würden dazu weitere Informationen angeben: Ein zweiseitiger t-Test ergab t(8) 7 = 0,15, p = 0,88 8 . Der Unterschied zwischen Klasse 5A und Klasse 5B war also nicht signifikant. Signifikanz hat nichts mit „ Bedeutung “ zu tun, sondern bedeutet nur, dass der Zufall wahrscheinlich nicht Ursache für gefundene Unterschiede ist. Da man aber nie ganz ausschließen kann, dass Ergebnisse zufälligerweise entstan- 7 Bei dieser Zahl - es können eine oder zwei sein - in Klammern handelt es sich um die Angabe der Freiheitsgrade, die uns in diesem STARTER nicht weiter beschäftigen soll. Sie können sie also (noch! ) getrost überlesen. 8 Alternativ schreibt man auch: p = n. s. (also nicht signifikant). 5. Ist die Statistik in Ordnung? 60 narr-starter.de den sind, setzt man einen bestimmten Wert als akzeptables Risiko, dass Differenzen nicht wirklich existieren. In der Linguistik und Sprachlehrforschung erwartet man üblicherweise, dass weniger als 5 % Wahrscheinlichkeit dafür bestehen, dass der Zufall die Ursache für die gefundenen Unterschiede ist. Signifikanz wird mit dem Kennwert p angegeben. Ein Signifikanzniveau von p < 0,05 (d. h. kleiner als 5 %) ist akzeptabel, größer eher nicht. Manche Studien legen unterschiedlichen Latten für die Signifikanz, z. B. p < 0,01 oder p < 0,001. Als Leser müssen Sie nur aufpassen, ob das vorherbestimmte Signifikanzniveau erreicht wird, d. h. ob der p-Wert unter 0,05 oder 0,01 etc. liegt - und ob nichtsignifikante Ergebnisse in der Diskussion nicht auf einmal als „ Unterschiede “ behandelt werden. So wäre es z. B. absolut falsch, zu behaupten, dass Klasse 5A (M = 13,2) besser wäre als Klasse 5B (M = 12,8) - die Unterschiede sind nicht signifikant. Zwei Dinge haben Einfluss darauf, ob gefundene Unterschiede signifikant sind oder nicht, nämlich erstens die Größe der Unterschiede (je größer der Unterschied, desto wahrscheinlicher ist ein signifikantes Ergebnis) und zweitens die Größe der Stichprobe (je größer die Stichprobe, desto wahrscheinlicher die Signifikanz). Als Leser sollen Sie darauf achten, dass sehr große Stichproben oft signifikante Ergebnisse erzielen, auch wenn die eigentlichen Gruppenunterschiede unbedeutend sind. Um dies zu prüfen, braucht man eine weitere Information, nämlich die Aussagekraft. 5.4 Was hat es mit Signifikanz und Aussagekraft auf sich? 61 narr-starter.de Erklärte Varianz und Aussagekraft Erst in den letzten Jahren wird in Linguistik und Sprachlehrforschung häufiger über die Effektgröße berichtet. Da diese auch sehr wichtig ist, sollten Sie verstehen, worum es geht, wenn Sie Kenngrößen wie r 2 , Cramers V, partielles eta 2 (auch: η 2 ), Glass ‘ Δ (Delta), Hedges g oder Cohens d (dem häufigsten Maß) begegnen. In Untersuchungen gefundene Ergebnisse werden immer von weiteren Faktoren beeinflusst, die nicht in der Studie berücksichtigt sind. Die unabhängige Variable Testergebnis wird z. B. auch von anderen Faktoren beeinflusst als Lehrmethode, selbst wenn nur diese manipuliert wurde. Die Aussagekraft zeigt, inwiefern eine Variable eine andere erklären kann (oder nicht erklären kann), oder wie stark die Auswirkung einer Variable auf eine andere ist. Das erste nennt man erklärte Varianz, das zweite Aussagekraft oder Effektgröße. Bei der erklärten Varianz, die häufig bei Zusammenhängen berichtet wird, geht es darum, in welchem Maß die Varianz einer Variablen durch eine andere Variable erklärt werden kann. Nehmen wir an, man würde einen Intelligenzquotient erheben und die teilnehmenden Personen einen Englischtest schreiben lassen. Die Korrelation zwischen beiden Werten für die Stichprobe ist r = 0,30 (das ist übrigens ein kleiner Zusammenhang). Die erklärte Varianz, hier als r 2 berechnet, ist r 2 = 0,09. Dies bedeutet, dass 9 % von der Note durch die gemessene Intelligenz erklärt werden kann - zwar nachweisbar, aber 91 % der Note wird durch andere Faktoren erklärt. Die Effektgröße wird bei unterschiedsprüfenden Verfahren berechnet. Hier handelt es sich nicht nur darum, ob die 5. Ist die Statistik in Ordnung? 62 narr-starter.de Mittelwerte von zwei oder mehr Gruppen sich unterscheiden (= Signifikanz), sondern wie unterschiedlich sie sind. Hierfür gibt es unterschiedliche Kennwerte, je nachdem, welcher statistische Test durchgeführt wurde. Ihre Aufgabe als Leser ist es, sich zu versichern, dass über die Effektgröße berichtet wird - Sie müssen zunächst davon ausgehen, dass die Wahl dafür richtig gefällt wurde. Wie ist denn Effektgröße zu verstehen? Manche Kennwerte wie Cohens d können in etwa so interpretiert werden wie der z-Wert 9 ; d ist eine Einschätzung der Unterschiede in zwei Mittelwerten, z. B. zwischen einer Kontrollgruppe und einer Interventionsgruppe. Ein d von +1,0 würde somit bedeuten, dass der Mittelwert der Interventionsgruppe eine komplette Standardabweichung über dem Mittelwert der Kontrollgruppe liegt. Anders als bei der Signifikanz, bei der ein Wert entweder signifikant ist oder nicht (es gibt also keine „ hochsignfikanten “ Ergebnisse), kann die Aussagekraft als klein, mittel oder groß interpretiert werden. Wann ist dann ein Effekt bedeutend? Hier gibt es unterschiedliche Meinungen. Als Daumenregel können Sie die folgende Tabelle 4 zu Hand nehmen: r 2 , d, δ eta 2 Cramérs V Interpretation ab 0,2 ab 0,01 ab 0,1 geringer Effekt ab 0,5 ab 0,06 ab 0,3 mittlerer Effekt ab 0,8 ab 0,14 ab 0,5 großer Effekt Tab. 4: Interpretation der Aussagekraft 9 Wie vieles ist das Ganze schon ein wenig komplexer, aber zum Verstehen von Effektgrößen muss man nicht viel mehr wissen. 5.4 Was hat es mit Signifikanz und Aussagekraft auf sich? 63 narr-starter.de Aufgabe 4: Lesen Sie die folgenden Ergebnispräsentationen. Was können Sie über die Daten sagen? 1. Die Gymnasiasten erzielten bessere Resultate im Lesetest (t(309) = 6,21, p < 0,001, eta 2 = 0,11) als die Gesamtschüler/ innen. 2. In Akkusativkontexten haben DaZ-Schüler/ innen mehr Unsicherheiten beim präpositionalen als beim Objektkasus (korrekte Kasuswahl: 85,1 % im präpositionalen, 96 % im Objektkasus; χ 2 = 15,3, p < 0,001, Cramér ’ s V = 0,19). Beim Dativ sind die Schwierigkeiten eher umgekehrt. So sind 78 % aller Dative im präpositionalen Kontext korrekt, dagegen nur 49 % aller Dative im Objektkasus ( χ 2 = 12,0, p < 0,001, Cramér ’ s V = 0,23). 3. Es gab einen signifikanten, großen Haupteffekt für den Faktor Messzeitpunkt für die sieben Erhebungstermine (F(6; 1908) = 94,76, p <,001, eta 2 =,229). Die wichtigsten Hinweise zusammengefasst Bei der statistischen Darstellung kommen typische Fehler vor, auf die Sie achten sollten: ● Nominal- oder ordinalskalierte Daten werden wie metrische Daten ausgewertet, obwohl die Verfahren dafür nicht geeignet sind. ● Der Mittelwert wird angegeben, die Standardabweichung wird aber nicht berechnet. ● Signifikanz wird als „ fast signifikant “ oder „ höchstsignifikant “ gekennzeichnet, obwohl beides nicht möglich ist (ein Ergebnis ist signifikant oder ist nicht signifikant). ● Ergebnisse werden dargestellt als „ deuten auf Unterschiede hin “ , wenn sie nicht signifikant sind oder wenn sogar überhaupt keine Prüfstatistik berechnet wurde. ● Wenn kausale Schlüsse gezogen werden, auch wenn nur Zusammenhänge untersucht wurden (um kausale 5. Ist die Statistik in Ordnung? 64 narr-starter.de Schlüsse zu ziehen, muss man i. d. R. ein Experiment durchführen). ● Nur durch die Angabe von Varianz und Effektgrößen können Schlüsse über die Bedeutung von Ergebnissen gezogen werden. Die wichtigsten Hinweise zusammengefasst 65 narr-starter.de 6. Ist die Interpretation angemessen? Bei jeder empirischen Untersuchung, die Sie lesen, sollten Sie natürlich darüber nachdenken, ob die Schlüsse, die aus den erhobenen Daten gezogen werden, angemessen sind. Aber angenommen, Sie lesen eine Untersuchung, die ein sehr unerwartetes Ergebnis hatte, das sich auch schlecht mit anderen Untersuchungen zu ähnlichen Themen verträgt, dann sind Sie natürlich besonders daran interessiert herauszufinden, ob diese Untersuchung einwandfrei ist. Sie werden also auf verschiedenen Ebenen nach möglichen Fehlern suchen, bei der Anlage, der Datenerhebung, der Auswertung, aber auch der Interpretation. Das heißt, geben die erhobenen Daten tatsächlich Anlass zu der vorgelegten Interpretation und nur zu dieser und keiner anderen? Wir benutzen hier - allerdings verkürzt, leicht verändert und vergröbert, deshalb auch ohne Hinweis auf die Autoren - echte Studien, anhand derer man über bestimmte Fehler nachdenken kann. Eine Untersuchung sollte herausfinden, ob Deutsche und Niederländer verschiedene Assoziationen zu bestimmten übersetzungsäquivalenten Begriffen haben. Dabei wurden die deutschen und niederländischen Versuchsteilnehmer gebeten, so schnell wie möglich alle Wörter zu sagen, die ihnen zu einem vorgegebenen Wort einfielen. Solche Untersuchungen werden manchmal gemacht, um zu überprüfen, ob die Sprecher unterschiedlicher Sprachen „ unterschiedlich denken “ . Eins der vorgegebenen Wörter war dt. Wald und ndl. woud. Das Ergebnis war höchst seltsam und bestätigte das, was man den Deutschen nachsagt, eine besondere Beziehung zum Wald, während die Niederländer narr-starter.de eine eher seltsame Beziehung offenbarten. Die Deutschen nannten nämlich Wörter wie grün, Ruhe, Erholung, Bäume usw., die Niederländer nannten Wörter wie (hier übersetzt ins Deutsche) Jaguar, Schlange, feucht, gefährlich. Ist die Interpretation von der unterschiedlichen Beziehung zum Wald bei Deutschen und Niederländern angemessen oder können Sie einen Fehler finden? Bei einem so unerwarteten Ergebnis ist es sicher angebracht, genauer hinzusehen, vielleicht haben Sie ja etwas gefunden. Zugegeben, ganz einfach ist es nicht, Sie brauchen ein großes Deutsch-Niederländisches Lexikon oder müssen sich durch diverse Internetseiten klicken. Aber Sie können herausfinden, dass woud der tropische Wald ist, der normale deutsche Wald müsste mit bos übersetzt werden. Insofern erklären sich die unterschiedlichen Assoziationen nicht durch eine unterschiedliche Beziehung zum Wald, sondern dadurch, dass nicht nach derselben Sache gefragt wurde. Wir haben für Sie einige weitere Beispiele zusammengestellt, so dass Sie sich selber bei der Bewertung testen können. Da die Studien etwas mehr Platz in Anspruch nehmen, finden Sie nur zwei Beispiele hier im Heft; ein weiteres finden Sie in den Online-Materialien zum STAR- TER (www.narr-starter.de). Aufgabe 1: Der Erfinder einer neuen Lehrmethode für den Sprachunterricht beschreibt, dass er die Wirkungsweise seiner neuen Methode im Vergleich zu herkömmlichen Methoden getestet hat. Früher hat er seine Schüler „ traditionell “ unterrichtet, sie waren wenig begeistert und lernten im Durchschnitt tatsächlich nur 7 der 15 Vokabeln, die er in einer 45-Minuten-Stunde einführte. Jetzt hat er seine neue Methode praktiziert und den Schülern in einer 45- Minuten-Stunde 40 Vokabeln präsentiert. Sie haben im Durchschnitt 6. Ist die Interpretation angemessen? 67 narr-starter.de 35 davon gelernt. Dieses Ergebnis interpretiert er so, dass die neue Methode viel besser ist und dass sie möglichst sofort an möglichst vielen Schulen eingeführt werden sollte. Was halten Sie von dieser Interpretation? Kann er mit diesen Daten diesen Schluss ziehen? Versuchen Sie es nun mit einem etwas umfangreicheren Beispiel: Aufgabe 2: Eine Untersuchung sollte zeigen, dass bei Mehrsprachigen verwandter Sprachen nicht nur Verbindungen zwischen Inhaltswörtern im mentalen Lexikon (dem Wortspeicher im Gehirn) existieren, sondern auch zwischen Flexionsmorphemen. Dafür wurden in einem Reaktionszeitexperiment Personen, die Deutsch und Niederländisch auf einem sehr hohen Niveau beherrschten, mit Muttersprachlern des Deutschen verglichen, die kein Niederländisch sprachen. Beide Gruppen waren aufgefordert, einen deutschen Satz, der ihnen Wort für Wort am Computerbildschirm präsentiert wurde, so schnell wie möglich mit der richtigen Partizipform zu ergänzen. Sie erinnern sich: Das Partizip II hat als Flexionsmorphem im Deutschen meist ein Präfix (ge-) in Kombination mit einem Suffix. Mit Ausnahme einer kleinen Gruppe von Verben ist dieses Suffix bei regelmäßigen Verben -t und bei unregelmäßigen Verben -en. Das zu benutzende Verb wurde im Infinitiv vorgegeben, es erschien z. B. auf dem Bildschirm jeweils für 400 Millisekunden ein Wort, z. B. Rex + hat + im + Hausflur + (bellen). Das Programm maß die Zeit zwischen dem Beginn der Präsentation des Infinitivs und dem Beginn des Aussprechens des Partizips. Vor dem auf Deutsch präsentierten Infinitiv wurde so kurz, dass dies nicht bewusst bemerkt werden konnte, entweder das entsprechende niederländische Partizip oder der niederländische Infinitiv eingeblendet. Der Altersdurchschnitt der Zweisprachigen (mit Deutsch als Erstsprache) war höher als der der Kontrollgruppe, die aus Philologie-Studierenden bestand. Untersucht wurden drei Gruppen von Partizipien II, nämlich 6. Ist die Interpretation angemessen? 68 narr-starter.de ● Partizipien, die im Deutschen kein ge-Präfix haben, deren niederländisches Übersetzungsäquivalent jedoch ein ge-Präfix hat, wie (Er ist frustriert - Hij is gefrustreerd) ● Partizipien von echten Übersetzungsäquivalenten, und zwar solche, die in Bezug auf die Regelmäßigkeit bzw. Unregelmäßigkeit der Partizipbildung in den beiden Sprachen differieren, wie gekregen - gekriegt ● Partizipien von „ falschen Freunden “ , also Verben, die ähnlich klingen, jedoch eine verschiedene Bedeutung in den beiden Sprachen haben, wie das oben erwähnte bellen, das auf Niederländisch anrufen/ telefonieren oder klingeln bedeutet. Die Ergebnisse (vgl. Abb. 2 und 3) waren: Die Zweisprachigen hatten in jeder Bedingung durchschnittlich längere Reaktionszeiten als die Kontrollgruppe ohne Niederländischkenntnisse. Sowohl die Zweisprachigen als auch die Kontrollgruppe reagierten langsamer, wenn das niederländische Partizip eingeblendet worden war. Bei den Zweisprachigen und der Kontrollgruppe war die Reaktionszeit bei den übersetzungsäquivalenten formähnlichen Partizipien am kürzesten, wenn vorher das niederländische Partizip eingeblendet worden war, gefolgt von den Verben, bei denen sich die Partizipien nur durch das ge-Präfix unterschieden. Am längsten dauerten in beiden Fällen die Reaktionen auf die „ falschen Freunde “ , wobei der Unterschied bei der Kontrollgruppe sehr klein und bei der zweisprachigen Gruppe erheblich war. Bei den Partizipien, vor denen der niederländische Infinitiv eingeblendet worden war, waren die Reaktionszeiten bei beiden Gruppen deutlich kürzer, die Abstufung aber sonst ähnlich. Die Zweisprachigen wurden also offensichtlich durch das Einblenden des niederländischen Partizips in ihrer Reaktion in jedem Fall, aber am meisten beim im Deutschen fehlenden ge-, stärker gestört als durch das Einblenden des niederländischen Infinitivs, und die Zweisprachigen waren in allen Bedingungen langsamer als die Kontrollgruppe. 6. Ist die Interpretation angemessen? 69 narr-starter.de Deutsch ohne ge- Abb. 2: Reaktionszeiten der Zweisprachigen Deutsch ohne ge- Abb. 3: Reaktionszeiten der Kontrollgruppe Kann man aus diesen Ergebnissen schließen, dass es eine Morphemzu-Morphem-Verbindung zwischen den Sprachen eines Mehrsprachigen gibt? 6. Ist die Interpretation angemessen? 70 narr-starter.de 7. Wie stelle ich meine Beurteilung in einer Seminararbeit dar? Wir gehen davon aus, dass Sie schon einmal eine Seminararbeit geschrieben oder die Anleitung dazu in Rothstein/ Stark 2016 gelesen haben. Hier geht es nur um den Teil einer Seminararbeit, in dem Sie eine quantitativ vorgehende empirische Arbeit oder mehrere empirische Arbeiten darstellen. Damit Sie sich nicht schon wieder mit neuen Phänomenen beschäftigen müssen, benutzen wir Studien, die Ihnen schon in diesem Buch begegnet sind. Wenn die Studie offensichtlich schlecht gemacht und nicht aussagefähig ist, stellt sich natürlich die Frage, ob Sie überhaupt darüber berichten müssen. Aber vielleicht sind die Ergebnisse dieser Studie in späteren Veröffentlichungen unkritisch als „ empirisch abgesichert “ übernommen worden oder die Studie ist bekannt oder es gibt sonstige Gründe, darüber zu berichten. Wie dies am besten erfolgt, können Sie an den folgenden zwei Beispielen erarbeiten: Bericht 1: Die Studie DUMMCHEN 2016, in der bewiesen werden sollte, dass es auch Morphem-zu-Morphem-Verbindungen gibt, habe ich in meiner Arbeit nicht berücksichtigt, denn sie ist indiskutabel. Die zweisprachige Gruppe war älter als die Kontrollgruppe, ältere Leute sind immer langsamer als jüngere, also kann Dummchen mit der längeren Reaktionszeit gar nichts beweisen. Außerdem wurden in der Studie zwei Fragen vermischt, die nichts mit einander zu tun haben, einerseits wurden „ falsche Freunde “ aufgenommen, andererseits ging es um Präfixe und Suffixe. narr-starter.de Abgesehen von diesen Fehlern in der Anlage der Untersuchung ist auch gar nicht bewiesen, dass die Unterschiede zwischen der Gruppe der Zweisprachigen und der Kontrollgruppe signifikant sind, denn es finden sich keine Aussagen dazu, ob und mit welchem Ergebnis prüfstatistische Verfahren angewandt wurden. Also bleibt es dabei, dass nicht bewiesen ist, dass es Morphem-zu- Morphem-Verbindungen im mentalen Lexikon von Zweisprachigen gibt. Bericht 2: DUMMCHEN 2016 stellt die Hypothese auf, es gebe bei Mehrsprachigen nicht nur Verbindungen im mentalen Lexikon auf der Ebene der Wörter, sondern auch auf der Ebene der Morpheme. Dazu wurde ein Satzergänzungsexperiment mit Deutsch-Niederländisch-Zweisprachigen und mit Deutschsprachigen ohne Kenntnis des Niederländischen durchgeführt. Die Versuchsteilnehmer kompletierten Sätze des Deutschen, die ihnen am Bildschirm gezeigt wurden, indem sie am Satzende zu einem vorgegebenen Infinitiv das Partizip II in ein Mikrophon sprachen. Die Partizipien hatten entweder ein ge-Präfix im Niederländischen, aber nicht im Deutschen oder unterschiedliche Suffixe (-en/ -t) im Deutschen und im Niederländischen. Eine dritte Gruppe waren „ falsche Freunde “ , also formähnliche Wörter mit verschiedener Bedeutung. Alle Items wurden jeweils mit den niederländischen Partizipien und niederländischen Infinitiven maskiert geprimt und die Reaktionszeit wurde gemessen. Betrachtet wurde der Unterschied zwischen den Zweisprachigen und der Kontrollgruppe sowie der Unterschied zwischen dem Primen mit dem Partizip und dem Infinitiv. Dabei zeigte sich, dass die Reaktionszeiten auf dieselben Sätze beim Primen mit dem Partizip erheblich länger waren und dass die Zweisprachigen mehr Zeit brauchten als die Kontrollgruppe ohne Niederländischkenntnisse. Die „ falschen Freunde “ hatten die längsten Reaktionszeiten bei der Versuchs- und der Kontrollgruppe, gefolgt von den Partizipien ohne ge- Präfix, dann den Partizipien mit unterschiedlichen Suffixen, wenn 7. Wie stelle ich meine Beurteilung in einer Seminararbeit dar? 72 narr-starter.de mit dem niederländischen Partizip geprimt wurde; wenn mit dem Infinitiv geprimt wurde, waren die Partizipien ohne gediejenigen mit den kürzesten Reaktionszeiten. DUMMCHEN 2016 schließt daraus, dass die Aktivierung des ge-Präfixes aus der anderen Sprache unterdrückt werden musste und so die längere Reaktionszeit erklärt werde. Somit sei eine Aktivierung auch von einzelnen Morphemen über die Sprachgrenzen hinweg bewiesen. Es erscheint problematisch, die Ergebnisse aus DUMMCHEN 2016 zu übernehmen, denn die Untersuchung weist mehrere Fehler auf. Das betrifft einerseits die Auswahl der Versuchsteilnehmer. In der Veröffentlichung wird nicht berichtet, wie die Gruppe der Versuchsteilnehmer zusammengestellt wurde, es wird nur darauf hingewiesen, dass die zweisprachige Gruppe im Durchschnitt älter war. Dies könnte zumindest einen Teil der längeren Reaktionszeiten erklären und somit die Untersuchungsergebnisse verfälschen. Zudem ist die Anlage der Untersuchung nicht genügend auf die zu untersuchende Fragestellung fokussiert, die „ falschen Freunde “ tragen nichts zur Klärung der Frage der Morphem-zu-Morphem-Verbindungen bei. Es wird nichts über die Häufigkeit des Vorkommens der untersuchten Verben berichtet, obwohl bekanntlich die Reaktionszeiten auf frequente Wörter kürzer sind als auf Wörter geringer Vorkommenshäufigkeit. Schließlich fehlt jede Prüfstatistik, die zeigen könnte, ob die gefundenen Unterschiede nicht auf Zufall beruhen könnten. Aufgabe 1: Vergleichen Sie die Berichtsausschnitte und arbeiten Sie Unterschiede in (1) der Darstellung der Ergebnisse und (2) den Formulierungen der kritischen Punkte heraus. Welche Merkmale gehören zu einem guten, welche zu einem schlechten Bericht? Wie umfangreich über eine Studie berichtet wird, hängt von der Art Ihrer Arbeit ab. Meistens würden Sie in einer Hausarbeit nicht so ausführlich über eine einzige Studie berichten, bei einer Qualifikationsarbeit, für die eine be- 7. Wie stelle ich meine Beurteilung in einer Seminararbeit dar? 73 narr-starter.de stimmte Studie besonders relevant ist, kann es durchaus sinnvoll sein, etwas mehr über das Design und die Ergebnisse zu schreiben. Das müssen Sie selbst entscheiden. Es gelten für alle Berichtsteile einige Daumenregeln, u. a. ● Sie sollen sich dabei thematisch leiten lassen, also nicht Studie für Studie chronologisch „ abklopfen “ , sondern über Ergebnisse nur bei thematischer Funktionalität berichten. ● Sie sollten versuchen, nicht zu streng mit den Autoren anderer Studien zu sein, vor allem, wenn Sie selber unsicher sind, warum ein bestimmtes Vorgehen gewählt wurde, aber ● Sie sollten trotzdem nicht zu unkritisch an die Studien herangehen, schließlich ist es wichtig, dass Forschungsstudien umsichtig geplant und durchgeführt werden, um aussagekräftig zu sein. ● Normalerweise berichtet man nicht über die genauen statistischen Messwerte, es sei denn, es gibt sehr gute Gründe dafür (z. B. wenn man eine Replikationsstudie durchführt, wenn zwei Studien sich stark widersprechen oder wenn die Statistik sehr suspekt ist) - man fasst sie nur zusammen. 7. Wie stelle ich meine Beurteilung in einer Seminararbeit dar? 74 narr-starter.de Glossar Beobachtereffekte: Die Tatsache, dass man beobachtet wird, ändert das beobachtete Verhalten. Beobachtung, verdeckt und offen: Eine Beobachtung im Sinne einer akzeptablen empirischen Untersuchung ist zielgerichtet, systematisch und so objektiv wie irgend möglich. Man unterscheidet zwei verschiedene Verfahren, die offene Beobachtung, bei der die Beobachteten wissen, dass sie zu wissenschaftlichen Zwecken beobachtet werden, und die verdeckte Beobachtung, bei der sie das nicht wissen. Dieses Verfahren wird manchmal deshalb gewählt, weil das Wissen darüber, dass man beobachtet wird, das beobachtete Verhalten beeinflussen kann. Distraktoren: Ablenkungsfragen bei Befragungsstudien oder falsche Antworten in Multiple-choice-Tests Elizitieren: „ Hervorrufen “ , damit ist gemeint, dass man die Situation so beeinflusst, dass man bestimmte Reaktionen bekommt (oder bekommen sollte). Explorative Studien: Studien, die zunächst einmal einen Überblick über das zu Untersuchende verschaffen sollen Falsifizierung: Widerlegung einer Hypothese Flexion/ flektiert: die in der Linguistik übliche Bezeichnung für die „ Beugung “ von Wörtern; übergeordneter Begriff für Deklination und Konjugation Geltungsbereich: Der Bereich, über den die empirische Untersuchung Aussagen machen kann Grundgesamtheit: Die Gruppe, über die die Untersuchung Aussagen machen will, aus dieser Grundgesamtheit wird üblicherweise eine Stichprobe gezogen, weil die Grundgesamtheit so viele Personen umfasst, dass nicht alle untersucht werden können. Hawthorne-Effekt: Informanten geben die Antworten, von denen sie meinen, der Forscher möchte sie hören, oder stellen sich besonders positiv dar. narr-starter.de Hypothese: Aussage, die durch die empirische Untersuchung bestätigt oder widerlegt werden kann Interviewereffekte: Die Antworten der Informanten ändern sich auf Grund des Verhaltens der interviewenden Person oder der Fragestellung oder der Interviewsituation. Introspektion: Selbstbeobachtung; in unserem Fall Beobachtung des eigenen Sprachverhaltens, der eigenen Feststellungen über die sprachliche Richtigkeit Korpus: Sammlung von Sprachdaten zur wissenschaftlichen Analyse. Viele Korpora liegen computerlesbar vor, was das Suchen darin erleichtert. Annotierte Korpora sind schon nach bestimmten Kriterien vor-ausgewertet, z. B. indem die Rollen der einzelnen Teile im Satz angegeben sind, so kann man z. B. den Computer nach Akkusativobjekten suchen lassen. Likert-Skala: Eine Möglichkeit, Einschätzungen in Fragebogen in Form von Zahlenwerten zu ermöglichen; die Skalen erlauben meist eine Bandbreite von 4 - 9 Punkten. Methodentriangulation: Der Einsatz zweier oder mehrerer Methoden in einer Studie, um möglichst unterschiedliche Perspektiven auf das gleiche Phänomen zu erhalten und die Mängel der einzelnen Untersuchungsmethoden auszugleichen. Objektivität: Gütekriterium für empirische Untersuchungen, es sagt aus, dass das Ergebnis unabhängig vom Auswertenden immer gleich ist. Reliabilität: Gütekriterium für empirische Untersuchungen, es sagt aus, dass das Untersuchungsverfahren verlässlich ist, was bedeutet, dass bei einer Wiederholung in derselben Situation dasselbe Ergebnis erzielt werden muss. Selbstselektion der Stichprobe: Die Informanten, die besonders an einem Thema interessiert sind, beteiligen sich eher an einer Untersuchung dazu, was zu einer Verzerrung der Ergebnisse führen kann. Transkribieren: Gesprochene Sprache in schriftliche umsetzen. Erfolgt heute meist mit Unterstützung von Software. Glossar 76 narr-starter.de Validität: Gütekriterium für empirische Untersuchungen, es sagt aus, dass das Untersuchungsverfahren auch tatsächlich das misst, was es messen soll. Variable, abhängig und unabhängig: In einem Experiment gibt es eine Variable, die man verändert, z. B. die Methode, nach der die Lerner Vokabeln lernen. Die nennt man die „ unabhängige Variable “ . Man will wissen, wie sich eine andere Variable, die „ abhängige Variable “ verändert in Abhängigkeit von Manipulation der unabhängigen Variablen. Also z. B. will man wissen, wie viele Vokabeln von 20 mit Methode A gelernten die Lerner nach einer Woche noch wissen und wie viele von 20 mit Methode B gelernten Vokabeln. Glossar 77 narr-starter.de Lösungshinweise zu den Aufgaben ___Kapitel 1 Aufgabe 1: Einige offene Fragen wären z. B.: 1. Was bedeutet hier sprechen (nur Konversationen, auch monologisches Sprechen etc.)? Welche Stichprobe ist involviert? Was ist mehr (länger, mehr Wörter)? 2. Wie werden hier DaZ-Kinder bestimmt (häufig wird kein linguistisches, sondern ein politisches Kriterium wie Migrationshintergrund zu Grunde gelegt)? Um was für ein Förderprogramm handelt es sich? Haben die Kinder oder deren Eltern sich für das Programm entschieden (Selbstselektion der Stichprobe)? Was machen die Kinder, die nicht am Programm teilnehmen, in derselben Zeit? 3. Wie wird hier Zeit definiert (weniger Unterrichtsstunden, kürzere Zeitspanne)? Ab welchem Sprachniveau wird verglichen? Ist bei den Informanten Französisch eine zweite, dritte oder sogar weitere Fremdsprache (da zuvor gelerntes Spanisch oder Latein hilfreich sein könnte)? ___Kapitel 2 Aufgabe 1: Es gibt mehrere Probleme. Erstens stammen die zu vergleichenden Gruppen nicht aus der gleichen Schule. Leistungen unterscheiden sich aber sehr häufig zwischen unterschiedlichen Schulen, u. a. deswegen, weil sie in unterschiedlichen sozialen Umfeldern situiert sind, narr-starter.de womit auch die schulischen Leistungen zusammenhängen. Problematisch ist aber auch, dass der Forscher selber die Textprodukte auswertet (das kann die Ergebnisse beeinflussen). Ebenfalls ist fraglich, ob „ Sprachkenntnisse in der Fremdsprache Englisch “ wirklich mit „ Fehlerquoten “ gleichzusetzen ist. Und schließlich ist nicht klar, ob die Schüler mit einer Herkunftssprache nicht (auch) zu Hause Englisch sprechen. Aufgabe 2: In der Lösung zu Aufgabe 1 werden bereits die Monita mit Bezug auf die Gütekriterien genannt. So ist die Reliabilität u. a. durch die unangemessene Wahl der Stichprobe beeinträchtigt; die Validität durch die Entscheidung, „ Sprachkompetenzen “ mit „ Fehlerquoten “ gleichzusetzen; und die Objektivität u. a. durch die Entscheidung, dass der Forscher selber die Texte auswertet. Aufgabe 3: Hier müsste der Forscher beide Gruppen zu etwa gleichen Anteilen aus denselben Schulen ziehen, und dabei darauf achten, dass Schulen mit unterschiedlichen Anteilen an Schülern mit anderen Familiensprachen als Deutsch und dass Schulen aus z. B. unterschiedlichen Stadtteilen einbezogen werden. Aufgabe 4: Hier ist natürlich kein Lösungshinweis möglich, Sie müssen die Studien selber ausfindig machen. ___Kapitel 3: Aufgabe 1 (zu Fragebogen): Am Fragebogen gibt es schon Einiges zu bemängeln, u. a.: Die Likert-Skala ist sehr klein (für gewöhnlich werden fünf- oder siebenstufige Skalen verwendet); es ist nicht gesichert, dass die Informanten die Aussagen auch verstehen, evtl. ist das sprachliche Niveau zu hoch; die Mehrheit (4/ 5 Aussagen) sind positive Ein- Lösungshinweise zu den Aufgaben 79 narr-starter.de schätzungen zum Behalten eines Akzents, das kann zum Hawthorne-Effekt führen, wenn die Studenten den Forscher besonders glücklich machen wollen; der Forscher scheint der Meinung zu sein, dass ein Akzent ein besonders wichtiges Merkmal ist, ob der Fragebogen andere Meinungen überhaupt erheben kann, ist zu bezweifeln. Aufgabe 2 (zu Tests): Wenn Sie eine Beispiel-DSH- Prüfung angesehen haben, so werden Sie wohl als Erstes merken, dass die Prüfung fachunspezifisch aufgebaut ist. Dies hat natürlich praktische Gründe, aber da fachspezifische (Sprach-)Kenntnisse eine wichtige Grundlage für den Studiererfolg bilden, können nur Aussagen zu allgemeinen akademisch-sprachlichen Fähigkeiten versucht werden. Zudem kommen Fertigkeiten selten getrennt vor, d. h. eigentlich wird Hörverstehen stets mit Sprechen oder Schreiben kombiniert; eine gute Grundlage (z. B. durch intensives Lesen) verbessert das Hörverstehen eindeutig. Und schließlich kann „ Studierfähigkeit “ nur dann vorhergesagt werden, wenn nachgewiesen wird, dass Prüflinge mit sehr guten Noten in der DSH im Vergleich zu Prüflingen mit weniger guten Noten in der DSH auch bessere Noten im Studium erbringen - dies wird allerdings nicht überprüft. ___Kapitel 4: Aufgabe 1: Gut: ● Es wurde große Sorgfalt darauf verwendet, keine Reihenfolge-Effekte und keine Effekte durch minimale Kontraste zwischen zwei Sätzen, die sich nur in einem Merkmal unterschieden, zu erzeugen. Lösungshinweise zu den Aufgaben 80 narr-starter.de ● Die Likert-Skala ermöglichte eine große Abstufung, also nicht nur „ richtig - falsch “ . Schlecht: ● Es gab offensichtlich keine Distraktoren, also Sätze, die gar nichts mit der Untersuchungsfrage zu tun hatten. Das bedeutet, dass die Befragten recht schnell merken konnten, worum es in der Untersuchung ging. Sollten sie Normen über die Wortstellung im Mittelfeld kennen (was gerade bei den Nicht-Muttersprachlern zu vermuten ist), könnten sie danach, und nicht nach ihrem spontanen Gefühl vorgegangen sein. ● Es wurden - wie leider sehr häufig - nur Studierende befragt, die für an Universitäten Forschende am leichtesten zu erreichen sind. Damit ist aber die Grundgesamtheit, über die Aussagen gemacht werden können, auch nur „ Studierende philologischer Fächer außer Germanistik “ . Die Urteile von Personen mit Hauptschulabschluss könnten durchaus anders ausfallen. Zudem ist es natürlich eine Auswahl aufs Geratewohl, keine korrekte Zufalls- oder Quotenstichprobe. ___Kapitel 5: Aufgabe 1 (Boxplot-Aufgabe): Nicht schwer zu erkennen ist, dass die Mediane der beiden Klassen sich genau anders verhalten als die Mittelwerte: Hier hat die Klasse 5B einen höheren Median als die Klasse 5A. Ebenfalls sehen Sie, wie vorteilhaft ein Boxplot ist, um die Variabilität von Ergebnissen abzubilden. So ist direkt zu erkennen, dass die Klasse 5A eine vergleichsweise hohe Streuung hat, die Klasse 5B eine vergleichsweise sehr kleine. Lösungshinweise zu den Aufgaben 81 narr-starter.de Aufgabe 2 (PISA 2009): Natürlich fehlen hier einige Informationen, die sehr hilfreich wären, wie Standardabweichung ( σ ) der einzelnen Gruppen oder Signifikanz der Ergebnisse (dazu kommen wir erst später im Kapitel). Aber Sie können hier schon erkennen, dass Schüler ohne Migrationshintergrund durchschnittlich 15 Punkte über dem Mittelwert liegen, das sind 0,15 σ (also diese Gruppe hat einen durchschnittlichen z-Wert von +0,15). Schüler mit einem im Ausland geborenen Elternteil liegen auch über dem Mittelwert (z = +0,11). Schüler der ersten Generation (sie sind selber zugewandert) liegen fast eine Viertel Standardabweichung (z = - 0,24) und Schüler der zweiten Generation etwas unter dem Mittelwert (z = - 0,1). Es ist übrigens wichtig, sich daran zu erinnern, dass solche Kennwerte leicht fehlinterpretiert werden können. Ohne Informationen insbesondere zu sozialen Faktoren wie dem elterlichen Bildungsstatus können Gruppenvergleiche kaum gezogen werden. Wenn Sie also größere Vergleichsstudien lesen, sollen Sie unbedingt beachten, dass wichtige Störfaktoren einbezogen wurden, z. B. dadurch, dass ein Regressionsmodell berechnet wurde (auf das wir in diesem Werk nicht eingehen können). Aufgabe 3 (Skalierung und Zusammenhang/ Unterschied): Wir geben zu den Antworten eine weitere Information an, und zwar, welchen Test man i. d. R. zur Auswertung der Daten verwenden würde. 1. Alter: metrische Skalierung; Unterschiede zwischen Mädchen und Jungen (man würde hier wahrscheinlich ein t-Test für unabhängige Gruppen durchführen). 2. Pluralmorphem: nominale Daten; Unterschiede zwischen Häufigkeiten der einzelnen Morpheme (man Lösungshinweise zu den Aufgaben 82 narr-starter.de würde hier wahrscheinlich einen Chi-Quadrat-Test durchführen). 3. Einschätzung zur Akzentbeibehaltung: Ordinalskalierung; Zusammenhänge zwischen den beiden Antwortkategorien (man würde hier wahrscheinlich Spearmans Rho berechnen). 4. Akzeptabilität: Ordinalskalierung; Unterschiede zwischen den unterschiedlichen Bedingungen (man würde hier wahrscheinlich eine ANOVA mit entsprechenden post-hoc Tests durchführen). Aufgabe 4 (Signifikanz/ Aussagekraft): 1. Gymnasiasten wurden mit Gesamtschülern in einem Lesetest verglichen. Die Unterschiede waren statistisch signifikant und mit einem mittleren Effekt bedeutend. 2. Die getesteten DaZ-Schüler haben im Akkusativ signifikant mehr Kasusfehler im präpositionalen als im Objektkasus gemacht, wobei der Effekt nur gering war. Im Dativ dagegen haben sie signifikant mehr Kasusfehler im Objektkasus als im präpositionalen Kasus gemacht, auch hier mit geringem Effekt. 3. Die Probanden wurden im Laufe der Studie siebenmal getestet. Dabei waren die Ergebnisse signifikant unterschiedlich, d. h. in manchen Tests haben sie signifikant bessere Ergebnisse als in anderen, und zwar mit großem Effekt. (Übrigens wissen Sie nur, welche Tests besser waren, wenn über post-hoc-Tests berichtet wurde.) ___Kapitel 6: Aufgabe 1: Hier gibt es verschiedene Fehler im Design. Erstens lernten nicht zwei Gruppen gleichzeitig dieselben Lösungshinweise zu den Aufgaben 83 narr-starter.de Vokabeln mit der neuen und der alten Methode, sondern an die alte erinnert er sich nur. Für die Wirkungsweise der alten Methode gibt es also gar keine zuverlässigen Daten. Zweitens könnte sich seine Begeisterung für die neue Methode auf die Schüler und deren Motivation ausgewirkt haben (selbsterfüllende Prophezeiung). Drittens ist die Wahl der Stichprobe nicht so, dass man eine Generalisierung vornehmen könnte, es ist noch nicht einmal das einfachste Verfahren gewählt, um Einflüsse einer besonders motivierten/ intelligenten usw. Gruppe auszuschließen (also kein lateinisches Quadrat-Design), es gab also gravierende Fehler in der Datenerhebung. Insofern können diese Daten nicht beweisen, dass die neue Methode besser ist, das könnte zwar durchaus der Fall sein, aber es müsste seriöser nachgewiesen werden. Aufgabe 2: Die Kritik an der Studie lesen Sie im Kapitel 7 beim Thema „ Bericht “ . ___Kapitel 7: Sie haben es sicher bemerkt, der erste Text gleicht einem „ Verriss “ , eine solche Darstellung ist in der wissenschaftlichen Auseinandersetzung unüblich, der Stil sollte sachlich bleiben. Wenn Sie sich intensiver mit einer Studie auseinandersetzen wollen, dürfen Sie natürlich kritisieren. Sie beginnen dann mit einer Darstellung der Untersuchung. Die sollte erst einmal ganz sachlich berichten, was die Untersuchung denn zeigen wollte, wie sie vorgegangen ist und was das Ergebnis war. Erst danach bringen Sie Ihre Einschätzung der Qualität dieser Untersuchung. Lösungshinweise zu den Aufgaben 84 narr-starter.de Literatur Diese Veröffentlichungen empfehlen wir zur weiteren Lektüre. Albert, Ruth 2007. Methoden des empirischen Arbeitens in der Linguistik. In: Steinbach, Markus et al. Schnittstellen der germanistischen Linguistik. Stuttgart/ Weimar: Metzler, 15 - 52. Albert, Ruth und Nicole Marx ( 3 2016). Empirisches Arbeiten in Linguistik und Sprachlehrforschung. Anleitung zu quantitativen Studien von der Planungsphase bis zum Forschungsbericht. Tübingen: Narr. Bortz, Jürgen und Nicola Döring ( 4 2009). Forschungsmethoden und Evaluation. Berlin: Springer. Caspari, Daniela, Klippel, Friederike, Legutke, Michael und Karen Schramm (Hg.) (2016). Handbuch Forschungsmethoden in der Fremdsprachendidaktik: Ein Handbuch. Tübingen: Narr. Döring, Nicola und Jürgen Bortz ( 5 2016). Forschungsmethoden und Evaluation. Berlin: Springer. Lemnitzer, Lothar und Heike Zinsmeister ( 3 2015): Korpuslinguistik. Eine Einführung. Tübingen: Narr. Mackey, Alison; Gass, Susan M (2005): Second language research. Methodology and design. Mahwah, NJ: Erlbaum. Porte, Graeme ( 2 2010). Appraising research in second language learning. A practical approach to critical analysis of quantitative research. Benjamins: Amsterdam. Rothstein, Björn und Linda Stark (2016). Wissenschaftliches Arbeiten für Linguisten. Tübingen: Narr. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter. Online: http: / / www.gbv.de/ dms/ hebis-darmstadt/ toc/ 178237736.pdf. Schramm, Karen und Nicole Marx (2017): Forschungsmethoden im Bereich Mehrsprachigkeit und Deutsch als Zweitsprache. In: narr-starter.de Becker-Mrotzek, Michael und Hans-Joachim Roth (Hg.). Sprachliche Bildung - Grundlagen und Handlungsfelder. Münster: Waxmann, 211 - 220. Settinieri, Julia, Demirkaya, Sevilen, Feldmeier, Alexis, Gültekin- Karakoç, Nazan und Claudia Riemer (Hg.) (2014): Empirische Forschungsmethoden für Deutsch als Fremd- und Zweitsprache. Paderborn: Schöningh. Wei, Li und Melissa G. Moyer (2008): The Blackwell guide to research methods in bilingualism and multilingualism. Malden, MA: Blackwell Pub. Weitere Literatur, die wir im Laufe des Starters zitiert haben: Klieme, Eckhard, Artelt, Cordula, Hartig, Johannes, Jude, Nina, Köller, Olaf und Manfred Prenzel et al. (Hg.) (2010). PISA 2009: Bilanz nach einem Jahrzehnt. Münster u.a.: Waxmann. Stanat, Petra, Böhme, Katrin, Schipolowski, Stefan und Nicole Haag (Hg.) (2016). IQB-Bildungstrend 2015. Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im zweiten Ländervergleich. Münster u. a.: Waxmann. Literatur 86 narr-starter.de Register abhängige Variable 33 Aussagekraft 62 Befragung 24 Beobachtung 21 beschreibende Statistik 50 Boxplot 53 Distraktoren 27 Effektgröße 62 Elizitieren 28 erklärte Varianz 62 Experiment 33 Feldexperiment 35 Fragebogen 25 Geltungsbereich 17 Gütekriterien 13 Hawthorne-Effekt 26 Hypothese 10 Interquartilbereich 52 Interrater-Reliabilität 16 Interviewereffekte 25, 29 irreführende Korrelation 59 Korrelation 57 Laborexperiment 35 lateinische Quadrat-Design 35 lexikalische Entscheidungsaufgabe 37 Likert-Skalierung 27 Median 51 Metanalyse 39 Methodentriangulation 21 metrische Skala 49 Mittelwert 51 mixed-methods 12 Modus 51 Nominalskala 49 Objektivität 16 operationalisierbar 11 Operationalisierung 33 Ordinalskala 49 prime 37 Prüfstatistik 56 qualitativ 10 quantitativ 10 Quotenverfahren 18 Reliabilität 14 Selbstselektion 26 Signifikanz 60 Standardabweichung 51 Stichprobe 17 Störfaktoren 19 Störvariable 36 Tests 38 Textkorpora 30 transformierte Werte 54 Transkribieren 23 narr-starter.de unabhängige Gruppen-Design 34 unabhängige Variable 33 unabhängigen Variablen 33 valide 15 Variable 33 wiederholte Messungen-Design 34 Wirksamkeitsstudie 33 Wirksamkeitsstudien 33 Zufallsverfahren 18 Register 88 narr-starter.de ISBN978-3-8233-8128-0 wichtige Punkte für einen erfolgreichen Start ins Thema für einen schnellen Einstieg ins Thema Grundbegriffe und wichtige Zusammenhänge schnell erfasst ideal für die Seminarvorbereitung in den ersten Semestern Zu Beginn des Studiums lässt man sich durch Aussagen wie „Das ist empirisch überprüft“ leicht beeindrucken. Aber empirische Untersuchungen kommen mitunter zu unterschiedlichen Ergebnissen, obwohl sie von derselben Fragestellung ausgehen. Dieser STARTER bietet eine systematische Anleitung für Studierende zum Beurteilen quantitativ vorgehender empirischer Untersuchungen im Bereich der Linguistik und Sprachlehr-/ -lernforschung, wie man sie für das Anfertigen von Seminar- und Bachelorarbeiten braucht. Es geht ein auf die Fragen, in welchen Fällen empirische Untersuchungen sinnvoll sind und wie man die Angemessenheit des gewählten Verfahrens, der Auswertung und der Vorgehensweise bei der Interpretation beurteilt, und endet mit Vorschlägen für das Resümieren von Studien in den eigenen Hausarbeiten. www.narr-starter.de www.narr-studienbuecher.de www.narr.de Ruth Albert/ Nicole Marx Empirisches Arbeiten Empirisches Arbeiten in Linguistik und Sprachlehrforschung zusammengefasst von Ruth Albert und Nicole Marx