Regensburger Wortflüssigkeitstest
Abkürzung: RWT
Hintergrund
Geschwindigkeitsbetonte Denkspiele sind seit Jahrhunderten bekannt. Mit Stadt-Land-Fluss hat man sich schon früher die Langeweile vertrieben.
In die Testpsychologie wurden Wortflüssigkeitsverfahren wohl zuerst von Thurstone & Thurstone im Primary Mental Abilities Test eingeführt1). Statt der von den Thurstones (und dementsprechend später auch im deutschen LPS2) ) verwendeten schriftlichen Wortflüssigkeitsprüfung beschrieb Benton etwas später3) eine mündliche Testform, die Controlled Verbal Fluency Task (CVFT): Innerhalb von jeweils 60 Sekunden müssen möglichst viele Wörter mit den Anfangsbuchstaben F, A und S genannt werden. Aus dem „F-A-S-Test“ wurde später der Controlled Oral Word Association Test (COWA)4) mit zwei Parallelversionen entwickelt (Buchstaben C, F und L, bzw. P, R und W). Die dabei verwendeten Buchstaben kommen etwa gleich häufig als Anfangsbuchstaben bei englischen Wörtern vor.
Neben solchen lexikalischen Wortflüssigkeitsaufgaben wurden auch semantische konstruiert. In USA hat sich der Set-Test5) etabliert, der das schnelle Aufzählen von Farben, Tieren, Früchten und Städten fordert. Bei der Testung von dementen Personen (zum Beispiel mit CERAD oder RBANS6)) werden semantische Wortflüssigkeitsaufgaben auch verwendet, allerdings wird meist nur eine einzige Kategorie verlangt.
Im deutschen Sprachbereich wurden solche Verfahren bis circa 2000 nur ad hoc zu Forschungszwecken und ohne formale Normierung eingesetzt. Seit 2000 liegt mit dem RWT7) ein Verfahren vor, das eine Reihe von lexikalischen und semantischen Wortflüssigkeitstests enthält, die gemeinsam an einer deutschen Normstichprobe standardisiert wurden. Bei Routinetestungen sollte man dieses standardisierte Testmaterial benutzen.
Testmaterial
Der RWT besteht aus 14 Subtests.
- Fünf Subtests messen die formallexikalische Wortflüssigkeit mit den Anfangsbuchstaben S, P, M, K und B. Im deutschen Wortschatz kommen Wörter mit dem Anfangsbuchstaben S sehr häufig vor, mit P und M häufig und mit K und B seltener.
- Zwei Subtests messen den formallexikalischen Kategorienwechsel, eine Aufgabe, bei der abwechselnd Wörter mit zwei verschiedenen Anfangsbuchstaben genannt werden müssen. Dafür werden die Anfangsbuchstaben G abwechselnd mit R und H abwechselnd mit T verwendet.
- Fünf weitere Subtests erfassen die semantisch-kategorielle Flüssigkeit mit den Kategorien Vornamen, Tiere, Lebensmittel, Berufe und Hobbys. Hier gilt eine ähnliche Häufigkeitsverteilung wie bei der lexikalischen Flüssigkeit: Bei Vornamen ist der Suchraum sehr groß, bei Tieren und Lebensmittel groß und bei Berufen und Hobbys klein.
- Die letzten beiden Subtests erfassen die Geschwindigkeit eines semantischen Kategorienwechsels zwischen Sportarten und Früchten und zwischen Kleidungsstücken und Blumen. Wie beim formallexikalischen Kategorienwechsel ist auch hier von einem mittelgroßen Suchraum auszugehen.
In TDB2Online sind nur fünf der 14 Subtests eingeschlossen, zwei aus dem formallexikalischen Paradigma (die Buchstaben K und S) und jeweils einer aus den anderen drei Flüssigkeitsparadigmen. Die TDB2Online-Normen sind vor allem dann relevant, wenn der RWT zusammen mit anderen Testverfahren angewendet wird und die Testergebnisse gemeinsam betrachtet werden sollen. Dies ist typisch für Erstuntersuchungen. Bei einer Erstuntersuchung wäre es durchaus möglich und sinnvoll, sich auf die fünf ausgewählten Subtests zu beschränken. Tabelle 1 zeigt die diversen Subtests im Zusammenhang.
Tabelle 1: Subtests des RWT
Flüssigkeitsparadigma | Untertests | in TDB2Online |
---|---|---|
formallexikalische Wortflüssigkeit | S-Wörter-Test | nein |
P-Wörter-Test | nein | |
M-Wörter-Test | nein | |
K-Wörter-Test | ja | |
B-Wörter-Test | nein | |
formallexikalischer Kategorienwechsel | Wechsel G-Wörter/R-Wörter | ja |
Wechsel H-Wörter/T-Wörter | nein | |
semantisch-kategorielle Flüssigkeit | Vornamen | nein |
Tiere | nein, siehe aber Diskussion | |
Lebensmittel | ja | |
Berufe | nein | |
Hobbys | nein | |
semantischer Kategorienwechsel | Sportarten-Früchte | nein |
Kleidungsstücke-Blumen | ja |
Der Subtest Tiere wird im Diskussionsteil dieser Dokumentation besprochen, weil es für diesen Subtest die größte Anzahl unabhängiger Normierungsstudien gibt und man diese durchaus über verschiedene Sprachen hinweg vergleichen kann. Für die lexikalischen Subtests gilt das nicht, weil deren Anfangsbuchstaben in verschiedenen Sprachen unterschiedlich große Suchräume aufspannen. Am Subtest Tiere kann man also ungefähr beurteilen, wie sich die Normierung des RWT in den internationalen Kontext einordnet.
Copyright
Der RWT ist ein copyright-geschützter Test. Das Testmaterial einschließlich des Testhandbuchs kann über die Testzentralen in Deutschland oder der Schweiz bezogen werden. Wenn man sich an Hand des Manuals in die Testvorgabe eingearbeitet hat, benötigt man für eine einzelne Testdurchführung nur noch die separat erhältlichen Protokollbögen und eine (Stopp-)Uhr. Für jedes Flüssigkeitsparadigma gibt es einen Typ von Protokollbogen, auf dem der entsprechende Untertest angekreuzt werden kann.
Testdurchführung
Die normale Testdauer beträgt beim RWT zwei Minuten pro Subtest. Auch die TDB2Online-Normen gelten für zwei Minuten Testdauer. Um trotzdem die Durchführung des Tests auch mit wenig belastbaren Probanden/Patienten zu gewährleisten, wurde zusätzlich eine Normierung für die jeweils erste Minute vergenommen.
International ist eher eine Testdauer von einer Minute üblich. Die Vergleichsdaten, die in der Diskussion zum Tier-Paradigma zusammengestellt wurden, beruhen deshalb nur auf Ein-Minuten-Messungen.
Testrohwerte
Bei jedem Subtest ergibt sich der Testrohwert aus der Anzahl der richtig produzierten Wörter pro Testzeit (eine oder zwei Minuten). Die Instruktionen des RWT zu jedem Subtest sind recht genau. Es wird immer ausführlich erklärt, was als richtige Antwort gezählt wird.
Verteilungseigenschaften der Rohwerte
siehe ausführliche Testdokumentation.
Linearisierung der Messskalen
siehe ausführliche Testdokumentation.
Normuntersuchungen
siehe ausführliche Testdokumentation.
Leistungs- und Altersnormen im Überblick
siehe ausführliche Testdokumentation.
Diskussion
Die psychometrische Aufarbeitung des RWT für die graphische Präsentation in TDB2Online verlief weitestgehend problemlos, eine simple lineare Transformation erfüllte bei allen Subtests ihren Zweck, auch wenn man die dafür erforderlichen Stichprobenstatistiken erst aus den Prozentrangnormen ableiten musste. Auch der Stellenwert des Verfahrens als Test für einen bestimmten Aspekt der exekutiven Funktionen ist klar umrissen und in der neuropsychologischen Literatur weltweit gut diskutiert. Der RWT verdient also seinen Platz im Spektrum der TDB2Online-Verfahren, auch wenn angesichts der engen Zielsetzung von Wortflüssigkeitstests neuropsychologische Interpretationen von RWT-Ergebnissen inhaltlich begrenzter sind als dies bei manch anderen Tests der Fall ist und er deshalb auch wahrscheinlich seltener angewandt wird.
Das Hauptproblem bei dieser deutschen Version von Wortflüssigkeitstests ist - wieder einmal - die mangelnde Repräsentativität der Normierung. Aus der Beschreibung der Stichprobe lassen sich kaum Hinweise ziehen, dort wird Repräsentativität auch gar nicht erst beansprucht. Unabhängige Daten gesunder Probanden aus dem deutschen Sprachraum zu den RWT-Subtests ließen sich bis Ende 2012 nicht finden. In der ehemaligen deutschen Yahoo-Gruppe Neuropsychologie gab es im Februar 2004 von mehreren klinischen Anwendern Hinweise darauf, dass der Test „zu schwer“ ist und auch gesunde und normal leistungsfähige Personen Werte im unterdurchschnittlichen Bereich erhalten.
Bei den in TDB2Online eingeschlossenen Tests versuchen wir im Allgemeinen, die Normdatenlage zu verbreitern und beziehen dazu auch internationale Quellen ein, wenn dies inhaltlich gerechtfertigt ist. Bei den Subtests des RWT ist das leider nur sehr indirekt möglich. Bei den formallexikalischen Subtests lassen sich fremdsprachliche Ergebnisse überhaupt nicht verwenden, weil die Häufigkeit von Wörtern mit bestimmten Anfangsbuchstaben je nach Sprache unterschiedlich ist. Wir haben aber versucht, die Ergebnisse von zwei anderen deutschsprachigen Publikationen mit den Ergebnissen des RWT abzugleichen. Dieser Versuch ist weiter unten dargestellt. Mit den kategorial-semantischen Subtests ist dagegen ein Vergleich über Sprachgrenzen durchaus möglich. Zumindest für die Kategorie Tiere gibt es international genügend Daten, die einen Vergleich ermöglichen, wenn auch nur für die Messzeit von einer Minute. Auch dies wird im Folgenden dargestellt.
Formallexikalische Subtests
Im deutschen Sprachraum gibt es mit dem LPS einen weiteren Test, der formallexikalische Wortflüssigkeit misst. Er liegt in zwei Versionen vor, dem Original-LPS von 19628) und der Version LPS+ mit Normierungsdaten für Ältere aus dem Jahr 19939). Im neuen LPS-2 von 201310) ist die Wortflüssigkeitsaufgabe nicht mehr enthalten. Die Aufgabenstellung im LPS und LPS 50+ ist allerdings anders als im RWT: Hier müssen für jeweils 1 Minute möglichst viele Wörter mit den Anfangsbuchstaben L, P und R (Parallelversion: F, K und R) geschrieben werden.
Im LPS dienen also andere Buchstaben als Anfangsbuchstaben für die Wörter, außerdem muss man sie schreiben statt nennen. Letzteres dürfte auf jeden Fall Auswirkungen im oberen Leistungsbereich haben, nicht unbedingt aber im unteren oder mittleren. Zwischen der Häufigkeit von Wörtern mit einem bestimmten Anfangsbuchstaben in der Alltagssprache und der Assoziationshäufigkeit für Wörter mit diesem Anfangsbuchstaben gibt es eine gewisse Beziehung, auch wenn sie nicht allzu eng ist. In Tabelle 2 sind die mittleren Ein-Minuten-Assoziations-Rohwerte von Erwachsenen für Anfangsbuchstaben, die in deutschen Wortflüssigkeitstests vorkommen, den prozentualen Häufigkeiten derselben Anfangsbuchstaben in dem allgemeinsprachlichen deutschen Wörterbuch elexicon auf der OWID-Portalseite des Instituts für Deutsche Sprache in Mannheim gegenübergestellt. In der Tabelle sind auch die dem RWT-Manual entnommenen Angaben zum Suchraum der jeweiligen Anfangsbuchstaben angeführt.
Man sieht, dass den Probanden zu den selten vorkommenden Anfangsbuchstaben M und P weniger Wörter einfallen als zu normal häufigen wie B oder K. Nach oben scheint der Zuwachs dagegen begrenzt zu sein: auch mit dem sehr häufig vorkommenden Buchstaben S fallen einem kaum mehr Wörter in einer oder auch zwei Minuten ein als mit den normal häufig vorkommenden Buchstaben B und K. Während die elexicon-Daten und die Ein-Minuten-Normen des RWT (hier für 18-29-Jährige) gut übereinstimmen, weichen die verbalen Suchraumangaben im RWT-Manuel bei den meisten Buchstaben davon ab. Lediglich beim Buchstaben S stimmen die Angaben überein. Im RWT-Manual ist nicht erwähnt, woher die Suchraumangaben stammen. Es macht große Unterschiede, ob man dazu Wörterbucheinträge (was wohl die richtige Ausgangsmenge ist) oder Fließtexte analysiert. In Fließtexten kommt zum Beispiel wegen der vielen bestimmten Artikel der Buchstabe D viel häufiger vor als in Lexika.
Tabelle 2: Anzahl von Wörtern in allgemeinsprachlichen deutschen Wörterbüchern und mittlere Wortflüssigkeits-Rohwerte in Abhängigkeit vom Anfangsbuchstaben
Buchstabe | Worthäufigkeit | Suchraum | mittlere Rohwerte von Wortflüssigkeitstests | |||
---|---|---|---|---|---|---|
Dauer in s | RWT | LPS | LPS 50+ | |||
S | 12,0 | sehr groß | 60 | 16 | ||
B | 6,8 | gering | 60 | 15 | ||
K | 7,0 | gering | 60 | 15,5 | ||
M | 5,1 | groß | 60 | 13,7 | ||
P | 4,9 | groß | 60 | 12 | ||
L+P+R | 3,4 + 4,9 + 4,4 | je 60 | 26 | 31 | ||
F+K+R | 5,5 + 7,0 + 4,0 | je 60 | 26 | 31 |
Worthäufigkeit: Prozentuale Häufigkeit von Wörtern mit diesem Anfangsbuchstaben im allgemeinsprachlichen Wörterbuch elexicon
Suchraum: Angabe im RWT-Manual
Normierungsdatum RWT: 2000, LPS: 1962, LPS 50+: 1993
Altersstufe RWT: 18-29 Jahre, LPS: 18-29 Jahre, LPS 50+: 50-69 Jahre
In die Tabelle sind auch die Normwerte des Subtests 6 aus dem Leistungsprüfsystem LPS (Horn, 1962) und dem LPS 50+ (Sturm, Willmes & Horn, 1993) aufgenommen. In beiden Subtests sollen möglichst viele Wörter zu drei verschiedenen Buchstaben über je eine Minute geschrieben werden und die Normwerte liegen nur für die Summe der drei Minuten vor. Man erkennt trotzdem, dass die Normstichprobe des LPS viel niedrigere Leistungen aufweist als die des RWT. Bei den drei im LPS vorgegebenen Buchstaben wäre damit zu rechnen, dass die jungen Probanden der RWT-Stichprobe wohl eher 30 bis 33 Wörter produziert hätten als nur 26, was als Norm im LPS-Handbuch angegeben ist. Man kann allerdings auch erkennen, dass die 50-69-jährigen aus der Normstichprobe des LPS 50+ (das ist die jüngste Altersgruppe für diese Version des LPS) mit 31 Wörtern um einiges besser waren als die 18-29-jährigen der Normstichprobe des LPS (26 Wörter). Die Leistung der „über 50-jährigen“ in der LPS-Normstichprobe lag sogar nur bei 18 Wörtern.
Möglicherweise addieren sich hier zwei Effekte: Zum einen muss man angesichts des großen Zeitabstands der drei Normierungen (LPS 1962, LPS50+ 1993, RWT 2000) von Kohorteneffekte im Sinne eines „IQ-Gains“ ausgehen. Danach müssen spätere Normierungen strenger sein, auch wenn es über das Ausmaß des IQ-Gains in der Domäne Wortflüssigkeit keine Daten gibt. Zum anderen scheint es aber auch unterschiedliche Ansprüche an die Repräsentativität der Normen gegeben zu haben. Nur bei der alten LPS-Normierung kann man lesen, dass der Autor sich bemüht hat, die schwächeren (z. B. sitzengebliebenen) Schüler eines Jahrgangs systematisch aufzusuchen. Die anderen beiden Normierungen sind eher „anfallende“ Normstichproben, bei denen im allgemeinen leistungsfähigere und leistungswilligere Probanden überrepräsentiert sind.
Letztlich bleibt der Vergleich wenig aussagekräftig. Im Vergleich zum LPS wären die RWT-Normen zu streng, im Vergleich zum LPS 50+ wären sie vergleichbar. Bei beiden Vergleichen gibt es zudem noch weitere Einschränkungen, weshalb man keine wirklichen Schlüsse ziehen kann.
Kategorial-Semantische Subtests
Für den Subtest Tiere gibt es international relativ viele Daten, wenn auch nur für die Dauer von einer Minute. Für die Leistung in dieser Aufgabe spielt die Sprache keine große Rolle, dies wurde in diversen Studien demonstriert11) 12) 13). Mitrushina et al.14) haben in der zweiten Auflage ihres Handbuchs 45 Studien mit Ergebnissen von Wortflüssigkeitstests bei gesunden Probanden zusammengetragen. Zwanzig davon haben Daten zum „Tier“-Paradigma bei altersmäßig eingrenzbaren Probandengruppen berichtet. Die Ergebnisse dieser 20 Studien wurden zusammen mit den Daten aus dem RWT-Handbuch und den Baseler Normdaten zur CERAD für eine Metaanalyse der altersabhängigen Leistungen im Ein-Minuten-Bereich ausgewertet. Tabelle 3 gibt einen Überblick über die einbezogenen Studien, in denen insgesamt 8488 Personen untersucht wurden. Die meisten Studien kommen aus den USA. Das Bildungsniveau der Teilnehmer war extrem unterschiedlich und variiert (im Mittel!) zwischen 6,7 und 16,5 Jahren.
Tabelle 3: Überblick über internationale Daten zum Flüssigkeitsparadigma „Tiere“. Dauer 1 Minute.
Stichprobe | Jahr | N | Schulbildung | Land |
---|---|---|---|---|
Selnes15) | 1991 | 696 | 16,5 | USA |
Kozora16) | 1995 | 174 | 14,5 | USA |
Crossley17) | 1997 | 635 | 10 | Kanada |
Beatty18) | 1997 | 38 | 13,4 | USA |
Salthouse19) | 1997 | 115 | 15,3 | USA |
Kempler20) | 1998 | 317 | 10,3 | USA |
Stuss21) | 1998 | 62 | 13,9 | USA |
Johnson-Selfridge22) | 1998 | 600 | 13,2 | USA |
Tombaugh23) | 1999 | 735 | 11,4 | USA |
Epker24) | 1999 | 65 | 14,3 | USA |
Gladsjo25) | 1999 | 768 | 13,6 | USA |
Binder26) | 1999 | 125 | 13,5 | USA |
RWT27) | 2000 | 634 | ? | D |
Fama28) | 2000 | 51 | 16,4 | USA |
Acevedo29) | 2000 | 553 | 14 | USA |
Brady30) | 2001 | 235 | 14 | USA |
CERAD31) | 2002 | 1100 | 12,5 | CH, D, A |
Grady32) | 2002 | 1063 | 12,7 | USA |
Giovannetti33) | 2003 | 31 | 15 | USA |
Lopez-Carlos34) | 2003 | 115 | 6,7 | USA, Mexico |
Miller35) | 2003 | 227 | 16,3 | USA |
Ravdin36) | 2003 | 149 | 15,6 | USA |
In Abbildung 16 sind die Ergebnisse der 22 Studien aus Tabelle 3 graphisch dargestellt. In der Abbildung sind die meisten Studien als dünne Linien eingetragen. Fett sind nur 6 Verläufe markiert: In schwarzer Farbe die über alle Studien gemittelten Rohwerte und deren 1-Sigma-Grenzen, in blau die Normen des RWT und in gelb und magenta der Verlauf der beiden CERAD-Teilstichproben (bis und über 12 Jahre Schulbildung).
Abbildung 16: Altersverläufe der Ein-Minuten-Rohwerte für „Tiere“ der Studien aus Tabelle 6 und deren metaanalytische Zusammenfassung
Man sieht zunächst einmal, dass der Einfluss des Alters auf die semantische Wortflüssigkeit nicht so groß ist wie bei manchen anderen Funktionen. Die Differenz zwischen dem Mittelwert der jungen Erwachsenen und der 80-jährigen beträgt rund eine Standardabweichung. Bei visumotorischen Funktionen sind es regelmäßig eher zwei Standardabweichungen. Trotz der sehr heterogenen Stichproben liegen die meisten Daten der Einzelstudien auch innerhalb der Ein-Sigma-Grenzen. Als extrem leistungsfähig erweist sich die CERAD-Stichprobe. Hier liegt die Teilstichprobe mit über 12-jähriger Schulbildung oberhalb der Ein-Sigma-Grenze und auch die Stichprobe mit bis 12-jähriger Schulbildung liegt noch deutlich über den meisten anderen Studien in diesem Altersbereich. Die RWT-Stichprobe lässt sich in diesem Paradigma nicht pauschal bewerten: Es ist nämlich so, dass die jungen Probanden vergleichsweise sehr gut und die über 65-jährigen vergleichsweise sehr schlecht abschneiden, wenn man sie mit den Mittelwerten aller Stichproben vergleicht. Dies dürfte wohl Ausdruck einer selektiven Stichprobenziehung sein, bei der die jungen Teilstichproben eine viel höhere Bildung haben als die älteren. Teilweise muss das wegen der stets zunehmenden Bildung der Bevölkerung so sein, möglicherweise ist der Effekt aber bei der RWT-Stichprobe sehr stark ausgeprägt.
Die Resultate dieser Analyse lassen sich vermutlich auf die anderen RWT-Subtests extrapolieren. Die Stichproben unterscheiden sich nicht nennenswert, das N schwankt bei den einzelnen Subtests zwischen 532 und 634, wahrscheinlich ja ohne Bezug zu den Stichprobenmerkmalen, die für die besonderen Verläufe des RWT in Abbildung 16 verantwortlich sind. Demnach sind die RWT-Normen bei den 18-39-jährigen wahrscheinlich um rund eine halbe Standardabweichung zu streng. Bei den 40-60-jährigen verringert sich diese Differenz zunehmend und bei den über 65-jährigen sind die Normen dann um eine halbe Standardabweichung zu mild. Da die TDB2Online-Normen für alle Zwei-Minuten-Subtests mangels geeigneter Daten aus anderen Quellen ausschließlich auf den RWT-Normen beruhen, gilt diese Bewertung natürlich auch für die in TDB2Online berechneten Werte.
Literatur