dokumentation:regensburger_wortfluessigkeitstest

Dies ist eine alte Version des Dokuments!


Regensburger Wortflüssigkeitstest

Abkürzung: RWT

Geschwindigkeitsbetonte Denkspiele sind seit Jahrhunderten bekannt. Mit Stadt-Land-Fluss hat man sich schon früher die Langeweile vertrieben.

In die Testpsychologie wurden Wortflüssigkeitsverfahren wohl zuerst von Thurstone & Thurstone im Primary Mental Abilities Test eingeführt1). Statt der von den Thurstones (und dementsprechend später auch im deutschen LPS2) ) verwendeten schriftlichen Wortflüssigkeitsprüfung beschrieb Benton etwas später3) eine mündliche Testform, die Controlled Verbal Fluency Task (CVFT): Innerhalb von jeweils 60 Sekunden müssen möglichst viele Wörter mit den Anfangsbuchstaben F, A und S genannt werden. Aus dem „F-A-S-Test“ wurde später der Controlled Oral Word Association Test (COWA)4) mit zwei Parallelversionen entwickelt (Buchstaben C, F und L, bzw. P, R und W). Die dabei verwendeten Buchstaben kommen etwa gleich häufig als Anfangsbuchstaben bei englischen Wörtern vor.

Neben solchen lexikalischen Wortflüssigkeitsaufgaben wurden auch semantische konstruiert. In USA hat sich der Set-Test5) etabliert, der das schnelle Aufzählen von Farben, Tieren, Früchten und Städten fordert. Bei der Testung von dementen Personen (zum Beispiel mit CERAD oder RBANS6)) werden semantische Wortflüssigkeitsaufgaben auch verwendet, allerdings wird meist nur eine einzige Kategorie verlangt.

Im deutschen Sprachbereich wurden solche Verfahren bis circa 2000 nur ad hoc zu Forschungszwecken und ohne formale Normierung eingesetzt. Seit 2000 liegt mit dem RWT7) ein Verfahren vor, das eine Reihe von lexikalischen und semantischen Wortflüssigkeitstests enthält, die gemeinsam an einer deutschen Normstichprobe standardisiert wurden. Bei Routinetestungen sollte man dieses standardisierte Testmaterial benutzen.

Der RWT besteht aus 14 Subtests.

  • Fünf Subtests messen die formallexikalische Wortflüssigkeit mit den Anfangsbuchstaben S, P, M, K und B. Im deutschen Wortschatz kommen Wörter mit dem Anfangsbuchstaben S sehr häufig vor, mit P und M häufig und mit K und B seltener.
  • Zwei Subtests messen den formallexikalischen Kategorienwechsel, eine Aufgabe, bei der abwechselnd Wörter mit zwei verschiedenen Anfangsbuchstaben genannt werden müssen. Dafür werden die Anfangsbuchstaben G abwechselnd mit R und H abwechselnd mit T verwendet.
  • Fünf weitere Subtests erfassen die semantisch-kategorielle Flüssigkeit mit den Kategorien Vornamen, Tiere, Lebensmittel, Berufe und Hobbys. Hier gilt eine ähnliche Häufigkeitsverteilung wie bei der lexikalischen Flüssigkeit: Bei Vornamen ist der Suchraum sehr groß, bei Tieren und Lebensmittel groß und bei Berufen und Hobbys klein.
  • Die letzten beiden Subtests erfassen die Geschwindigkeit eines semantischen Kategorienwechsels zwischen Sportarten und Früchten und zwischen Kleidungsstücken und Blumen. Wie beim formallexikalischen Kategorienwechsel ist auch hier von einem mittelgroßen Suchraum auszugehen.

In TDB2Online sind nur fünf der 14 Subtests eingeschlossen, zwei aus dem formallexikalischen Paradigma (die Buchstaben K und S) und jeweils einer aus den anderen drei Flüssigkeitsparadigmen. Die TDB2Online-Normen sind immer dann relevant, wenn der RWT zusammen mit anderen Testverfahren angewendet wird und die Testergebnisse gemeinsam betrachtet werden sollen. Dies ist vor allem bei Erstuntersuchungen der Fall, seltener bei Wiederholungsmessungen. Bei den Erstuntersuchungen wäre es vermutlich möglich und sinnvoll, sich auf die fünf ausgewählten Subtests zu fokussieren. Tabelle 1 zeigt die diversen Subtests im Zusammenhang.

Tabelle 1: Subtests des RWT

Flüssigkeitsparadigma Untertests in TDB2Online
formallexikalische WortflüssigkeitS-Wörter-Testja
P-Wörter-Testnein
M-Wörter-Testnein
K-Wörter-Testja
B-Wörter-Testnein
formallexikalischer KategorienwechselWechsel G-Wörter/R-Wörterja
Wechsel H-Wörter/T-Wörternein
semantisch-kategorielle FlüssigkeitVornamennein
Tierenein, siehe aber Diskussion
Lebensmittelja
Berufenein
Hobbysnein
semantischer KategorienwechselSportarten-Früchtenein
Kleidungsstücke-Blumenja

Der Subtest Tiere wird im Diskussionsteil dieser Dokumentation besprochen, weil es für diesen Subtest die größte Anzahl unabhängiger Normierungsstudien gibt und man diese durchaus über die verschiedenen Sprachen hinweg vergleichen kann. Für die lexikalischen Subtest gilt das nicht, weil deren Anfangsbuchstaben in verschiedenen Sprachen einen unterschiedlich großen Suchraum aufspannen. Am Subtest Tiere kann man deshalb ungefähr beurteilen, wie sich die Normierung des RWT in den internationalen Kontext einordnet.

Der RWT ist ein copyright-geschützter Test. Das Testmaterial einschließlich des Testhandbuchs kann über die Testzentralen in Deutschland oder der Schweiz bezogen werden. Wenn man sich an Hand des Manuals in die Testvorgabe eingearbeitet hat, benötigt man für eine einzelne Testdurchführung nur noch die separat erhältlichen Protokollbögen und eine (Stopp-)Uhr. Für jedes Flüssigkeitsparadigma gibt es einen Typ von Protokollbogen, auf dem der entsprechende Untertest angekreuzt werden kann.

Die normale Testdauer beträgt beim RWT zwei Minuten pro Subtest. Auch die TDB2Online-Normen gelten für zwei Minuten Testdauer. Um trotzdem die Durchführung des Tests auch mit wenig belastbaren Probanden/Patienten zu gewährleisten, wurde zusätzlich eine Normierung für die jeweils erste Minute vergenommen.

International ist eher eine Testdauer von nur einer Minute üblich. Die Vergleichsdaten, die in der Diskussion zum Tier-Paradigma zusammengestellt wurden, beruhen deshalb nur auf Ein-Minuten-Messungen.

Bei jedem Subtest ergibt sich der Testrohwert aus der Anzahl der richtig produzierten Wörter pro Testzeit (eine oder zwei Minuten). Die Instruktionen des RWT zu jedem Subtest sind recht genau. Es wird immer ausführlich erklärt, was als richtige Antwort gezählt wird.

Da alle Normen des RWT (ausschließlich) als Prozentrangnormen vorliegen, ließen sich die Verteilungen der Normstichprobe leicht rückrechnen. Dazu wurden die nach dem Alter aufgeschlüsselten Gesamtnormen verwendet. Die Abbildungen 1 bis 5 zeigen diese rückgerechneten Verteilungen für die Subtests K-Wörter, S-Wörter, G-R-Wörter, Lebensmittel und Kleidung-Blumen.

Abbildung 1: Rohwertverteilungen im Subtest K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Abbildung 2: Rohwertverteilungen im Subtest S-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Abbildung 3: Rohwertverteilungen im Subtest G-R-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Abbildung 4: Rohwertverteilungen im Subtest Lebensmittel für die fünf Altersgruppen der RWT-Normstichprobe


Abbildung 5: Rohwertverteilungen im Subtest Kleider-Blumen für die fünf Altersgruppen der RWT-Normstichprobe


Man sieht auf diesen Abbildungen zunächst einmal, dass die Verteilungen weitgehend symmetrisch und normal sind. Dies ist bei solchen verbalen Produktionstests meistens der Fall, wenn sie nur lange genug dauern. Dann liegen die Rohwerte in einem Bereich, in dem es nicht mehr zu Bodeneffekten kommt. Es ist insofern durchaus verblüffend, dass die Autoren des RWT im Handbuch dazu in einem Nebensatz schreiben, dass „die Rohwertverteilung keiner Normalverteilung entspricht8)“. Bei vielen anderen Tests würde man sich durchaus wünschen, dass Testautoren bei der Normalitätsbeurteilung ihrer Rohwerte so kritisch sind. Hier ist es dagegen nicht notwendig: Man kann allenfalls bei der ältesten Gruppe einen gewissen Bodeneffekt feststellen, beim Subtest K noch am ehesten erkennbar. Ansonsten sind die Rohwerte des RWT so linear wie man sie gerne für alle Tests hätte.

Man sieht auf den Abbildungen zum anderen aber auch sehr deutlich, dass es zu vielen holprigen Kurvenverläufen sowohl innerhalb einer jeden Altersgruppe als auch zwischen den Altersgruppen kommt. Dies ist bei unkorrigierten Prozentrangnormen so, wenn die Stichprobengröße nicht 4- oder 5-stellig ist. Vor allem in den Randbereichen kommt es bei den üblichen Stichprobengrößen von einigen Hundert bis wenigen Tausend regelmäßig zu gestutzten Verteilungen. Man sieht das recht gut in der jüngsten Altersgruppe beim Subtest K-Wörter. Hier bricht die Verteilung bei einem Rohwert von 13 abrupt ab, weil in dieser Stichprobe nun mal kein Proband mit niedrigeren Werten enthalten war. Bei den 42-53-Jährigen ist das anders: Da gab es einen besonders leistungsschwachen Probanden mit einem Rohwert von 5, was dann allerdings dafür sorgt, dass die Verteilungsform auch in dieser Gruppe ungewöhnlich ist. Man kann sich den Sachverhalt klar machen, wenn man die Prozentrangverteilung direkt in Standardwerte (100;15) umrechnet. Das Ergebnis ist in Abbildung 6 dargestellt.

Abbildung 6: Flächentransformierte IQ-normierte Standardwerte des Subtests K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Man sieht, dass die beiden abnormen Verläufe in der Verteilungskurve sich hier als Abweichungen von der geraden Linie darstellen (durch Pfeile gekennzeichnet). Ansonsten ist die Umrechnung von Roh- in Standardwerte tatsächlich in allen Altersgruppen sehr linear.

Solche Stichprobenfehler in den Prozentrangnormen des RWT müssen eigentlich korrigiert werden, weil sie im Einzelfall durchaus unerwünschte Folgen haben. Man könnte sie nun heuristisch korrigieren, indem man nur die von der Linearität abweichenden Enden der Verteilungen durch lineare Extrapolationen ersetzt. Wir haben das beispielshalber einmal für die jüngste Altersgruppe beim Subtest K-Wörter gemacht. Die Abbildungen 7 und 8 zeigen, wie sich eine (hier gestrichelt dargestellte) lineare Extrapolation auf die Verteilungsform auswirkt.

Abbildung 7: Flächentransformierte IQ-normierte Standardwerte des Subtests K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe mit linearer Extrapolation in den Randbereichen (gestrichelt)


Abbildung 8: Rohwertverteilungen im Subtest K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe mit linearer Extrapolation in den Randbereichen (gestrichelt)


Mit dieser Methode würden sich die gröbsten Fehler am Rande sinnvoll korrigieren lassen, es blieben aber noch die diversen Unstetigkeiten im Kurvenverlauf. Außerdem ist das Verfahren etwas aufwändig. Da bei allen vier Subtests die Rohwerte doch sehr linear sind, entschieden wir uns letztlich für eine einfache lineare Transformation der Rohwerte in Standardwerte.

Im RWT-Handbuch werden nun weder Mittelwerte noch Standardabweichungen der Rohwerte mitgeteilt. Für deren Schätzung wurden die aus den Prozenträngen errechneten Standardwerte (wie in Abbildung 7) durch ihren linearen Trend ersetzt, wobei letzterer nur durch Rohwerte geschätzt wurde, die Prozenträngen zwischen 10 und 90 entsprachen. Dieses Vorgehen verhindert, dass ein einziger sehr auffälliger Wert am Ende einer Verteilung den Trend maßgeblich beeinflussen kann. Daraus ergab sich die Umrechnung von Roh- in Standardwerte, wie sie in Abbildung 9 beispielhaft für den Subtest K-Wörter dargestellt ist. Die Mittelwerte und Standardabweichungen der Rohwerte wurden aus den Trendgeraden geschätzt. Die daraus abgeleiteten theoretischen Rohwertverteilungen sind in Abbildung 10 dargestellt.

Abbildung 9: Lineare IQ-normierte Standardwerte des Subtests K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Abbildung 10: Theoretische Rohwertverteilungen im Subtest K-Wörter für die fünf Altersgruppen der RWT-Normstichprobe


Beim Subtest G-R-Wörter zeigte eine Altersgruppe (die 42-53-Jährigen) eine erheblich geringere Streuung als die anderen Gruppen. Man sah das schon in Abbildung 3. Auch dies muss man als Stichprobenfehler werten, weil es keinen sinnvollen Grund dafür gibt, dass eine mittlere Altersgruppe eine deutlich geringere Standardabweichung haben soll als die beiden altersmäßig benachbarten Gruppen. Derartige Stichprobenfehler lassen sich durch die Linearisierung innerhalb einer Altersgruppe alleine nicht korrigieren. Man braucht dazu Angleichungen über die Altersgruppen hinweg. Es gibt dazu diverse heuristische (zum Beispiel9) ) und parametrische Verfahren (z.B. das Inferential Norming, das bei WISC IV und WAIS IV benutzt wurde10)11) ), die allerdings etwas aufwändig sind. Wir haben uns auf die Angleichung der Mittelwerte und Standardabweichungen durch eine gleitende Mittelwertsbildung dritter Ordnung, also mit den jeweils benachbarten Altersgruppen beschränkt, die sich relativ leicht und schnell durchführen ließ. Die Randgruppen 18-29 und über 65 blieben unverändert.

Das Testhandbuch des RWT präsentiert Normen, die - je nach Subtest - an zwischen 532 und 634 Erwachsenen erhoben wurden. Über die angezielte Stichprobe wird im Handbuch nichts gesagt. Die Stichprobe ist im Handbuch nach Alter (relativ grob in fünf Altersgruppen: 18-29, 30-41, 42-53, 54-65 und über 65 Jahre), Geschlecht und Schulbildung (unter 10 Jahre Schulbildung, 10 bis 12 und über 12 Jahre) aufgeschlüsselt. Die Normen wurden über die Gesamtstichprobe berechnet. Sie sind im Handbuch als reine Prozentrangnormen angegeben.

Weitere Normuntersuchungen zu den im RWT verwendeten Anfangsbuchstaben und Messzeiten sind uns im deutschen Sprachraum nicht bekannt. Für den Bereich der lexikalischen Wortflüssigkeit lassen sich Normuntersuchungen in anderen Sprachräumen nicht verwenden, weil die Zahl von Wörtern mit einem bestimmten Anfangsbuchstaben von Sprache zu Sprache unterschiedlich ist (mehr dazu in der Diskussion).

Bei der semantischen Wortflüssigkeit sieht es etwas anders aus. Hier gibt es zumindest für den Bereich „Tiere“ viele Normuntersuchungen, die man - auch über Sprachen hinweg - mit dem entsprechenden Subtest des RWT vergleichen kann. Wir haben hierzu metaanalytische Berechnungen angestellt, die in der Diskussion dargestellt sind. Sie liefern eine gute Information darüber, wie denn die RWT-Normen im Vergleich zu anderen Normen für diesen speziellen Subtest aussehen.

Die für TDB2Online berechneten Normen beruhen mangels weiterer Daten aus anderen Quellen ausschließlich auf den im RWT-Handbuch angegebenen Daten. Wie im vorhergehenden Abschnitt dargestellt, liegen sie in TDB2Online in linearisierter und geglätteter Form vor, womit Unzulänglichkeiten der Originalnormen beseitigt wurden.

Die Abbildungen 11 bis 15 zeigen zusammenfassend die Leistungswerte und die Altersnormengrenzen der fünf Subtests, so wie sie in TDB2Online erscheinen.

Abbildung 11 zeigt in einer zusammengesetzten Grafik den Zusammenhang von Roh- und Leistungswerten sowie den (durchschnittlichen) Einfluss des Alters auf die Leistungen im Subtest K-Wörter des RWT. Auf dieser und allen folgenden Abbildungen markieren die senkrechten Striche die Leistungswerte von 40 bis 145. Auf der schwarzen waagerechten Linie sind die Rohwerte lagerichtig eingetragen. Die abwechselnd rot und blau eingezeichneten Linien enthalten die Normgrenzen für alle Altersgruppen in der Übersicht. Die fünf Markierungen auf jeder Linie stehen für die Prozentränge 2.5, 16, 50, 84 und 97.5. Jeweils eine solche Linie, nämlich die, die der Altersgruppe des Probanden entspricht, wird (in anderer Form) im TDB2Online-Profilblatt eingezeichnet, um bei der individuellen Interpretation der Testergebnisse zu helfen. Weil die Leistungswerte aus den Ergebnissen der 18-29-jährigen jungen Erwachsenen errechnet werden, liegen die 5 Markierungen der Altersgruppe 18-29 genau auf den Leistungswerten 70, 85, 100, 115 und 130.

Abbildung 11: Leistungswerte im Subtest K-Wörter mit Rohwerten und Altersnormgrenzen (siehe Text)


In den ersten drei Dekaden des Erwachsenenalters ist im Subtest K-Wörter nach den Normen des RWT kein Leistungsabfall zu erkennen. Erst ab 50 lässt sich ein nennenswerter Abfall erkennen, der aber selbst um die 70 herum nur eine Standardabweichung im Vergleich zu den jungen Erwachsenen beträgt. Verglichen mit Tests, die hohe Anforderungen an das Gedächtnis oder die Visomotorik stellen, ist das eher wenig.

Abbildung 12 zeigt den Zusammenhang von Roh- und Leistungswerten sowie den (durchschnittlichen) Einfluss des Alters auf die Leistungen im Subtest S-Wörter des RWT.

Abbildung 12: Leistungswerte im Subtest S-Wörter mit Rohwerten und Altersnormgrenzen (siehe Text)


Obwohl der Suchraum bei den S-Wörtern im Deutschen etwa doppelt so groß ist wie bei den K-Wörtern, liegen die mittleren Rohwerte in der Standardisierungsstichprobe sehr eng beieinander. Auf die Abhängigkeit der Normwerte vom Suchraum wird in der Diskussion noch näher eingegangen.

Abbildung 13 zeigt den Zusammenhang von Roh- und Leistungswerten sowie den (durchschnittlichen) Einfluss des Alters auf die Leistungen im Subtest G-R-Wörter des RWT.

Abbildung 13: Leistungswerte im Subtest G-R-Wörter mit Rohwerten und Altersnormgrenzen (siehe Text)


Es ist erstaunlich, wie gut die jüngeren Probanden im Durchschnitt mit der zusätzlichen Belastung durch das Alternieren des Anfangsbuchstabens zurecht kommen. Die durchschnittliche Leistungsmenge über 2 Minuten liegt in den Subtests K-Wörter und G-R-Wörter praktisch gleichauf bei rund 25 Wörtern in 2 Minuten. Erst im höheren Alter lässt sich ein größerer Leistungsabfall bei der alternierenden Testaufgabe feststellen. Hier wirken sich vermutlich die Flexibilitätseinbuße mehr aus.

Abbildung 14 zeigt den Zusammenhang von Roh- und Leistungswerten sowie den (durchschnittlichen) Einfluss des Alters auf die Leistungen im Subtest Lebensmittel des RWT.

Abbildung 14: Leistungswerte im Subtest Lebensmittel mit Rohwerten und Altersnormgrenzen (siehe Text)


Das schnelle Aufzählen von Lebensmitteln ist im Vergleich mit den beiden lexikalischen Aufgaben viel leichter, hier liegt der Mittelwert der jungen Erwachsenen bei rund 40 Wörtern in zwei Minuten.

Abbildung 15 zeigt den Zusammenhang von Roh- und Leistungswerten sowie den (durchschnittlichen) Einfluss des Alters auf die Leistungen im Subtest Kleidung-Blumen des RWT.

Abbildung 15: Leistungswerte im Subtest Kleidung-Blumen mit Rohwerten und Altersnormgrenzen (siehe Text)


Im Subtest Kleidung-Blumen lässt sich ein etwas anderer Altersverlauf als beim Subtest Lebensmittel feststellen. Hier wird die höchste Leistung erst in späteren Altersgruppen erreicht. Möglicherweise spiegeln sich hier Interessensentwicklungen wider. Junge Leute haben sowohl mit Kleidungsstücken als auch mit Blumen vermutlich weniger Erfahrungen gesammelt als ältere.

Die psychometrische Aufarbeitung des RWT für die graphische Präsentation in TDB2Online verlief weitestgehend problemlos, eine simple lineare Transformation erfüllte bei allen Subtests ihren Zweck, auch wenn man die dafür erforderlichen Stichprobenstatistiken erst aus den Prozentrangnormen ableiten musste. Auch der Stellenwert des Verfahrens als Test für einen bestimmten Aspekt der exekutiven Funktionen ist klar umrissen und in der neuropsychologischen Literatur weltweit gut diskutiert. Der RWT verdient also seinen Platz im Spektrum der TDB2Online-Verfahren, auch wenn angesichts der engen Zielsetzung von Wortflüssigkeitstests neuropsychologische Interpretationen von RWT-Ergebnissen inhaltlich begrenzter sind als dies bei manch anderen Tests der Fall ist und er deshalb auch wahrscheinlich seltener angewandt wird.

Das Hauptproblem bei dieser deutschen Version von Wortflüssigkeitstests ist - wieder einmal - die mangelnde Repräsentativität der Normierung. Aus der Beschreibung der Stichprobe lassen sich kaum Hinweise ziehen, dort wird Repräsentativität auch gar nicht erst beansprucht. Unabhängige Daten gesunder Probanden aus dem deutschen Sprachraum zu den RWT-Subtests ließen sich bis Ende 2012 nicht finden. In der deutschen Neuropsychologie-Gruppe gab es im Februar 2004 von mehreren klinischen Anwendern Hinweise darauf, dass der Test „zu schwer“ ist und auch gesunde und normal leistungsfähige Personen Werte im unterdurchschnittlichen Bereich erhalten.

Bei den in TDB2Online eingeschlossenen Tests versuchen wir im Allgemeinen, die Normdatenlage zu verbreitern und beziehen dazu auch internationale Quellen ein, wenn dies inhaltlich gerechtfertigt ist. Bei den Subtests des RWT ist das leider nur sehr indirekt möglich. Bei den formallexikalischen Subtests lassen sich fremdsprachliche Ergebnisse überhaupt nicht verwenden, weil die Häufigkeit von Wörtern mit bestimmten Anfangsbuchstaben je nach Sprache unterschiedlich ist. Wir haben aber versucht, die Ergebnisse von zwei anderen deutschsprachigen Publikationen mit den Ergebnissen des RWT abzugleichen. Dieser Versuch ist weiter unten dargestellt. Mit den kategorial-semantischen Subtests ist dagegen ein Vergleich über Sprachgrenzen durchaus möglich. Zumindest für die Kategorie Tiere gibt es international genügend Daten, die einen Vergleich ermöglichen, wenn auch nur für die Messzeit von einer Minute. Auch dies wird im Folgenden dargestellt.

Im deutschen Sprachraum gibt es mit dem LPS einen weiteren Test, der formallexikalische Wortflüssigkeit misst. Er liegt in zwei Versionen vor, dem Original-LPS von 196212) und der Version LPS+ mit Normierungsdaten für Ältere aus dem Jahr 199313). Im neuen LPS-2 von 201314) ist die Wortflüssigkeitsaufgabe nicht mehr enthalten. Die Aufgabenstellung im LPS und LPS 50+ ist allerdings anders als im RWT: Hier müssen für jeweils 1 Minute möglichst viele Wörter mit den Anfangsbuchstaben L, P und R (Parallelversion: F, K und R) geschrieben werden.

Im LPS dienen also andere Buchstaben als Anfangsbuchstaben für die Wörter, außerdem muss man sie schreiben statt nennen. Letzteres dürfte auf jeden Fall Auswirkungen im oberen Leistungsbereich haben, nicht unbedingt aber im unteren oder mittleren. Zwischen der Häufigkeit von Wörtern mit einem bestimmten Anfangsbuchstaben in der Alltagssprache und der Assoziationshäufigkeit für Wörter mit diesem Anfangsbuchstaben gibt es eine gewisse Beziehung, auch wenn sie nicht allzu eng ist. In Tabelle 2 sind die mittleren Ein-Minuten-Assoziations-Rohwerte von Erwachsenen für Anfangsbuchstaben, die in deutschen Wortflüssigkeitstests vorkommen, den prozentualen Häufigkeiten derselben Anfangsbuchstaben in dem allgemeinsprachlichen deutschen Wörterbuch elexicon auf der OWID-Portalseite des Instituts für Deutsche Sprache in Mannheim gegenübergestellt. In der Tabelle sind auch die dem RWT-Manual entnommenen Angaben zum Suchraum der jeweiligen Anfangsbuchstaben angeführt.

Man sieht, dass den Probanden zu den selten vorkommenden Anfangsbuchstaben M und P weniger Wörter einfallen als zu normal häufigen wie B oder K. Nach oben scheint der Zuwachs dagegen begrenzt zu sein: auch mit dem sehr häufig vorkommenden Buchstaben S fallen einem kaum mehr Wörter in einer oder auch zwei Minuten ein als mit den normal häufig vorkommenden Buchstaben B und K. Während die elexicon-Daten und die Ein-Minuten-Normen des RWT (hier für 18-29-Jährige) gut übereinstimmen, weichen die verbalen Suchraumangaben im RWT-Manuel bei den meisten Buchstaben davon ab. Lediglich beim Buchstaben S stimmen die Angaben überein. Im RWT-Manual ist nicht erwähnt, woher die Suchraumangaben stammen. Es macht große Unterschiede, ob man dazu Wörterbucheinträge (was wohl die richtige Ausgangsmenge ist) oder Fließtexte analysiert. In Fließtexten kommt zum Beispiel wegen der vielen bestimmten Artikel der Buchstabe D viel häufiger vor als in Lexika.

Tabelle 2: Anzahl von Wörtern in allgemeinsprachlichen deutschen Wörterbüchern und Wortflüssigkeits-Rohwerte in Abhängigkeit vom Anfangsbuchstaben

Buchstabe Worthäufigkeit Suchraum Normdaten von Wortflüssigkeitstests
Dauer in s RWT LPS LPS 50+
S 12,0 sehr groß 60 16
B 6,8 gering 60 15
K 7,0 gering 60 15,5
M 5,1 groß 60 13,7
P 4,9 groß 60 12
L+P+R 3,4 + 4,9 + 4,4 je 60 26 31
F+K+R 5,5 + 7,0 + 4,0 je 60 26 31

Worthäufigkeit: Prozentuale Häufigkeit von Wörtern mit diesem Anfangsbuchstaben im allgemeinsprachlichen Wörterbuch elexicon
Suchraum: Angabe im RWT-Manual
Normdaten von Wortflüssigkeitstests: Rohwerte
Normierungsdatum RWT: 2000, LPS: 1962, LPS 50+: 1993
Altersstufe RWT: 18-29 Jahre, LPS: 18-29 Jahre, LPS 50+: 50-69 Jahre

In die Tabelle sind auch die Normwerte des Subtests 6 aus dem Leistungsprüfsystem LPS (Horn, 1962) und dem LPS 50+ (Sturm, Willmes & Horn, 1993) aufgenommen. In beiden Subtests sollen möglichst viele Wörter zu drei verschiedenen Buchstaben über je eine Minute geschrieben werden und die Normwerte liegen nur für die Summe der drei Minuten vor. Man erkennt trotzdem, dass die Normstichprobe des LPS viel niedrigere Leistungen aufweist als die des RWT. Bei den drei im LPS vorgegebenen Buchstaben wäre damit zu rechnen, dass die jungen Probanden der RWT-Stichprobe wohl eher 30 bis 33 Wörter produziert hätten als nur 26, was als Norm im LPS-Handbuch angegeben ist. Man kann allerdings auch erkennen, dass die 50-69-jährigen aus der Normstichprobe des LPS 50+ (das ist die jüngste Altersgruppe für diese Version des LPS) mit 31 Wörtern um einiges besser waren als die 18-29-jährigen der Normstichprobe des LPS (26 Wörter). Die Leistung der „über 50-jährigen“ in der LPS-Normstichprobe lag sogar nur bei 18 Wörtern.

Möglicherweise addieren sich hier zwei Effekte: Zum einen muss man angesichts des großen Zeitabstands der drei Normierungen (LPS 1962, LPS50+ 1993, RWT 2000) von Kohorteneffekte im Sinne eines „IQ-Gains“ ausgehen. Danach müssen spätere Normierungen strenger sein, auch wenn es über das Ausmaß des IQ-Gains in der Domäne Wortflüssigkeit keine Daten gibt. Zum anderen scheint es aber auch unterschiedliche Ansprüche an die Repräsentativität der Normen gegeben zu haben. Nur bei der alten LPS-Normierung kann man lesen, dass der Autor sich bemüht hat, die schwächeren (z. B. sitzengebliebenen) Schüler eines Jahrgangs systematisch aufzusuchen. Die anderen beiden Normierungen sind eher „anfallende“ Normstichproben, bei denen im allgemeinen leistungsfähigere und leistungswilligere Probanden überrepräsentiert sind.

Letztlich bleibt der Vergleich wenig aussagekräftig. Im Vergleich zum LPS wären die RWT-Normen zu streng, im Vergleich zum LPS 50+ wären sie vergleichbar. Bei beiden Vergleichen gibt es zudem noch weitere Einschränkungen, weshalb man keine wirklichen Schlüsse ziehen kann.

Für den Subtest Tiere gibt es international relativ viele Daten, wenn auch nur für die Dauer von einer Minute. Für die Leistung in dieser Aufgabe spielt die Sprache keine große Rolle, dies wurde in diversen Studien demonstriert15) 16) 17). Mitrushina et al.18) haben in der zweiten Auflage ihres Handbuchs 45 Studien mit Ergebnissen von Wortflüssigkeitstests bei gesunden Probanden zusammengetragen. Zwanzig davon haben Daten zum „Tier“-Paradigma bei altersmäßig eingrenzbaren Probandengruppen berichtet. Die Ergebnisse dieser 20 Studien wurden zusammen mit den Daten aus dem RWT-Handbuch und den Baseler Normdaten zur CERAD für eine Metaanalyse der altersabhängigen Leistungen im Ein-Minuten-Bereich ausgewertet. Tabelle 3 gibt einen Überblick über die einbezogenen Studien, in denen insgesamt 8488 Personen untersucht wurden. Die meisten Studien kommen aus den USA. Das Bildungsniveau der Teilnehmer war extrem unterschiedlich und variiert (im Mittel!) zwischen 6,7 und 16,5 Jahren.


Tabelle 3: Überblick über internationale Daten zum Flüssigkeitsparadigma „Tiere“. Dauer 1 Minute.

Stichprobe Jahr N Schulbildung Land
Selnes19) 1991 696 16,5 USA
Kozora20) 1995 174 14,5 USA
Crossley21) 1997 635 10 Kanada
Beatty22) 1997 38 13,4 USA
Salthouse23) 1997 115 15,3 USA
Kempler24) 1998 317 10,3 USA
Stuss25) 1998 62 13,9 USA
Johnson-Selfridge26) 1998 600 13,2 USA
Tombaugh27) 1999 735 11,4 USA
Epker28) 1999 65 14,3 USA
Gladsjo29) 1999 768 13,6 USA
Binder30) 1999 125 13,5 USA
RWT31) 2000 634 ? D
Fama32) 2000 51 16,4 USA
Acevedo33) 2000 553 14 USA
Brady34) 2001 235 14 USA
CERAD35) 2002 1100 12,5 CH, D, A
Grady36) 2002 1063 12,7 USA
Giovannetti37) 2003 31 15 USA
Lopez-Carlos38) 2003 115 6,7 USA, Mexico
Miller39) 2003 227 16,3 USA
Ravdin40) 2003 149 15,6 USA


In Abbildung 16 sind die Ergebnisse der 22 Studien aus Tabelle 3 graphisch dargestellt. In der Abbildung sind die meisten Studien als dünne Linien eingetragen. Fett sind nur 6 Verläufe markiert: In schwarzer Farbe die über alle Studien gemittelten Rohwerte und deren 1-Sigma-Grenzen, in blau die Normen des RWT und in gelb und magenta der Verlauf der beiden CERAD-Teilstichproben.


Abbildung 16: Altersverläufe der Ein-Minuten-Rohwerte für „Tiere“ der Studien aus Tabelle 6 und deren metaanalytische Zusammenfassung


Man sieht zunächst einmal, dass der Einfluss des Alters auf die semantische Wortflüssigkeit nicht so groß ist wie bei manchen anderen Funktionen. Die Differenz zwischen dem Mittelwert der jungen Erwachsenen und der 80-jährigen beträgt rund eine Standardabweichung. Bei visumotorischen Funktionen sind es regelmäßig eher zwei Standardabweichungen. Trotz der sehr heterogenen Stichproben liegen die meisten Daten der Einzelstudien auch innerhalb der Ein-Sigma-Grenzen. Als extrem gut erweist sich die CERAD-Stichprobe. Hier liegt die Teilstichprobe mit mehr als 12-jähriger Schulbildung oberhalb der Ein-Sigma-Grenze und auch die Stichprobe mit unter 12-jähriger Schulbildung liegt noch deutlich über den meisten anderen Studien in diesem Altersbereich. Die RWT-Stichprobe lässt sich in diesem Paradigma nicht pauschal bewerten: Es ist nämlich so, dass die jungen Probanden vergleichsweise sehr gut und die über 65-jährigen vergleichsweise sehr schlecht abschneiden, wenn man sie mit den Mittelwerten aller Stichproben vergleicht. Dies dürfte wohl Ausdruck einer selektiven Stichprobenziehung sein, bei der die jungen Teilstichproben eine viel höhere Bildung haben als die älteren. Teilweise muss das wegen der stets zunehmenden Bildung der Bevölkerung so sein, möglicherweise ist der Effekt aber bei der RWT-Stichprobe sehr stark ausgeprägt.

Die Resultate dieser Analyse lassen sich vermutlich auf die anderen RWT-Subtests extrapolieren. Die Stichproben unterscheiden sich nicht nennenswert, das N schwankt bei den einzelnen Subtests zwischen 532 und 634, wahrscheinlich ja ohne Bezug zu den Stichprobenmerkmalen, die für die besonderen Verläufe des RWT in Abbildung 16 verantwortlich sind. Demnach sind die RWT-Normen bei den 18-39-jährigen wahrscheinlich um rund eine halbe Standardabweichung zu streng. Bei den 40-60-jährigen verringert sich diese Differenz zunehmend und bei den über 65-jährigen sind die Normen dann um eine halbe Standardabweichung zu mild. Da die TDB2Online-Normen für alle Zwei-Minuten-Subtests mangels geeigneter Daten aus anderen Quellen ausschließlich auf den RWT-Normen beruhen, gilt diese Bewertung natürlich auch für die in TDB2Online berechneten Werte.


1)
Thurstone, L.L., & Thurstone, T.G.(1962). Primary mental abilities (Rev.). Chicago: Science Research Associates.
2)
Horn, W. (1983) L-P-S Leistungsprüfsystem. 2. Auflage. Göttingen: Hogrefe.
3)
Benton, A.(1967). Problems of test construction in the field of aphasia. Cortex, 3, 32-58.
4)
Benton, A., & Hamsher, K.(1978). Multilingual Aphasia Examination manual. Iowa City: Unversity of Iowa.
5)
Isaacs, B. & Kennie, A. T. (1973) The Set Test as an aid to the detection of dementia in old people. British Journal of Psychiatry, 123, 467-470.
6)
Randolph, C. (1998). Repeatable Battery for the Assessment of Neuropsychological Status (RBANS). San Antonio/Texas: Psychological Corporation
7) , 31)
Aschenbrenner, A., Tucha, O. & Lange K. (2000) RWT. Regensburger Wortflüssigkeits-Test. Handanweisung. Göttingen: Hogrefe
8)
Aschenbrenner, A., Tucha, O. & Lange K. (2000) RWT. Regensburger Wortflüssigkeits-Test. Handanweisung. Göttingen: Hogrefe, S. 23 unten
9)
Pauker, J.D. (1988) Constructing overlapping cell tables to maximize the clinical usefulness of normative test data: Rationale and an example from neuropsychology. Journal of Clinical Psychology, 44, 930-933.
10)
Wilkins, C., Rolfhus, E., Weiss, L., & Zhu, J. J. (2005) A new method for calibrating translated tests with small sample sizes. Paper presented at the 2005 annual meeting of the American Educational Research Association, Montreal, Quebec, Canada
11)
Zhu, J. J. & Chen, H.-Y. (2011) Utility of inferential norming with smaller sample sizes. Journal of Psychoeducational Assessment, 29, 570-580
12)
Horn, W. (1962) Leistungsprüfsystem (LPS). Göttingen: Hogrefe
13)
Sturm, K., Willmes, K. & Horn, W. (1993) Leistungsprüfsystem für 50-90jährige (LPS 50+). Göttingen: Hogrefe
14)
Kreuzpointner, L., Lukesch, H. & Horn, W. (2013) Leistungsprüfsystem 2 (LPS-2). Göttingen: Hogrefe
15) , 24)
Kempler, D., Teng, E. L. Dick, M., Taussig, I.M. & Davis, D. S. (1998) The effects of age, education, and ethnicity on verbal fluency. Journal of the International Neuropsychological Society, 4, 531-538.
16) , 26)
Johnson-Selfridge, M., Zalewski, C. & Aboudarham, J. (1998) The relationship between ethnicity and word fluency. Archives of Clinical Neuropsychology, 13, 319-325.
17) , 33)
Acevedo, A., Loewenstein, D. A., Barker, W. W., Harwood, D. G., Luis, C., Bravo, M. et al. (2000) Category Fluency Test: Normative data for English- and Spanish-speaking elderly. Journal of the International Neuropsychological Society, 6, 760-769.
18)
Mitrushina, M., Boone, K., Razani, J., D'Elia, L. (2005) Handbook of Normative Data for Neuropsychological Assessment, 2. Auflage. New York: Oxford University Press
19)
Selnes, O.A., Jacobson, L., Machado, A.M., Becker, J.T., Wesch, J., Miller, E.N., et al. (1991) Normative data for a brief neuropsychological screening battery. Perceptual and Motor Skills, 73, 539-550.
20)
Kozora, E. & Cullum, C.M. (1995) Generative naming in normal aging: Total output and qualitative changes using phonemic and semantic constraints. Clinical Neuropsychologist, 9, 313-320.
21)
Crossley, M., D'Arcy, C. & Rawson, N.S.B. (1997) Letter and category fluency in community-dwelling Canadian seniors: A comparison of normal participants to those with dementa of the Alzheimer or vascular type. Journal of Clinical and Experimental Neuropsychology, 19, 52-62.
22)
Beatty, W.W., Testa, J.A., English, S. & Winn, P. (1997) Influences of clustering and switching on the verbal fluency performance of patients with Alzheimer's disease. Aging, Neuropsychology, and Cognition, 4, 273-279.
23)
Salthouse, T.A., Toth, J., Hancock, H.E. & Woodward, J.L. (1997) Controlled and automatic forms of memory and attention: Process purity and the uniqueness of age-related influences. Journals of Gerontology. Series B: Psychological Sciences and Social Sciences, 52B, P216-P228.
25)
Stuss, D.T., Alexander, M.P., Hamer, L., Palumbo, C., Dempster, R., Binns, M., et al. (1998) The effects of focal anterior and posterior brain lesions on verbal fluency. Journal of the International Neuropsychological Society, 4, 263-278.
27)
Tombaugh, T., Kozak, J. & Rees, L. (1999) Normative data stratified by age and education for two measures of verbal fluency: FAS and animal naming. Archives of Clinical Neuropsychology, 14, 167-177.
28)
Epker, M.O., Lacritz, L.H. & Cullum, C.M. (1999) Comparative analysis of qualitative verbal fluency performance in normal elderly and demented populations. Journal of Clinical and Experimental Neuropsychology, 21, 425-434.
29)
Gladsjo, J.A., Schuman, C.C., Evans, J.D., Peavy, G. M., Miller, S. W. & Heaton, R. K. (1999) Norms for letter and category fluency: Demographic corrections for age, education, and ethnicity. Assessment, 6, 147-178.
30)
Binder, E.F., Storandt, M. & Birge, S. J. (1999) The relation between psychometric test performance and physical performance in older adults. Journals of Gerontology: Series A: Biological Sciences and Medical Sciences, 54, M428-M432.
32)
Fama, R., Sullivan, E.V., Shear, P.K., Cahn-Weiner, D.A., Marsh, L., Lim, K.O. et al. (2000) Structural brain correlates of verbal and nonverbal fluency measures in Alzheimer's disease. Neuropsychology, 14, 29-41.
34)
Brady, C. B., Spiro, A., III, McGlinchey-Berroth, R., Milberg, W. & Gaziano, J. M. (2001) Stroke risk predicts verbal fluency decline in healthy older men: Evidence from the normative aging study. Journals of Gerontoloty: Series B: Psychological Sciences and Social Sciences, 56B, P340-P346.
36)
Grady, D., Yaffe, K., Kristof, M., Lin, F., Richards, C., & Barrett-Connor, E. (2002) Effect of postmenopausal hormone therapy on cognitive function: The Heart and Estrogen/Progestin Replacement Study. American Journal of Medicine, 113, 543-548.
37)
Giovannetti, T., Goldstein, R. Z., Schullery, M., Barr, W.B. & Bilder, R. M. (2003) Category fluency in first-episode schizophrenia. Journal of the International Neuropsychological Society, 9, 384-393.
38)
Lopez-Carlos, E., Salazar, X.F., Villasenor, T., Saucedo, C., & Pena, R. (2003) Validez y datos normativos de la pruebas de nominacion en personas con educacion limitada. Poster presented at the Neuropsicologia-Congreso Latinoamericano por la Sociedad Latinoamericana de Neuropsicologia, Toronto, Canada.
39)
Miller, E.N. Personal Communication 2003, Data from Mitrushina et al., 2005
40)
Ravdin, L.D., Katzen, H. L., Agrawal, P. & Relkin, N.R. (2003) Letter and semantic fluency in older adults: Effects of mild depressive symptoms and age-stratified normative data. Clinical Neuropsychologist, 17, 195-202.
Melden Sie sich an, um einen Kommentar zu erstellen.
  • dokumentation/regensburger_wortfluessigkeitstest.1627762233.txt.gz
  • Zuletzt geändert: 2021/07/31 20:10
  • von res