dokumentation:wechsler_intelligenztest_fuer_erwachsene

Dies ist eine alte Version des Dokuments!


Wechsler-Intelligenztest für Erwachsene

Abkürzung: WIE

Der Wechsler-Intelligenztest für Erwachsene (WIE) ist die deutsche Ausgabe der Wechsler Adult Intelligence Scale III (WAIS-III). Die WAIS III erschien 1997 in USA,1) der WIE 2006.2) David Wechsler, ein amerikanischer Psychologe, konstruierte Ende der 30er Jahre mit der Wechsler-Bellevue-Scale3) die erste Intelligenzbatterie dieser Serie, die vor allem für klinische Zwecke gedacht war. WAIS-III und WIE gehören zur vierten Generation der Wechsler-Intelligenztestreihe.

Das aktuelle Testhandbuch zum WIE enthält nur das zur Durchführung und Auswertung notwendige Material. Historische Hintergrundinformationen zu den Wechsler-Tests findet man in dem klassischen Handbuch von Matarazzo4). Neuere anwendungsbezogene Literatur zur klinischen Interpretation der WAIS-III (und damit ihrem Pendant WIE) gibt es derzeit nur auf Englisch.5) 6)

Mit ihrer Sammlung von 11 Subtests boten schon die Vorgänger HAWIE und HAWIE-R einen guten Überblick über die Struktur kognitiver Leistungen, speziell auch bei kognitiv beeinträchtigten Patienten. Beim WIE wurde die Zusammensetzung der Subtests erstmals stärker verändert, um den Bedürfnissen neuropsychologischer Untersuchungen besser Rechnung zu tragen. Die 14 Subtests des WIE erlauben neben der üblichen Aufgliederung der Testleistungen in einen Verbal- und Handlungsteil eine Aufgliederung nach neuropsychologischen Gesichtspunkten, die den Anschluss an die modernere, neuropsychologisch geprägte Forschung hinsichtlich der Struktur kognitiver Leistungen herstellt. Tabelle 1 gibt eine Übersicht über die Subtests, ihre Zuordnung zu kognitiven Domänen, die im deutschen Handbuch übliche Abkürzung, den Rangplatz bei der Testdurchführung und den möglichen Rohwertebereich.

Tabelle 1: Subtests des WIE

Domäne Subtest Abkürzung Abfolge Rohwertbereich
Sprachliches Verständnis: Wortschatztest WT 2 0-66
Gemeinsamkeitenfinden GF 4 0-33
Allgemeines Wissen AW 9 0-28
Arbeitsgedächtnis: Rechnerisches Denken RD 6 0-22
Zahlennachsprechen ZN 8 0-30
Buchstaben-Zahlen-Folgen BZF 13 0-21
Wahrnehmungsorganisation: Bilderergänzen BE 1 0-25
Mosaiktest MT 5 0-68
Matrizentest MAT 7 0-26
Arbeitsgeschwindigkeit: Zahlen-Symbol-Test ZS 3 0-133
Symbolsuche SS 12 0-60
ohne Domänenzuordnung: Allgemeines Veständnis AV 11 0-35
Figurenlegen FL 14 0-52
Bilderordnen BO 10 0-22


Neu sind nur die Subtests BZF, MAT und SS, aber auch alle anderen sind im Vergleich zum HAWIE-R verändert, teilweise erheblich.

Problematisch sind zwei der Domänenbezeichnungen. „Sprachliches Verständnis“ ist zu eingeschränkt, wenn zum Domänenbereich auch der Untertest Gemeinsamkeitenfinden gehört, der eine aktive Oberbegriffproduktion verlangt, etwas, was mit „Verständnis“ unzureichend abgedeckt ist. In TDB2Online und im Befundbericht der TDB2Online-App wird der einerseits neutralere, andererseits aber umfassendere Begriff „Sprachliche Fähigkeiten“ verwendet. Die zweite unpassende Bezeichnung ist „Wahrnehmungsorganisation“ für eine kognitive Domäne, die vor allem etwas mit aktivem, handelndem Problemlösen zu tun hat. Wir konkretisieren das in TDB2Online mit dem Begriff „Visuelles Problemlösen“. Der Vollständigkeit halber sei gesagt, dass die Begriffswahl nicht auf die Herausgeber der deutschen Version zurückgeht, sondern auf die Herausgeber der englischen Originalversion.

Für die Durchführung des WIE benötigt man den kompletten Testsatz, der neben dem Handbuch und einer Erstaustattung an Protokollbögen und Aufgabenheften auch das Testmaterial für die praktischen Subtests enthält. Dazu zählen zum Beispiel die Vorlagen für den neuen Matrizentest oder die Bausteine für den Mosaiktest. Dieses Testmaterial hält für viele Testungen, allerdings auch nicht ewig. Vorlagen, die häufig in die Hand genommen werden, muss man von Zeit zu Zeit austauschen. Als Verbrauchsmaterial fallen laufend nur die Protokollbögen und die speziellen Aufgabenhefte für bestimmte Subtests an.

Das Testmaterial für die Wechsler Tests ist meist nur so lange erhältlich, bis eine neue Generation der Tests erschien. Dies ist inzwischen der Fall. Seit 2012 liegt der Nachfolger des WIE, die Wechsler Adult Intelligence Scale - Fourth Edition (WAIS-IV), auf Deutsch vor. Das Testmaterial zum WIE ist vergriffen.

Das Handbuch enthält leider viele Druckfehler, teilweise auch Flüchtigkeiten in den Tabellen oder Zahlen. Sie sind unseres Wissens nie von Autoren- oder Verlagsseite korrigiert worden.

Der WIE ist durch Copyright geschützt, Inhaber der Rechte ist Pearson Assessment, in Deutschland vertreten durch die Pearson Assessment & Information GmbH in Frankfurt/Main. Die Anwendung wird zusätzlich kontrolliert und das Material nur an bestimmte Berufsgruppen ausgeliefert.

Die Copyright-Geschichte der Wechsler-Tests ist nicht uninteressant. Wechslers Tests wurden lange bei der Psychological Corporation publiziert, einer Organisation, die 1921 von James McKeen Cattell als Publikationsplattform für angewandte psychologische Projekte gegründet wurde. 1942 vermachte McKeen Cattell den größten Teil seiner persönlichen Anteile an der Psychological Corporation einer Stiftung, die bis heute angewandte psychologische Forschung unterstützt.

Die Psychological Corporation wurde 1970 von Harcourt Brace Jovanovic gekauft und später mit Harcourts eigenem Testverlag verschmolzen. Nach mehreren internen Namenswechseln wurde Harcourt Assessment 2001 von Reed Elsevier, 2007 von Pearson Education übernommen, wo es heute zu Pearson's Assessment & Information Group gehört.7)

Die Rechte für die deutschen Versionen der Wechsler-Tests lagen vor 2011 beim Verlag Huber in Bern.

Alle Intelligenztestbatterien von Wechsler sind Individualtests. Das Testmaterial ist vielseitig und hilft durch seinen Abwechslungsreichtum dabei, die meist eher mäßige Motivation von Testpersonen in klinischen Untersuchungsumgebungen aufrechtzuhalten. Dazu trägt auch die individuelle Durchführung mit nur einem Patienten bei.

Die Durchführung ist im Testhandbuch gut und ausführlich beschrieben. Sie ist beim WIE schwieriger als bei vielen anderen Leistungstests und muss gelernt und geübt werden. Die verbalen Tests werden zum Beispiel frei beantwortet. Das ist gut für den Probanden, bedeutet aber für die Testleiter/innen, dass die Antwort mit Beispielantworten im Handbuch verglichen und bewertet werden muss. Dabei muss man auch wissen, in welchen Fällen man nachfragen muss. Es reicht nicht, wenn man später liest, dass man bei einer bestimmten Antwort hätte nachfragen müssen, um zu einer klaren Bewertung zu kommen. Bei vielen Subtests gibt es Sprungregeln, mit denen man vertraut sein muss.

Die Durchführung des kompletten WIE, also aller 13 Untertests, die für die Bestimmung der Teil-IQs und der Indexwerte nötig sind (ohne Figurenlegen) dauert bei psychiatrischen Patienten meistens rund 2 Stunden. Dazu kommt die Auswertungszeit, die stark von der Erfahrung der Testleiterin abhängt.

Die 14 Subtests des WIE liefern Rohwerte von sehr unterschiedlicher Herkunft:

  • Anzahl richtiger Lösungen: MAT, AW, BZF,
  • Anzahl richtiger Lösungen innerhalb einer bestimmten Zeit: BE, ZS
  • Summe von Punkten für die Güte einer Lösung (0, 1 oder 2 Punkte pro Item): WT, GF, ZN, AV
  • Summe von Punkten für die Güte einer Lösung (0, 1 oder 2 Punkte pro Item) innerhalb einer bestimmten Zeit pro Item: BO
  • Komplexe Bewertung nach Richtigkeit und Schnelligkeit der Lösung: MT, RD, FL
  • Anzahl richtiger minus Anzahl falscher Lösungen innerhalb einer bestimmten Zeit: SS

Insbesondere die komplexen Bewertungen nach Güte und Zeit sind bei anderen Tests kaum zu finden. Theoretisch haben sie den Nachteil, dass die Rohpunktverteilungen der so bewerteten Subtests – vor allem im unteren Bereich – an manchen Stellen gar nicht besetzt sind und an anderen stark springen. Bei der Konstruktion der Verfahren wurde versucht, diesen prinzipiellen Nachteil durch die Wahl relativ hoher Punktzahlen zu kompensieren. Außerdem werden wir sehen, dass die Berechnungsverfahren für die Rohwerte im Hinblick auf ihre Verteilungsform klug gewählt wurde (s.u.).

Der Rohwertbereich schwankt von Subtest zu Subtest ziemlich stark. Im Subtest Buchstaben-Zahlen-Folgen kann er zwischen 0 und 21 liegen, im Zahlen-Symbol-Test zwischen 0 und 133.

Wegen der unterschiedlichen Rohwertbereiche und wegen der Abweichungen der Rohwertverteilungen von einer Normalverteilung wurden die Rohwerte schon seit der ersten Generation der Wechsler'schen Intelligenztests an Hand von Tabellen in sogenannte Wertpunkte umgewandelt. Wertpunkte sind bei Wechsler Standardwerte mit dem Mittelwert 10 und der Standardabweichunge 3. Die Umwandlung geschah immer über eine Flächentransformation, die zugleich zu einer Normalisierung der Verteilung führte. Allerdings ist die genaue Definition der Wertpunkte in den verschiedenen Versionen der Wechsler-Tests trotzdem unterschiedlich:

  • Bei der WAIS (Wechsler Adult Intelligence Scale) und deren Vorgängern im englischen Sprachbereich und dementsprechend beim HAWIE im deutschen Sprachbereich waren die Wertpunkte so skaliert, dass sich in der Gesamtverteilung der Eichstichprobe ein Mittelwert von 10 und eine Standardabweichung von 3 ergab. Diese Definition ist inhaltlich gesehen nicht glücklich, weil die Subtests ganz unterschiedliche Altersverläufe aufweisen und der Mittelwert 10 bei einigen Subtests eine breite Altersspanne, bei anderen nur eine sehr kleine Spanne wirklich charakterisiert. Erweitert man zum Beispiel den Altersbereich der Normierungsstichprobe, dann ändert sich dadurch die Definition der Wertpunkte, und zwar vor allem bei den Subtests mit einem hohen Altersabbau.
  • Bei der WAIS-R und dementsprechend beim HAWIE-R wurden die Wertpunkte deshalb so skaliert, dass ein Mittelwert von 10 und eine Standardabweichung von 3 in der Altersklasse der jungen Erwachsenen zwischen 20 und 34 Jahren erzielt wurde. Damit ließen sich die Wertpunkte inhaltlich enger charakterisieren als typische Leistung für junge gesunde Probanden auf dem lebenszeitlichen Gipfelpunkt der kognitiven Leistungsfähigkeit. Der Altersbereich der Normierungsstichprobe hat darauf dann keinen Einfluss mehr. Altersbedingte Defizite finden sich nach beiden Seiten. Jugendliche um die 16 Jahre erreichen im Durchschnitt zum Beispiel im Wortschatztest nur 8 Wertpunkte. Probanden mit einem Alter von siebzig Jahren erreichen dagegen in manchen Subtests des Handlungsteils nur vier bis sechs Wertpunkte. Hier beeinträchtigt übrigens die beschränkte Spannweite der Wertpunkte die Skalierbarkeit einer schlechten Leistung bei alten Personen.
  • Bei der WAIS-III und dementsprechend beim WIE wurde diese Definition leider nicht weitergeführt. Hier wurden die Wertpunkte statt dessen altersgruppenweise definiert, so dass sich für jede Altersgruppe separat ein Mittelwert von 10 und eine Standardabweichung von 3 ergibt. (Diese Variante stand beim HAWIE-R auch schon als alternative Auswertung zur Verfügung). Beim WIE wird also jede Altersgruppe anders transformiert und die Wertpunkte verlieren ihre Fähigkeit, tatsächliche Leistungen zu messen, auch solche unterschiedlich alter Personen.

In TDB2Online erfolgt die Darstellung von Testergebnissen in Form von altersunabhängigen Leistungswerten. Für die Berechnung der Leistungswerte wurde bei den Subtests des WIE auf die Wertpunkttransformationen der Altersklassen 20-24 und 25-29 zurückgegriffen. Die Details sind im nächsten Abschnitt erläutert.

Für den WIE gibt es bis heute keine praktisch verwertbaren Normdaten außer den im Handbuch mitgeteilten.

Bei den Subtests des WIE beinhaltet die Umrechnung von Roh- in Wertpunkte eine Linearisierung durch Flächentransformation und eine Transformation in die Wertpunktskala (10;3), und zwar für jede Altersklasse einzeln. Die Tabellen im Handbuch geben diese Umrechnungsdaten nur ganzzahlig wieder, viele Rohwerte belegen den selben Wertpunkt. Durch eine gleitende Mittelwertbildung wurden die harten Stufen dieser Umwandlung zunächst geglättet. Dabei richtete sich die Ordnung der gleitenden Mittelwertsbildung nach der Feinheit der Rohwertskala. An den Enden der Verteilung wurden die Daten extrapoliert, damit man die Transformationsgleichung beibehalten konnte. Anschließend wurde auch eine Angleichung der Daten zwischen den Altersklassen vorgenommen. Dies war zwar laut Handbuch schon bei der Erstellung der Normen durchgeführt worden. In den Daten wurden aber gelegentlich Unstetigkeiten im Altersverlauf beobachtet, die sicher nicht die empirische Wirklichkeit abbilden, sondern Ergebnis der begrenzten Stichprobengröße sind. Sie wurden durch eine Glättung über die Altersgruppen hinweg eliminiert. Hier war eine Glättung dritter Ordnung immer ausreichend. Anschließend wurden die Daten für die beiden Altersgruppen 20-24 und 25-29 gemittelt. Der Mittelwert war die Basis für die Berechnung der Leistungswerte.

Beim Subtest Allgemeines Verständnis kommen in den Umwandlungstabellen von Roh- in Wertpunkte maximal 33 Rohpunkte vor. Tatsächlich lassen sich in diesem Subtest aber 35 Rohpunkte erzielen, nicht nur 33. Hier dürfte ein Fehler bei der Gestaltung der Tabelle vorliegen. Da ein Vierzigjähriger mit 33 Rohpunkten erst 15 Wertpunkte erreicht, muss man annehmen, dass auch in der Eichstichprobe noch Personen mit höherer Leistung auftauchten. Jedenfalls ist noch viel Platz nach oben auf der Wertpunktskala.

Für TDB2Online wurde die Tabelle durch Extrapolation nach oben auf 35 Rohpunkte erweitert. Diese Extrapolation wird möglicherweise den empirischen Daten nicht exakt entsprechen, sie ist aber mit Sicherheit richtiger als der Zustand im Handbuch, wo Leistungen oberhalb von 33 Rohpunkten einfach ignoriert werden. In TDB2Online lassen sich also beim Subtest Allgemeines Verständnis alle vorkommenden Rohwerte auch eingeben.

Mit Hilfe der so aufgearbeiteten Normtabellen ließen sich die Rohwertverteilungen für einzelne Altersgruppen rekonstruieren. Generell sind die Verteilungseigenschaften der Rohwerte bei den meisten Subtests sehr gut, manchmal so gut, dass eine Flächentransformation kaum notwendig gewesen wäre. Wir zeigen als Beispiel in den folgenden Abbildungen 1 bis 5 die Rohwertverteilungen für die Subtests ZN, MT, AV, RD und GF.

Abbildung 1: Rekonstruierte Rohwertverteilung des Subtests ZN für ausgewählte Altersgruppen

Die Rohwertverteilung des Subtests ZN, die in Abbildung 1 dargestellt ist, kommt dem Idealfall einer Rohwertverteilung recht nahe. Es gibt weder Decken- noch Bodeneffekte an den Rändern der Verteilung. Die jungen Erwachsenen sind am besten, die Jugendlichen zwischen 16 und 17 Jahren sind etwa so leistungsstark wie die 50-jährigen, die Älteren werden sukzessive schwächer. Die Alterseffekte sind aber nicht sehr stark: Der Unterschied zwischen der besten und schwächsten Gruppe beträgt rund 5 Rohwerte, bei einer Streubreite von 31 (0 bis 30).

Abbildung 2: Rekonstruierte Rohwertverteilung des Subtests MT für ausgewählte Altersgruppen

Auch die Rohwertverteilung des Subtests MT, die in Abbildung 2 dargestellt ist, zeigt noch ein recht symmetrisches Bild mit nur leichten Deckeneffekten. Man sieht, dass sich die Altersgruppen in diesem Subtest viel deutlicher unterscheiden. Während die 16-17-jährigen Jugendlichen schon fast so gut sind wie die jungen Erwachsenen, sind die 5o-jährigen schon viel schwächer, eine Tendenz, die sich mit steigendem Alter weiter fortsetzt. Der Unterschied zwischen den Besten und den Schwächsten beträgt hier rund 32 Rohpunkte, fast die Hälfte des gesamten Messbereichs.

Abbildung 3: Rekonstruierte Rohwertverteilung des Subtests AV für ausgewählte Altersgruppen

Im Subtest AV, dessen rekonstruierte Rohwertverteilung in Abbildung 3 zu sehen ist, zeigt sich bei den Erwachsenen bis in die 50er Jahre ein deutlicher Deckeneffekt, der noch ausgeprägter wäre, wenn wir die Rohwerte 34 und 35 nicht extrapoliert hätten. Hier kann die Flächentransformation durchaus für eine Normalisierung sorgen. Bei den 80-jährigen ist die Verteilung viel breiter als bei den jungen Altersgruppen. Ob dies tatsächlich eine breitere Verteilung der Fähigkeit bei den Älteren widerspiegelt oder vielleicht nur auf mangelnde Altersfairness der Items (besonders der leichten) zurückgeht, wäre nur durch eine IRT-Bias-Prüfung auf der Grundlage der Rohdaten zu klären.

Abbildung 4: Rekonstruierte Rohwertverteilung des Subtests RD für ausgewählte Altersgruppen

Bei den Subtests RD und GF (RD in Abbildung 4, GF in Abbildung 5) zeigen sich ebenfalls recht deutliche Deckeneffekte, die darauf zurückgehen, dass es relativ viele leichte, aber nur wenige schwere Items in beiden Subtests gibt. Das ist im Prinzip nicht so schlecht für einen Test, der eher im unteren als im oberen Fähigkeitsbereich differenzieren soll. Diese Rohwertverteilung führt mit sich, dass die Genauigkeit im oberen Bereich nicht optimal ist, jedenfalls niedriger als im unteren Bereich der Verteilung. Angesichts der starken Alterseffekte sorgt sie zugleich dafür, dass beide Subtests auch im hohen Alter noch vernünftig differenzieren können.

Abbildung 5: Rekonstruierte Rohwertverteilung des Subtests GF für ausgewählte Altersgruppen

Eine Linearisierung der Rohwerte wird implizit über die Wertpunkttransformation vorgenommen, und zwar über diejenigen für die Altersgruppen 20-24 und 25-29, die kombiniert für die Berechnung der Leistungswerte verwendet werden.

Wenn mehrere Subtests addiert oder gemittelt und das Ergebnis dieser Aktionen dann als neuer Messwert neu normiert wird, dann entsteht daraus eine neue Metrik, die mit derjenigen der Subtests nicht mehr kompatibel ist. Dieser Sachverhalt ist in der allgemeinen Dokumentation im Abschnitt Mehrfachstandardisierung auf unterschiedlichen Ebenen erläutert und am Beispiel der Intelligenzquotienten des HAWIE-R transparent gemacht worden. Wir haben dort gesehen, dass ein Proband, der in jedem Subtest vier Wertpunkte erreicht, in den Intelligenzquotienten nicht den IQ 70 erhält, den man bei einer vergleichbaren Metrik erwarten würde (zwei Standardabweichungen unterhalb des Mittelwerts seiner Altersgruppe), sondern deutlich niedrigere Werte, die von der Korrelation zwischen den Subtests und der Anzahl der aggregierten Subtests abhängen.

Beim WIE betrifft das nicht nur die drei Intelligenzquotienten, sondern auch die vier Indizes. Alle sieben Maße sind noch einmal gesondert normiert worden und bauen deshalb eine eigene Metrik auf. Wir zeigen den Effekt in Abbildung 6 am Beispiel eines 29-jährigen Probanden, der in jedem Subtest 4 Wertpunkte erzielt hat.

Abbildung 6: WIE-Testprofil eines Probanden mit 4 Wertpunkten in jedem Subtest (siehe Text)

Im TDB2Online-Profil erreicht dieser Proband in jedem Subtest einen Leistungswert von 70 oder ganz in der Nähe von 70, die geringen Abweichungen von der 70er-Linie sind auf die Ganzzahligkeit der Rohwerte zurückzuführen. Da es sich um einen 29-jährigen Probanden handelt, sind die Leistungswerte mit den altersabhängigen Standardwerten (ASW) identisch. Auch die mittleren Leistungswerte in den sieben Domänen (IQs und Indizes) liegen alle bei oder sehr nahe bei 70, was dem Wunsch nach einer einheitlichen Metrik in TDB2Online entspricht.

Die von Hand eingezeichneten roten Kreise geben die Lage der IQ- bzw. Indexwerte wieder, wie sie sich nach den Tabellen des WIE-Handbuchs errechnen. Sie liegen ausnahmslos unterhalb der Subtestwerte, wobei die Korrelation zwischen den aggregierten Subtests und die Anzahl der aggregierten Subtests das Ausmaß der Metrik-Spreizung bestimmen. Beim Index für die Arbeitsgeschwindigkeit, in dem nur zwei Subtests (ZS und SS) zusammengefasst werden, die zudem auch noch mit .68 (Altersgruppe 24-29) korrelieren, ergibt sich ein Index von 68, also kaum niedriger als die beiden Subtestwerte von 70. Beim Gesamt-IQ dagegen, in den 11 Subtests eingehen, die im Durchschnitt mit .54 miteinander korrelieren, wirkt die Spreizung viel kräftiger und ergibt bei mittleren Subtestwerten von 70 nur einen Gesamt-IQ von 60.

Die Veränderung der Metrik ist beim WIE nicht so stark wie beim HAWIE-R, weil die mittlere Interkorrelation der Subtests in der Standardisierungsstichprobe höher ist als beim HAWIE-R.

In TDB2Online werden die getrennt standardisierten Globalmaße nicht weiter berücksichtigt. Statt dessen geben wir schlicht die mittleren Subtests-Leistungswerte bzw. deren altersabhängige Standardwerte an, genau mit der gleichen Metrik wie bei den Subtests.

Die Stichprobe zur Normierung des WIE hat einen beachtlichen Umfang und einen großen Altersbereich. Für alle Altersgruppen einzeln gibt es eine Aufschlüsselung nach Schulbildungsklassen. Diese sind allerdings nicht leicht zu bewerten wegen der unterschiedlichen Bildungssysteme, die in die Normierung einbezogen waren (Schweiz, Österreich, Deutschland, letzteres mit unterschiedlichen Systemen in den 16 Bundesländern), vor allem auch, wenn man die riesige Zeitspanne im Blick hat, in der die Personen der Normstichprobe Schulen besucht haben.

Hinsichtlich anderer Einzelheiten der Normdatenerhebung gibt sich das Handbuch verschlossen. Man erfährt nichts über die Art der Stichprobenziehung, nichts über die Orte und nichts über vereinbarte oder erfüllte Quoten (wenn es die denn gab).

Adaptation und Normierung des Verfahrens wurden zunächst unter der Verantwortung von Uwe Tewes, dem deutschen Herausgeber der Vorläuferversion HAWIE-R8), in Hannover begonnen. Davon zeugen zahlreiche Dissertationen an der Medizinischen Hochschule Hannover, deren Autoren als Mitarbeiter bei der Datenerhebung im WIE-Handbuch erwähnt werden9). Ansonsten fehlt im WIE-Handbuch jeder Hinweis auf die Herausgebereigenschaft von Tewes. Einer dieser Dissertationen 10) lässt sich entnehmen, dass 99 der 1820 Probanden, die unter der Verantwortung von Tewes in Deutschland erhoben wurden, aus den ostdeutschen Ländern stammen, ohne Anspruch auf Repräsentativität. In einer anderen Dissertation 11) wird angemerkt, dass es für die endgültige Publikation des WIE Nacherhebungen von einzelnen Probanden für die Normstichprobe gegeben hat, dann schon unter der Verantwortung der neuen Herausgeber des Verfahrens. Vermutlich sind Verlagsverträge und/oder Vereinbarungen zwischen den ursprünglich von Huber und später von Harcourt beauftragten Herausgebern dafür verantwortlich, dass die Angaben dazu im Handbuch einsilbig sind. Andererseits ist es leider auch schlechte Tradition bei deutschen Testverfahren, dass über die Stichprobenziehung keine großen Worte gemacht werden.

Die Abbildungen in diesem Abschnitt zeigen zusammenfassend die Leistungs- und Altersnormen der WIE-Subtests, so wie sie in TDB2Online erscheinen. Besonderheiten werden jeweils kommentiert.

Abbildung 7 zeigt in einer zusammengesetzten Grafik den Zusammenhang von Roh- und Leistungswerten sowie den Einfluss des Alters auf die (durchschnittlichen) Leistungen für den Wortschatztest des WIE. Auf dieser und allen folgenden Abbildungen markieren die senkrechten Striche die Leistungswerte von 40 bis 145. Auf der schwarzen waagerechten Linie sind die Rohwerte lagerichtig eingetragen. Die abwechselnd rot und blau eingezeichneten Linien enthalten die Normgrenzen für alle Altersgruppen in der Übersicht. Die fünf Markierungen auf jeder Linie stehen für die Prozentränge 2.5, 16, 50, 84 und 97.5. Jeweils eine solche Linie, nämlich die, die der Altersgruppe des Probanden entspricht, wird (in anderer Form) im TDB2Online-Profilblatt eingezeichnet, um bei der individuellen Interpretation der Testergebnisse zu helfen. Weil die Leistungswerte aus den Ergebnissen der 20-29-jährigen jungen Erwachsenen errechnet werden, umschließen die 5 Markierungen der Altersgruppen 20-24 und 25-29 immer die Leistungswerte 70, 85, 100, 115 und 130.

Abbildung 7: Leistungswerte im Wortschatztest mit Rohwerten und Altersnormgrenzen (siehe Text)

Wir sehen auf Abbildung 7, dass der Wortschatztest des WIE - wie übrigens viele der Verbalsubtests - relativ viele leichte Items enthält. Zwischen den Leistungswerten 55 und 70 liegen 18 Rohwerte. Am oberen Ende misst der WT viel grober: Zwischen LW 115 und 130 liegen nur 6 Rohwerte. Das ist zum Teil richtig und sinnvoll. Bei Subtests mit starkem altersassoziierten Leistungsabfall muss es am unteren Ende noch genügend ausreichend differenzierende Items geben, die die Leistung messen können. Allerdings ist der Leistungsabfall bei den verbalen Tests nicht sehr stark. Der Mittelwert ist bei den 80-jährigen nur rund eine Standardabweichung unterhalb der Leistung der jungen Erwachsenen. Bemerkenswert ist, dass in diesem Subtest die 40-jährigen die beste Leistung zeigen, etwa um 1/3 Standardabweichung besser als die jungen Erwachsenen. (Hier gehört der Vergleich mit dem HAWIE-R hin, Diskussion ob Altersfairness der Items eine Rolle spielen könnten). Es fällt weiter auf, dass die Linearisierung zwar bei den jungen Erwachsenen erfolgreich war (was tautologisch ist, weil die Flächentransformation zur Linearisierung an eben dieser Gruppe erfolgte) und damit für gleichen Abstand der fünf Markierungen sorgt, aber weder bei den viel jüngeren noch den sehr alten. Beide Gruppen weisen vor allem im unteren Bereich der Verteilung eine Stauchung der Leistungswerte auf, was am ehesten wohl auf einen Bodeneffekt zurückzuführen ist.

Abbildung 8: Leistungswerte im Subtest Allgemeines Wissen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Im Subtest Allgemeines Wissen (Abbildung 8) ist die Situation in vieler Hinsicht ähnlich wie im Wortschatztest. Auch hier sind die 40-jährigen am besten und die 80-jährigen liegen um eine knappe Standardabweichung unterhalb der jungen Erwachsenen. Eine gewisse Stauchung der Skala am unteren Ende (Bodeneffekt) ist ebenfalls festzustellen, wenn auch deutlich geringer und nur bei den ganz Alten. Dafür scheint es aber auch einen gewissen Deckeneffekt zu geben: Der maximale Rohwert von 28 führt zu einem Leistungswert von 134. Bei anderen Subtest liegt das Maximum deutlich darüber. Der Deckeneffekt macht sich allerdings nur bei den sehr guten Probanden im mittleren Lebensalter bemerkbar.

Abbildung 9: Leistungswerte im Subtest Gemeinsamkeitenfinden mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Im Subtest Gemeinsamkeitenfinden (Abbildung 9) ist vor allem der deutliche Deckeneffekt zu sehen, der schon bei Vorstellung der rückgerechneten Verteilung in Abbildung 5 thematisiert wurde. Der maximale Rohwert von 33 entspricht nur einem Leistungswert von 130. Er macht sich besonders bei den 30-40-jährigen bemerkbar. Nach unten ist die Schwierigkeitsabstufung der Items dagegen gut. Der alterassoziierte Leistungsabfall ist etwas stärker als im Subtest Allgemeines Wissen.

Abbildung 10: Leistungswerte im Subtest Allgemeines Verständnis mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Im Subtest Allgemeines Verständnis (Abbildung 10) wird ebenfalls das Leistungsmaximum erst in der Altersgruppe 35-44 erreicht, auch die 50-jährigen sind noch besser als die jungen Erwachsenen. Es ist gut möglich, dass die Testaufgaben hier eine Altersfairness vermissen lassen. (Kann das bei RD auch so sein??)

Ansonsten fällt die schiefe Rohwertverteilung auf, die auch in Abbildung 3 zu sehen war. Im oberen Leistungsbereich ist die Messung grob, im unteren sehr fein. Allerdings ließ sich das durch die Flächentransformation sehr gut linearisieren, wie die relative Gleichabständigkeit der fünf Altersnormgrenzen zeigt.

Abbildung 11: Leistungswerte im Subtest Rechnerisches Denken mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Im Subtest Rechnerisches Denken (Abbildung 11) lassen sich deutliche Deckeneffekte erkennen, die sich vorwiegend bei den Erwachsenen zwischen 20 und 50 auswirken. Bei den sehr alten ist auch ein Bodeneffekt festzustellen.

Beim Rechnerischen Denken beträgt der Altersabfall der Leistung bei den 85-89-Jährigen immerhin schon rund 1 1/2 Standardabweichungen.

Abbildung 12: Leistungswerte im Subtest Zahlennachsprechen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Subtest Zahlennachsprechen (Abbildung 12) gehört zu den varianzstabilsten Subtests des WIE. Dies war schon bei der Darstellung der Rohwertverteilungen aufgefallen, in der es kaum Unterschiede zwischen verschiedenen Altersgruppen gab.

Abbildung 13: Leistungswerte im Subtest Buchstaben-Zahlen-Folgen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Subtest Buchstaben-Zahlen-Folgen (Abbildung 13) weist einen starken altersassoziierten Leistungsabfall auf, der vom jungen Erwachsenenalter bis zum Senium knapp zwei Standardabweichungen beträgt. Die Varianz nimmt im Alter zu.

Abbildung 14: Leistungswerte im Subtest Bilderergänzen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Auch das Bilderergänzen hat viele leichte und wenige schwere Items. Die Differenzierungsfähigkeit im unteren Testbereich ist sehr gut, auch über alle Altersstufen hinweg. Im oberen Leistungsbereich ist die Messung dagegen viel zu grob. Nur vier Rohpunkte entscheiden darüber, ob die Leistung im Durchschnitt liegt (Rohwert 21, LW 100) oder in einem sehr hohen Leistungsbereich (Rohwert 25, LW 124). Bei diesem Leistungswert 124 ist zudem schon das Ende des Messbereichs.

Der altersassoziierte Leistungsabfall ist immens, über zwei Standardabweichungen. Ob eine mangelnde Altersfairness der Testaufgaben dazu beiträgt, müsste am Datenmaterial der Normstichprobe untersucht werden. Immerhin zählte David Wechsler den Subtest Bilderergänzen früher zu den den „Hold“-Tests, also den Subtests, die keinen großen Leistungsabfall im Alter zeigen. (Wie war das beim HAWIE-R?)

Abbildung 15: Leistungswerte im Subtest Mosaiktest mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Beim Mosaiktest liegt das Leistungsoptimum bei den 25-29-jährigen. Schwer zu glauben ist, dass der Leistungsabfall von 30 bis rund 60 rasanter verlaufen soll als von 60 bis 90, was nach den Daten der Fall wäre. Hier könnten Skalierungseffekte bei der Bewertung der Aufgaben oder auch einfach Bodeneffekte eine Rolle spielen.

Abbildung 16: Leistungswerte im Subtest Matrizentest mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Beim Matrizentest gilt das schon beim Mosaiktest Gesagte, allerdings ist der Sachverhalt hier klarer: Wenn der Mittelwert aller über 70-jährigen bei 6 oder weniger Rohpunkten liegt, kann der Test nach unten nicht mehr differenzieren und ist für diese Altersgruppe zu schwer. Auch nach oben ist die Differenzierungsfähigkeit begrenzt: Der maximale Rohwert von 26 entspricht nur einem Leistungswert von 126. Messtechnisch ist das gar nicht so schlecht. Die Standard Matrices von Raven überstreichen zwar einen etwas weiteren Messbereich (von LW 57 bis 131 mit den metaanalytischen Normen in TDB2Online), brauchen dazu aber 60 statt 26 Items. Allerdings messen sie dafür auch etwas genauer und feiner.

Abbildung 17: Leistungswerte im Subtest Bilderordnen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Messbereich des Subtests Bilderordnen ist sehr breit. Am unteren Ende gibt es keine Anzeichen eines Bodeneffekts, obwohl dieser Subtest einen altersassoziierten Leistungsverlust von rund 2 Standardabweichungen aufweist.

Abbildung 18: Leistungswerte im Subtest Zahlen-Symbol-Test mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Zahlen-Symbol-Test war schon immer der Subtest mit dem stärksten altersassoziierten Leistungsabfall (rund 2 1/2 Standardabweichungen bis in die 80er Jahre bei den üblichen Querschnittsdaten). Das bleibt auch beim WIE so. Durch die Verlängerung der Testzeit auf 120 Sekunden ist der Messbereich des ZS jetzt sehr groß, von LW 40 bis 145, mehr als bei jedem anderen Subtest des WIE.

Abbildung 19: Leistungswerte im Subtest Symbolsuche mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Auch der Subtest Symbolsuche verfügt über einen weiten Messbereich. Eigenartig ist die auffällige Verschlechterung im Altersbereich 30 bis 60, ähnlich wie schon beim Bilderordnen, bei geringeren Unterschieden im oberen Altersbereich.

Abbildung 20: Leistungswerte im Subtest Figurenlegen mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Subtest Figurenlegen zählte nie zu den besseren Subtests. Beim WIE wurde immerhin durch Hinzufügen von zwei neuen Aufgaben und das Weglassen der Aufgabe „Hand“ die (theoretische) Messgenauigkeit im Vergleich zum HAWIE-R etwas verbessert. Der Altersabfall ist ähnlich wie bei BO oder SS.

Die Abbildungen in diesem Abschnitt zeigen zusammenfassend die Leistungs- und Altersnormen der mittleren Globalmaße des WIE, die in TDB2Online an Stelle der Indizes und IQs erstellt werden. Auch hier werden nur Besonderheiten kommentiert.

Abbildung 21: Mittlere Leistungswerte in den Subtests, die zum Index Sprachliches Verständnis zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

In den sprachlichen Fähigkeiten werden im WIE die höchsten Leistungen von den Altersgruppen etwa zwischen 30 und 50 erzielt. Die beiden Altersgruppen, die die Leistungswerte definieren (20-24 und 25-29), liegen etwa eine Viertel Standardabweichung darunter. Das war beim HAWIE-R nicht so. Wahrscheinlich hat es mit der Beschaffenheit der Normstichproben zu tun. Da beide nicht gut dokumentiert sind, hilft diese Aussage nicht viel weiter. (wieder aufgreifen, wenn HAWIE-R-Doku fertig ist).

Abbildung 22: Mittlere Leistungswerte in den Subtests, die zum Index Arbeitsgedächtnis zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Das Arbeitsgedächtnis fällt am besten bei den Altersgruppen um 30 herum aus. Das ist plausibel.

Abbildung 23: Mittlere Leistungswerte in den Subtests, die zum Verbal-IQ zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Der Verbalteil ist beim WIE zu vier Teilen von sprachlichen Subtests (das Allgemeine Verständnis kann man getrost dazu zählen) und zu zwei Teilen von Arbeitsgedächtnistests bestimmt. Immer dann, wenn beide Komponenten merklich voneinander abweichen, macht die Bestimmung des Globalwerts keinen Sinn.

Abbildung 24: Mittlere Leistungswerte in den Subtests, die zum Index Wahrnehmungsorganisation zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Die Messbereiche der drei Subtests, die zum visuellen Problemlösen gehören, sind oben alle etwas begrenzt, was dazu führt, dass der maximale mittlere Leistungswert in dieser Domäne bei 128 liegt. Das sollte man bei sehr begabten Personen im Auge behalten.

Die drei Subtests korrelieren unterschiedlich miteinander: Mosaiktest und Matrizentest mit .56 höher als beide mit Bilderergänzen (.48 und .47). Gelegentlich kann es durchaus sinnvoll sein, nur die beiden „echten“ abstrakten Problemlösetests zusammen zu betrachten. Bilderergänzen misst eher andere alltagspraktische Fähigkeiten.

Abbildung 25: Mittlere Leistungswerte in den Subtests, die zum Index Arbeitsgeschwindigkeit zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Hier ist der Messbereich sehr breit, die Definition klar. Da gibt es nichts weiter zu kommentieren.

Abbildung 26: Mittlere Leistungswerte in den Subtests, die zum Handlungs-IQ zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

Hier gilt das schon beim Verbalteil Gesagte: Wenn die Einzelkomponenten unterschiedliche Werte ergeben, macht die Betrachtung der Summe keinen Sinn.

Abbildung 27: Mittlere Leistungswerte in den Subtests, die zum Gesamt-IQ zusammengefasst werden, mit Rohwerten und Altersnormgrenzen (Erklärung der Abbildung im Text zu Abbildung 7)

In klinischen Fragestellungen dürfte es nur selten Sinn geben, einen Globalwert über 11 Subtests zu interpretieren. Er ist eigentlich nur bei relativ homogenen Profilen interpretierbar, weil er dann schlicht die zentrale Tendenz der kognitiven Fähigkeiten widerspiegelt.


1)
Wechsler, D. (1997). Wechsler Adult Intelligence Scale - Third Edition. San Antonio, TX: The Psychological Corporation
2)
von Aster, M., Neubauer, A., & Horn, R. (2006). Wechsler Intelligenztest für Erwachsene WIE. Manual. Übersetzung und Adaptation der WAIS-III von David Wechsler. Frankfurt/M.: Pearson Assessment & Information GmbH.
3)
Wechsler, D. (1939) The Measurement of Adult Intelligence. Baltimore(MD): Williams & Wilkins
4)
Matarazzo, J. D. (1972). Wechsler's Measurement and Appraisal of Adult Intelligence. (5 ed.) New York: Oxford University Press.
5)
Tulsky, D., Saklofske, D., Chelune, G., Heaton, R. K., Ivnik, R. J., Bornstein, E. R. et al. (2003). Clinical Interpretation of the WAIS-III and WMS-III. New York: Academic Press.
6)
Kaufman, A. S. & Lichtenberger, E. O. (1999). Essentials of WAIS-III Assessment. New York: Wiley.
8)
Tewes, U. (Herausgeber und Bearbeiter)(1991), HAWIE-R. Hamburg-Wechsler Intelligenztest für Erwachsene, Revision 1991. Bern: Huber
9)
von Aster, M., Neubauer, A., & Horn, R. (Hrsg.) (2006). Wechsler Intelligenztest für Erwachsene WIE. Manual. Übersetzung und Adaptation der WAIS-III von David Wechsler. Frankfurt/M.: Pearson Assessment & Information GmbH, Seite 126
10)
Blöink, R. (2006) Die Struktur der Intelligenz im Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE-III): Ein Beitrag zur Konstruktvalidität. Hamburg: Verlag Dr. Kovac
11)
Roknic, R. (2005) Altersbedingte Veränderungen des geistigen Leistungsvermögens. Zahnmedizinische Dissertation, Medizinische Hochschule Hannover
Melden Sie sich an, um einen Kommentar zu erstellen.
  • dokumentation/wechsler_intelligenztest_fuer_erwachsene.1628090325.txt.gz
  • Zuletzt geändert: 2021/08/04 15:18
  • von res