TDB2OnlineWiki

TDB2Online-Dokumentation

Hinweis

Die ausführliche Dokumentation besteht aus zwei Teilen:

  • Die vorliegende Seite beschreibt den Hintergrund, die Konzepte und die allgemeine Verfahrensweise von TDB2Online
  • Eine Beschreibung der einzelnen Tests, insbesondere der bei der Aufarbeitung angewendeten Methoden, ist über den Navigationspunkt TDB2OnlineApp zu finden und für angemeldete Nutzer zugänglich.

Zur schnellen Information gibt es zwei Kurzfassungen:

  • Eine einseitige Beschreibung der Eigenschaften des TDB2-Profils ist zur Weitergabe zusammen mit dem ausgedruckten Testbefund gedacht.
  • Eine zehnseitige Einführung erläutert in knapper Form Konzepte und Verfahren von TDB2Online und gibt eine Reihe von Hinweisen für die praktische Befundschreibung.

Übersicht

TDB2 und TDB2Online sind Programme zur Visualisierung von neuropsychologischen Testdaten. Sie wurden von Rolf R. Engel (Psychometrie) und Ralf Mayr (Programmierung) entwickelt. Auswertungsalgorithmen und Ergebnisdarstellung sind in TDB2 und TDB2Online identisch. TDB2Online erfasst Testrohwerte über eine einfache Online-Maske und gibt ein graphisch aufbereitetes Testprofil als pdf-File aus. TDB2 läuft dagegen innerhalb eines geschützten Datennetzes. Es führt zusätzlich eine Datenbank der Patienten- und Testdaten, unterstützt die Befundschreibung und verwaltet ein Archiv der digitalisierten Originaldokumente. TDB2 wird seit 2009 in der Psychologischen Abteilung der Psychiatrischen Klinik der LMU München eingesetzt, ein Vorläuferprogramm (TDB, „Testdatenbank“) seit 1995.

Die vorliegende Dokumentation beschreibt die generelle Vorgehensweise bei der psychometrischen Aufarbeitung und Darstellung der Testergebnisse. Zunächst werden die grundlegenden psychometrischen Konzepte dargestellt, auf die sich die Aufbereitung der Daten stützt. Theoretische Annahmen stoßen in der angewandten Diagnostik allerdings schnell an Grenzen, weil es erhebliche Insuffizienzen bei der praktischen Umsetzbarkeit von theoretischen Forderungen gibt. In der Dokumentation wird das unter dem Punkt Problembereiche in der Praxis zusammengefasst. Im Hauptteil der Dokumentation werden dann – quasi als Kompromiss aus theoretischen Desiderata und Bedürfnissen der Praxis – die allgemeinen Verfahrensweisen dargestellt, die in den Programmen benutzt werden.

TDB2Online soll und kann Tests auswerten und darstellen, die ganz unterschiedlich konstruiert sind. Für jeden einzelnen Test kommen deshalb unterschiedliche Maßnahmen zur Anwendung. In dieser Dokumentation werden nur die allgemeinen Prinzipien der Aufarbeitung und Darstellung beschrieben, unabhängig davon, ob sie nun bei einem einzelnen Test Anwendung finden (können) oder nicht. Im geschützten Bereich des TDB2Online-Wiki sind für jeden einzelnen Test die tatsächlichen Maßnahmen dargestellt, die zum Einschluss des Verfahrens in TDB2Online notwendig waren.

Die Dokumentation ist nicht für psychodiagnostische Laien bestimmt. Sie geht davon aus, dass Leserinnen und Leser eine Vorbildung in Psychodiagnostik haben, wie sie im Allgemeinen durch ein Hochschulstudium der Psychologie erworben wird.

Konzepte

Eigenschaften von Testwerten

Rohwerte

Rohwerte sind die elementaren Werte, mit denen eine Leistung in einem Testverfahren beurteilt wird. Sie hängen von der Art der Aufgabe ab. Beispiele dafür sind:

  • Anzahl richtiger Lösungen in einem Wissenstest (AW)
  • Anzahl der Fehler in einer Kategorisierungsaufgabe (HCT)
  • Zeit für die Durchführung in Sekunden bei einer visokonstruktiven Aufgabe (TMT)
  • Anzahl richtig reproduzierter Wörter in einem Gedächtnistest (WL)
  • Differenz zwischen der Anzahl richtig wiedererkannter Wörter minus Anzahl der fälschlich „wiedererkannten“ Wörter in einer Wiedererkennensaufgabe (WL)
  • Punkte in einer komplexen Problemlöseaufgabe, die nach Richtigkeit und Schnelligkeit der Durchführung bewertet wird (MT)

Rohwerte sind testspezifisch. Die Punkte im Mosaiktest zum Beispiel haben numerisch nichts mit den Zeiten im Trail-Making-Test zu tun, sie sind nicht einmal in die gleiche Richtung gepolt. Mit Rohwerten lassen sich Leistungen zwischen Verfahren (und damit zwischen verschiedenen Fähigkeitsbereichen) nicht vergleichen.

Zum Vergleich zwischen Personen eignen sich Rohwerte hingegen durchaus. Auch bei einem Vergleich von Gruppen (insbesondere, wenn sie hinsichtlich anderer Parameter vergleichbar sind) werden oft einfache Rohwerte verwendet.

Standardisierte Testwerte

Standardisierte Testwerte verlassen die „physikalische“ Ebene der Rohwerte. Sie beruhen auf einem Vergleich: Die Leistung des oder der aktuell Getesteten wird mit der Leistung einer Normstichprobe verglichen, die den Test zuvor schon absolviert hat. Im Idealfall stammen die Daten dazu aus Normierungsuntersuchungen an Zufallsstichproben, bei denen einige hundert Personen pro Altersgruppe getestet werden. Standardisierte Testwerte geben also die relative Stellung eines Probanden innerhalb einer sinnvollen populationsbezogenen Vergleichsgruppe an. Im Allgemeinen werden zur Standardisierung Skalen benutzt, die aus der Normalverteilung abgeleitet sind. In TDB2Online wird für alle Tests einheitlich die IQ-Skala mit dem Mittelwert 100 und der Standardabweichung 15 benutzt.

Je nach Wahl der Bezugsgruppe für den Vergleich lassen sich im Folgenden mehrere Arten von Testwerten unterscheiden, die unterschiedliche Anwendungsaspekte repräsentieren.

Leistungswerte

„Leistungswerte“ sind im allgemeinen Sprachgebrauch Messwerte, die eine bestimmte Leistung quantitativ beschreiben. Leistungswerte existieren zum Beispiel in der Stromwirtschaft, wo sie die maximal bezogene Strommenge innerhalb einer bestimmten Zeitspanne charakterisieren. In der Medizin existieren Leistungswerte für die Herztätigkeit oder die Atmung unter bestimmten Belastungssituationen. Auf psychologischem Fachgebiet wurden Leistungswerte in jüngerer Zeit in der Pisa-Studie eingesetzt, um kognitive Leistungen fächer- und länderübergreifend zu messen.

Eine wesentliche Eigenart von Leistungswerten ist es, dass alle zu messenden Objekte oder Personen mit der gleichen Skala beurteilt werden. Während das für physikalische Messwerte ohnehin gilt, werden die Ergebnisse psychologischer Tests (z.B. IQ-Werte) fast immer auf relativen Skalen angegeben, die nur für einzelne Gruppen gelten. Hier wird die Leistung im Vergleich zu Personen ähnlichen Alters oder ähnlicher Schulbildung angegeben. Dabei geht die absolute Leistungsdimension verloren und ein Vergleich von Leistungen über Altersgruppen hinweg (z.B. „Sechzigjährige sind in diesem Test um 20 IQ-Punkte schlechter als Zwanzigjährige“) ist auf Skalenwertebene nicht mehr möglich. Bei der üblichen Auswertung von Tests bleibt für einen solchen Vergleich nur die Rohwertebene, auf der dann aber der fächer- oder domänenübergreifende Vergleich zwischen verschiedenen Tests nicht mehr gegeben ist.

In der neuropsychologischen Diagnostik steht die Messung und vergleichende Beurteilung von Defiziten in unterschiedlichen Leistungsdomänen im Vordergrund. Für diese Aufgabe ist eine absolute Maßeinheit ein bedeutender Vorteil, weil damit direkte Vergleiche über die Zeit und/oder über Domänen möglich sind. Leistungswerte machen Leistungen über verschiedene Testverfahren und Rohwertarten hinweg vergleichbar. Sie liefern einen übertragbaren Maßstab zur Beurteilung kognitiver Einzelleistungen in einer standardisierten Form. Der für die Interpretation ebenfalls notwendige Bezug zum Alter lässt sich – wie in den meisten anderen Bereichen der klinischen Diagnostik – durch Altersnormwerte herstellen.

Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig. Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch. Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.

In prominenter Weise hatte David Wechsler dieses Prinzip mit seinen klassischen „Wertpunkten“ angewendet. Damit ermöglichte er einen Leistungsvergleich zwischen den Subtests seiner Intelligenzbatterien (etwas, was mit den Rohwerten nicht möglich ist). Diese Form der absoluten Leistungsmessung war bis zum HAWIE-R für die Profildarstellung der Leistungen in den einzelnen Subtests vorgesehen (in der Testdokumentation zum WIE stehen Details dazu). Sie wurde beim WIE zugunsten einer altersabhängigen Darstellung der Subtestleistungen aufgegeben, wodurch der absolute Leistungsmaßstab verloren ging.

Leistungswerte bei Demenztests

Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Beispiele für solche Tests sind die CERAD-Testbatterie oder der Zahlen-Verbindungs-Test ZVT-G. Bei diesen Tests stammen die Normen meistens von Probanden im höheren Altersbereich. Aus pragmatischen Gründen bleibt einem nichts anderes übrig, als die Leistungswerte dann auf diese Personen zu beziehen. Einzelheiten dazu stehen weiter unten im Abschnitt über die Berechnung der Leistungswerte.

Altersnormierte Standardwerte

Altersnormierte Standardwerte wurden eingeführt, um die Interpretation der Leistungsfähigkeit eines einzelnen Patienten im Vergleich zu seiner Alterskohorte zu erleichtern. Auch bei ihnen handelt es sich um Standardwerte, genau wie bei den Leistungswerten. Der Unterschied liegt darin, dass die Bezugsbasis für die Standardisierung aus dem Teil der Normstichprobe kommt, der altersmäßig mit dem Patienten vergleichbar ist. Diese Werte sind für eine absolute Leistungsbeurteilung über verschiedene Testverfahren hinweg kaum brauchbar, weil verschiedene Fähigkeiten sich im Altersverlauf unterschiedlich verändern. Sie sind aber eine wichtige Interpretationshilfe bei der Beurteilung der Leistung eines einzelnen Patienten im Vergleich zu seiner Alterskohorte. Die klinische Beurteilung im verbalen Testbefund stützt sich im Wesentlichen auf die altersnormierten Standardwerte. Die manuelle Auswertung liefert bei den meisten Testverfahren neben den Rohwerten meistens nur diese altersnormierten Standardwerte, keine altersunabhängig standardisierte Leistungswerte.

Es gibt einen erheblichen inhaltlichen Unterschied zwischen Leistungswerten und altersnormierten Standardwerten. Bei den Leistungswerten handelt es sich um tatsächliche „Messwerte“. Sie sind lediglich in einer für alle Probanden gleichen Weise (mit einer für alle gleichen Formel) in Standardwerte transformiert. In den altersnormierten Standardwert gehen dagegen Informationen ein, die nicht für alle Personen gleich sind. Für jede Altersgruppe gilt ein anderer Umrechnungsweg vom Rohwert zum Standardwert. Mit diesen Werten verlässt man die Ebene der Messung und betritt die Ebene der Interpretation.

Normierungen nach weiteren Kriterien

Dies gilt umso mehr, wenn noch weitere Attribute einer Person bei der Standardwertberechnung berücksichtigt werden. Indikatoren für den Bildungsverlauf, also zum Beispiel die Anzahl der Schuljahre, oft auch Merkmale wie Geschlecht oder Rasse, sind, vor allem in USA, aber zunehmand auch in Europa beliebte Prädiktoren. Meist werden solche Merkmale in Regressionsgleichungen gepackt. Bei solchen Standardwerten ist es für den Diagnostiker nicht mehr nachvollziehbar, wie ein bestimmter Standardwert zustande gekommen ist. Bei einem Probanden mit hohem Alter und hoher Bildung führt sein Alter zu einer Erhöhung, seine Bildung zu einer Erniedrigung des Standardwerts. In welchem Ausmaß beide Faktoren wirksam werden, weiß nur die Rechenformel der Regressionsgleichung. Die Berücksichtigung von Merkmalen der Person, von Auswirkungen der Erkrankung oder von Umständen der Testsituation ist ein fester Bestandteil jeder klinischen Interpretation von Testbefunden. Es macht keinen Sinn, einen Teil dieser Faktoren durch arithmetische Operationen in einen einzigen Wert zu packen, schon gar nicht, wenn dadurch der eigentliche Leistungswert verloren geht.

Eigenschaften von Skalen

An der Normalverteilung orientierte Skalen

Als Maßstab für kognitive Leistungen werden im Allgemeinen Skalen verwendet, die aus der Normalverteilung abgeleitet sind. Die einfachste Variante wäre es, wenn man dazu die Abszissenwerte der Normalverteilung, die bekannten z-Werte, hernehmen würde. Diese haben einen Mittelwert von Null und eine Standardabweichung von 1. Der für klinische Zwecke relevante Merkmalsbereich läge also ungefähr zwischen -4 oder -3 und +3. Nun eignen sich z-Werte für die Kommunikation nicht sonderlich gut, weil man mit Kommawerten und negativen Zahlen umgehen müsste. Deshalb werden seit Jahrzehnten nur daraus abgeleitete Skalen benutzt. Die wichtigsten davon zeigt Abbildung 1.

Die IQ-Skala wird meistens bei der Messung kognitiver Fähigkeiten benutzt, die T-Skala eher bei Persönlichkeitstests. Die in Deutschland bei Intelligenztests durchaus beliebte Standardwertskala mit einem Mittelwert von 100 und einer Standardabweichung von 10 ist international kaum gebräuchlich.

Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der Abbildung 1 erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man ausführlicheren Tabellen entnehmen kann.

Abbildung 1: Normalverteilung und einige der von ihr abgeleiteten Standardskalen

Die IQ-Skala hat die angenehme Eigenschaft, dass sich leicht zu merkende und interpretativ sinnvolle verbale Beschreibungen für bestimmte Skalenabschnitte anbieten. Zwischen den IQ-Werten 90 und 110 liegen rund 50 Prozent der Normstichprobe. Nach den hier etwas vereinfachten und geglätteten Empfehlungen von David Wechsler lässt sich dieser Bereich sprachlich als „durchschnittlich“ bezeichnen, gelegentlich natürlich auch mit zusätzlichen qualifizierenden Bemerkungen („unterer Durchschnittsbereich“, „am oberen Rand des Durchschnitts“, o. ä.). Der IQ-Bereich von 80-90 umfasst rund 16 Prozent und wird als „niedrig“ o.ä. bezeichnet, darunter liegt mit 70-80 der „sehr niedrige“ Bereich (rund 7 %), und noch darunter (unter 70) der „extrem niedrige“ Bereich. Dieser macht statistisch (von der Normalverteilung gesehen) rund 2,3 % aus (in der Realität ist er um 1 bis 2 Prozentpunkte größer, weil sich in diesem Bereich die krankheitsbedingten Minderbegabungen (genetisch/pränatal/perinatal) finden, die dafür verantwortlich sind, dass kognitive Fähigkeiten keine ganz symmetrischen Verteilungen aufweisen). Der obere Intelligenzbereich wird entsprechend aufgeteilt, Tabelle 1 gibt die Übersicht dazu.

Tabelle 1: Interpretationsbereiche der IQ-Skala

Bereich Anteil Qualifizierung
unter 70 2,3 extrem niedrig
70-80 6,9 sehr niedrig
80-90 16,1 niedrig
90-110 49,5 durchschnittlich
110-120 16,1 hoch
120-130 6,9 sehr hoch
über 130 2,3 extrem hoch

Prozentrangskala

Bei jeder Ordinalskala ist die Bildung einer Prozentrangskala möglich. Dafür ist keine Normalverteilung des Merkmals notwendig, nicht einmal eine unimodale Verteilung. Die Prozentrangskala gibt die relative Stellung einer Person innerhalb der gesamten Normierungsstichprobe als Prozentrang (PR) wider. Hat ein Proband den Prozentrang 90, dann haben 90 Prozent der Normierungsstichprobe eine geringere, 10 Prozent eine bessere Leistung als er erreicht.

Die Verwendung der Prozentrangskala bei der Messung kognitiver Fähigkeiten hat große Tücken. Normalerweise kann man davon ausgehen, dass kognitive Fähigkeiten eine unimodale Verteilung aufweisen, häufig auch eine ziemlich symmetrische. Bei solchen normalverteilungs-ähnlichen Verteilungen hat die Prozentrangskala die unangenehme Eigenschaft, dass ihre Skalenwerte nicht äquidistant sind. Die Prozentränge 40 und 60 liegen auf der Skala, die einer solchen Verteilung zugrunde liegt, näher beieinander als die Prozentränge 60 und 80. Wir sind nicht daran gewöhnt, mit Skalen umzugehen, deren Werte einen nichtlinearen Bezug zur zugrundeliegenden Messgröße haben. Die Prozentrangskala wäre nur dann äquidistant, wenn das zugrundeliegende Merkmal die Form einer Rechteckverteilung hätte.

Die Prozentrangskala eignet sich deshalb letztlich nur zur groben Bildung von Klassen, etwa in dem Sinne, dass sie Personen unterhalb eines PR von 16 von denen oberhalb dieses Prozentrangs abgrenzt.

Linearitätsannahme

Die der Normalverteilung zugrundeliegende Skala der z-Werte erfüllt die Merkmale einer Intervallskala, weil alle Differenzen zwischen benachbarten Skalenwerten gleich groß sind. Ohne dieses Merkmal wäre die Form der Verteilung nicht definiert.

Für viele Rohwertskalen, mit denen wir kognitive Leistungen bewerten, gilt dies nicht unbedingt. Rohwerte, die auf der Anzahl richtiger Antworten basieren, liefern meistens näherungsweise symmetrische Verteilungen, zumindest dann, wenn es keine Deckeneffekte gibt. Rohwerte, die auf Fehlerhäufigkeiten oder auf Zeitmaßen basieren, liefern hingegen häufig stark asymmetrische, linksgipflige Verteilungen, die auf einem Bodeneffekt beruhen: Nach unten (gegen Null hin) hat die Skala eine Grenze, die nicht unterschritten werden kann, nach oben ist die Zeit bzw. die Fehlerhäufigkeit dagegen kaum begrenzt. Diese Verteilungen haben zusätzlich die unangenehme Eigenschaft, dass bei Subgruppen die Standardabweichungen mit den Mittelwerten korreliert sind: Personengruppen, die mehr Zeit brauchen (also zum Beispiel die älteren Personen) haben auch höhere Standardabweichungen. Solche Skalen erfüllen nicht mehr die Voraussetzungen einer Intervallskala, weil gleiche Unterschiede an unterschiedlichen Stellen der Skala eine unterschiedliche Bedeutung haben. Beim Trail Making Test A zum Beispiel ist eine Verbesserung der Leistung von 20 Sekunden auf 15 Sekunden ein gewaltiger Schritt. In diesem Bereich ist die Verteilungskurve nämlich sehr steil. Eine Verbesserung von 70 auf 65 Sekunden ist dagegen inhaltlich unbedeutend. Beide Werte charakterisieren eine sehr schlechte Leistung. Hier ist die Verteilungskurve sehr flach. Gleiche Rohwertdifferenzen sind hier also inhaltlich unterschiedlich bedeutsam.

Wir haben gute Gründe zur Annahme, dass kognitive Leistungen normalverteilt sind. Nicht-normale Rohwertverteilungen sind eine Folge davon, dass die gewählte Rohwertskala nicht zur Messung der kognitiven Leistung geeignet ist, zumindest nicht ohne Transformation. Erst wenn durch eine Transformation der Rohwerte eine Normalverteilung hergestellt ist, entspricht die (neue) Skala einer Intervallskala, die für die Messung einer kognitiven Leistung geeignet ist.

Bei der Testkonstruktion und/oder der Normwerterstellung wird mit diesem Problem unterschiedlich umgegangen. Viele Testautoren ignorieren das Problem, manche versuchen eine Lösung zu finden. Letztlich ist nur eine Linearisierung der Skala durch die Anpassung der Rohwertverteilung an eine Normalverteilung in der Lage, die Nachteile einer nicht-linearen Verteilung zu beseitigen. Dazu gibt es verschiedene Methoden, die im Folgenden diskutiert werden.

Methoden der Linearisierung

arithmetische Transformationen

Arithmetische Transformationen haben den Vorteil, dass sie wiederholbar in beide Richtungen durchgeführt werden können. Allerdings lässt sich nicht immer eine Formel finden, die die Rohwertverteilung normalisiert. Manchmal gibt es Erfahrungswerte. Mit einer Quadratwurzeltransformation oder einer Arcus-Sinus-Transformation lässt sich die eine oder andere Rohwertverteilung normalisieren. Auch gibt es allgemeine Gleichungsfamilien, mit denen sich unimodale Verteilungen oft normalisieren lassen. Es bleiben aber manche Fälle übrig, bei denen sich keine Formel für eine befriedigende Linearisierung finden lässt.

Flächentransformationen

Mit der allgemeinen Flächentransformation lässt sich jede Verteilung normalisieren. Die Transformation finden hier nicht auf der Ebene der Skalen, sondern auf der Ebene der Verteilungsfunktion statt. Die nichtnormale Verteilungsfunktion der Ursprungsskala wird in die einer Normalverteilung überführt, indem man den empirischen Perzentilen der kumulierten Ursprungsverteilung den Abszissenwert zuordnet, der diesem Perzentil bei einer kumulierten Normalverteilung entspricht.

Der Nachteil dieses Vorgehens besteht darin, dass man keine Funktion für die Transformation angeben kann. Die Übergangsfunktion ist rein empirisch determiniert und nur durch die Stützstellen definiert, die eine Wertetabelle von Roh- und Standardwerten liefert. Die meisten Rohwerte sind allerdings fein genug gradiert, um eine ausreichende Zahl von Stützstellen zu liefern. Schwierig wird es, wenn die tatsächlich vorkommenden Rohwerte in der Menge begrenzt sind. Dies ist zum Beispiel bei manchen Gedächtnistests der Fall, wenn etwa nur Rohwerte zwischen 0 und 10 vorkommen.

Normierung als Hilfsmittel zur Interpretation

Psychodiagnostiker/inn/en messen oder schätzen psychologische Merkmale und leiten daraus Aussagen von aktueller oder zukünftiger praktischer Relevanz ab. Um diese Urteilsbildung in nachvollziehbare Bahnen zu lenken, geben die Testautoren den Testanwendern im Allgemeinen Hilfsmittel an die Hand. Ein wichtiges Hilfsmittel für die Interpretation ist die Normierung der Testwerte. Mit dem Begriff der Normierung sind hier alle numerischen Prozesse gemeint, die ein Testautor zwischen der Erhebung des Rohwerts und der Feststellung des Testwerts vorschreibt. Schaut man sich die im klinischen Umfeld verwendeten Tests an, dann stößt man auf sehr große Unterschiede in der Elaboriertheit der Normen. Die Spannbreite geht von der Verwendung von Rohwerten mit einfachen Cut-off-Werten auf der einen Seite bis hin zu sehr komplexen Testwerten, die den Einfluss mehrerer Variablen mit einrechnen. Viele Anwender sind sich des Unterschieds zwischen den diversen Techniken nicht immer hinreichend bewusst.

Beibehaltung von Rohwerten

Bei manchen Testverfahren werden Testwerte nur als Rohwerte mitgeteilt. Beispiele dafür sind etwa die Mini Mental State Examination (MMSE) oder die Frontal Assessment Battery (FAB).

Das hat keineswegs nur Nachteile. Die gesamte Labormedizin arbeitet praktisch nur mit Rohwerten. Auf jeden Fall erleichtert es erst einmal die Kommunikation, wenn es für eine bestimmte Variable auch nur eine Art von Messwert gibt. Allerdings muss man einen Test schon sehr gut kennen, wenn man unmittelbar mit den Rohwerten etwas anfangen will.

Benutzung von Grenzwerten, Klassenbildung

In der Labormedizin wird häufig ein Grenzwert (Cut-off-Wert) verwendet, um den pathologisch auffälligen Wertebereich von einem unauffälligen Normalbereich abzugrenzen. Manchmal ist der Normalbereich auch auf beiden Seiten durch Cut-off-Werte begrenzt. Auch der auffällige Bereich kann durch mehrere Cut-off-Werte in unterschiedliche Zonen oder Stadien eingeteilt werden.

Am Beispiel der Mini Mental State Examination (MMSE) kann man das erläutern. Dort besteht der Normalbereich nur aus den Werten 28 bis 30, alles unter 28 ist schon auffällig. Auch der auffällige Bereich ist unterteilt. Von 27 bis 24 spricht man im Allgemeinen nur von einer „leichten kognitiven Störung“. Unter 24 beginnt der Demenzbereich.

Mit solch einer groben Einteilung kann man als Kliniker durchaus leben. Man weiß und berücksichtigt, dass die MMSE nur einer von vielen Indikatoren für eine Demenz ist, dass die diversen Hinweise durchaus widersprüchlich sein können und dass jeder einzelne deshalb klinisch gewichtet werden muss. Auch als Diagnostiker kann man damit leben, zumindest dann, wenn in den zu schreibenden Befundbericht noch weitere Beobachtungen und Tests eingehen.

Bei manchen Tests ist eine Normierung durch die Bildung von Standardwerten schon deshalb nicht sinnvoll, weil das gemessene Merkmal keine Normalverteilung aufweist. Speziell die MMSE überspannt als Test einen so weiten Bereich, dass eine Normierung an Hand der Normalverteilung allenfalls in der Nähe des Normalbereichs möglich ist (Näheres bei der Beschreibung der Aufbereitung der MMSE-Normdaten).

Bildung von Standardwerten

Die meisten psychologischen Testverfahren benutzen heute Standardwerte. Bei der einfachsten Variante werden der Mittelwert und die Standardabweichung der kompletten Normierungsstichprobe für die Bildung von Standardwerten benutzt. Bei vielen Persönlichkeitstests wird das so gemacht. Bei Leistungstests sind hingegen nur die wenigen Verfahren so normiert, bei denen der Alterseffekt auf die Leistung gering ist. Beispiele dafür sind der Wortschatztest (WST) oder der Mehrfachwahl-Wortschatztest (MWT-B). Bei beiden werden die Rohwerte an Hand einer für alle Testnehmer gleichen Tabelle in Standardwerte umgerechnet.

Die direkte Umrechnung von Rohwerten in Standardwerte an Hand des Mittelwerts und der Standardabweichung der Rohwertverteilung ist nur gerechtfertigt, wenn die Rohwertverteilung in etwa einer Normalverteilung entspricht und der Effekt des Alters auf die Testleistung gering ist.

Bildung von Standardwerten nach Linearisierung

Bei vielen Tests mit asymmetrischen Verteilungen beinhaltet die Umrechnung in Standardwerte auch eine Linearisierung. Meistens ist sie implizit in Tabellen eingearbeitet, wie zum Beispiel bei der Umrechnung von Rohwerten in Wertpunkte bei den Subtests aller Wechsler-Tests.

Einbezug von biographischen Merkmalen in die Standardisierung

Bei vielen kognitiven Tests für Erwachsene werden Rohwerte in altersabhängige Standardwerte transformiert. Die Intelligenzquotienten bei den Wechsler-Tests sind zum Beispiel altersabhängig standardisiert. Bei kognitiven Tests für Kinder und Jugendliche werden Rohwerte häufig in Standardwerte transformiert, die nicht nur vom Alter, sondern auch von der Schulbildung abhängen. Bei manchen vorzugsweise klinisch verwendeten Tests werden Rohwerte mit Regressionstransformationen in Standardwerte transformiert. Oft enthalten die Gleichungen dann neben dem Alter auch noch weitere Parameter wie Bildung und Geschlecht, gelegentlich sind die einbezogenen Parameter auch noch von Subtest zu Subtest unterschiedlich. Ein markantes Beispiel für diese Art der Normierung ist die Testbatterie zur Aufmerksamkeitsprüfung (TAP). Auch in USA sind derzeit einige neuropsychologische Testbatterien so normiert.

Biographische Merkmale sind in den meisten klinischen Disziplinen für die Interpretation wichtig. Dies gilt in der Testdiagnostik genau so wie in jeder anderen klinischen Diagnostik. Normalerweise werden biographische Merkmale dabei aber erst sekundär berücksichtigt, zum Beispiel durch die Konstruktion von altersabhängigen Normbereichen. Der Testwert selbst bleibt davon unberührt.

Psychologische Tests beschreiten einen Sonderweg, wenn die für die Interpretation relevanten biographischen Merkmale des Patienten direkt in die Generierung des Messwerts einbezogen werden. Der Messwert ist dann nämlich kein Messwert mehr, sondern (nur noch) eine Art Hinweiswert für die Interpretation, ein Konstrukt, dass Anteile des Messwerts und Anteile der einbezogenen biographischen Hintergrundinformationen in einer für den Endanwender häufig nicht mehr nachvollziehbaren Mixtur enthält.

Mehrfachstandardisierung auf unterschiedlichen Ebenen

Notiz 23.8.2017 Ich habe die letzten beiden Tage intensiv nach weiterer Literatur zu diesem Thema gesucht, aber nichts Neues gefunden. Es gibt eine große Menge an Literatur zum Thema Short Forms, beginnend mit Tellegen und Briggs, 1967 und wohl am besten zusammengefasst bei Kaufman und Kaufman, 2001. Da gibt es gewisse Berührungspunkte zu dem Problem der Mehrfachstandardisierung, aber die eigentliche Problematik der anderen Metrik wird nicht aufgegriffen. Dann gibt es die Arbeiten von McGrew (zum Beispiel ein Buchartikel von 1994 oder die Internet-Publikation von Schneider & McGrew von 2011 („Just say no“ to averaging IQ subtest scores), in der das Problem ausführlich und anschaulich dargestellt wird, wenn auch völlig andere Schlussfolgerungen aus der unterschiedlichen Metrik gezogen werden als ich das tue. Sonst habe ich praktsich nichts gefunden! Ende Notiz

Wie bei vielen anderen Intelligenztestbatterien ist es auch bei den Wechsler-Tests üblich, einen Indexwert für einige („Verbal-IQ“, „Handlungs-IQ“) bzw. alle Subtests („Gesamt-IQ“) zu bilden. Die Praxis geht auf den Beginn der Intelligenztestdiagnostik zurück, als vor allem die globale intellektuelle Begabung erfasst werden sollte und weniger deren Struktur. In der aktuellen neuropsychologischen Diagnostik liegt der Fokus dagegen auf der differenzierten Erfassung von Einzelleistungen und weniger auf pauschalen Begabungskennwerten.

Die gleichzeitige Erfassung von Einzelleistungen und Globalwerten hat nun gewisse psychometrische Tücken. An einem Beispiel kann man das schnell erklären. Nehmen wir an, zwei Einzelleistungen (Allgemeinwissen und Kopfrechnen) sollen auf einer IQ-Skala mit Mittelwert 100 und Standardabweichung 15 sowohl einzeln erfasst und dargestellt als auch zu einer Globalleistung im Sinne eines „Verbal-IQ“ kombiniert werden. Als psychometrisch naiver Betrachter denkt man vermutlich, dies sei einfach und der Verbal-IQ errechne sich als Mittelwert der beiden Einzelleistungen. Dem ist aber keineswegs so, weil in den herkömmlichen IQ-Tests die Einzelleistungen und die Gesamtwerte getrennt standardisiert werden. Die doppelte Standardisierung führt dazu, dass die Korrelation zwischen den beiden Subtests darüber entscheidet, ob für die Kombination die gleiche oder eine andere Metrik verwendet wird. Je niedriger die Korrelation zwischen den Subtests ist (und je größer die Anzahl der einbezogenen Subtests ist) desto mehr weicht die neue Metrik von der alten ab. Tabelle 2 zeigt die Konsequenzen an unserem einfachen Beispiel. Wenn beide Subtestwerte 100 betragen und damit genau in der Mitte der Verteilung liegen, spielt die Höhe der Korrelation keine Rolle. In diesem Fall beträgt der kombinierte „Verbal-IQ“ immer 100. Anders wird es, wenn die Einzelwerte von 100 abweichen. Betragen beide Einzelwerte genau 85 IQ-Punkte, dann wäre der „Verbal-IQ“ nur dann auch 85, wenn die beiden Einzelleistungen mit 1 miteinander korrelieren. In der Praxis liegen die Korrelationen zwischen Subtests, die zu einem Gesamtwert verrechnet werden, meist irgendwo zwischen .30 und .70. Bei der schon relativ hohen Korrelation von .70 sinkt der „Verbal-IQ“ auf 84 statt 85 ab, bei der eher niedrigen von .30 schon auf 81 statt 85. Je extremer sich die Einzelwerte vom Mittelwert der Verteilung entfernen desto größer werden auch die Unterschiede. Liegen die Einzeltestwerte bei 70 IQ-Punkten, dann verringert sich der „Verbal-IQ“ bei einer Korrelation von .70 auf 66 Punkte, bei einer Korrelation von .30 auf 63 Punkte. Der Effekt ist symmetrisch: Bei hohen Testwerten erhöht sich der „Verbal-IQ“ entsprechend. Der „Spreizfaktor“ für die Metrik wird umso größer je niedriger die Korrelation zwischen den Subtests ist und je mehr Subtests kombiniert werden.

Tabelle 2: Auswirkungen einer getrennten Standardisierung auf die Metrik

Einzelleistungen Korrelation Globalleistung („Verbal-IQ“)
100 1 100
.00 100
85 1 85
.70 84
.30 81
.00 79
70 1 70
.70 66
.30 63
.00 58
130 1 130
.70 134
.30 137
.00 142

Obwohl diese psychometrischen Beziehungen zwischen Subtests und Globalmaßen eigentlich bekannt sind, wurden sie in der klinischen Diagnostik praktisch nicht beachtet. Das änderte sich im Erwachsenenbereich mit der Einführung des HAWIE-R als Nachfolger des HAWIE. Damals wunderten sich viele Praktiker darüber, dass speziell bei niedrig Begabten die mit dem neuen HAWIE-R berechneten IQs viel niedriger waren als die zuvor mit dem HAWIE bestimmten. Dies hing zum einen mit dem Phänomen des IQ-Zugewinns der Bevölkerung über die Zeit hinweg zusammen („Flynn-Effekt“), das dazu führt, dass neuere Verfahren niedrigere IQs messen als früher standardisierte. Allerdings erklärte das nur einen Teil der Differenz. Der andere Teil kam daher, dass die mittlere Interkorrelation der Subtests in der Standardisierungsstichprobe des HAWIE-R (warum auch immer) lediglich .40 betrug, in den für die IQ-Berechnung benutzten Altersklassen 20-34 Jahre sogar nur .32, beides deutlich niedriger als beim alten HAWIE, wo die mittlere Subtestinterkorrelation etwa bei .60 lag. Die niedrigere Interkorrelation der Subtests in der Standardisierungsstichprobe führte beim HAWIE-R zu einer größeren Spreizung der Metrik der IQs im Verhältnis zur Metrik der Subtests.

Abbildung 2 zeigt das an einem Beispielfall eines 31-jährigen Probanden mit niedriger Begabung, der in sämtlichen Subtests des HAWIE-R lediglich vier Wertpunkte erzielte. Die klassischen, nicht altersabhängigen Wertpunkte des HAWIE-R haben einen Mittelwert von 10 und eine Standardabweichung von 3. Vier Wertpunkte entsprechen deshalb einem Wert von 70 auf der IQ-Skala. Wegen der niedrigen Interkorrelation der Subtests betragen aber die tatsächlich bestimmten Teil-IQs statt der naiv erwarteten 70 nur 57 für den Verbalteil und 57 für den Handlungsteil. Weil der Effekt auf die Testmetrik umso größer wird, je mehr Subtests einbezogen werden, beträgt der Gesamt-IQ nur 48. Auf Grund der Subtestergebnisse hätte man einen von 70 erwartet, nach den Teil-IQs einen von 57. Abbildung 2 wurde mit dem alten, von 1995 bis 2008 verwendeten tdb-Programm erzeugt, das die nach Handbuchvorschrift berechneten Wertpunkte und IQs darstellte und lediglich den altersspezifisch erwarteten Normbereich zusätzlich einzeichnete.

Abbildung 2: Beispiel für die unterschiedliche Metrik von Subtests und IQs beim HAWIE-R

Niemand kann in der Praxis mit solch unterschiedlichen Metriken wirklich umgehen. Die Idee, dass zu unterschiedlichen Aggregationsgraden der Tests und Subtests auch unterschiedliche Metriken gehören, ist wegen der unvollständigen Kovarianz der Einzeltests psychometrisch zwar stimmig, praktisch dagegen unerwartet und störend. Dass viele „niedrige“ Einzelleistungen zu einem „sehr niedrigen“ oder gar „extrem niedrigen“ Gesamtergebnis führen, ist den meisten Diagnostikern nicht vertraut. Für die Empfänger psychologischer Befundberichte, im Allgemeinen psychometrische Laien, ist die variable Metrik nicht nachvollziehbar. In der Alltagspraxis sind Gesamtnoten Durchschnitte von Einzelnoten. In der Schule führen vier Einzelnoten von „ausreichend“ zu einer Gesamtnote von „ausreichend“ und nicht zu einer von „mangelhaft“. Wollte man die wegen der unvollständigen Kovarianz der Subtests psychometrisch richtige Aggregation tatsächlich beibehalten, müsste man die verbalen Umschreibungen der Testergebnisse an die Testebenen anpassen. Dies ist allerdings schwierig, weil die Verhältnisse von Test zu Test und von Normierung zu Normierung unterschiedlich sind.

Abbildung 3: Mittlere Leistungswerte als Ersatz für die Intelligenzquotienten

In einem neuropsychologischen Kontext ist es viel sinnvoller, nur eine Metrik zu benutzen. Hier spielt die differenzierte Erfassung unterschiedlicher Fähigkeiten die wichtigste Rolle. Deshalb wird im TDB2-Profil jede Einzelleistung in einem über verschiedene Verfahren vergleichbaren Leistungswert dargestellt. Globalwerte werden in TDB2 nicht in einer eigenen Standardisierung dargestellt, weil diese zu einer anderen Metrik führen würde. Statt dessen werden die Leistungswerte der Einzelverfahren zu Globalwerten gemittelt. Abbildung 3 zeigt an einem Beispielfall, dass die gleichen Testleistungen wie in Abbildung 2 im TDB2-Profil zu sogenannten „mittleren Leistungswerten“ agglutiniert werden, die auf dem gleichen metrischen Niveau liegen wie die Einzelleistungen. Wie sonst auch werden zusätzlich die Altersnormgrenzen eingeblendet und ein alterskorrigierter Standardwert (ASW) für den Aggregatwert berechnet und in der rechten Spalte des Profils dargestellt. Diese alterskorrigierten Standardwerte entsprechen inhaltlich den üblichen Intelligenzquotienten (sie sind also altersstandardisiert und geben die durchschnittliche Fähigkeit über die einbezogenen Subtests an), sind aber in der gleichen Metrik ausgedrückt wie die Subtests. Sprachlich grenzen wir sie von den Intelligenzquotienten des HAWIE-R und WIE bzw. von den Indexwerten des WIE dadurch ab, dass wir von mittleren alterskorrigierten Standardwerten (100;15) sprechen.

Problembereiche in der Praxis

Adäquatheit der Normen klinisch-neuropsychologischer Tests

Beim praktischen Einsatz von psychodiagnostischen Verfahren dürfte kaum ein singuläres Methodenmerkmal schwerer wiegen als die Adäquatheit der Normen. Theoretisch ist klar, dass sich nur durch die Untersuchung repräsentativer Zufallsstichproben adäquate Normen herstellen lassen. Leider finden sich solche Stichproben bei real existierenden Testverfahren, insbesondere bei kognitiven Leistungstests, so gut wie nie. Selbst bei etablierten, in Testverlagen publizierten Testverfahren bleiben die Beschreibungen der Stichprobenziehung einsilbig. Offensichtlich hat sich hier noch kein Standard etabliert. Für den Anwender ist es oft extrem schwierig, die Adäquatheit einer Normstichprobe nach den Beschreibungen in den Testhandbüchern zu beurteilen. Dies gilt auch dann, wenn die Größe der Normstichprobe durchaus zufriedenstellend wäre: Gegen systematische Verzerrungen bei der Ziehung der Stichprobe helfen auch große Zahlen nichts.

Besonders problematisch sind die Normquellen bei manchen klassischen neuropsychologischen Standardverfahren, die von keinem Testautor und keinem Testverlag (mehr) betreut werden. Prominente Beispiele sind die Trail Making Tests, der Halstead Category Test und fast alle verbalen Gedächtnistests. Für diese Tests gibt es meistens kein Standardhandbuch. Hier verlassen sich die meisten Anwender auf kursorische und ad hoc zusammengestellte Normtabellen in neuropsychologischen Standardwerken1) 2) 3). Da es davon allerdings mehrere gibt, die auf unterschiedliches Material zurückgreifen, ist es kaum zu vermeiden, dass in der Praxis auch mal höchst unterschiedliche Normquellen verwendet werden, die im Einzelfall zu hochgradig abweichenden Ergebnissen kommen.

Testversionen und Testvarianten

Unter Psychodiagnostikfachleuten dürfte es unbestritten sein, dass Testverfahren von Zeit zu Zeit überarbeitet und neu normiert werden sollten. Über die Länge der zumutbaren Intervalle zwischen zwei Auflagen gehen die Meinungen dagegen schon auseinander (Lit). Zumindest die auflagenstärkeren Testverfahren, die sich in der Praxis gut etabliert haben, werden auch tatsächlich alle 5 bis 20 Jahre revidiert und dabei gelegentlich auch neu normiert. Leider ist das Beharrungsvermögen der Testanwender in den meisten Fällen hoch: Es kommt zu der Situationen, dass jüngere Diagnostiker die neueren Versionen eines Tests einsetzen, die älteren aber meist bei den alten bleiben. Es dürfte weitgehend unbekannt sein, dass sich manchmal von einer Auflage zur anderen massive Normverschiebungen ergeben können. Die Texte oder Vorwörter der Handbücher sind leider keine gute Quelle, wenn man Informationen darüber sucht, man muss schon die Tabellen selbst analysieren. Beim d2, einem Testverfahren, das regelmäßig revidiert wurde, finden sich zum Beispiel zwischen der 7. und 8. Auflage so massive Unterschiede, dass ….. Leider zählt die Angabe der benutzten Auflage eines Testverfahrens in einem Testbefund eher zu den Ausnahmen als zur Regel.

Ähnlich problematisch sind Tests, von denen es mehrere Varianten gibt, sei es im Testmaterial oder in den Durchführungsanweisungen. Für die beiden Trail Making Tests A und B waren eine Zeit lang unterschiedliche Vorlagen in Anwendung, eine davon mit schlechter Nahsicht deutlich besser zu erkennen als die andere. Bei der Mini Mental State Examination gibt es in der Praxis diverse Durchführungsvarianten, die meist nicht explizit angegeben werden. In der Arbeitsgedächtnisaufgabe dieses Tests wird manchmal ein Wort (es sind unterschiedliche in Gebrauch) rückwärts buchstabiert, manchmal auch rückwärts gerechnet. Bei der TAP gibt es in vielen Untertests noch mal Varianten. In zu vielen Testbefunden wird nicht erwähnt, welche dieser Varianten eingesetzt wurde. Die Liste ließe sich leicht verlängern, zum Beispiel bei den diversen Gedächtnistests. Auch bei den möglichen Auswertungsvarianten wird selten genau spezifiziert, welche Normen verwendet wurden (etwa allgemeine oder schulspezifische Normen).

Verfahrenspraxis in TDB2

Die in TDB2Online eingeschlossenen Tests wurden nach einem einheitlichen Schema bearbeitet, wobei nicht bei jedem Test alle Schritte zur Anwendung kamen. In diesem Abschnitt werden die allgemeinen Verfahrensweisen und Techniken bei der Bearbeitung der Tests dargestellt und wo nötig begründet. Was davon bei einem einzelnen Test zur Anwendung kam, ist in den testspezifischen Texten dargestellt.

Auswahl der Tests

TDB2 ist ein Projekt, das aus der klinisch-psychodiagnostischen Praxis entstanden ist. Die eingeschlossenen Testverfahren sind diejenigen, die in der psychologischen Abteilung der psychiatrischen Universitätsklinik im Klinikum der LMU München so häufig benutzt wurden, dass der Einschluss sich gelohnt hat. Die Liste ist nicht abgeschlossen, neue Verfahren werden sicher hinzukommen.

Charakterisierung des Tests und des Testmaterials

Alle testspezifischen Texte beginnen mit einer Beschreibung des Tests, und zwar einer Beschreibung genau der Version, auf die sich die Normen von TDB2Online beziehen. Bei publizierten Tests, deren Handbücher gut erhältlich sind, fällt die Beschreibung eher knapp aus. Falls es mehrere Auflagen eines Tests gibt, wird genau die Auflage beschrieben, für die die Normen gelten. Bei „verwaisten“ Tests, um die sich kein Testverlag (mehr) kümmert oder die nie einen hatten, wird das Testmaterial ausführlicher beschrieben, weil es häufig diverse Varianten gibt. Wenn möglich werden auch Bezugsquellen erwähnt. Einen besonderen Stellenwert hat die Beschreibung der Copyrightsituation, die nach bestem Wissen gegeben wird.

Subtestselektion und Durchführungsvarianten

Manche der in TDB2Online eingeschlossenen Tests bestehen aus sehr vielen Subtests, von denen in der Praxis nicht alle gleich häufig eingesetzt werden. Beispiele dafür sind die Testbatterie zur Aufmerksamkeitsprüfung (TAP)4) oder der Regensburger Wortflüssigkeitstest (RWT)5). Für die Auswahl der Subtests in TDB2Online gilt das Gleiche wie für die Auswahl der Tests. Nur diejenigen Subtests wurden eingeschlossen, die in der Praxis der psychologischen Abteilung der Münchner Psychiatrischen Klinik so häufig durchgeführt wurden, dass der Einschluss sich lohnte. Natürlich spielte dabei die Verfügbarkeit von Normen (zum Beispiel bei der TAP) eine große Rolle. Wenn bei einem Test oder Subtest eine besondere Durchführungsvarianten gewählt wurde, wird das beschrieben.

Charakterisierung der Testrohwerte und ihrer Verteilungseigenschaften

Hier werden die Rohwerte eines Tests beschrieben. Dazu gehört zum Beispiel auch, welche Zahl als Rohwert dient, wenn der Messbereich zu Ende ist (etwa ein Zeitlimit bei einem Test, dessen Rohwert die Bearbeitungsdauer ist).

Häufig lässt sich aus der Art des Rohwerts schon auf die Verteilungseigenschaften schließen. Wenn es empirische Daten dazu gibt, werden sie hier vorgestellt und wenn nötig diskutiert.

Linearisierung der Messskala

Komplexe Fähigkeitsmerkmale, wie sie durch kognitive Tests gemessen werden, sind in der Population im Allgemeinen normalverteilt. Weicht eine Verteilung von Rohwerten bei einer Zufallsstichprobe aus der Population markant von einer Normalverteilung ab, hat das meistens damit zu tun, dass die gewählten Rohwerte zur Messung der Eigenschaft nicht sonderlich geeignet sind und die Eigenschaft nicht linear, sondern messtechnisch verzerrt abbilden. Nichtlineare Messskalen eignen sich nicht gut als Ausgangsmaterial für Testverfahren. Zum einen stimmen dann die Annahmen der klassischen Testtheorie nicht (was noch zu verschmerzen wäre), zum anderen können wir nichtlineare Messskalen nicht mehr intuitiv interpretieren. Vermutlich durch den dauernden Umgang mit linearen physikalischen Maßeinheiten geprägt, rechnen wir immer damit, dass gleichgroße Intervalle an verschiedenen Stellen einer Skala auch einen gleich großen Unterschied in der dahinterliegenden Eigenschaft (Länge, Gewicht, aber eben auch IQ, Gedächtniskompetenz, was immer) abbilden. Dies geht nur, wenn die Skala die dahinter stehende Eigenschaft linear abbildet und entsprechend zu einer Normalverteilung bei Zufallsstichproben führt.

Bei allen in TDB2Online aufgenommenen Testverfahren werden deshalb lineare Testwerte angestrebt. Bei vielen Tests ist das einfach, weil schon die Rohwerte linear sind. Bei manchen Tests hat sich der Testautor oder die Testautorin schon Gedanken über eine Linearisierung gemacht und sie in die Auswertung eingearbeitet, z. B. wie seinerzeit David Wechsler durch die Transformation von Roh- in Wertpunkte. Leider bleiben aber immer noch eine ganze Reihe von Tests übrig, deren Rohwerte nichtlinear sind und die nachträglich in TDB2Online linearisiert werden müssen. Dabei sind die nachträglichen Lösungswege kompliziert und generell unerfreulich. Nur selten stehen nachträglich die Rohwerte einer Stichprobe junger Erwachsener zur Verfügung, was der Idealfall wäre. Manchmal hat man wenigstens eine Perzentilverteilung einer größeren Stichprobe gesunder junger Erwachsener. An Hand einer solchen empirischen Verteilung kann man auch eine heuristische Transformationstabelle erstellen, die die Skala linearisiert. Stichproben mit einem weiten Altersbereich sind kaum geeignet, weil hier zusätzliche altersbedingte Effekte einfließen, die verteilungsrelevant sind. Aus ähnlichen Überlegungen sind Patientenstichproben eher ungeeignet. Gelegentlich mussten bei der Linearisierung approximative Verfahren eingesetzt werden. Das ist unbefriedigend, aber immer noch besser als der Verzicht auf Linearisierung, obwohl die Rohwertverteilung eindeutig schief ist.

Die exakte Vorgehensweise wird bei den einzelnen Verfahren dokumentiert, eine Übersicht über die zur Verfügung stehenden Methoden gibt der Abschnitt Methoden der Linearisierung.

Sammlung, Charakterisierung und metaanalytische Verrechnung von Normdaten

Angesichts der mangelnden Adäquatheit der Normen vieler Testverfahren wurde im Rahmen von TDB2Online versucht, die Normbasis wo immer möglich zu verbessern. Dies war vor allem bei den neuropsychologischen Standardverfahren möglich, bei denen es viele Normquellen in der Literatur gab. TDB2Online verwendet bei jedem Test alle praktisch verfügbaren Normquellen, die folgenden Kriterien genügen:

  1. Eine unselektierte (oder wenigstens nicht erkennbar selektierte) Stichprobe gesunder Probanden wurde untersucht.
  2. Die Stichprobe ließ sich einem oder mehreren nicht zu breiten Altersbereichen zuordnen.
  3. Der Test wurde standardisiert vorgegeben und Vorgabe und Auswahl des Rohwerts entsprachen der in TDB2Online empfohlenen.
  4. Als Minimum waren Mittelwert und Standardabweichung pro Altersgruppe verfügbar.

Die Quellen sind in den Texten zu den Einzeltests dokumentiert. Die Zusammenfassung der Normwerte erfolgte mit metaanalytischen Verfahren. Ziel war die Bereitstellung einer Normierung, die möglichst repräsentativ für die gesamte erwachsene Bevölkerung ist. Eine Stratifizierung nach anderen Merkmalen als dem Alter erfolgte nicht. Normquellen, die sich statistisch als Ausreißer erwiesen, werden nicht verwendet. Die Werte wurden über die Altersgruppen hinweg geglättet.

Häufig wurde die Adäquatheit der Normdaten eines Tests dadurch untersucht, dass dessen Äquivalenz mit einem anderen, ähnlichen Verfahren geprüft wurde. Ergebnisse hierzu finden sich in den Dokumentationstexten zu den Einzeltests im Abschnitt Diskussion. Ziel solcher Arbeiten war es, Hinweise zur Abschätzung der Plausibilität der vorhandenen Normdaten zu geben.

Wahl der Standardskala

Für die Darstellung aller Testwerte wird in TDB2Online die IQ-Skalierung mit einem Mittelwert von 100 und einer Standardabweichung von 15 verwendet. Zwei Argumente haben die Entscheidung für das System (100;15) beeinflusst:

  1. Die IQ-Skalierung dürfte die bei Leistungstests am häufigsten benutzte sein. Die T-Wert-Skalierung (50;10) ist zwar bei Persönlichkeitstests sehr gebräuchlich, aber nicht bei Intelligenztests und weniger bei sonstigen Leistungstests. Die „SW“- Skalierung (100;10) ist zwar bei deutschen Intelligenztests durchaus gebräuchlich, international aber kaum zu finden.
  2. Bei der verbalen Interpretation von Testbefunden hat die IQ-Skala den Vorteil, dass die mittleren 50 Prozent der Verteilung, ein Bereich, der in der Statistik häufig als Durchschnittsbereich (Interquartildifferenz) gewertet wird, zwischen den markanten Werten 90 und 110 liegt. Auch ein weiterer Durchschnittsbereich (plus/minus eine Standardabweichung) ist mit den Werten 85 und 115 noch gut markiert, auch wenn man bei stetig verteilten Variablen gute Gründe braucht, um fast 70 Prozent einer Verteilung als „Durchschnitt“ zu bezeichnen. Die IQ-Skala macht es einem damit relativ leicht, Wechslers verbale Charakterisierung der kognitiven Leistungshöhe zu übernehmen (siehe dazu die Tabelle 1 im Abschnitt "An der Normalverteilung orientierte Skalen").

Berechnung von Leistungswerten

TDB2Online verfolgt das Ziel einer reinen Leistungsmessung auf einer Skala, die für alle verwendeten Messinstrumente vergleichbar ist. Die Interpretation eines Messwerts im Hinblick auf das Alter des Patienten wird mit Hilfsmitteln erleichtert, das Alter wird jedoch nicht dafür verwendet, den eigentlichen Messwert zu verändern. Andere biographische Parameter (Bildung, Geschlecht, was immer) werden nicht berücksichtigt. Welchen Stellenwert sie möglicherweise haben, muss im Testbefund verbal interpretiert werden, das ist nicht mehr Aufgabe der Leistungsmessung.

Für die Leistungsmessung wird eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen („nicht-alterskorrigierten“) Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt Wertpunkttransformation in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als Leistungswerte. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.

Besonderheiten bei Demenztests

Bei den meisten Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Beispiele für solche Tests sind die Mini Mental State Examination (MMSE), die CERAD-Testbatterie und der Zahlen-Verbindungs-Test ZVT-G. Bei den genannten Verfahren gibt es Normen für gesunde Probanden nur im Altersbereich von etwa 50 bis 90 mit einem Mittelwert um die 70 Jahre, oft nicht sonderlich gut spezifiziert. Bei diesen drei Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Personen von etwa 70 Jahren. In der Überschrift zu den jeweiligen Testverfahren ist die Quelle der Leistungsnormdaten immer dann angegeben, wenn sie vom Standard (junge Erwachsene) abweicht (siehe Abbildung 4).

Der nächste Abschnitt gehört eigentlich zum Punkt Darstellung….

Abbildung 4 zeigt noch eine weitere Besonderheit der Demenztests. Diese Tests sind nicht zur Quantifizierung von Fähigkeiten über einen breiten Normbereich hinweg konstruiert. Bei ihnen steht der Nachweis und die Quantifizierung von Defiziten im Vordergrund. In fast allen Demenztests erreicht ein Gesunder schon mit mittleren Leistungen die Testdecke. Am auffälligsten ist das beim Subtest Wörter Wiedererkennen in der CERAD. In diesem Subtest erreichen mehr als 50 Prozent der Normstichprobe der 70-Jährigen die volle Punktzahl von 10 Richtigen. Man sieht das daran, dass der maximal erreichbare Rohwert von 10 zu einem Leistungswert von unter 100 führt. In solchen Fällen geben wir in der Spalte für die altersbezogenen Standardwerte statt eines festen Wertes nur noch einen Bereich an, hier also „>95“.

Abbildung 4: Angabe der Normbasis im Titel bei Abweichungen vom Standard

Berechnung von altersnormierten Werten

Hmm, sollte hier ein Text hin oder wird der Punkt zusammen mit der Darstellung behandelt? Oder kommt er später als Hinweis zu ASW?

Darstellung als einheitliches Testprofil

Alle Testwerte werden in einem einheitlichen grafischen Bezugsrahmen dargestellt, der sich an den Leistungswerten als vertikalem Raster orientiert. Für jeden Test werden die Rohwerte im Leistungswertgitter mit abgebildet. Zusätzlich zum Testwert des Probanden oder der Probandin werden in der Grafik die Verteilungskennwerte der Altersbezugsgruppe dargestellt. Man erhält auf diese Weise einerseits den Bezug zur absoluten Leistung, gemessen an gesunden jungen Erwachsenen (Leistungswertgitter), und andererseits den Bezug zu den Werten der jeweiligen Altersklasse. Abbildung 5 zeigt ein Muster dieser Darstellungsart.

hier kommt Abbildung 5 hin, ich habe noch kein Beispiel mit ASWs.

Abbildung 5: Beispiel eines Leistungswertprofils

Dargestellt ist ein Leistungswertprofil (Bereich 40 bis 145) mit zwei Einzeltestwerten im TMT A und B, dargestellt als schwarze Kreise. Im Beispiel betragen die Rohwerte 25 und 79, als Leistungswerte lassen sich circa 96 und 84 ablesen. Überlagert sind die Altersreferenzwerte. Das weiße Viereck markiert den Mittelwert der Altersgruppe, der graue Bereiche geht von -1σ bis +1σ, die Endbalken gehen bis ±2σ. (Zum Vergrößern anklicken!)

Funktionsmerkmale der gewählten Visualisierung

Die einheitliche graphische Aufbereitung der Testergebnisse in TDB2Online hat eine Reihe von Funktionsmerkmalen, die die klinische Befunderstellung unterstützen.

Einschätzung der absoluten Leistung

In TDB2Online wird jeder Testwert als schwarzer Punkt in ein Leistungswertgitter eingezeichnet, das von Test zu Test gleich bleibt und auf dem sich die Leistung über verschiedene Testverfahren hinweg vergleichen lässt. Die Skala mit der kleinen Beschriftung „Leistungswert“, die dem Gitter zugrunde liegt, geht bei jedem Test von 40 bis 145 und die Werte stehen immer an der gleichen Position. Die Zahlen innerhalb des Rechtecks, das einen einzelnen Subtest darstellt, geben die Position der möglichen Rohwerte des Subtests an. In Abbildung 6 lässt sich erkennen, dass ein Rohwert von 30 im WST ungefähr dem Leistungswert 100 entspricht, ein solcher von 20 ungefähr dem Leistungswert 85. Die Leistungswerte selbst sind von Test zu Test vergleichbar. Damit ist die Aussage möglich, dass bei diesem Patienten die Leistung im Lernen einer Wortliste (VLMT, Lerndurchgang 5, Rohwert 14, Leistungswert etwa 111) um rund 27 IQ-Punkte (oder knapp zwei Standardabweichungen) besser ist als seine Leistung im Teil B des Pfadfindertests (Rohwert 79, Leistungswert etwa 84). Ohne die gemeinsame Messebene der Leistungswerte wären solche Profilinterpretationen hinsichtlich der gezeigten Leistung nicht möglich.

Ablesen des Messbereichs

Der kleinste und der größte Rohwert, den ein Test liefern kann, ist immer im Profil eingezeichnet, wenn er im darstellbaren Leistungswertbereich zwischen 40 und 145 liegt. Man kann in Abbildung 6 am Beispiel des Wortschatztests WST also sehen, dass der kleinstmögliche Rohwert 1 und der größtmögliche Rohwert 41 ist. Das entspricht einem relativ großen Messbereich, weil die entsprechenden Leistungswerte von ungefähr 60 bis ungefähr 140 reichen. Beim Subtest Verzögertes Wiedererkennen im VLMT (letzte Zeile in der Abbildung 6) ist das anders. Dieser Subtest erreicht seine Testdecke (den größtmöglichen Rohwert von 15) schon bei einem Leistungswert von etwa 114. In höheren Leistungsbereich kann dieser Subtest also nicht mehr differenzieren. Es ist nicht möglich, eine hohe von einer sehr hohen Leistung zu unterscheiden. Dafür geht der Messbereich sehr weit nach unten. Er würde sogar viel weiter reichen, als er hier erfasst ist. Rohwerte unter 9 liegen schon außerhalb des Darstellungsbereichs. Sie kommen extrem selten vor und sind deshalb nicht mehr normiert.

Abbildung 6: Beispielprofil für einen 38-jährigen Patienten

Bewertung der Messgenauigkeit

Eine Einschätzung der Messgenauigkeit erhält man, wenn man die Auflösung der Rohwertskala mit der Auflösung der Leistungswertskala vergleicht. Beim Wortschatztest WST (siehe Abbildung 6) entsprechen die Rohwerte zwischen 10 und 20 ungefähr Leistungswerten zwischen 75 und 85. An dieser Stelle der Skala erhöht also ein zusätzliches richtiges Wort den gemessenen IQ um einen Punkt. Dies ist gleichbedeutend mit einer relativ hohen Messgenauigkeit. Im oberen Leistungsbereich (für den der Test auch nicht in erster Linie gedacht ist) erhöht ein zusätzliches richtiges Wort (z. B. von Rohwert 40 auf 41) den gemessenen IQ um 6 oder 7 Punkte. Wenn ein einziges zusätzlich gewusstes (oder gar geratenes) richtiges Wort die gemessene kognitive Leistungsfähigkeit so stark verändern kann, ist die Messgenauigkeit an dieser Stelle der Skala ziemlich niedrig.

An diesem Beispiel sieht man ganz praktisch, dass die Messgenauigkeit eines Tests keineswegs an allen Stellen gleich sein muss (wie die Reliabilitätstheorie und das von ihr abgeleitete Konzept des Standardmessfehlers suggerieren). Die meisten Tests messen im Mittelbereich genauer als an den Enden, eine Aussage, zu der man mit Hilfe der Item-Response-Theorie, einer Skalierungsmethode für Testitems, auch regelmäßig gelangt.

Ein einziger Blick auf den Verbalen Lern- und Merkfähigkeitstest VLMT (siehe Abbildung 6) reicht aus um zu erkennen, dass alle vier Subtests nur relativ grob messen: Schon ein zusätzlich gelerntes oder erinnertes Wort erhöht den Leistungswert um viele IQ-Punkte.

Der Leistungswert selbst wird übrigens nicht numerisch ausgegeben. Er lässt sich nur an der Position des schwarzen Punkts im Testprofil ablesen.

Vergleich mit der individuellen Altersnorm

Für die klinische Beurteilung eines Testwertes ist vor allem bei älteren Patienten ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Da die Werte im TDB2-Testprofil graphisch als altersunabhängige Leistungswerte erscheinen, muss man die Vergleichsbereiche der Altersgruppe zusätzlich einzeichnen. Im TDB2-Profil werden Vergleichsbereiche eingezeichnet, die über Prozentränge (PR) ermittelt wurden. Das weiße Quadrat kennzeichnet den Median ( = PR 50) der Altersgruppe des Patienten, das graue Rechteck den Bereich von PR 16 bis PR 84 und die beiden Fähnchen an den Enden des grauen Rechtecks die Prozentränge 2,5 und 97,5. Wenn die Leistungswerte normalverteilt sind, entsprechen die genannten Prozentränge genau dem Mittelwert und den Ein- und Zwei-Sigma-Grenzen.

Man kann die individuelle Stellung eines Patienten in den Grenzen seiner Altersbezugsgruppe natürlich aus der Grafik ablesen, allerdings ist das etwas mühsam und ungenau. Deshalb werden die altersnormierten Standardwerte vom Programm ausgerechnet und auf der rechten Seite des Profils in der Spalte ASW angezeigt. Auch diese altersnormierten Standardwerte (ASW) werden IQ-skaliert angezeigt, also mit Mittelwert 100 und Standardabweichung 15.

An einem Beispiel kann man zeigen, wie der ASW berechnet wird: In der vorletzten Zeile der Abbildung 6 (Verzögerter Abruf im VLMT) kann man erkennen, dass der individuelle Testwert des Patienten um etwa zwei Drittel des grauen Bereichs vom weißen Quadrat nach links entfernt liegt. Wäre er auf dem weißen Quadrat, wäre das der altersnormierte Standardwert 100. Wäre er am linken Ende des grauen Bereichs, wäre das der altersnormierte Standardwert 85. Da er tatsächlich etwa um 2/3 des grauen Bereichs unterhalb des weißen Quadrats liegt, entspricht dies dem altersnormierten Standardwert 90. Dieser Wert wird von TDB2Online berechnet und in die Spalte ASW auf der rechten Seite eingetragen.

Bei jungen Erwachsenen weichen die altersbezogenen Standardwerte kaum von den Leistungswerten ab. Je älter ein Patient ist und je mehr die Leistung in einem bestimmten Test mit zunehmendem Alter abnimmt, umso größer ist der Unterschied zwischen Leistungswerten und altersbezogenen Standardwerten. Man sieht das deutlich in Abbildung 7, die die gleichen Testwerte zeigt wie Abbildung 6, aber dieses Mal für einen Patienten im Alter von 78 statt 38 Jahren. Die Position der schwarzen Punkte im Leistungswertgitter bleibt gleich. Was sich ändert, sind die Altersreferenzbereiche und damit die altersbezogenen Standardwerte in der Spalte ASW. Die Veränderung des Alters des Patienten wirkt sich sehr stark aus beim visokonstruktiven Pfadfindertest (TMT) und beim Gedächtnistest VLMT. Sie hat keinen Effekt bei den beiden Wortschatztests, weil es für beide Tests keine getrennten Normen für einzelne Altersbereiche gibt. (Nach den Daten anderer Wortschatztests wäre mit einem gewissen Altersabbau zu rechnen, wenn man die Normierungsuntersuchung breit genug angelegt hätte, der Effekt wäre aber viel geringer als bei TMT und VLMT).

Abbildung 7: Testleistungen wie Abbildung 6 bei einem um 40 Jahre älteren Patienten


QR-Code
QR-Code dokumentation (erstellt für aktuelle Seite)