Die ausführliche Dokumentation besteht aus zwei Teilen:
Zur schnellen Information gibt es zwei Kurzfassungen:
TDB2 und TDB2Online sind Programme zur Visualisierung von neuropsychologischen Testdaten. Sie wurden von Rolf R. Engel (Psychometrie) und Ralf Mayr (Programmierung) entwickelt. Auswertungsalgorithmen und Ergebnisdarstellung sind in TDB2 und TDB2Online identisch. TDB2Online erfasst Testrohwerte über eine einfache Online-Maske und gibt ein graphisch aufbereitetes Testprofil als pdf-File aus. TDB2 läuft dagegen innerhalb eines geschützten Datennetzes. Es führt zusätzlich eine Datenbank der Patienten- und Testdaten, unterstützt die Befundschreibung und verwaltet ein Archiv der digitalisierten Originaldokumente. TDB2 wird seit 2009 in der Psychologischen Abteilung der Psychiatrischen Klinik der LMU München eingesetzt, ein Vorläuferprogramm (TDB, „Testdatenbank“) seit 1995.
Die vorliegende Dokumentation beschreibt die generelle Vorgehensweise bei der psychometrischen Aufarbeitung und Darstellung der Testergebnisse. Zunächst werden die grundlegenden psychometrischen Konzepte dargestellt, auf die sich die Aufbereitung der Daten stützt. Theoretische Annahmen stoßen in der angewandten Diagnostik allerdings schnell an Grenzen, weil es erhebliche Insuffizienzen bei der praktischen Umsetzbarkeit von theoretischen Forderungen gibt. In der Dokumentation wird das unter dem Punkt Problembereiche in der Praxis zusammengefasst. Im Hauptteil der Dokumentation werden dann – quasi als Kompromiss aus theoretischen Desiderata und Bedürfnissen der Praxis – die allgemeinen Verfahrensweisen dargestellt, die in den Programmen benutzt werden.
TDB2Online soll und kann Tests auswerten und darstellen, die ganz unterschiedlich konstruiert sind. Für jeden einzelnen Test kommen deshalb unterschiedliche Maßnahmen zur Anwendung. In dieser Dokumentation werden nur die allgemeinen Prinzipien der Aufarbeitung und Darstellung beschrieben, unabhängig davon, ob sie nun bei einem einzelnen Test Anwendung finden (können) oder nicht. Im geschützten Bereich des TDB2Online-Wiki sind für jeden einzelnen Test die tatsächlichen Maßnahmen dargestellt, die zum Einschluss des Verfahrens in TDB2Online notwendig waren.
Die Dokumentation ist nicht für psychodiagnostische Laien bestimmt. Sie geht davon aus, dass Leserinnen und Leser eine Vorbildung in Psychodiagnostik haben, wie sie im Allgemeinen durch ein Hochschulstudium der Psychologie erworben wird. Relevante Lehrbücher wären zum Beispiel Schmidt-Atzert & Amelang (2012)1) für den Gesamtbereich der psychologischen Diagnostik und Moosbrugger & Kevala (2012)2) für den testtheoretisch-statistischen Hintergrund.
Rohwerte sind die elementaren Werte, mit denen eine Leistung in einem Testverfahren beurteilt wird. Sie hängen von der Art der Aufgabe ab. Beispiele dafür sind:
Rohwerte sind testspezifisch. Die Punkte im Mosaiktest zum Beispiel haben numerisch nichts mit den Zeiten im Trail-Making-Test zu tun, sie sind nicht einmal in die gleiche Richtung gepolt. Mit Rohwerten lassen sich Leistungen zwischen Verfahren (und damit zwischen verschiedenen Fähigkeitsbereichen) nicht vergleichen.
Zum Vergleich zwischen Personen eignen sich Rohwerte hingegen durchaus. Auch bei einem Vergleich von Gruppen (insbesondere, wenn sie hinsichtlich anderer Parameter vergleichbar sind) werden oft einfache Rohwerte verwendet.
Standardisierte Testwerte verlassen die numerische Ebene der Rohwerte. Sie beruhen auf einem Vergleich: Die Leistung des oder der aktuell Getesteten wird mit der Leistung einer Normstichprobe verglichen, die den Test zuvor schon absolviert hat. Im Idealfall stammen die Daten dazu aus Normierungsuntersuchungen an Zufallsstichproben, bei denen einige hundert Personen pro Altersgruppe getestet werden. Standardisierte Testwerte geben also die relative Stellung eines Probanden innerhalb einer sinnvollen populationsbezogenen Vergleichsgruppe an. Im Allgemeinen werden zur Standardisierung Skalen benutzt, die aus der Normalverteilung abgeleitet sind. In TDB2Online wird für alle Tests einheitlich die IQ-Skala mit dem Mittelwert 100 und der Standardabweichung 15 benutzt.
Je nach Wahl der Bezugsgruppe für den Vergleich lassen sich im Folgenden mehrere Arten von Testwerten unterscheiden, die unterschiedliche Anwendungsaspekte repräsentieren.
„Leistungswerte“ sind im allgemeinen Sprachgebrauch Messwerte, die eine bestimmte Leistung quantitativ beschreiben. Leistungswerte existieren zum Beispiel in der Stromwirtschaft, wo sie die maximal bezogene Strommenge innerhalb einer bestimmten Zeitspanne charakterisieren. In der Medizin existieren Leistungswerte für die Herztätigkeit oder die Atmung unter bestimmten Belastungssituationen. Auf psychologischem Fachgebiet wurden Leistungswerte in jüngerer Zeit in der Pisa-Studie eingesetzt, um kognitive Leistungen fächer- und länderübergreifend zu messen.
Eine wesentliche Eigenart von Leistungswerten ist es, dass alle zu messenden Objekte oder Personen mit der gleichen Skala beurteilt werden. Während das für physikalische Messwerte ohnehin gilt, werden die Ergebnisse psychologischer Tests (z.B. IQ-Werte) fast immer auf relativen Skalen angegeben, die nur für einzelne Gruppen gelten. Hier wird die Leistung im Vergleich zu Personen ähnlichen Alters oder ähnlicher Schulbildung angegeben. Dabei geht die absolute Leistungsdimension verloren und ein Vergleich von Leistungen über Altersgruppen hinweg (z.B. „Sechzigjährige sind in diesem Test um 20 IQ-Punkte schlechter als Zwanzigjährige“) ist auf Skalenwertebene nicht mehr möglich. Bei der üblichen Auswertung von Tests bleibt für einen solchen Vergleich nur die Rohwertebene, auf der dann aber der fächer- oder domänenübergreifende Vergleich zwischen verschiedenen Tests nicht mehr gegeben ist.
In der neuropsychologischen Diagnostik steht die Messung und vergleichende Beurteilung von Defiziten in unterschiedlichen Leistungsdomänen im Vordergrund. Für diese Aufgabe ist eine absolute Maßeinheit ein bedeutender Vorteil, weil damit direkte Vergleiche über die Zeit und/oder über Domänen möglich sind. Leistungswerte machen Leistungen über verschiedene Testverfahren und Rohwertarten hinweg vergleichbar. Sie liefern einen übertragbaren Maßstab zur Beurteilung kognitiver Einzelleistungen in einer standardisierten Form. Der für die Interpretation ebenfalls notwendige Bezug zum Alter lässt sich – wie in den meisten anderen Bereichen der klinischen Diagnostik – durch Altersnormwerte herstellen.
Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig (Beispiel: Subtest Allgemeines Wissen in der WAIS-IV). Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch (Beispiel: Subtest Zahlen-Symbol-Test in der WAIS-IV). Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche hinweg würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.
In prominenter Weise hatte David Wechsler dieses Prinzip mit seinen klassischen „Wertpunkten“ angewendet. Damit ermöglichte er einen Leistungsvergleich zwischen den Subtests seiner Intelligenzbatterien (etwas, was mit den Rohwerten nicht möglich ist). Diese Form der absoluten Leistungsmessung war bis zum HAWIE-R für die Profildarstellung der Leistungen in den einzelnen Subtests vorgesehen (in der Testdokumentation zur WAIS-IV stehen Details dazu). Sie wurde beim WIE und aktuell auch bei der WAIS-IV zugunsten einer altersabhängigen Darstellung der Subtestleistungen aufgegeben, wodurch der absolute Leistungsmaßstab verloren ging.
Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene, ein prominentes Beispiel dafür ist die CERAD-Testbatterie. Bei diesen Tests stammen die Normen meistens von Probanden im höheren Altersbereich. Aus pragmatischen Gründen bleibt einem nichts anderes übrig, als die Leistungswerte dann auf diese Personen zu beziehen. Einzelheiten dazu stehen weiter unten im Abschnitt über die Berechnung der Leistungswerte.
Altersnormierte Standardwerte wurden eingeführt, um die Interpretation der Leistungsfähigkeit eines einzelnen Patienten im Vergleich zu seiner Alterskohorte zu erleichtern. Auch bei ihnen handelt es sich um Standardwerte, genau wie bei den Leistungswerten. Der Unterschied liegt darin, dass die Bezugsbasis für die Standardisierung aus dem Teil der Normstichprobe kommt, der altersmäßig mit dem Patienten vergleichbar ist. Diese Werte sind für eine absolute Leistungsbeurteilung über verschiedene Testverfahren hinweg kaum brauchbar, weil verschiedene Fähigkeiten sich im Altersverlauf unterschiedlich verändern. Sie sind aber eine wichtige Interpretationshilfe bei der Beurteilung der Leistung eines einzelnen Patienten im Vergleich zu seiner Alterskohorte. Die klinische Beurteilung im verbalen Testbefund stützt sich im Wesentlichen auf die altersnormierten Standardwerte. Die manuelle Auswertung liefert bei den meisten Testverfahren neben den Rohwerten meistens nur diese altersnormierten Standardwerte, keine altersunabhängig standardisierten Leistungswerte.
Es gibt einen erheblichen inhaltlichen Unterschied zwischen Leistungswerten und altersnormierten Standardwerten. Bei den Leistungswerten handelt es sich um tatsächliche „Messwerte“. Sie sind lediglich in einer für alle Probanden gleichen Weise (mit einer für alle gleichen Formel) in Standardwerte transformiert. In den altersnormierten Standardwert gehen dagegen Informationen ein, die nicht für alle Personen gleich sind. Für jede Altersgruppe gilt ein anderer Umrechnungsweg vom Rohwert zum Standardwert. Mit diesen Werten verlässt man die Ebene der Messung und betritt die Ebene der Interpretation. Davon später mehr.
Als Maßstab für kognitive Leistungen werden im Allgemeinen Skalen verwendet, die aus der Normalverteilung abgeleitet sind. Die einfachste Variante wäre es, wenn man dazu die Abszissenwerte der Normalverteilung, die bekannten z-Werte, hernehmen würde. Diese haben einen Mittelwert von Null und eine Standardabweichung von 1. Der für klinische Zwecke relevante Merkmalsbereich läge also ungefähr zwischen -4 und +3. Nun eignen sich z-Werte für die Kommunikation nicht sonderlich gut, weil man mit Kommawerten und negativen Zahlen umgehen müsste. Deshalb werden seit Jahrzehnten nur daraus abgeleitete Skalen benutzt. Die wichtigsten davon zeigt Abbildung 1.
Die IQ-Skala wird meistens bei der Messung kognitiver Fähigkeiten benutzt, die T-Skala eher bei Persönlichkeitstests. Die in Deutschland bei Intelligenztests durchaus beliebte Standardwertskala mit einem Mittelwert von 100 und einer Standardabweichung von 10 ist international kaum gebräuchlich.
Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der Abbildung 1 erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man berechnen oder ausführlicheren Tabellen entnehmen kann.
Abbildung 1: Normalverteilung und einige der von ihr abgeleiteten Standardskalen
Die IQ-Skala hat die angenehme Eigenschaft, dass sich leicht zu merkende und interpretativ sinnvolle verbale Beschreibungen für bestimmte Skalenabschnitte anbieten. Zwischen den IQ-Werten 90 und 110 liegen rund 50 Prozent der Normstichprobe. Nach den hier etwas vereinfachten und geglätteten Empfehlungen von David Wechsler lässt sich dieser Bereich sprachlich als „durchschnittlich“ bezeichnen, gelegentlich natürlich auch mit zusätzlichen qualifizierenden Bemerkungen („unterer Durchschnittsbereich“, „am oberen Rand des Durchschnitts“, o. ä.). Der IQ-Bereich von 80-90 umfasst rund 16 Prozent und wird als „niedrig“ o.ä. bezeichnet, darunter liegt mit 70-80 der „sehr niedrige“ Bereich (rund 7 %), und noch darunter (unter 70) der „extrem niedrige“ Bereich. Dieser macht statistisch (von der Normalverteilung gesehen) rund 2,3 % aus (in der Realität ist er um 1 bis 2 Prozentpunkte größer, weil sich in diesem Bereich die krankheitsbedingten Minderbegabungen (genetisch/pränatal/perinatal) finden, die dafür verantwortlich sind, dass kognitive Fähigkeiten keine ganz symmetrischen Verteilungen aufweisen). Der obere Intelligenzbereich wird entsprechend aufgeteilt, Tabelle 1 gibt die Übersicht dazu.
Tabelle 1: Interpretationsbereiche der IQ-Skala
Bereich | Anteil | Qualifizierung |
---|---|---|
unter 70 | 2,3 | extrem niedrig |
70-80 | 6,9 | sehr niedrig |
80-90 | 16,1 | niedrig |
90-110 | 49,5 | durchschnittlich |
110-120 | 16,1 | hoch |
120-130 | 6,9 | sehr hoch |
über 130 | 2,3 | extrem hoch |
Bei jeder Ordinalskala ist die Bildung einer Prozentrangskala möglich. Dafür ist keine Normalverteilung des Merkmals notwendig, nicht einmal eine unimodale Verteilung. Die Prozentrangskala gibt die relative Stellung einer Person innerhalb der gesamten Normierungsstichprobe als Prozentrang (PR) wieder. Hat ein Proband den Prozentrang 90, dann haben 90 Prozent der Normierungsstichprobe eine geringere, 10 Prozent eine bessere Leistung als er erreicht.
Die Verwendung der Prozentrangskala bei der Messung kognitiver Fähigkeiten hat große Tücken. Normalerweise kann man davon ausgehen, dass kognitive Fähigkeiten eine unimodale Verteilung aufweisen, häufig auch eine ziemlich symmetrische. Bei solchen normalverteilungs-ähnlichen Verteilungen hat die Prozentrangskala die unangenehme Eigenschaft, dass ihre Skalenwerte nicht äquidistant sind. Die Prozentränge 40 und 60 liegen auf der Skala, die einer solchen Verteilung zugrunde liegt, näher beieinander als die Prozentränge 60 und 80. Wir sind nicht daran gewöhnt, mit Skalen umzugehen, deren Werte einen nichtlinearen Bezug zur zugrundeliegenden Messgröße haben. Die Prozentrangskala wäre nur dann äquidistant, wenn das zugrundeliegende Merkmal die Form einer Rechteckverteilung hätte.
Die Prozentrangskala eignet sich deshalb letztlich nur zur groben Bildung von Klassen, etwa in dem Sinne, dass sie Personen unterhalb eines PR von 16 von denen oberhalb dieses Prozentrangs abgrenzt.
Die der Normalverteilung zugrundeliegende Skala der z-Werte erfüllt die Merkmale einer Intervallskala, weil alle Differenzen zwischen benachbarten Skalenwerten gleich groß sind. Ohne dieses Merkmal wäre die Form der Verteilung nicht definiert.
Für viele Rohwertskalen, mit denen wir kognitive Leistungen bewerten, gilt dies nicht unbedingt. Rohwerte, die auf der Anzahl richtiger Antworten basieren, liefern meistens näherungsweise symmetrische Verteilungen, zumindest dann, wenn es keine Deckeneffekte gibt. Rohwerte, die auf Fehlerhäufigkeiten oder auf Zeitmaßen basieren, liefern hingegen häufig stark asymmetrische, linksgipflige Verteilungen, die auf einem Bodeneffekt beruhen: Nach unten (gegen Null hin) hat die Skala eine Grenze, die nicht unterschritten werden kann, nach oben ist die Zeit bzw. die Fehlerhäufigkeit dagegen kaum begrenzt. Diese Verteilungen haben zusätzlich die unangenehme Eigenschaft, dass bei Subgruppen die Standardabweichungen mit den Mittelwerten korreliert sind: Personengruppen, die mehr Zeit brauchen (also zum Beispiel die älteren Personen) haben auch höhere Standardabweichungen. Solche Skalen erfüllen nicht mehr die Voraussetzungen einer Intervallskala, weil gleiche Unterschiede an unterschiedlichen Stellen der Skala eine unterschiedliche Bedeutung haben. Beim Trail Making Test A zum Beispiel ist eine Verbesserung der Leistung von 20 Sekunden auf 15 Sekunden ein gewaltiger Schritt. In diesem Bereich ist die Verteilungskurve nämlich sehr steil. Eine Verbesserung von 70 auf 65 Sekunden ist dagegen inhaltlich unbedeutend. Beide Werte charakterisieren eine sehr schlechte Leistung. Hier ist die Verteilungskurve sehr flach. Gleiche Rohwertdifferenzen sind hier also inhaltlich unterschiedlich bedeutsam.
Wir haben gute Gründe zur Annahme, dass kognitive Leistungen normalverteilt sind. Nicht-normale Rohwertverteilungen sind eine Folge davon, dass die gewählte Rohwertskala nicht zur Messung der kognitiven Leistung geeignet ist, zumindest nicht ohne Transformation. Erst wenn durch eine Transformation der Rohwerte eine Normalverteilung hergestellt ist, entspricht die (neue) Skala einer Intervallskala, die für die Messung einer kognitiven Leistung geeignet ist.
Bei der Testkonstruktion und/oder der Normwerterstellung wird mit diesem Problem unterschiedlich umgegangen. Viele Testautoren ignorieren das Problem, manche versuchen eine Lösung zu finden. Letztlich ist nur eine Linearisierung der Skala durch die Anpassung der Rohwertverteilung an eine Normalverteilung in der Lage, die Nachteile einer nicht-linearen Verteilung zu beseitigen. Dazu gibt es verschiedene Methoden, die im Folgenden diskutiert werden.
Arithmetische Transformationen haben den Vorteil, dass sie wiederholbar in beide Richtungen durchgeführt werden können. Allerdings lässt sich nicht immer eine Formel finden, die die Rohwertverteilung normalisiert. Manchmal gibt es Erfahrungswerte. Mit einer Quadratwurzeltransformation oder einer Arcus-Sinus-Transformation lässt sich die eine oder andere Rohwertverteilung normalisieren. Auch gibt es allgemeine Gleichungsfamilien, mit denen sich unimodale Verteilungen oft normalisieren lassen. Es bleiben aber manche Fälle übrig, bei denen sich keine Formel für eine befriedigende Linearisierung finden lässt.
Mit der allgemeinen Flächentransformation lässt sich jede Verteilung normalisieren. Die Transformation finden hier nicht auf der Ebene der Skalen, sondern auf der Ebene der Verteilungsfunktion statt. Die nichtnormale Verteilungsfunktion der Ursprungsskala wird in die einer Normalverteilung überführt, indem man den empirischen Perzentilen der kumulierten Ursprungsverteilung den Abszissenwert zuordnet, der diesem Perzentil bei einer kumulierten Normalverteilung entspricht.
Der Nachteil dieses Vorgehens besteht darin, dass man keine Funktion für die Transformation angeben kann. Die Übergangsfunktion ist rein empirisch determiniert und nur durch die Stützstellen definiert, die eine Wertetabelle von Roh- und Standardwerten liefert. Die meisten Rohwerte sind allerdings fein genug gradiert, um eine ausreichende Zahl von Stützstellen zu liefern. Schwierig wird es, wenn die tatsächlich vorkommenden Rohwerte in der Menge begrenzt sind. Dies ist zum Beispiel bei manchen Gedächtnistests der Fall, wenn etwa nur Rohwerte zwischen 0 und 10 vorkommen.
Psychodiagnostiker/inn/en messen oder schätzen psychologische Merkmale und leiten daraus Aussagen von aktueller oder zukünftiger praktischer Relevanz ab. Um diese Urteilsbildung in nachvollziehbare Bahnen zu lenken, geben die Testautoren den Testanwendern im Allgemeinen Hilfsmittel an die Hand. Ein wichtiges Hilfsmittel für die Interpretation ist die Normierung der Testwerte. Mit dem Begriff der Normierung sind hier alle numerischen Prozesse gemeint, die ein Testautor zwischen der Erhebung des Rohwerts und der Feststellung des Testwerts vorschreibt. Schaut man sich die im klinischen Umfeld verwendeten Tests an, dann stößt man auf sehr große Unterschiede in der Elaboriertheit der Normen. Die Spannbreite geht von der Verwendung von Rohwerten mit einfachen Cut-off-Werten auf der einen Seite bis hin zu sehr komplexen Testwerten, die den Einfluss mehrerer Variablen mit einrechnen. Viele Anwender sind sich des Unterschieds zwischen den diversen Techniken nicht immer hinreichend bewusst.
Bei manchen Testverfahren werden Testwerte nur als Rohwerte mitgeteilt. Beispiele dafür sind etwa die Mini Mental State Examination (MMSE) oder die Frontal Assessment Battery (FAB)3).
Das hat keineswegs nur Nachteile. Die gesamte Labormedizin arbeitet praktisch nur mit Rohwerten. Auf jeden Fall erleichtert es erst einmal die Kommunikation, wenn es für eine bestimmte Variable auch nur eine Art von Messwert gibt. Allerdings muss man einen Test schon sehr gut kennen, wenn man unmittelbar mit den Rohwerten etwas anfangen will.
In der Labormedizin wird häufig ein Grenzwert (Cut-off-Wert) verwendet, um den pathologisch auffälligen Wertebereich von einem unauffälligen Normalbereich abzugrenzen. Manchmal ist der Normalbereich auch auf beiden Seiten durch Cut-off-Werte begrenzt. Auch der auffällige Bereich kann durch mehrere Cut-off-Werte in unterschiedliche Zonen oder Stadien eingeteilt werden.
Am Beispiel der Mini Mental State Examination (MMSE) kann man das erläutern. Dort besteht der Normalbereich nur aus den Werten 28 bis 30, alles unter 28 ist schon auffällig. Auch der auffällige Bereich ist unterteilt. Von 27 bis 24 spricht man im Allgemeinen nur von einer „leichten kognitiven Störung“. Unter 24 beginnt der Demenzbereich.
Mit solch einer groben Einteilung kann man als Kliniker durchaus leben. Man weiß und berücksichtigt, dass die MMSE nur einer von vielen Indikatoren für eine Demenz ist, dass die diversen Hinweise durchaus widersprüchlich sein können und dass jeder einzelne deshalb klinisch gewichtet werden muss. Auch als Diagnostiker kann man damit leben, zumindest dann, wenn in den zu schreibenden Befundbericht noch weitere Beobachtungen und Tests eingehen.
Bei manchen Tests ist eine Normierung durch die Bildung von Standardwerten schon deshalb nicht sinnvoll, weil das gemessene Merkmal keine Normalverteilung aufweist. Speziell die MMSE überspannt als Test einen so weiten Bereich, dass eine Normierung an Hand der Normalverteilung allenfalls in der Nähe des Normalbereichs möglich ist (Näheres bei der Beschreibung der Aufbereitung der MMSE-Normdaten).
Die meisten psychologischen Testverfahren benutzen heute Standardwerte. Bei der einfachsten Variante werden der Mittelwert und die Standardabweichung der kompletten Normierungsstichprobe für die Bildung von Standardwerten benutzt. Bei vielen Persönlichkeitstests wird das so gemacht. Bei Leistungstests sind hingegen nur die wenigen Verfahren so normiert, bei denen der Alterseffekt auf die Leistung gering ist. Beispiele dafür sind der Wortschatztest (WST) oder der Mehrfachwahl-Wortschatztest (MWT-B)4). Bei beiden werden die Rohwerte an Hand einer für alle Testnehmer gleichen Tabelle in Standardwerte umgerechnet.
Die direkte Umrechnung von Rohwerten in Standardwerte an Hand des Mittelwerts und der Standardabweichung der Rohwertverteilung ist nur gerechtfertigt, wenn die Rohwertverteilung in etwa einer Normalverteilung entspricht und der Effekt des Alters auf die Testleistung gering ist.
Bei vielen Tests mit asymmetrischen Verteilungen beinhaltet die Umrechnung in Standardwerte auch eine Linearisierung. Meistens ist sie implizit in Tabellen eingearbeitet, wie zum Beispiel bei der Umrechnung von Rohwerten in Wertpunkte bei den Subtests aller Wechsler-Tests.
Bei vielen kognitiven Tests (für Kinder wie für Erwachsene) werden Rohwerte in altersabhängige Standardwerte transformiert. Die kognitive Leistungsfähigkeit von Kindern und Jugendlichen nimmt mit zunehmendem Alter zu, die von Erwachsenen nimmt (im höheren Altersbereich) ab. Da diese Prozesse für die kognitiven Fähigkeitsdomänen höchst unterschiedlich verlaufen, können altersnormierte Standardwerte die Interpretation erheblich erleichtern. Man sollte aber nicht vergessen, dass – wie wir weiter oben schon gesehen haben – damit die Ebene der Messung verlassen wird.
Die zunehmende Verwendung von Computern in der Auswertung von Tests erleichtert es Testautoren, noch weitere Merkmale in die Berechnung von Standardwerten einzubeziehen. Indikatoren für den Bildungsverlauf, also zum Beispiel die Anzahl der Schuljahre, oft auch Merkmale wie Geschlecht oder Rasse, sind, vor allem in USA, aber zunehmend auch in Europa, beliebte Prädiktoren. Meist werden die Standardwerte dann über Regressionsgleichungen berechnet. Wir sehen diese Praxis kritisch, weil der Diagnostiker nicht mehr nachvollziehen kann, wie ein Standardwert zustandekommt. Um ein Beispiel zu geben: Bei einem Probanden mit hohem Alter und hoher Bildung führt sein Alter zu einer Erhöhung des Standardwerts (im Vergleich mit jüngeren Probanden), seine Bildung zu einer Erniedrigung (im Vergleich mit weniger Gebildeten). In welchem Ausmaß beide Faktoren für den so errechneten Standardwert wirksam geworden sind, lässt sich nicht mehr erkennen, ohne dass man die Formel der Regressionsgleichung analysiert.
Die Berücksichtigung von Merkmalen der Person, von Auswirkungen der Erkrankung oder von Umständen der Untersuchungssituation sind in allen klinischen Disziplinen für die Interpretation von Befunden wichtig. Dies gilt in der Testdiagnostik genau so wie in jeder anderen klinischen Diagnostik. Normalerweise werden biographische Merkmale dabei aber erst sekundär berücksichtigt. Der Messwert selbst bleibt davon unberührt. Eine übliche psychodiagnostische Untersuchung besteht aus mehreren Tests und Subtests aus verschiedenen kognitiven Domänen und meist auch aus unterschiedlich konstruierten Testverfahren. Es gibt wenig Sinn, wenn nun ein Teil dieser Tests und Subtests biographische Merkmale (von Test zu Test auch oft noch unterschiedliche) durch arithmetische Operationen in einen einzigen Standardwert packt. Ein solcher Standardwert ist nur noch ein Konstrukt, das Anteile des Messwerts und Anteile der einbezogenen biographischen Hintergrundinformationen in einer für den Endanwender praktisch nicht mehr nachvollziehbaren Weise kombiniert.
Wie bei vielen anderen Intelligenztestbatterien ist es auch bei den Wechsler-Tests üblich, einen Indexwert für einige (z. B. Verbal-IQ, Handlungs-IQ) bzw. alle Subtests (Gesamt-IQ) zu bilden. Die Praxis geht auf den Beginn der Intelligenztestdiagnostik zurück, als vor allem die globale intellektuelle Begabung erfasst werden sollte und weniger deren Struktur. In der aktuellen neuropsychologischen Diagnostik liegt der Fokus dagegen auf der differenzierten Erfassung von Einzelleistungen und weniger auf pauschalen Begabungskennwerten.
Die gleichzeitige Erfassung von Einzelleistungen und Globalwerten hat nun gewisse psychometrische Tücken. An einem Beispiel kann man das schnell erklären. Nehmen wir an, zwei Einzelleistungen (Allgemeinwissen und Kopfrechnen) sollen auf einer IQ-Skala mit Mittelwert 100 und Standardabweichung 15 sowohl einzeln erfasst und dargestellt als auch zu einer Globalleistung im Sinne eines „Verbal-IQ“ kombiniert werden. Als psychometrisch naiver Betrachter denkt man vermutlich, dies sei einfach und der Verbal-IQ errechne sich als Mittelwert der beiden Einzelleistungen. Dem ist aber keineswegs so, weil in den herkömmlichen IQ-Tests die Einzelleistungen und die Gesamtwerte getrennt standardisiert werden. Die doppelte Standardisierung führt dazu, dass die Korrelation zwischen den beiden Subtests darüber entscheidet, ob für die Kombination die gleiche oder eine andere Metrik verwendet wird. Je niedriger die Korrelation zwischen den Subtests ist (und je größer die Anzahl der einbezogenen Subtests ist) desto mehr weicht die neue Metrik von der alten ab.
Tabelle 2 zeigt die Konsequenzen an unserem einfachen Beispiel. Wenn beide Subtestwerte 100 betragen und damit genau in der Mitte der Verteilung liegen, spielt die Höhe der Korrelation keine Rolle. In diesem Fall beträgt der kombinierte „Verbal-IQ“ immer 100. Anders wird es, wenn die Einzelwerte von 100 abweichen. Betragen beide Einzelwerte genau 85 IQ-Punkte, dann wäre der „Verbal-IQ“ nur dann auch 85, wenn die beiden Einzelleistungen mit 1 miteinander korrelieren. In der Praxis liegen die Korrelationen zwischen Subtests, die zu einem Gesamtwert verrechnet werden, meist irgendwo zwischen .30 und .70. Bei der schon relativ hohen Korrelation von .70 sinkt der „Verbal-IQ“ auf 84 statt 85 ab, bei der eher niedrigen von .30 schon auf 81 statt 85. Je extremer sich die Einzelwerte vom Mittelwert der Verteilung entfernen desto größer werden auch die Unterschiede. Liegen die Einzeltestwerte bei 70 IQ-Punkten, dann verringert sich der „Verbal-IQ“ bei einer Korrelation von .70 auf 66 Punkte, bei einer Korrelation von .30 auf 63 Punkte. Der Effekt ist symmetrisch: Bei hohen Testwerten erhöht sich der „Verbal-IQ“ entsprechend. Der Spreizfaktor für die Metrik wird umso größer je niedriger die Korrelation zwischen den Subtests ist und je mehr Subtests kombiniert werden.
Tabelle 2: Auswirkungen einer getrennten Standardisierung auf die Metrik
Einzelleistungen | Korrelation | Globalleistung („Verbal-IQ“) |
---|---|---|
100 | 1 | 100 |
.00 | 100 | |
85 | 1 | 85 |
.70 | 84 | |
.30 | 81 | |
.00 | 79 | |
70 | 1 | 70 |
.70 | 66 | |
.30 | 63 | |
.00 | 58 | |
130 | 1 | 130 |
.70 | 134 | |
.30 | 137 | |
.00 | 142 |
Diese psychometrischen Beziehungen zwischen Subtests und Globalmaßen sind altbekannt. Sie ergeben sich aus der Gleichung für die Varianz der Summe von Zufallsvariablen, in die neben der Varianz der Einzelvariablen auch die Kovarianz zwischen den Variablen eingeht (Formel zum Beispiel hier). Das wird in Statistikkursen auch oft gelehrt. Die unterschiedliche Metrik von Subtests und IQ-Werten fiel in der klinischen Diagnostik aber selten auf. Dazu trug bei, dass Wertpunkte mit (10;3) und IQs mit (100;15) standardisiert sind. Solange man beide Standardisierungsarten nicht im gleichen Profilblatt aufträgt, ist die diskrepante Metrik kaum zu bemerken.
Das änderte sich im Erwachsenenbereich mit der Einführung des HAWIE-R als Nachfolger des HAWIE. Damals wunderten sich viele Praktiker darüber, dass speziell bei niedrig Begabten die mit dem neuen HAWIE-R berechneten IQs viel niedriger waren als die zuvor mit dem HAWIE bestimmten. Dies konnte zum einen mit dem Phänomen des IQ-Zugewinns der Bevölkerung über die Zeit hinweg zusammenhängen (Flynn-Effekt). Der von Flynn erstmals beschriebene Langzeittrend einer steigenden Intelligenz in der zweiten Hälfte des 20. Jahrhunderts führt dazu, dass neuere und damit später normierte Verfahren niedrigere IQs messen als ältere. Allerdings erklärte das beim Wechsel von HAWIE zu HAWIE-R nur einen Teil der Differenz. Der andere Teil kam daher, dass die mittlere Interkorrelation der Subtests in der Standardisierungsstichprobe des HAWIE-R (warum auch immer) lediglich .40 betrug, in den für die IQ-Berechnung benutzten Altersklassen 20-34 Jahre sogar nur .32, beides deutlich niedriger als beim alten HAWIE, wo die mittlere Subtestinterkorrelation etwa bei .60 lag. Die niedrigere Interkorrelation der Subtests in der Standardisierungsstichprobe führte beim HAWIE-R zu einer größeren Spreizung der Metrik der IQs im Verhältnis zur Metrik der Subtests, ein Effekt, der sich im Besonderen in den Extremen der Verteilung auswirkt und dementsprechend vor allem in der Minderbegabtendiagnostik auffiel.
Abbildung 2 zeigt das an einem Beispielfall eines 31-jährigen Probanden mit niedriger Begabung, der in sämtlichen Subtests des HAWIE-R lediglich vier Wertpunkte erzielte. Die klassischen, nicht altersabhängigen Wertpunkte des HAWIE-R haben einen Mittelwert von 10 und eine Standardabweichung von 3. Vier Wertpunkte entsprechen deshalb einem Wert von 70 auf der IQ-Skala. Wegen der niedrigen Interkorrelation der Subtests betragen aber die tatsächlich bestimmten Teil-IQs statt der naiv erwarteten 70 nur 57 für den Verbalteil und 57 für den Handlungsteil. Weil der Effekt auf die Testmetrik umso größer wird, je mehr Subtests einbezogen werden, beträgt der Gesamt-IQ nur 48. Auf Grund der Subtestergebnisse hätte man einen von 70 erwartet, nach den Teil-IQs einen von 57. Abbildung 2 wurde mit einem alten Programm erzeugt, das die nach Handbuchvorschrift berechneten Wertpunkte und IQs darstellte und lediglich den altersspezifisch erwarteten Normbereich zusätzlich einzeichnete.
Abbildung 2: Beispiel für die unterschiedliche Metrik von Subtests und IQs beim HAWIE-R
Niemand kann in der Praxis mit solch unterschiedlichen Metriken umgehen. Die Idee, dass zu unterschiedlichen Aggregationsgraden der Tests und Subtests auch unterschiedliche Metriken gehören, ist wegen der unvollständigen Kovarianz der Einzeltests psychometrisch zwar stimmig, praktisch dagegen unerwartet und störend. Dass viele „niedrige“ Einzelleistungen zu einem „sehr niedrigen“ oder gar „extrem niedrigen“ Gesamtergebnis führen, ist den meisten Diagnostikern nicht vertraut. Auch für die Empfänger psychologischer Befundberichte, im Allgemeinen psychometrische Laien, ist eine variable Metrik nicht nachvollziehbar. In der Alltagspraxis sind Gesamtnoten Durchschnitte von Einzelnoten. In der Schule führen vier Einzelnoten von „ausreichend“ zu einer Gesamtnote von „ausreichend“ und nicht zu einer von „mangelhaft“. Wollte man die wegen der unvollständigen Kovarianz der Subtests psychometrisch richtige Aggregation tatsächlich beibehalten, müsste man die verbalen Umschreibungen der Testergebnisse an die Testebenen anpassen. Dies ist allerdings schwierig, weil die Verhältnisse von Test zu Test und von Normierung zu Normierung unterschiedlich sind.
Abbildung 3: Mittlere Leistungswerte als Ersatz für die Intelligenzquotienten
In einem neuropsychologischen Kontext geht es um die differenzierte Erfassung unterschiedlicher Fähigkeiten und deren vergleichende Bewertung. Deshalb wird im TDB2-Profil ausschließlich die Metrik der Einzeltests verwendet. Jede Einzelleistung wird in einem über verschiedene Verfahren vergleichbaren Leistungswert dargestellt. Globalwerte werden in TDB2 nicht in einer eigenen Standardisierung dargestellt, weil diese zu einer anderen Metrik führen würde. Statt dessen werden die Leistungswerte der Einzelverfahren zu Globalwerten gemittelt. Abbildung 3 zeigt an einem Beispielfall, dass die gleichen Testleistungen wie in Abbildung 2 im TDB2-Profil zu mittleren Leistungswerten agglutiniert werden, die auf dem gleichen metrischen Niveau liegen wie die Einzelleistungen. Wie sonst auch werden zusätzlich die Altersnormgrenzen eingeblendet und ein alterskorrigierter Standardwert (ASW) für den Aggregatwert berechnet und in der rechten Spalte des Profils dargestellt. Diese alterskorrigierten Standardwerte entsprechen in ihrer Zusammensetzung den üblichen Intelligenzquotienten. Sie sind altersstandardisiert und geben die durchschnittliche Fähigkeit über die einbezogenen Subtests an. Im Gegensatz zu den herkömmlichen Intelligenzquotienten sind sie aber in der gleichen Metrik ausgedrückt wie die Subtests. Sprachlich grenzen wir sie von den Intelligenzquotienten bei HAWIE-R, WIE und WAIS-IV bzw. von den Indexwerten bei WIE und WAIS-IV dadurch ab, dass wir von mittleren alterskorrigierten Standardwerten (100;15) sprechen.
Beim praktischen Einsatz von psychodiagnostischen Verfahren dürfte kaum ein singuläres Methodenmerkmal schwerer wiegen als die Adäquatheit der Normen. Theoretisch ist klar, dass sich nur durch die Untersuchung repräsentativer Zufallsstichproben adäquate Normen herstellen lassen. Leider finden sich solche Stichproben bei real existierenden Testverfahren, insbesondere bei kognitiven Leistungstests, so gut wie nie. Selbst bei etablierten, in Testverlagen publizierten Testverfahren bleiben die Beschreibungen der Stichprobenziehung einsilbig. Offensichtlich hat sich hier noch kein Standard etabliert. Für den Anwender ist es oft extrem schwierig, die Adäquatheit einer Normstichprobe nach den Beschreibungen in den Testhandbüchern zu beurteilen. Dies gilt auch dann, wenn die Größe der Normstichprobe durchaus zufriedenstellend wäre: Gegen systematische Verzerrungen bei der Ziehung der Stichprobe helfen aber auch große Zahlen nichts.
Besonders problematisch sind die Normquellen bei manchen klassischen neuropsychologischen Standardverfahren, die von keinem Testautor und keinem Testverlag (mehr) betreut werden. Prominente Beispiele sind die Trail Making Tests, der Halstead Category Test und fast alle verbalen Gedächtnistests. Für diese Tests gibt es meistens kein Standardhandbuch. Hier verlassen sich die meisten Anwender auf kursorische und ad hoc zusammengestellte Normtabellen in neuropsychologischen Standardwerken5) 6) 7). Da es davon allerdings mehrere gibt, die auf unterschiedliches Material zurückgreifen, ist es kaum zu vermeiden, dass in der Praxis auch mal höchst unterschiedliche Normquellen verwendet werden, die im Einzelfall zu hochgradig abweichenden Ergebnissen kommen.
Bei der Erarbeitung von Normen für alte und sehr alte Probanden stellen sich Probleme, die - zumindest in diesem Ausmaß - bei Erwachsenen im arbeitsfähigen Alter nicht auftreten. Das Primat einer Bevölkerungsrepräsentativität der Stichprobe kann ins Wanken geraten, wenn mit zunehmendem Alter immer mehr externe Ursachen einer kognitiven Minderleistung auftreten. Dabei stellt sich dann die Frage, inwieweit man Personen aus der Normstichprobe ausschließen soll, die wegen klar benennbarer Ursachen, insbesondere wegen Krankheit, derzeit (oder auch andauernd) nicht im Vollbesitz ihrer kognitiven Leistungsfähigkeit sind. Viele Untersucher halten auch hier an Zufallsstichproben fest, andere streben Idealstichproben ausschließlich gesunder Probanden an. In der Testdokumentation zur Mini Mental State Examination wird diesem Problem anlässlich sehr divergierender Normierungsergebnisse weiter nachgegangen.
Unter Psychodiagnostikfachleuten dürfte es unbestritten sein, dass Testverfahren von Zeit zu Zeit überarbeitet und neu normiert werden sollten. Über die Länge der zumutbaren Intervalle zwischen zwei Auflagen gehen die Meinungen dagegen schon auseinander. Zumindest die auflagenstärkeren Testverfahren, die sich in der Praxis gut etabliert haben, werden tatsächlich alle 5 bis 20 Jahre revidiert und dabei gelegentlich auch neu normiert. Leider ist das Beharrungsvermögen der Testanwender in den meisten Fällen hoch: Es kommt zu der Situationen, dass jüngere Diagnostiker die neueren Versionen eines Tests einsetzen, die älteren aber meist bei den alten bleiben. Es dürfte weitgehend unbekannt sein, dass sich manchmal von einer Auflage zur anderen massive Normverschiebungen ergeben können. Die Texte oder Vorwörter der Handbücher sind leider keine gute Quelle, wenn man Informationen darüber sucht. So gut wie nie gibt es Daten zur Äquivalenz der neuen Normen mit den alten, man muss als Anwender schon die Tabellen selbst analysieren. Beim d2, einem Testverfahren, das regelmäßig revidiert wurde, fanden sich zum Beispiel zwischen der 7. und 8. Auflage so massive Unterschiede in einzelnen Altersgruppen, dass die Abweichungen schon mal 15 Standardwerte betragen konnten. Leider zählt die Angabe der benutzten Auflage eines Testverfahrens in einem Testbefund eher zu den Ausnahmen als zur Regel.
Ähnlich problematisch sind Tests, von denen es mehrere Varianten gibt, sei es im Testmaterial oder in den Durchführungsanweisungen. Für die beiden Trail Making Tests A und B waren eine Zeit lang unterschiedliche Vorlagen in Anwendung. Eine der Vorlagen, die mit Serifen im Schrifttyp, war von Personen mit Sehschwäche viel schlechter zu erkennen als die andere. Bei der Mini Mental State Examination gibt es in der Praxis diverse Durchführungsvarianten, die meist nicht explizit angegeben werden. In der Arbeitsgedächtnisaufgabe dieses Tests wird manchmal ein Wort (es sind unterschiedliche in Gebrauch) rückwärts buchstabiert, manchmal wird dagegen rückwärts gerechnet. Bei der TAP gibt es in vielen Untertests noch mal Varianten. In zu vielen Testbefunden wird nicht erwähnt, welche dieser Varianten eingesetzt wurde. Die Liste ließe sich leicht verlängern, zum Beispiel bei den diversen Gedächtnistests. Auch bei den möglichen Auswertungsvarianten wird selten genau spezifiziert, welche Normen verwendet wurden (etwa allgemeine oder schulspezifische Normen).
Die in TDB2Online eingeschlossenen Tests werden nach einem einheitlichen Schema bearbeitet, wobei nicht bei jedem Test alle Schritte zur Anwendung kommen. In diesem Abschnitt werden die allgemeinen Verfahrensweisen und Techniken bei der Bearbeitung der Tests dargestellt und wo nötig begründet. Was davon bei einem einzelnen Test zur Anwendung kommt, ist in den testspezifischen Texten dargestellt.
TDB2 ist ein Projekt, das aus der klinisch-psychodiagnostischen Praxis entstanden ist. Die eingeschlossenen Testverfahren sind diejenigen, die von den diagnostisch tätigen Psycholog/inn/en der psychiatrischen Universitätsklinik im Klinikum der LMU München so häufig benutzt werden (oder wurden), dass der Einschluss sich lohnt(e). Das Auftauchen veralteter Verfahren auf der Liste ist keine Aufforderung zu deren Einsatz in der Praxis. Die alten Tests verbleiben nur in der Datenbank, weil früher Befunde mit ihnen erstellt wurden.
Die Liste ist nicht abgeschlossen, neue Verfahren können hinzukommen. Anregungen dazu sind willkommen.
Alle testspezifischen Texte beginnen mit einer Beschreibung des Tests, und zwar einer Beschreibung genau der Version, auf die sich die Normen von TDB2Online beziehen. Bei publizierten Tests, deren Handbücher gut erhältlich sind, fällt die Beschreibung eher knapp aus. Falls es mehrere Auflagen eines Tests gibt, wird genau die Auflage beschrieben, für die die Normen gelten. Bei „verwaisten“ Tests, um die sich kein Testverlag (mehr) kümmert oder die nie einen hatten, wird das Testmaterial ausführlicher beschrieben, weil es häufig diverse Varianten gibt. Wenn möglich werden auch Bezugsquellen erwähnt. Einen besonderen Stellenwert hat die Beschreibung der Copyright-Situation, die nach bestem Wissen gegeben wird.
Manche der in TDB2Online eingeschlossenen Tests bestehen aus sehr vielen Subtests, von denen in der Praxis nicht alle gleich häufig eingesetzt werden. Beispiele dafür sind die Testbatterie zur Aufmerksamkeitsprüfung (TAP)8) oder der Regensburger Wortflüssigkeitstest (RWT)9). Für die Auswahl der Subtests in TDB2Online gilt das Gleiche wie für die Auswahl der Tests: Nur diejenigen Subtests sind eingeschlossen, die in der Psychiatrischen Klinik der LMU so häufig durchgeführt wurden, dass der Einschluss sich lohnte. Dabei spielte auch die Größe und Qualität der Normbasis (zum Beispiel bei der TAP) eine große Rolle. Wenn bei einem Test oder Subtest eine besondere Durchführungsvariante gewählt wurde, wird das beschrieben.
Die Eigenschaften der Rohwerte eines Tests werden in einem eigenen Absatz beschrieben. Normalerweise sind das keine langen Abschnitte, weil die Kodierungsregeln für die Rohwerte meistens schnell erklärt sind. Manchmal gibt es aber auch Situationen, die der Erläuterung bedürfen. Wir geben zum Beispiel explizit an, welche Zahl als Rohwert dient, wenn der Messbereich zu Ende ist (etwa ein Zeitlimit bei einem Test, dessen Rohwert die Bearbeitungsdauer ist).
Wichtig sind die Verteilungseigenschaften der Rohwerte. Häufig lässt sich aus der Art des Rohwerts schon auf die Verteilungseigenschaften schließen. Wann immer es empirische Daten zu den Rohwertverteilungen gibt, werden sie hier vorgestellt und diskutiert. Die Verteilung der Rohwerte hat einen großen Einfluss auf die Diskriminationsfähigkeit eines Tests.
Komplexe Fähigkeitsmerkmale, wie sie durch kognitive Tests gemessen werden, sind in der Population im Allgemeinen normalverteilt. Weicht eine Verteilung von Rohwerten bei einer Zufallsstichprobe aus der Population markant von einer Normalverteilung ab, hat das meistens damit zu tun, dass die gewählten Rohwerte zur Messung der Eigenschaft nicht sonderlich geeignet sind. Sie bilden die Eigenschaft dann nicht linear, sondern messtechnisch verzerrt ab. Nichtlineare Messskalen eignen sich nicht gut als Ausgangsmaterial für Testverfahren. Zum einen stimmen dann die Annahmen der klassischen Testtheorie nicht (was noch zu verschmerzen wäre), zum anderen können wir nichtlineare Messskalen nicht mehr intuitiv interpretieren. Wir sind es gewohnt, dass bei den Maßeinheiten, mit denen wir täglich umgehen, gleichgroße Intervalle an verschiedenen Stellen einer Skala auch einen gleich großen Unterschied in der dahinterliegenden Eigenschaft (Länge, Gewicht, aber eben auch IQ, Gedächtniskompetenz, was immer) abbilden. Dies geht nur, wenn die Skala die dahinter stehende Eigenschaft linear abbildet und entsprechend zu einer Normalverteilung bei Zufallsstichproben führt.
Bei allen in TDB2Online aufgenommenen Testverfahren werden deshalb lineare Testwerte angestrebt. Bei vielen Tests ist das einfach, weil schon die Rohwerte linear sind. Bei manchen Tests hat sich der Testautor oder die Testautorin schon Gedanken über eine Linearisierung gemacht und sie in die Auswertung eingearbeitet, z. B. seinerzeit David Wechsler durch die Transformation von Rohpunkten in Wertpunkte. Leider bleiben aber immer noch eine ganze Reihe von Tests übrig, deren Rohwerte nichtlinear sind und die nachträglich in TDB2Online linearisiert werden müssen. Dabei sind die nachträglichen Lösungswege kompliziert und generell unerfreulich. Nur selten stehen die Rohwerte einer Stichprobe junger Erwachsener zur Verfügung, was für TDB2 der Idealfall wäre. Manchmal hat man wenigstens eine Perzentilverteilung einer größeren Stichprobe gesunder junger Erwachsener. An Hand einer solchen empirischen Verteilung kann man auch eine heuristische Transformationstabelle erstellen, die die Skala linearisiert. Stichproben mit einem weiten Altersbereich sind kaum geeignet, weil hier zusätzliche altersbedingte Effekte einfließen, die verteilungsrelevant sind. Aus ähnlichen Überlegungen sind Patientenstichproben eher ungeeignet. Gelegentlich mussten bei der Linearisierung approximative Verfahren eingesetzt werden. Das ist unbefriedigend, aber immer noch besser als der Verzicht auf Linearisierung, obwohl die Rohwertverteilung eindeutig schief ist.
Die exakte Vorgehensweise wird bei den einzelnen Verfahren dokumentiert, eine Übersicht über die zur Verfügung stehenden Methoden wurde schon im Abschnitt Methoden der Linearisierung gegeben.
Angesichts der mangelnden Adäquatheit der Normen vieler Testverfahren wurde im Rahmen von TDB2Online versucht, die Normbasis wo immer möglich zu verbessern. Dies war vor allem bei den neuropsychologischen Standardverfahren möglich, bei denen es viele Normquellen in der Literatur gab. TDB2Online verwendet bei jedem Test alle praktisch verfügbaren Normquellen, die folgenden Kriterien genügen:
Die Quellen sind in den Texten zu den Einzeltests dokumentiert. Die Zusammenfassung der Normwerte erfolgte mit (einfachen, deskriptiven) metaanalytischen Verfahren. Ziel war die Bereitstellung einer Normierung, die möglichst repräsentativ für die gesamte erwachsene Bevölkerung ist. Eine Stratifizierung nach anderen Merkmalen als dem Alter erfolgte nicht. Normquellen, die sich statistisch als Ausreißer erwiesen, wurden nicht verwendet. Die Werte wurden über die Altersgruppen hinweg geglättet.
Gelegentlich wurde die Adäquatheit der Normdaten eines Tests dadurch untersucht, dass dessen Äquivalenz mit einem anderen, ähnlichen Verfahren geprüft wurde. Ergebnisse hierzu finden sich in den Dokumentationstexten zu den Einzeltests im Abschnitt Diskussion. Ziel solcher Arbeiten war es, Hinweise zur Abschätzung der Plausibilität der vorhandenen Normdaten zu erhalten.
Für die Darstellung aller Testwerte wird in TDB2Online die IQ-Skalierung mit einem Mittelwert von 100 und einer Standardabweichung von 15 verwendet. Zwei Argumente haben die Entscheidung für das System (100;15) beeinflusst:
TDB2Online verfolgt das Ziel einer reinen Leistungsmessung auf einer Skala, die für alle verwendeten Messinstrumente vergleichbar ist. Die Interpretation eines Messwerts im Hinblick auf das Alter des Patienten wird mit Hilfsmitteln erleichtert, das Alter wird jedoch nicht dafür verwendet, den eigentlichen Messwert zu verändern. Andere biographische Parameter (Bildung, Geschlecht, was immer) werden nicht berücksichtigt. Welchen Stellenwert sie haben, muss im Testbefund verbal interpretiert werden, das ist nicht mehr Aufgabe der Leistungsmessung.
Für die Leistungsmessung wird nach Möglichkeit eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem lebenszeitlichen Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen („nicht-alterskorrigierten“) Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt Wertpunkttransformation in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als Leistungswerte. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.
Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Ein prominentes Beispiel dafür ist die CERAD-Testbatterie. Normen für gesunde Probanden gibt es hier nur in höheren Altersbereichen, frühestens von 50 an aufwärts, oft nicht sonderlich gut spezifiziert. Bei solchen Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Ältere. In der Überschrift zu den jeweiligen Testverfahren ist der Altersbereich für die Berechnung der Leistungsnormen immer angegeben.
Für die klinische Beurteilung eines Testwerts ist normalerweise ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Nicht umsonst werden bei den meisten publizierten Tests die Rohwerte direkt in altersabhängige Standardwerte umgerechnet. Auch in TDB2Online werden zusätzlich zu den Leistungswerten altersabhängige Standardwerte (ASW, mit Mittelwert 100 und Standardabweichung 15) berechnet und im Testprofil numerisch angegeben. Die Werte werden mit den in TDB2Online agglutinierten Normdaten berechnet. Wie weiter oben dargestellt, beruhen diese auf einer möglichst breiten empirischen Basis und einer möglichst effizienten psychometrischen Aufarbeitung. Sie entsprechen deshalb nicht unbedingt den Normdaten, die sich in anderen Publikationen finden. Selbst bei publizierten Tests, bei denen es außer den publizierten Normdaten keine weiteren Normquellen gibt, sind Abweichungen wahrscheinlich, weil für die TDB2Online-Normen zum Beispiel immer zwischen den Rohwertstufen und zwischen benachbarten Altersgruppen Glättungen durchgeführt wurden.
Alle Testwerte werden in einem einheitlichen grafischen Bezugsrahmen dargestellt, der sich an den Leistungswerten als vertikalem Raster orientiert. Für jeden Test werden ausgewählte Rohwerte im Leistungswertgitter als kleine Zahlen mit abgebildet. Zusätzlich zum Testwert des Probanden oder der Probandin werden in der Grafik die Verteilungskennwerte der Altersbezugsgruppe dargestellt. Man erhält auf diese Weise einerseits den Bezug zur absoluten Leistung, gemessen an gesunden jungen Erwachsenen (Leistungswertgitter), und andererseits den Bezug zu den Werten der jeweiligen Altersklasse.
Abbildung 4: Beispiel eines Leistungswertprofils
Ein Muster dieser Art der Visualisierung von Testergebnissen liefert Abbildung 4. Dargestellt ist ein Leistungswertprofil (Bereich 40 bis 145) mit zwei Einzeltestwerten im TMT A und B bei einem 58-Jährigen, dargestellt als schwarze Kreise. Im Beispiel betragen die Rohwerte 25 und 79, als Leistungswerte (Abszissenwerte) lassen sich circa 96 und 84 ablesen. Überlagert sind die Altersreferenzwerte. Das weiße Viereck markiert den Mittelwert der Altersgruppe (hier 55-59 Jahre) bzw. den altersnormierten Standardwert (ASW, kurz auch nur als Altersstandardwert bezeichnet) von 100 für dieses Alter. Der graue Bereich umfasst den ASW von 85 bis 115, entsprechend einem Prozentrang von 16 bis 84, die Endbalken gehen von ASW 70 bis ASW 130, entsprechend den Prozenträngen von 2,5 bis 97,5. Innerhalb dieser Altersnormwerte liegt der Testwert des Probanden im Teil A am oberen Rand des grauen Balkens, im Teil B knapp unterhalb des altersgemäßen Mittelwerts. Die entsprechenden Altersstandardwerte (113 im Teil A und 98 im Teil B) sind in der Spalte am rechten Rand eingetragen. (Zum Vergrößern anklicken!)
Die einheitliche graphische Aufbereitung der Testergebnisse in TDB2Online hat eine Reihe von Funktionsmerkmalen, die die klinische Befunderstellung unterstützen.
In TDB2Online wird jeder Testwert als schwarzer Punkt in ein Leistungswertgitter eingezeichnet, das von Test zu Test gleich bleibt und auf dem sich die Leistung über verschiedene Testverfahren hinweg vergleichen lässt. Die Skala mit der kleinen Beschriftung „Leistungswert“, die dem Gitter zugrunde liegt, geht bei jedem Test von 40 bis 145 und die Werte stehen immer an der gleichen Position. Die kleinen Zahlen in dem Rechteck, das einen einzelnen Subtest darstellt, geben die Position der möglichen Rohwerte des Subtests an. In Abbildung 5 lässt sich erkennen, dass ein Rohwert von 30 im WST ungefähr dem Leistungswert 100 entspricht, ein solcher von 20 ungefähr dem Leistungswert 85. Die Leistungswerte selbst sind von Test zu Test vergleichbar. Damit ist die Aussage möglich, dass bei diesem 24-jährigen Patienten die Erinnerungsleistung beim Abrufen einer Wortliste (VLMT, Abruf nach Interferenz, Rohwert 12, Leistungswert etwa 104) um rund 20 IQ-Punkte (mehr als eine Standardabweichung) besser ist als seine Leistung im Teil B des TMT (Rohwert 79, Leistungswert etwa 84). Ohne die gemeinsame Messebene der Leistungswerte wären vergleichende Interpretationen der Leistungen in unterschiedlichen Domänen nicht möglich.
Der kleinste und der größte Rohwert, den ein Test liefern kann, ist immer im Profil eingezeichnet, wenn er im darstellbaren Leistungswertbereich zwischen 40 und 145 liegt. Man kann in Abbildung 5 am Beispiel des Wortschatztests WST also nachverfolgen, dass der kleinstmögliche Rohwert 1 und der größtmögliche Rohwert 41 ist. Das entspricht einem relativ großen Messbereich, weil die entsprechenden Leistungswerte von ungefähr 60 bis ungefähr 140 reichen. Beim Subtest Verzögertes Wiedererkennen im VLMT (letzte Zeile in der Abbildung 5) ist das anders. Dieser Subtest erreicht seine Testdecke (den größtmöglichen Rohwert von 15) schon bei einem Leistungswert von etwa 113. Bessere Leistungen kann dieser Subtest also nicht mehr differenzieren. Es ist nicht möglich, eine hohe von einer sehr hohen Leistung zu unterscheiden. Dafür geht der Messbereich sehr weit nach unten. Er würde sogar viel weiter reichen, als er hier erfasst ist. Rohwerte unter 9 liegen schon außerhalb des Darstellungsbereichs. Sie kommen extrem selten vor und sind deshalb nicht mehr normiert.
Abbildung 5: Beispielprofil für einen 24-jährigen Patienten
Eine basale Einschätzung der Messgenauigkeit erhält man, wenn man die Auflösung der Rohwertskala mit der Auflösung der Leistungswertskala vergleicht. Beim Wortschatztest WST (siehe Abbildung 5) entsprechen die Rohwerte zwischen 10 und 20 ungefähr Leistungswerten zwischen 75 und 85. An dieser Stelle der Skala erhöht also ein zusätzliches richtiges Wort den gemessenen IQ um einen Punkt. Dies ist gleichbedeutend mit einer relativ hohen Messgenauigkeit. Im hohen Leistungsbereich erhöht ein zusätzliches richtiges Wort (z. B. von Rohwert 40 auf 41) den gemessenen IQ um 6 oder 7 Punkte. Wenn ein einziges zusätzlich gewusstes (oder gar geratenes) richtiges Wort die gemessene kognitive Leistungsfähigkeit so stark verändern kann, ist die Messgenauigkeit an dieser Stelle der Skala ziemlich niedrig.
An diesem Beispiel sieht man ganz praktisch, dass die Messgenauigkeit eines Tests keineswegs an allen Stellen gleich ist (wie die Reliabilitätstheorie und das von ihr abgeleitete Konzept des Standardmessfehlers suggerieren). Die meisten Tests messen im Mittelbereich genauer als an den Enden. Mit der Item-Response-Theorie, einer Skalierungsmethode für Testitems, lässt sich dies auch regelmäßig nachweisen.
Ein Blick auf den Verbalen Lern- und Merkfähigkeitstest VLMT (siehe Abbildung 5) reicht aus um zu erkennen, dass alle vier Subtests nur relativ grob messen: Schon ein zusätzlich gelerntes oder erinnertes Wort erhöht den Leistungswert um viele IQ-Punkte.
Noch einmal zur Erinnerung: Der Leistungswert selbst wird nicht numerisch ausgegeben. Er lässt sich nur an der Position des schwarzen Punkts im Testprofil (Abszissenwert) ablesen.
Für die klinische Beurteilung eines Testwertes ist vor allem bei älteren Patienten ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Da die Werte im TDB2-Testprofil graphisch als altersunabhängige Leistungswerte erscheinen, muss man die Vergleichsbereiche der Altersgruppe zusätzlich einzeichnen. Im TDB2-Profil werden Vergleichsbereiche eingezeichnet, die über Prozentränge (PR) ermittelt wurden. Das weiße Quadrat kennzeichnet den Median ( = PR 50) der Altersgruppe des Patienten, das graue Rechteck den Bereich von PR 16 bis PR 84 und die beiden Fähnchen an den Enden des grauen Rechtecks die Prozentränge 2,5 und 97,5. Wenn die Leistungswerte normalverteilt sind (was durch Transformationen in TDB2Online meistens erreicht wird), entsprechen die genannten Prozentränge genau dem Mittelwert und den Ein- und Zwei-Sigma-Grenzen.
Man kann die individuelle Stellung eines Patienten in den Grenzen seiner Altersbezugsgruppe natürlich aus der Grafik ablesen, allerdings ist das etwas mühsam und ungenau. Deshalb werden die altersnormierten Standardwerte vom Programm ausgerechnet und auf der rechten Seite des Profils in der Spalte ASW angezeigt. Auch diese altersnormierten Standardwerte (ASW) werden IQ-skaliert angezeigt, also mit Mittelwert 100 und Standardabweichung 15.
An einem Beispiel kann man zeigen, wie der ASW berechnet wird: In der Zeile Teil B des Trail Making Tests in Abbildung 5 kann man sehen, dass der individuelle Testwert des Patienten um etwa ein Drittel Standardabweichung unterhalb des grauen Bereichs liegt. Wäre er auf dem weißen Quadrat, wäre das der altersnormierte Standardwert 100. Wäre er am linken Ende des grauen Bereichs, wäre das der altersnormierte Standardwert 85. Da er tatsächlich etwa um 1/3 Standardabweichung unterhalb des grauen Bereichs liegt, entspricht dies dem altersnormierten Standardwert 80. Dieser Wert wird von TDB2Online berechnet und in die Spalte ASW auf der rechten Seite eingetragen.
Bei jungen Erwachsenen weichen die altersbezogenen Standardwerte kaum von den Leistungswerten ab. Die weißen Quadrate liegen also meistens in der Nähe des Leistungswerts 100. Je älter ein Patient ist und je mehr die Leistung in einem bestimmten Test mit zunehmendem Alter abnimmt, umso größer ist der Unterschied zwischen Leistungswerten und altersbezogenen Standardwerten. Man sieht das deutlich in Abbildung 6, die die gleichen Testwerte zeigt wie Abbildung 5, aber dieses Mal für einen Patienten im Alter von 74 statt 24 Jahren. Die Position der schwarzen Punkte im Leistungswertgitter bleibt gleich. An der absoluten Leistung ändert sich ja nichts. Was sich ändert, sind die Altersreferenzbereiche und damit die altersbezogenen Standardwerte in der Spalte ASW. Die Änderung des Alters wirkt sich sehr stark aus beim visokonstruktiven Pfadfindertest (TMT) und beim Gedächtnistest VLMT. Hier wandern die Altersreferenzbereiche weit nach links. Sie hat keinen Effekt beim Wortschatztest WST, weil es für den keine altersgestaffelten Normen gibt und das Alter von 78 Jahren noch im Altersbereich der Normstichprobe liegt. Im Wortschatztest der WAIS-IV sieht man etwas genauer, dass es im Alter von 74 Jahren auch im Wortschatz zu geringen Alterseinbußen in der Normstichprobe kommt, die unserem Probanden bei seiner gleichgebliebenen Leistung zu einem höheren ASW von 106 verhelfen. Man kann aber schnell sehen, dass die Alterseffekte bei TMT und VLMT viel größer sind.
Abbildung 6: Testleistungen wie Abbildung 5 bei einem 74 Jahre alten Patienten
Nicht alle Tests überspannen einen großen oder auch nur einen symmetrischen Leistungsbereich. Vorbildlich ist der Messbereich im Subtest Wortschatztest in der WAIS-IV, der von den Leistungswerten 45 (Rohwert 0) bis 143 (Rohwert 57) reicht (siehe Abbildung 6). Mit den Subtests des VLMT lassen sich dagegen sehr hohe Leistungen nicht mehr adäquat messen. Bei allen Subtests ist 15 der höchst erreichbare Rohwert. Im Subtest Verzögertes Wiedererkennen (letzte Zeile in Abbildung 6 entspricht ein Rohwert von 15 nur einem Leistungswert von etwa 112. Höhere Leistungen sind nicht mehr messbar.
Besonders häufig kommt dies bei Testverfahren vor, die gar nicht zur Quantifizierung von Fähigkeiten über einen breiten Normbereich hinweg konstruiert sind, sondern vornehmlich der Quantifizierung von Defiziten dienen. Im Besonderen trifft das für die Tests zur Quantifizierung von kognitiven Beeinträchtigungen von Demenzkranken zu. Abbildung 7 zeigt ein Testprofil, das mit der CERAD erhoben wurde.
Abbildung 7: CERAD-Testwerte bei einem 70-Jährigen
Wir haben schon darauf hingewiesen, dass es für viele Subtests der CERAD keine Normwerte für junge Erwachsene gibt. Darauf weist die Titelzeile der CERAD-Batterie in Abbildung 7 auch explizit hin. Trotzdem erreicht man in manchen Subtests der CERAD schon mit mittleren Leistungen die Testdecke. Am auffälligsten ist das beim Subtest Wörter Wiedererkennen. Hier erreicht fast die Hälfte der Normstichprobe der 60–64-Jährigen die volle Punktzahl von 10 Richtigen. Folgerichtig führt der Rohwert 10 auch nur zu einem Leistungswert von knapp über 100. In solchen Fällen geben wir in der ASW-Spalte statt eines festen Wertes nur noch einen Bereich an, im Beispiel der Abbildung 7 >105. Im Beispiel kommt es noch bei zwei weiteren Subtests nur zu Bereichsangaben.
TDB2 und TDB2Online sind aus der diagnostischen Praxis in einer psychiatrischen Universitätsklinik entstanden. Ausgangspunkt war die Unzufriedenheit mit der Heterogenität der existierenden Verfahren, nicht ihrer Inhalte, sondern ihrer psychometrischen Aufbereitung. Es war kaum möglich, Studierenden der Psychologie im Verlauf eines Sechs-Wochen-Praktikums beizubringen, auf der Grundlage des Handbuchs jedes einzelnen Tests einen vernünftigen und konsistenten Testbefund zu schreiben.
Mit der Einführung von TDB2 in der Klinik (2009) wurde das deutlich einfacher. Wenn eine Praktikantin oder ein Praktikant die Prinzipien der TDB2-Profildarstellung begriffen hatte (das ging nicht auf Anhieb, war aber in der zweiten Woche meistens abgeschlossen), wurde das Besprechen der Befunde mit den Betreuern viel leichter. Insofern verdanken wir unseren Praktikanten (etwa 10 pro Jahr) die Außenanregung, die notwendig war, um TDB2 voranzubringen.
TDB2 und TDB2Online sind keine abgeschlossenen Programme. An den Testverfahren werden sich Änderungen ergeben, wenn neue Normen verfügbar werden. Neue Verfahren können hinzukommen. Für Anregungen sind wir jederzeit dankbar.