Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- dokumentation [2020/03/02 14:16] – [Charakterisierung des Tests und des Testmaterials] res
+++ dokumentation [2025/04/24 21:52] (aktuell) – [Altersnormierte Standardwerte] res
@@ Zeile 5: / Zeile 5: @@
 Die ausführliche Dokumentation besteht aus zwei Teilen:
   * Die vorliegende Seite beschreibt den Hintergrund, die Konzepte und die allgemeine Verfahrensweise von TDB2Online
-  * Eine Beschreibung der einzelnen Tests, insbesondere der bei der Aufarbeitung angewendeten Methoden, ist über den Navigationspunkt [[TDB2OnlineApp|TDB2OnlineApp]] zu finden und für angemeldete professionelle Nutzer zugänglich.
+  * Eine Beschreibung der einzelnen Tests, insbesondere der bei der Aufarbeitung angewendeten Methoden, ist über den Navigationspunkt [[TDB2OnlineApp|App und Test-Doku]] zu finden und nur für angemeldete professionelle Nutzer zugänglich. Eine Kurzbeschreibung der Tests ist auch ohne Anmeldung über die [[start#testverfahren|Startseite]] zugänglich.
 Zur schnellen Information gibt es zwei Kurzfassungen:
-   * Eine {{:tdb2online_erlaeuterungsblatt.pdf|einseitige Beschreibung}} der Eigenschaften des TDB2-Profils ist zur Weitergabe zusammen mit dem ausgedruckten Testbefund gedacht.
+   * Eine {{:erlaeuterungsblatt_tdb2online.pdf|einseitige Beschreibung}} der Eigenschaften des TDB2-Profils ist zur Weitergabe zusammen mit dem ausgedruckten Testbefund gedacht.
-  * Eine {{:tdb2online_hintergrundinformationen.pdf|zehnseitige Einführung}} erläutert in knapper Form Konzepte und Verfahren von TDB2Online und gibt eine Reihe von Hinweisen für die praktische Befundschreibung.
+  * Eine {{:tdb2online_hintergrundinformationen.pdf|neunseitige Einführung}} erläutert in knapper Form Konzepte und Verfahren von TDB2Online und gibt eine Reihe von Hinweisen für die praktische Befundschreibung.
 ====== Übersicht ======
@@ Zeile 19: / Zeile 19: @@
 TDB2Online soll und kann Tests auswerten und darstellen, die ganz unterschiedlich konstruiert sind. Für jeden einzelnen Test kommen deshalb unterschiedliche Maßnahmen zur Anwendung. In dieser Dokumentation werden nur die allgemeinen Prinzipien der Aufarbeitung und Darstellung beschrieben, unabhängig davon, ob sie nun bei einem einzelnen Test Anwendung finden (können) oder nicht. Im geschützten Bereich des TDB2Online-Wiki sind für jeden einzelnen Test die tatsächlichen Maßnahmen dargestellt, die zum Einschluss des Verfahrens in TDB2Online notwendig waren.
-Die Dokumentation ist nicht für psychodiagnostische Laien bestimmt. Sie geht davon aus, dass Leserinnen und Leser eine Vorbildung in Psychodiagnostik haben, wie sie im Allgemeinen durch ein Hochschulstudium der Psychologie erworben wird.
+Die Dokumentation ist nicht für psychodiagnostische Laien bestimmt. Sie geht davon aus, dass Leserinnen und Leser eine Vorbildung in Psychodiagnostik haben, wie sie im Allgemeinen durch ein Hochschulstudium der Psychologie erworben wird. Relevante Lehrbücher wären zum Beispiel Schmidt-Atzert & Amelang (2012)((Schmidt-Atzert, L. & Amelang, M. (2012). //Psychologische Diagnostik// (5., vollst. überarb. u. erw. Aufl.). Heidelberg: Springer.)) für den Gesamtbereich der psychologischen Diagnostik und Moosbrugger & Kevala (2012)((Moosbrugger, H. & Kelava, A. (Hrsg.). (2012). //Testtheorie und Fragebogenkonstruktion//. (2. Aufl.) Heidelberg: Springer.)) für den testtheoretisch-statistischen Hintergrund.
 ====== Konzepte ======
@@ Zeile 28: / Zeile 27: @@
 Rohwerte sind die elementaren Werte, mit denen eine Leistung in einem Testverfahren beurteilt wird. Sie hängen von der Art der Aufgabe ab. Beispiele dafür sind:
-  * Anzahl richtiger Lösungen in einem Wissenstest (AW)
+  * Anzahl richtiger Lösungen in einem Wissenstest (Beispiel: Subtest Allgemeines Wissen in den [[dokumentation:wechsler_adult_intelligence_scale_-_fourth_edition|Wechsler-Testbatterien]])
-  * Anzahl der Fehler in einer Kategorisierungsaufgabe (HCT)
+  * Anzahl der Fehler in einer Kategorisierungsaufgabe (Beispiel: [[dokumentation:halstead_category_test|Halstead Category Test]])
-  * Zeit für die Durchführung in Sekunden bei einer visokonstruktiven Aufgabe (TMT)
+  * Zeit für die Durchführung in Sekunden bei einer visokonstruktiven Aufgabe (Beispiel: [[dokumentation:trail_making_tests|Trail Making Tests]])
-  * Anzahl richtig reproduzierter Wörter in einem Gedächtnistest (WL)
+  * Anzahl richtig reproduzierter Wörter in einem Gedächtnistest (Bespiel: [[dokumentation:verbaler_lern-_und_merkfaehigkeitstest|Verbaler Lern- und Merkfähigkeitstest]])
-  * Differenz zwischen der Anzahl richtig wiedererkannter Wörter minus Anzahl der fälschlich "wiedererkannten" Wörter in einer Wiedererkennensaufgabe (WL)
+  * Differenz zwischen der Anzahl richtig wiedererkannter Wörter minus Anzahl der fälschlich "wiedererkannten" Wörter in einer Wiedererkennensaufgabe (Bespiel: [[dokumentation:verbaler_lern-_und_merkfaehigkeitstest|Verbaler Lern- und Merkfähigkeitstest]])
-  * Punkte in einer komplexen Problemlöseaufgabe, die nach Richtigkeit und Schnelligkeit der Durchführung bewertet wird (MT)
+  * Punkte in einer komplexen Problemlöseaufgabe, die nach Richtigkeit und Schnelligkeit der Durchführung bewertet wird (Beispiel: Subtest Mosaiktest in den [[dokumentation:wechsler_adult_intelligence_scale_-_fourth_edition|Wechsler Testbatterien]])
 Rohwerte sind testspezifisch. Die Punkte im Mosaiktest zum Beispiel haben numerisch nichts mit den Zeiten im Trail-Making-Test zu tun, sie sind nicht einmal in die gleiche Richtung gepolt. Mit Rohwerten lassen sich Leistungen zwischen Verfahren (und damit zwischen verschiedenen Fähigkeitsbereichen) nicht vergleichen.
@@ Zeile 41: / Zeile 40: @@
 ==== Standardisierte Testwerte ====
-Standardisierte Testwerte verlassen die "physikalische" Ebene der Rohwerte. Sie beruhen auf einem Vergleich: Die Leistung des oder der aktuell Getesteten wird mit der Leistung einer Normstichprobe verglichen, die den Test zuvor schon absolviert hat. Im Idealfall stammen die Daten dazu aus Normierungsuntersuchungen an Zufallsstichproben, bei denen einige hundert Personen pro Altersgruppe getestet werden. Standardisierte Testwerte geben also die relative Stellung eines Probanden innerhalb einer sinnvollen populationsbezogenen Vergleichsgruppe an. Im Allgemeinen werden zur Standardisierung Skalen benutzt, die aus der Normalverteilung abgeleitet sind. In TDB2Online wird für alle Tests einheitlich die IQ-Skala mit dem Mittelwert 100 und der Standardabweichung 15 benutzt.
+Standardisierte Testwerte verlassen die numerische Ebene der Rohwerte. Sie beruhen auf einem Vergleich: Die Leistung des oder der aktuell Getesteten wird mit der Leistung einer Normstichprobe verglichen, die den Test zuvor schon absolviert hat. Im Idealfall stammen die Daten dazu aus Normierungsuntersuchungen an Zufallsstichproben, bei denen einige hundert Personen pro Altersgruppe getestet werden. Standardisierte Testwerte geben also die relative Stellung eines Probanden innerhalb einer sinnvollen populationsbezogenen Vergleichsgruppe an. Im Allgemeinen werden zur Standardisierung Skalen benutzt, die aus der Normalverteilung abgeleitet sind. In TDB2Online wird für alle Tests einheitlich die IQ-Skala mit dem Mittelwert 100 und der Standardabweichung 15 benutzt.
 Je nach Wahl der Bezugsgruppe für den Vergleich lassen sich im Folgenden mehrere Arten von Testwerten unterscheiden, die unterschiedliche Anwendungsaspekte repräsentieren.
@@ Zeile 53: / Zeile 52: @@
 In der neuropsychologischen Diagnostik steht die Messung und vergleichende Beurteilung von Defiziten in unterschiedlichen Leistungsdomänen im Vordergrund. Für diese Aufgabe ist eine absolute Maßeinheit ein bedeutender Vorteil, weil damit direkte Vergleiche über die Zeit und/oder über Domänen möglich sind. Leistungswerte machen Leistungen über verschiedene Testverfahren und Rohwertarten hinweg vergleichbar. Sie liefern einen übertragbaren Maßstab zur Beurteilung kognitiver Einzelleistungen in einer standardisierten Form. Der für die Interpretation ebenfalls notwendige Bezug zum Alter lässt sich – wie in den meisten anderen Bereichen der klinischen Diagnostik – durch Altersnormwerte herstellen.
-Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig. Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch. Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.
+Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig (Beispiel: [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Allgemeines_Wissen|Subtest Allgemeines Wissen in der WAIS-IV]]). Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch (Beispiel: [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Zahlen-Symbol-Test|Subtest Zahlen-Symbol-Test in der WAIS-IV]]). Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche hinweg würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.
-In prominenter Weise hatte David Wechsler dieses Prinzip mit seinen klassischen "Wertpunkten" angewendet. Damit ermöglichte er einen Leistungsvergleich zwischen den Subtests seiner Intelligenzbatterien (etwas, was mit den Rohwerten nicht möglich ist). Diese Form der absoluten Leistungsmessung war bis zum HAWIE-R für die Profildarstellung der Leistungen in den einzelnen Subtests vorgesehen (in der Testdokumentation zum WIE stehen [[tests:wechsler_intelligenztest_fuer_erwachsene#Wertpunkttransformation|Details]] dazu). Sie wurde beim WIE zugunsten einer altersabhängigen Darstellung der Subtestleistungen aufgegeben, wodurch der absolute Leistungsmaßstab verloren ging.
+In prominenter Weise hatte David Wechsler dieses Prinzip mit seinen klassischen "Wertpunkten" angewendet. Damit ermöglichte er einen Leistungsvergleich zwischen den Subtests seiner Intelligenzbatterien (etwas, was mit den Rohwerten nicht möglich ist). Diese Form der absoluten Leistungsmessung war bis zum HAWIE-R für die Profildarstellung der Leistungen in den einzelnen Subtests vorgesehen (in der Testdokumentation zur WAIS-IV stehen [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Wertpunkttransformation|Details]] dazu). Sie wurde beim WIE und aktuell auch bei der WAIS-IV zugunsten einer altersabhängigen Darstellung der Subtestleistungen aufgegeben, wodurch der absolute Leistungsmaßstab verloren ging.
 === Leistungswerte bei Demenztests ===
@@ Zeile 62: / Zeile 61: @@
 ==== Altersnormierte Standardwerte ====
-Altersnormierte Standardwerte wurden eingeführt, um die Interpretation der Leistungsfähigkeit eines einzelnen Patienten im Vergleich zu seiner Alterskohorte zu erleichtern. Auch bei ihnen handelt es sich um Standardwerte, genau wie bei den Leistungswerten. Der Unterschied liegt darin, dass die Bezugsbasis für die Standardisierung aus dem Teil der Normstichprobe kommt, der altersmäßig mit dem Patienten vergleichbar ist. Diese Werte sind für eine absolute Leistungsbeurteilung über verschiedene Testverfahren hinweg kaum brauchbar, weil verschiedene Fähigkeiten sich im Altersverlauf unterschiedlich verändern. Sie sind aber eine wichtige Interpretationshilfe bei der Beurteilung der Leistung eines einzelnen Patienten im Vergleich zu seiner Alterskohorte. Die klinische Beurteilung im verbalen Testbefund stützt sich im Wesentlichen auf die altersnormierten Standardwerte. Die manuelle Auswertung liefert bei den meisten Testverfahren neben den Rohwerten meistens nur diese altersnormierten Standardwerte, keine altersunabhängig standardisierte Leistungswerte.
+Altersnormierte Standardwerte wurden eingeführt, um die Interpretation der Leistungsfähigkeit eines einzelnen Patienten im Vergleich zu seiner Alterskohorte zu erleichtern. Auch bei ihnen handelt es sich um Standardwerte, genau wie bei den Leistungswerten. Der Unterschied liegt darin, dass die Bezugsbasis für die Standardisierung aus dem Teil der Normstichprobe kommt, der altersmäßig mit dem Patienten vergleichbar ist. Diese Werte sind für eine absolute Leistungsbeurteilung über verschiedene Testverfahren hinweg kaum brauchbar, weil verschiedene Fähigkeiten sich im Altersverlauf unterschiedlich verändern. Sie sind aber eine wichtige Interpretationshilfe bei der Beurteilung der Leistung eines einzelnen Patienten im Vergleich zu seiner Alterskohorte. Die klinische Beurteilung im verbalen Testbefund stützt sich im Wesentlichen auf die altersnormierten Standardwerte. Die manuelle Auswertung liefert bei den meisten Testverfahren neben den Rohwerten meistens nur diese altersnormierten Standardwerte, keine altersunabhängig standardisierten Leistungswerte.
-Es gibt einen erheblichen inhaltlichen Unterschied zwischen Leistungswerten und altersnormierten Standardwerten. Bei den Leistungswerten handelt es sich um tatsächliche "Messwerte". Sie sind lediglich in einer für alle Probanden gleichen Weise (mit einer für alle gleichen Formel) in Standardwerte transformiert. In den altersnormierten Standardwert gehen dagegen Informationen ein, die nicht für alle Personen gleich sind. Für jede Altersgruppe gilt ein anderer Umrechnungsweg vom Rohwert zum Standardwert. Mit diesen Werten verlässt man die Ebene der Messung und betritt die Ebene der Interpretation.
+Es gibt einen erheblichen inhaltlichen Unterschied zwischen Leistungswerten und altersnormierten Standardwerten. Bei den Leistungswerten handelt es sich um tatsächliche "Messwerte". Sie sind lediglich in einer für alle Probanden gleichen Weise (mit einer für alle gleichen Formel) in Standardwerte transformiert. In den altersnormierten Standardwert gehen dagegen Informationen ein, die nicht für alle Personen gleich sind. Für jede Altersgruppe gilt ein anderer Umrechnungsweg vom Rohwert zum Standardwert. Mit diesen Werten verlässt man die Ebene der Messung und betritt die Ebene der Interpretation. Davon später [[dokumentation#normierung_als_hilfsmittel_zur_interpretation|mehr]].
-==== Normierungen nach weiteren Kriterien ====
-Dies gilt umso mehr, wenn noch weitere Attribute einer Person bei der Standardwertberechnung berücksichtigt werden. Indikatoren für den Bildungsverlauf, also zum Beispiel die Anzahl der Schuljahre, oft auch Merkmale wie Geschlecht oder Rasse, sind, vor allem in USA, aber zunehmend auch in Europa beliebte Prädiktoren. Meist werden solche Merkmale in Regressionsgleichungen gepackt. Bei solchen Standardwerten ist es für den Diagnostiker nicht mehr nachvollziehbar, wie ein bestimmter Standardwert zustande gekommen ist. Bei einem Probanden mit hohem Alter und hoher Bildung führt sein Alter zu einer Erhöhung, seine Bildung zu einer Erniedrigung des Standardwerts. In welchem Ausmaß beide Faktoren wirksam werden, weiß nur die Rechenformel der Regressionsgleichung. Die Berücksichtigung von Merkmalen der Person, von Auswirkungen der Erkrankung oder von Umständen der Testsituation ist ohnehin fester Bestandteil jeder klinischen Interpretation von Testbefunden. Es macht keinen Sinn, einen Teil dieser Faktoren durch arithmetische Operationen in einen einzigen Wert zu packen, schon gar nicht, wenn dadurch der eigentliche Leistungswert verloren geht.
 ===== Eigenschaften von Skalen =====
@@ Zeile 74: / Zeile 70: @@
 ==== An der Normalverteilung orientierte Skalen ====
-Als Maßstab für kognitive Leistungen werden im Allgemeinen Skalen verwendet, die aus der Normalverteilung abgeleitet sind. Die einfachste Variante wäre es, wenn man dazu die Abszissenwerte der Normalverteilung, die bekannten z-Werte, hernehmen würde. Diese haben einen Mittelwert von Null und eine Standardabweichung von 1. Der für klinische Zwecke relevante Merkmalsbereich läge also ungefähr zwischen -4 oder -3 und +3. Nun eignen sich z-Werte für die Kommunikation nicht sonderlich gut, weil man mit Kommawerten und negativen Zahlen umgehen müsste. Deshalb werden seit Jahrzehnten nur daraus abgeleitete Skalen benutzt. Die wichtigsten davon zeigt **Abbildung 1**.
+Als Maßstab für kognitive Leistungen werden im Allgemeinen Skalen verwendet, die aus der Normalverteilung abgeleitet sind. Die einfachste Variante wäre es, wenn man dazu die Abszissenwerte der Normalverteilung, die bekannten z-Werte, hernehmen würde. Diese haben einen Mittelwert von Null und eine Standardabweichung von 1. Der für klinische Zwecke relevante Merkmalsbereich läge also ungefähr zwischen -4 und +3. Nun eignen sich z-Werte für die Kommunikation nicht sonderlich gut, weil man mit Kommawerten und negativen Zahlen umgehen müsste. Deshalb werden seit Jahrzehnten nur daraus abgeleitete Skalen benutzt. Die wichtigsten davon zeigt **Abbildung 1**.
 Die IQ-Skala wird meistens bei der Messung kognitiver Fähigkeiten benutzt, die T-Skala eher bei Persönlichkeitstests. Die in Deutschland bei Intelligenztests durchaus beliebte Standardwertskala mit einem Mittelwert von 100 und einer Standardabweichung von 10 ist international kaum gebräuchlich.
-Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der **Abbildung 1** erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man ausführlicheren Tabellen entnehmen kann.
+Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der **Abbildung 1** erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man berechnen oder ausführlicheren Tabellen entnehmen kann.
 {{:normalverteilung_615.png|}}
@@ Zeile 98: / Zeile 94: @@
 ==== Prozentrangskala ====
-Bei jeder Ordinalskala ist die Bildung einer Prozentrangskala möglich. Dafür ist keine Normalverteilung des Merkmals notwendig, nicht einmal eine unimodale Verteilung. Die Prozentrangskala gibt die relative Stellung einer Person innerhalb der gesamten Normierungsstichprobe als Prozentrang (PR) wider. Hat ein Proband den Prozentrang 90, dann haben 90 Prozent der Normierungsstichprobe eine geringere, 10 Prozent eine bessere Leistung als er erreicht.
+Bei jeder Ordinalskala ist die Bildung einer Prozentrangskala möglich. Dafür ist keine Normalverteilung des Merkmals notwendig, nicht einmal eine unimodale Verteilung. Die Prozentrangskala gibt die relative Stellung einer Person innerhalb der gesamten Normierungsstichprobe als Prozentrang (PR) wieder. Hat ein Proband den Prozentrang 90, dann haben 90 Prozent der Normierungsstichprobe eine geringere, 10 Prozent eine bessere Leistung als er erreicht.
 Die Verwendung der Prozentrangskala bei der Messung kognitiver Fähigkeiten hat große Tücken. Normalerweise kann man davon ausgehen, dass kognitive Fähigkeiten eine unimodale Verteilung aufweisen, häufig auch eine ziemlich symmetrische. Bei solchen normalverteilungs-ähnlichen Verteilungen hat die Prozentrangskala die unangenehme Eigenschaft, dass ihre Skalenwerte nicht äquidistant sind. Die Prozentränge 40 und 60 liegen auf der Skala, die einer solchen Verteilung zugrunde liegt, näher beieinander als die Prozentränge 60 und 80. Wir sind nicht daran gewöhnt, mit Skalen umzugehen, deren Werte einen nichtlinearen Bezug zur zugrundeliegenden Messgröße haben. Die Prozentrangskala wäre nur dann äquidistant, wenn das zugrundeliegende Merkmal die Form einer Rechteckverteilung hätte.
@@ Zeile 132: / Zeile 128: @@
 ==== Beibehaltung von Rohwerten ====
-Bei manchen Testverfahren werden Testwerte nur als Rohwerte mitgeteilt. Beispiele dafür sind etwa die Mini Mental State Examination (MMSE) oder die Frontal Assessment Battery (FAB).
+Bei manchen Testverfahren werden Testwerte nur als Rohwerte mitgeteilt. Beispiele dafür sind etwa die [[tests:mini_mental_state_examination|Mini Mental State Examination (MMSE)]] oder die Frontal Assessment Battery (FAB)((Dubois, B., Slachevsky, A., Litvan, I. & Pillon, B. (2000). The FAB. A frontal assessment battery at bedside. //Neurology, 55//, 1621-1626.)).
 Das hat keineswegs nur Nachteile. Die gesamte Labormedizin arbeitet praktisch nur mit Rohwerten. Auf jeden Fall erleichtert es erst einmal die Kommunikation, wenn es für eine bestimmte Variable auch nur eine Art von Messwert gibt. Allerdings muss man einen Test schon sehr gut kennen, wenn man unmittelbar mit den Rohwerten etwas anfangen will.
@@ Zeile 148: / Zeile 144: @@
 ==== Bildung von Standardwerten ====
-Die meisten psychologischen Testverfahren benutzen heute Standardwerte. Bei der einfachsten Variante werden der Mittelwert und die Standardabweichung der kompletten Normierungsstichprobe für die Bildung von Standardwerten benutzt. Bei vielen Persönlichkeitstests wird das so gemacht. Bei Leistungstests sind hingegen nur die wenigen Verfahren so normiert, bei denen der Alterseffekt auf die Leistung gering ist. Beispiele dafür sind der Wortschatztest (WST) oder der Mehrfachwahl-Wortschatztest (MWT-B). Bei beiden werden die Rohwerte an Hand einer für alle Testnehmer gleichen Tabelle in Standardwerte umgerechnet.
+Die meisten psychologischen Testverfahren benutzen heute Standardwerte. Bei der einfachsten Variante werden der Mittelwert und die Standardabweichung der kompletten Normierungsstichprobe für die Bildung von Standardwerten benutzt. Bei vielen Persönlichkeitstests wird das so gemacht. Bei Leistungstests sind hingegen nur die wenigen Verfahren so normiert, bei denen der Alterseffekt auf die Leistung gering ist. Beispiele dafür sind der [[tests:wortschatztest|Wortschatztest (WST)]] oder der Mehrfachwahl-Wortschatztest (MWT-B)((Lehrl, S. (1977). //Mehrfachwahl-Wortschatz-Intelligenztest MWT-B//. Erlangen: Straube.)). Bei beiden werden die Rohwerte an Hand einer für alle Testnehmer gleichen Tabelle in Standardwerte umgerechnet.
 Die direkte Umrechnung von Rohwerten in Standardwerte an Hand des Mittelwerts und der Standardabweichung der Rohwertverteilung ist nur gerechtfertigt, wenn die Rohwertverteilung in etwa einer Normalverteilung entspricht und der Effekt des Alters auf die Testleistung gering ist.
@@ Zeile 156: / Zeile 152: @@
 Bei vielen Tests mit asymmetrischen Verteilungen beinhaltet die Umrechnung in Standardwerte auch eine Linearisierung. Meistens ist sie implizit in Tabellen eingearbeitet, wie zum Beispiel bei der Umrechnung von Rohwerten in Wertpunkte bei den Subtests aller Wechsler-Tests.
-==== Einbezug von biographischen Merkmalen in die Standardisierung ====
+==== Bildung von Standardwerten für Altersgruppen ====
-Bei vielen kognitiven Tests für Erwachsene werden Rohwerte in altersabhängige Standardwerte transformiert. Die Intelligenzquotienten bei den Wechsler-Tests sind zum Beispiel altersabhängig standardisiert. Bei kognitiven Tests für Kinder und Jugendliche werden Rohwerte häufig in Standardwerte transformiert, die nicht nur vom Alter, sondern auch von der Schulbildung abhängen. Bei manchen vorzugsweise klinisch verwendeten Tests werden Rohwerte mit Regressionstransformationen in Standardwerte transformiert. Oft enthalten die Gleichungen dann neben dem Alter auch noch weitere Parameter wie Bildung und Geschlecht, gelegentlich sind die einbezogenen Parameter auch noch von Subtest zu Subtest unterschiedlich. Ein markantes Beispiel für diese Art der Normierung ist die Testbatterie zur Aufmerksamkeitsprüfung (TAP). Auch in USA sind derzeit einige neuropsychologische Testbatterien so normiert.
+Bei vielen kognitiven Tests (für Kinder wie für Erwachsene) werden Rohwerte in altersabhängige Standardwerte transformiert. Die kognitive Leistungsfähigkeit von Kindern und Jugendlichen nimmt mit zunehmendem Alter zu, die von Erwachsenen nimmt (im höheren Altersbereich) ab. Da diese Prozesse für die kognitiven Fähigkeitsdomänen höchst unterschiedlich verlaufen, können altersnormierte Standardwerte die Interpretation erheblich erleichtern. Man sollte aber nicht vergessen, dass -- wie wir weiter oben schon gesehen haben -- damit die Ebene der Messung verlassen wird.
-Biographische Merkmale sind in den meisten klinischen Disziplinen für die Interpretation wichtig. Dies gilt in der Testdiagnostik genau so wie in jeder anderen klinischen Diagnostik. Normalerweise werden biographische Merkmale dabei aber erst sekundär berücksichtigt, zum Beispiel durch die Konstruktion von altersabhängigen Normbereichen. Der Testwert selbst bleibt davon unberührt.
-Psychologische Tests beschreiten einen Sonderweg, wenn die für die Interpretation relevanten biographischen Merkmale des Patienten direkt in die Generierung des Messwerts einbezogen werden. Der Messwert ist dann nämlich kein Messwert mehr, sondern (nur noch) eine Art Hinweiswert für die Interpretation, ein Konstrukt, dass Anteile des Messwerts und Anteile der einbezogenen biographischen Hintergrundinformationen in einer für den Endanwender häufig nicht mehr nachvollziehbaren Mixtur enthält.
+==== Einbezug weiterer biographischer Merkmale in die Standardisierung ====
+Die zunehmende Verwendung von Computern in der Auswertung von Tests erleichtert es Testautoren, noch weitere Merkmale in die Berechnung von Standardwerten einzubeziehen. Indikatoren für den Bildungsverlauf, also zum Beispiel die Anzahl der Schuljahre, oft auch Merkmale wie Geschlecht oder Rasse, sind, vor allem in USA, aber zunehmend auch in Europa, beliebte Prädiktoren. Meist werden die Standardwerte dann über Regressionsgleichungen berechnet. Wir sehen diese Praxis kritisch, weil der Diagnostiker nicht mehr nachvollziehen kann, wie ein Standardwert zustandekommt. Um ein Beispiel zu geben: Bei einem Probanden mit hohem Alter und hoher Bildung führt sein Alter zu einer Erhöhung des Standardwerts (im Vergleich mit jüngeren Probanden), seine Bildung zu einer Erniedrigung (im Vergleich mit weniger Gebildeten). In welchem Ausmaß beide Faktoren für den so errechneten Standardwert wirksam geworden sind, lässt sich nicht mehr erkennen, ohne dass man die Formel der Regressionsgleichung analysiert.
+Die Berücksichtigung von Merkmalen der Person, von Auswirkungen der Erkrankung oder von Umständen der Untersuchungssituation sind in allen klinischen Disziplinen für die Interpretation von Befunden wichtig. Dies gilt in der Testdiagnostik genau so wie in jeder anderen klinischen Diagnostik. Normalerweise werden biographische Merkmale dabei aber erst sekundär berücksichtigt. Der Messwert selbst bleibt davon unberührt. Eine übliche psychodiagnostische Untersuchung besteht aus mehreren Tests und Subtests aus verschiedenen kognitiven Domänen und meist auch aus unterschiedlich konstruierten Testverfahren. Es gibt wenig Sinn, wenn nun ein Teil dieser Tests und Subtests biographische Merkmale (von Test zu Test auch oft noch unterschiedliche) durch arithmetische Operationen in einen einzigen Standardwert packt. Ein solcher Standardwert ist nur noch ein Konstrukt, das Anteile des Messwerts und Anteile der einbezogenen biographischen Hintergrundinformationen in einer für den Endanwender praktisch nicht mehr nachvollziehbaren Weise kombiniert.
 ==== Mehrfachstandardisierung auf unterschiedlichen Ebenen ====
-Wie bei vielen anderen Intelligenztestbatterien ist es auch bei den Wechsler-Tests üblich, einen Indexwert für einige ("Verbal-IQ", "Handlungs-IQ") bzw. alle Subtests ("Gesamt-IQ") zu bilden. Die Praxis geht auf den Beginn der Intelligenztestdiagnostik zurück, als vor allem die globale intellektuelle Begabung erfasst werden sollte und weniger deren Struktur. In der aktuellen neuropsychologischen Diagnostik liegt der Fokus dagegen auf der differenzierten Erfassung von Einzelleistungen und weniger auf pauschalen Begabungskennwerten.
+Wie bei vielen anderen Intelligenztestbatterien ist es auch bei den Wechsler-Tests üblich, einen Indexwert für einige (z. B. Verbal-IQ, Handlungs-IQ) bzw. alle Subtests (Gesamt-IQ) zu bilden. Die Praxis geht auf den Beginn der Intelligenztestdiagnostik zurück, als vor allem die globale intellektuelle Begabung erfasst werden sollte und weniger deren Struktur. In der aktuellen neuropsychologischen Diagnostik liegt der Fokus dagegen auf der differenzierten Erfassung von Einzelleistungen und weniger auf pauschalen Begabungskennwerten.
+Die gleichzeitige Erfassung von Einzelleistungen und Globalwerten hat nun gewisse psychometrische Tücken. An einem Beispiel kann man das schnell erklären. Nehmen wir an, zwei Einzelleistungen (Allgemeinwissen und Kopfrechnen) sollen auf einer IQ-Skala mit Mittelwert 100 und Standardabweichung 15 sowohl einzeln erfasst und dargestellt als auch zu einer Globalleistung im Sinne eines "Verbal-IQ" kombiniert werden. Als psychometrisch naiver Betrachter denkt man vermutlich, dies sei einfach und der Verbal-IQ errechne sich als Mittelwert der beiden Einzelleistungen. Dem ist aber keineswegs so, weil in den herkömmlichen IQ-Tests die Einzelleistungen und die Gesamtwerte getrennt standardisiert werden. Die doppelte Standardisierung führt dazu, dass die Korrelation zwischen den beiden Subtests darüber entscheidet, ob für die Kombination die gleiche oder eine andere Metrik verwendet wird. Je niedriger die Korrelation zwischen den Subtests ist (und je größer die Anzahl der einbezogenen Subtests ist) desto mehr weicht die neue Metrik von der alten ab.
-Die gleichzeitige Erfassung von Einzelleistungen und Globalwerten hat nun gewisse psychometrische Tücken. An einem Beispiel kann man das schnell erklären. Nehmen wir an, zwei Einzelleistungen (Allgemeinwissen und Kopfrechnen) sollen auf einer IQ-Skala mit Mittelwert 100 und Standardabweichung 15 sowohl einzeln erfasst und dargestellt als auch zu einer Globalleistung im Sinne eines "Verbal-IQ" kombiniert werden. Als psychometrisch naiver Betrachter denkt man vermutlich, dies sei einfach und der Verbal-IQ errechne sich als Mittelwert der beiden Einzelleistungen. Dem ist aber keineswegs so, weil in den herkömmlichen IQ-Tests die Einzelleistungen und die Gesamtwerte getrennt standardisiert werden. Die doppelte Standardisierung führt dazu, dass die Korrelation zwischen den beiden Subtests darüber entscheidet, ob für die Kombination die gleiche oder eine andere Metrik verwendet wird. Je niedriger die Korrelation zwischen den Subtests ist (und je größer die Anzahl der einbezogenen Subtests ist) desto mehr weicht die neue Metrik von der alten ab. **Tabelle 2** zeigt die Konsequenzen an unserem einfachen Beispiel. Wenn beide Subtestwerte 100 betragen und damit genau in der Mitte der Verteilung liegen, spielt die Höhe der Korrelation keine Rolle. In diesem Fall beträgt der kombinierte "Verbal-IQ" immer 100. Anders wird es, wenn die Einzelwerte von 100 abweichen. Betragen beide Einzelwerte genau 85 IQ-Punkte, dann wäre der "Verbal-IQ" nur dann auch 85, wenn die beiden Einzelleistungen mit 1 miteinander korrelieren. In der Praxis liegen die Korrelationen zwischen Subtests, die zu einem Gesamtwert verrechnet werden, meist irgendwo zwischen .30 und .70. Bei der schon relativ hohen Korrelation von .70 sinkt der "Verbal-IQ" auf 84 statt 85 ab, bei der eher niedrigen von .30 schon auf 81 statt 85. Je extremer sich die Einzelwerte vom Mittelwert der Verteilung entfernen desto größer werden auch die Unterschiede. Liegen die Einzeltestwerte bei 70 IQ-Punkten, dann verringert sich der "Verbal-IQ" bei einer Korrelation von .70 auf 66 Punkte, bei einer Korrelation von .30 auf 63 Punkte. Der Effekt ist symmetrisch: Bei hohen Testwerten erhöht sich der "Verbal-IQ" entsprechend. Der "Spreizfaktor" für die Metrik wird umso größer je niedriger die Korrelation zwischen den Subtests ist und je mehr Subtests kombiniert werden.
+**Tabelle 2** zeigt die Konsequenzen an unserem einfachen Beispiel. Wenn beide Subtestwerte 100 betragen und damit genau in der Mitte der Verteilung liegen, spielt die Höhe der Korrelation keine Rolle. In diesem Fall beträgt der kombinierte "Verbal-IQ" immer 100. Anders wird es, wenn die Einzelwerte von 100 abweichen. Betragen beide Einzelwerte genau 85 IQ-Punkte, dann wäre der "Verbal-IQ" nur dann auch 85, wenn die beiden Einzelleistungen mit 1 miteinander korrelieren. In der Praxis liegen die Korrelationen zwischen Subtests, die zu einem Gesamtwert verrechnet werden, meist irgendwo zwischen .30 und .70. Bei der schon relativ hohen Korrelation von .70 sinkt der "Verbal-IQ" auf 84 statt 85 ab, bei der eher niedrigen von .30 schon auf 81 statt 85. Je extremer sich die Einzelwerte vom Mittelwert der Verteilung entfernen desto größer werden auch die Unterschiede. Liegen die Einzeltestwerte bei 70 IQ-Punkten, dann verringert sich der "Verbal-IQ" bei einer Korrelation von .70 auf 66 Punkte, bei einer Korrelation von .30 auf 63 Punkte. Der Effekt ist symmetrisch: Bei hohen Testwerten erhöht sich der "Verbal-IQ" entsprechend. Der Spreizfaktor für die Metrik wird umso größer je niedriger die Korrelation zwischen den Subtests ist und je mehr Subtests kombiniert werden.
 **Tabelle 2: Auswirkungen einer getrennten Standardisierung auf die Metrik**
@@ Zeile 190: / Zeile 191: @@
 | | .00 | 142 |
-Obwohl diese psychometrischen Beziehungen zwischen Subtests und Globalmaßen eigentlich bekannt sind, wurden sie in der klinischen Diagnostik praktisch nicht beachtet. Das änderte sich im Erwachsenenbereich mit der Einführung des HAWIE-R als Nachfolger des HAWIE. Damals wunderten sich viele Praktiker darüber, dass speziell bei niedrig Begabten die mit dem neuen HAWIE-R berechneten IQs viel niedriger waren als die zuvor mit dem HAWIE bestimmten. Dies hing zum einen mit dem Phänomen des IQ-Zugewinns der Bevölkerung über die Zeit hinweg zusammen ("Flynn-Effekt"), das dazu führt, dass neuere Verfahren niedrigere IQs messen als früher standardisierte. Allerdings erklärte das nur einen Teil der Differenz. Der andere Teil kam daher, dass die mittlere Interkorrelation der Subtests in der Standardisierungsstichprobe des HAWIE-R (warum auch immer) lediglich .40 betrug, in den für die IQ-Berechnung benutzten Altersklassen 20-34 Jahre sogar nur .32, beides deutlich niedriger als beim alten HAWIE, wo die mittlere Subtestinterkorrelation etwa bei .60 lag. Die niedrigere Interkorrelation der Subtests in der Standardisierungsstichprobe führte beim HAWIE-R zu einer größeren Spreizung der Metrik der IQs im Verhältnis zur Metrik der Subtests.
+Diese psychometrischen Beziehungen zwischen Subtests und Globalmaßen sind altbekannt. Sie ergeben sich aus der Gleichung für die Varianz der Summe von Zufallsvariablen, in die neben der Varianz der Einzelvariablen auch die Kovarianz zwischen den Variablen eingeht (Formel zum Beispiel [[https://de.wikipedia.org/wiki/Varianz_(Stochastik)#Summen_und_Produkte|hier]]). Das wird in Statistikkursen auch oft gelehrt. Die unterschiedliche Metrik von Subtests und IQ-Werten fiel in der klinischen Diagnostik aber selten auf. Dazu trug bei, dass Wertpunkte mit (10;3) und IQs mit (100;15) standardisiert sind. Solange man beide Standardisierungsarten nicht im gleichen Profilblatt aufträgt, ist die diskrepante Metrik kaum zu bemerken.
-**Abbildung 2** zeigt das an einem Beispielfall eines 31-jährigen Probanden mit niedriger Begabung, der in sämtlichen Subtests des HAWIE-R lediglich vier Wertpunkte erzielte. Die klassischen, nicht altersabhängigen Wertpunkte des HAWIE-R haben einen Mittelwert von 10 und eine Standardabweichung von 3. Vier Wertpunkte entsprechen deshalb einem Wert von 70 auf der IQ-Skala. Wegen der niedrigen Interkorrelation der Subtests betragen aber die tatsächlich bestimmten Teil-IQs statt der naiv erwarteten 70 nur 57 für den Verbalteil und 57 für den Handlungsteil. Weil der Effekt auf die Testmetrik umso größer wird, je mehr Subtests einbezogen werden, beträgt der Gesamt-IQ nur 48. Auf Grund der Subtestergebnisse hätte man einen von 70 erwartet, nach den Teil-IQs einen von 57. **Abbildung 2** wurde mit dem alten, von 1995 bis 2008 verwendeten tdb-Programm  erzeugt, das die nach Handbuchvorschrift berechneten Wertpunkte und IQs darstellte und lediglich den altersspezifisch erwarteten Normbereich zusätzlich einzeichnete.
+Das änderte sich im Erwachsenenbereich mit der Einführung des HAWIE-R als Nachfolger des HAWIE. Damals wunderten sich viele Praktiker darüber, dass speziell bei niedrig Begabten die mit dem neuen HAWIE-R berechneten IQs viel niedriger waren als die zuvor mit dem HAWIE bestimmten. Dies konnte zum einen mit dem Phänomen des IQ-Zugewinns der Bevölkerung über die Zeit hinweg zusammenhängen ([[https://en.wikipedia.org/wiki/Flynn_effect|Flynn-Effekt]]). Der von Flynn erstmals beschriebene Langzeittrend einer steigenden Intelligenz in der zweiten Hälfte des 20. Jahrhunderts führt dazu, dass neuere und damit später normierte Verfahren niedrigere IQs messen als ältere. Allerdings erklärte das beim Wechsel von HAWIE zu HAWIE-R nur einen Teil der Differenz. Der andere Teil kam daher, dass die mittlere Interkorrelation der Subtests in der Standardisierungsstichprobe des HAWIE-R (warum auch immer) lediglich .40 betrug, in den für die IQ-Berechnung benutzten Altersklassen 20-34 Jahre sogar nur .32, beides deutlich niedriger als beim alten HAWIE, wo die mittlere Subtestinterkorrelation etwa bei .60 lag. Die niedrigere Interkorrelation der Subtests in der Standardisierungsstichprobe führte beim HAWIE-R zu einer größeren Spreizung der Metrik der IQs im Verhältnis zur Metrik der Subtests, ein Effekt, der sich im Besonderen in den Extremen der Verteilung auswirkt und dementsprechend vor allem in der Minderbegabtendiagnostik auffiel.
-{{:hawie-r-4wertpunkte.png?630|}}
+**Abbildung 2** zeigt das an einem Beispielfall eines 31-jährigen Probanden mit niedriger Begabung, der in sämtlichen Subtests des HAWIE-R lediglich vier Wertpunkte erzielte. Die klassischen, nicht altersabhängigen Wertpunkte des HAWIE-R haben einen Mittelwert von 10 und eine Standardabweichung von 3. Vier Wertpunkte entsprechen deshalb einem Wert von 70 auf der IQ-Skala. Wegen der niedrigen Interkorrelation der Subtests betragen aber die tatsächlich bestimmten Teil-IQs statt der naiv erwarteten 70 nur 57 für den Verbalteil und 57 für den Handlungsteil. Weil der Effekt auf die Testmetrik umso größer wird, je mehr Subtests einbezogen werden, beträgt der Gesamt-IQ nur 48. Auf Grund der Subtestergebnisse hätte man einen von 70 erwartet, nach den Teil-IQs einen von 57. **Abbildung 2** wurde mit einem alten Programm  erzeugt, das die nach Handbuchvorschrift berechneten Wertpunkte und IQs darstellte und lediglich den altersspezifisch erwarteten Normbereich zusätzlich einzeichnete.
+{{:hawie-r-4wertpunkte-592.png|}}
 **Abbildung 2: Beispiel für die unterschiedliche Metrik von Subtests und IQs beim HAWIE-R**
-Niemand kann in der Praxis mit solch unterschiedlichen Metriken wirklich umgehen. Die Idee, dass zu unterschiedlichen Aggregationsgraden der Tests und Subtests auch unterschiedliche Metriken gehören, ist wegen der unvollständigen Kovarianz der Einzeltests psychometrisch zwar stimmig, praktisch dagegen unerwartet und störend. Dass viele "niedrige" Einzelleistungen zu einem "sehr niedrigen" oder gar "extrem niedrigen" Gesamtergebnis führen, ist den meisten Diagnostikern nicht vertraut. Für die Empfänger psychologischer Befundberichte, im Allgemeinen psychometrische Laien, ist die variable Metrik nicht nachvollziehbar. In der Alltagspraxis sind Gesamtnoten Durchschnitte von Einzelnoten. In der Schule führen vier Einzelnoten von "ausreichend" zu einer Gesamtnote von "ausreichend" und nicht zu einer von "mangelhaft". Wollte man die wegen der unvollständigen Kovarianz der Subtests psychometrisch richtige Aggregation tatsächlich beibehalten, müsste man die verbalen Umschreibungen der Testergebnisse an die Testebenen anpassen. Dies ist allerdings schwierig, weil die Verhältnisse von Test zu Test und von Normierung zu Normierung unterschiedlich sind.
+Niemand kann in der Praxis mit solch unterschiedlichen Metriken umgehen. Die Idee, dass zu unterschiedlichen Aggregationsgraden der Tests und Subtests auch unterschiedliche Metriken gehören, ist wegen der unvollständigen Kovarianz der Einzeltests psychometrisch zwar stimmig, praktisch dagegen unerwartet und störend. Dass viele "niedrige" Einzelleistungen zu einem "sehr niedrigen" oder gar "extrem niedrigen" Gesamtergebnis führen, ist den meisten Diagnostikern nicht vertraut. Auch für die Empfänger psychologischer Befundberichte, im Allgemeinen psychometrische Laien, ist eine variable Metrik nicht nachvollziehbar. In der Alltagspraxis sind Gesamtnoten Durchschnitte von Einzelnoten. In der Schule führen vier Einzelnoten von "ausreichend" zu einer Gesamtnote von "ausreichend" und nicht zu einer von "mangelhaft". Wollte man die wegen der unvollständigen Kovarianz der Subtests psychometrisch richtige Aggregation tatsächlich beibehalten, müsste man die verbalen Umschreibungen der Testergebnisse an die Testebenen anpassen. Dies ist allerdings schwierig, weil die Verhältnisse von Test zu Test und von Normierung zu Normierung unterschiedlich sind.
 {{:hawie-r-4wp-in-tdb2.png|}}
@@ Zeile 204: / Zeile 207: @@
 **Abbildung 3: Mittlere Leistungswerte als Ersatz für die Intelligenzquotienten**
-In einem neuropsychologischen Kontext ist es viel sinnvoller, nur eine Metrik zu benutzen. Hier spielt die differenzierte Erfassung unterschiedlicher Fähigkeiten die wichtigste Rolle. Deshalb wird im TDB2-Profil jede Einzelleistung in einem über verschiedene Verfahren vergleichbaren Leistungswert dargestellt. Globalwerte werden in TDB2 nicht in einer eigenen Standardisierung dargestellt, weil diese zu einer anderen Metrik führen würde. Statt dessen werden die Leistungswerte der Einzelverfahren zu Globalwerten gemittelt. **Abbildung 3** zeigt an einem Beispielfall, dass die gleichen Testleistungen wie in **Abbildung 2** im TDB2-Profil zu sogenannten "mittleren Leistungswerten" agglutiniert werden, die auf dem gleichen metrischen Niveau liegen wie die Einzelleistungen. Wie sonst auch werden zusätzlich die Altersnormgrenzen eingeblendet und ein alterskorrigierter Standardwert (ASW) für den Aggregatwert berechnet und in der rechten Spalte des Profils dargestellt. Diese alterskorrigierten Standardwerte entsprechen inhaltlich den üblichen Intelligenzquotienten (sie sind also altersstandardisiert und geben die durchschnittliche Fähigkeit über die einbezogenen Subtests an), sind aber in der gleichen Metrik ausgedrückt wie die Subtests. Sprachlich grenzen wir sie von den Intelligenzquotienten des HAWIE-R und WIE bzw. von den Indexwerten des WIE dadurch ab, dass wir von mittleren alterskorrigierten Standardwerten (100;15) sprechen.
+In einem neuropsychologischen Kontext geht es um die differenzierte Erfassung unterschiedlicher Fähigkeiten und deren vergleichende Bewertung. Deshalb wird im TDB2-Profil ausschließlich die Metrik der Einzeltests verwendet. Jede Einzelleistung wird in einem über verschiedene Verfahren vergleichbaren Leistungswert dargestellt. Globalwerte werden in TDB2 nicht in einer eigenen Standardisierung dargestellt, weil diese zu einer anderen Metrik führen würde. Statt dessen werden die Leistungswerte der Einzelverfahren zu Globalwerten gemittelt. **Abbildung 3** zeigt an einem Beispielfall, dass die gleichen Testleistungen wie in **Abbildung 2** im TDB2-Profil zu //mittleren Leistungswerten// agglutiniert werden, die auf dem gleichen metrischen Niveau liegen wie die Einzelleistungen. Wie sonst auch werden zusätzlich die Altersnormgrenzen eingeblendet und ein alterskorrigierter Standardwert (ASW) für den Aggregatwert berechnet und in der rechten Spalte des Profils dargestellt. Diese alterskorrigierten Standardwerte entsprechen in ihrer Zusammensetzung den üblichen Intelligenzquotienten. Sie sind altersstandardisiert und geben die durchschnittliche Fähigkeit über die einbezogenen Subtests an. Im Gegensatz zu den herkömmlichen Intelligenzquotienten sind sie aber in der gleichen Metrik ausgedrückt wie die Subtests. Sprachlich grenzen wir sie von den Intelligenzquotienten bei HAWIE-R, WIE und WAIS-IV bzw. von den Indexwerten bei WIE und WAIS-IV dadurch ab, dass wir von //mittleren alterskorrigierten Standardwerten// (100;15) sprechen.
 ====== Problembereiche in der Praxis ======
@@ Zeile 210: / Zeile 213: @@
 ===== Adäquatheit der Normen klinisch-neuropsychologischer Tests =====
-Beim praktischen Einsatz von psychodiagnostischen Verfahren dürfte kaum ein singuläres Methodenmerkmal schwerer wiegen als die Adäquatheit der Normen. Theoretisch ist klar, dass sich nur durch die Untersuchung repräsentativer Zufallsstichproben adäquate Normen herstellen lassen. Leider finden sich solche Stichproben bei real existierenden Testverfahren, insbesondere bei kognitiven Leistungstests, so gut wie nie. Selbst bei etablierten, in Testverlagen publizierten Testverfahren bleiben die Beschreibungen der Stichprobenziehung einsilbig. Offensichtlich hat sich hier noch kein Standard etabliert. Für den Anwender ist es oft extrem schwierig, die Adäquatheit einer Normstichprobe nach den Beschreibungen in den Testhandbüchern zu beurteilen. Dies gilt auch dann, wenn die Größe der Normstichprobe durchaus zufriedenstellend wäre: Gegen systematische Verzerrungen bei der Ziehung der Stichprobe helfen auch große Zahlen nichts.
+Beim praktischen Einsatz von psychodiagnostischen Verfahren dürfte kaum ein singuläres Methodenmerkmal schwerer wiegen als die Adäquatheit der Normen. Theoretisch ist klar, dass sich nur durch die Untersuchung repräsentativer Zufallsstichproben adäquate Normen herstellen lassen. Leider finden sich solche Stichproben bei real existierenden Testverfahren, insbesondere bei kognitiven Leistungstests, so gut wie nie. Selbst bei etablierten, in Testverlagen publizierten Testverfahren bleiben die Beschreibungen der Stichprobenziehung einsilbig. Offensichtlich hat sich hier noch kein Standard etabliert. Für den Anwender ist es oft extrem schwierig, die Adäquatheit einer Normstichprobe nach den Beschreibungen in den Testhandbüchern zu beurteilen. Dies gilt auch dann, wenn die Größe der Normstichprobe durchaus zufriedenstellend wäre: Gegen systematische Verzerrungen bei der Ziehung der Stichprobe helfen aber auch große Zahlen nichts.
 Besonders problematisch sind die Normquellen bei manchen klassischen neuropsychologischen Standardverfahren, die von keinem Testautor und keinem Testverlag (mehr) betreut werden. Prominente Beispiele sind die Trail Making Tests, der Halstead Category Test und fast alle verbalen Gedächtnistests. Für diese Tests gibt es meistens kein Standardhandbuch. Hier verlassen sich die meisten Anwender auf kursorische und ad hoc zusammengestellte Normtabellen in neuropsychologischen Standardwerken(([[https://global.oup.com/academic/product/neuropsychological-assessment-9780195395525?q=lezak&lang=en&cc=de | Lezak,M.D., Howieson,D.B., Bigler,E.D.,& Tranel,D. (2012) Neuropsychological Assessment (5th ed.). New York: Oxford University Press]])) (([[https://global.oup.com/academic/product/handbook-of-normative-data-for-neuropsychological-assessment-9780195169300?cc=de&lang=en& | Mitrushina,M., Boone,K.B., Razani,J. & d'Elia,L.F. (2005) Handbook of Normative Data for Neuropsychological Assessment. Second Edition. New York: Oxford University Press]])) (([[https://global.oup.com/academic/product/a-compendium-of-neuropsychological-tests-9780195159578?q=strauss%20sherman&lang=en&cc=de | Strauss,E., Sherman,E.M.S., & Spreen,O. (2006). A Compendium of Neuropsychological Tests. Administration, Norms, and Commentary. Third Edition. New York: Oxford University Press]])). Da es davon allerdings mehrere gibt, die auf unterschiedliches Material zurückgreifen, ist es kaum zu vermeiden, dass in der Praxis auch mal höchst unterschiedliche Normquellen verwendet werden, die im Einzelfall zu hochgradig abweichenden Ergebnissen kommen.
@@ Zeile 218: / Zeile 221: @@
 ===== Testversionen und Testvarianten =====
-Unter Psychodiagnostikfachleuten dürfte es unbestritten sein, dass Testverfahren von Zeit zu Zeit überarbeitet und neu normiert werden sollten. Über die Länge der zumutbaren Intervalle zwischen zwei Auflagen gehen die Meinungen dagegen schon auseinander. Zumindest die auflagenstärkeren Testverfahren, die sich in der Praxis gut etabliert haben, werden auch tatsächlich alle 5 bis 20 Jahre revidiert und dabei gelegentlich auch neu normiert. Leider ist das Beharrungsvermögen der Testanwender in den meisten Fällen hoch: Es kommt zu der Situationen, dass jüngere Diagnostiker die neueren Versionen eines Tests einsetzen, die älteren aber meist bei den alten bleiben. Es dürfte weitgehend unbekannt sein, dass sich manchmal von einer Auflage zur anderen massive Normverschiebungen ergeben können. Die Texte oder Vorwörter der Handbücher sind leider keine gute Quelle, wenn man Informationen darüber sucht. So gut wie nie gibt es Daten zur Äquivalenz der neuen Normen mit den alten, man muss als Anwender schon die Tabellen selbst analysieren. Beim d2, einem Testverfahren, das regelmäßig revidiert wurde, fanden sich zum Beispiel zwischen der 7. und 8. Auflage so massive Unterschiede in einzelnen Altersgruppen, dass die Abweichungen schon mal 15 Standardwerte betragen konnten. Leider zählt die Angabe der benutzten Auflage eines Testverfahrens in einem Testbefund eher zu den Ausnahmen als zur Regel.
+Unter Psychodiagnostikfachleuten dürfte es unbestritten sein, dass Testverfahren von Zeit zu Zeit überarbeitet und neu normiert werden sollten. Über die Länge der zumutbaren Intervalle zwischen zwei Auflagen gehen die Meinungen dagegen schon auseinander. Zumindest die auflagenstärkeren Testverfahren, die sich in der Praxis gut etabliert haben, werden tatsächlich alle 5 bis 20 Jahre revidiert und dabei gelegentlich auch neu normiert. Leider ist das Beharrungsvermögen der Testanwender in den meisten Fällen hoch: Es kommt zu der Situationen, dass jüngere Diagnostiker die neueren Versionen eines Tests einsetzen, die älteren aber meist bei den alten bleiben. Es dürfte weitgehend unbekannt sein, dass sich manchmal von einer Auflage zur anderen massive Normverschiebungen ergeben können. Die Texte oder Vorwörter der Handbücher sind leider keine gute Quelle, wenn man Informationen darüber sucht. So gut wie nie gibt es Daten zur Äquivalenz der neuen Normen mit den alten, man muss als Anwender schon die Tabellen selbst analysieren. Beim d2, einem Testverfahren, das regelmäßig revidiert wurde, fanden sich zum Beispiel zwischen der 7. und 8. Auflage so massive Unterschiede in einzelnen Altersgruppen, dass die Abweichungen schon mal 15 Standardwerte betragen konnten. Leider zählt die Angabe der benutzten Auflage eines Testverfahrens in einem Testbefund eher zu den Ausnahmen als zur Regel.
 Ähnlich problematisch sind Tests, von denen es mehrere Varianten gibt, sei es im Testmaterial oder in den Durchführungsanweisungen. Für die beiden Trail Making Tests A und B waren eine Zeit lang unterschiedliche Vorlagen in Anwendung. Eine der Vorlagen, die mit Serifen im Schrifttyp, war von Personen mit Sehschwäche viel schlechter zu erkennen als die andere. Bei der Mini Mental State Examination gibt es in der Praxis diverse Durchführungsvarianten, die meist nicht explizit angegeben werden. In der Arbeitsgedächtnisaufgabe dieses Tests wird manchmal ein Wort (es sind unterschiedliche in Gebrauch) rückwärts buchstabiert, manchmal wird dagegen rückwärts gerechnet. Bei der TAP gibt es in vielen Untertests noch mal Varianten. In zu vielen Testbefunden wird nicht erwähnt, welche dieser Varianten eingesetzt wurde. Die Liste ließe sich leicht verlängern, zum Beispiel bei den diversen Gedächtnistests. Auch bei den möglichen Auswertungsvarianten wird selten genau spezifiziert, welche Normen verwendet wurden (etwa allgemeine oder schulspezifische Normen).
@@ Zeile 224: / Zeile 227: @@
 ====== Verfahrenspraxis in TDB2 ======
-Die in TDB2Online eingeschlossenen Tests wurden nach einem einheitlichen Schema bearbeitet, wobei nicht bei jedem Test alle Schritte zur Anwendung kamen. In diesem Abschnitt werden die allgemeinen Verfahrensweisen und Techniken bei der Bearbeitung der Tests dargestellt und wo nötig begründet. Was davon bei einem einzelnen Test zur Anwendung kam, ist in den testspezifischen Texten dargestellt.
+Die in TDB2Online eingeschlossenen Tests werden nach einem einheitlichen Schema bearbeitet, wobei nicht bei jedem Test alle Schritte zur Anwendung kommen. In diesem Abschnitt werden die allgemeinen Verfahrensweisen und Techniken bei der Bearbeitung der Tests dargestellt und wo nötig begründet. Was davon bei einem einzelnen Test zur Anwendung kommt, ist in den testspezifischen Texten dargestellt.
 ===== Auswahl der Tests =====
-TDB2 ist ein Projekt, das aus der klinisch-psychodiagnostischen Praxis entstanden ist. Die eingeschlossenen Testverfahren sind diejenigen, die von den diagnostisch tätigen Psycholog/inn/en der psychiatrischen Universitätsklinik im Klinikum der LMU München so häufig benutzt wurden, dass der Einschluss sich gelohnt hat. Die Liste ist nicht abgeschlossen, neue Verfahren können hinzukommen.
+TDB2 ist ein Projekt, das aus der klinisch-psychodiagnostischen Praxis entstanden ist. Die eingeschlossenen Testverfahren sind diejenigen, die von den diagnostisch tätigen Psycholog/inn/en der psychiatrischen Universitätsklinik im Klinikum der LMU München so häufig benutzt werden (oder wurden), dass der Einschluss sich lohnt(e). Das Auftauchen veralteter Verfahren auf der Liste ist keine Aufforderung zu deren Einsatz in der Praxis. Die alten Tests verbleiben nur in der Datenbank, weil früher Befunde mit ihnen erstellt wurden.
+Die Liste ist nicht abgeschlossen, neue Verfahren können hinzukommen. Anregungen dazu sind willkommen.
 ===== Charakterisierung des Tests und des Testmaterials =====
@@ Zeile 237: / Zeile 242: @@
 Manche der in TDB2Online eingeschlossenen Tests bestehen aus sehr vielen Subtests, von denen in der Praxis nicht alle gleich häufig eingesetzt werden. Beispiele dafür sind die Testbatterie zur Aufmerksamkeitsprüfung (TAP)((Zimmermann, P. & Fimm, B. (2007): TAP Testbatterie zur Aufmerksamkeitsprüfung, Version 2.1.: Herzogenrath, PSYTEST
-Psychologische Testsysteme)) oder der Regensburger Wortflüssigkeitstest (RWT)(( Aschenbrenner,A., Tucha, O., Lange K. (2000): RWT Regensburger Wortflüssigkeits-Test. Handanweisung, Hogrefe Verlag, Göttingen.)). Für die Auswahl der Subtests in TDB2Online gilt das Gleiche wie für die Auswahl der Tests. Nur diejenigen Subtests wurden eingeschlossen, die in der Münchner Psychiatrischen Klinik so häufig durchgeführt wurden, dass der Einschluss sich lohnte. Natürlich spielte dabei die Verfügbarkeit von Normen (zum Beispiel bei der TAP) eine große Rolle. Wenn bei einem Test oder Subtest eine besondere Durchführungsvariante gewählt wurde, wird das beschrieben.
+Psychologische Testsysteme)) oder der Regensburger Wortflüssigkeitstest (RWT)(( Aschenbrenner,A., Tucha, O., Lange K. (2000): RWT Regensburger Wortflüssigkeits-Test. Handanweisung, Hogrefe Verlag, Göttingen.)). Für die Auswahl der Subtests in TDB2Online gilt das Gleiche wie für die Auswahl der Tests: Nur diejenigen Subtests sind eingeschlossen, die in der Psychiatrischen Klinik der LMU so häufig durchgeführt wurden, dass der Einschluss sich lohnte. Dabei spielte auch die Größe und Qualität der Normbasis (zum Beispiel bei der TAP) eine große Rolle. Wenn bei einem Test oder Subtest eine besondere Durchführungsvariante gewählt wurde, wird das beschrieben.
 ===== Charakterisierung der Testrohwerte und ihrer Verteilungseigenschaften =====
-Hier werden die Rohwerte eines Tests beschrieben. Dazu gehört zum Beispiel auch, welche Zahl als Rohwert dient, wenn der Messbereich zu Ende ist (etwa ein Zeitlimit bei einem Test, dessen Rohwert die Bearbeitungsdauer ist).
+Die Eigenschaften der Rohwerte eines Tests werden in einem eigenen Absatz beschrieben. Normalerweise sind das keine langen Abschnitte, weil die Kodierungsregeln für die Rohwerte meistens schnell erklärt sind. Manchmal gibt es aber auch Situationen, die der Erläuterung bedürfen. Wir geben zum Beispiel explizit an, welche Zahl als Rohwert dient, wenn der Messbereich zu Ende ist (etwa ein Zeitlimit bei einem Test, dessen Rohwert die Bearbeitungsdauer ist).
-Häufig lässt sich aus der Art des Rohwerts schon auf die Verteilungseigenschaften schließen. Wenn es empirische Daten dazu gibt, werden sie hier vorgestellt und wenn nötig diskutiert.
+Wichtig sind die Verteilungseigenschaften der Rohwerte. Häufig lässt sich aus der Art des Rohwerts schon auf die Verteilungseigenschaften schließen. Wann immer es empirische Daten zu den Rohwertverteilungen gibt, werden sie hier vorgestellt und diskutiert. Die Verteilung der Rohwerte hat einen großen Einfluss auf die Diskriminationsfähigkeit eines Tests.
 ===== Linearisierung der Messskala =====
-Komplexe Fähigkeitsmerkmale, wie sie durch kognitive Tests gemessen werden, sind in der Population im Allgemeinen normalverteilt. Weicht eine Verteilung von Rohwerten bei einer Zufallsstichprobe aus der Population markant von einer Normalverteilung ab, hat das meistens damit zu tun, dass die gewählten Rohwerte zur Messung der Eigenschaft nicht sonderlich geeignet sind und die Eigenschaft nicht linear, sondern messtechnisch verzerrt abbilden. Nichtlineare Messskalen eignen sich nicht gut als Ausgangsmaterial für Testverfahren. Zum einen stimmen dann die Annahmen der klassischen Testtheorie nicht (was noch zu verschmerzen wäre), zum anderen können wir nichtlineare Messskalen nicht mehr intuitiv interpretieren. Vermutlich durch den dauernden Umgang mit linearen physikalischen Maßeinheiten geprägt, rechnen wir immer damit, dass gleichgroße Intervalle an verschiedenen Stellen einer Skala auch einen gleich großen Unterschied in der dahinterliegenden Eigenschaft (Länge, Gewicht, aber eben auch IQ, Gedächtniskompetenz, was immer) abbilden. Dies geht nur, wenn die Skala die dahinter stehende Eigenschaft linear abbildet und entsprechend zu einer Normalverteilung bei Zufallsstichproben führt.
+Komplexe Fähigkeitsmerkmale, wie sie durch kognitive Tests gemessen werden, sind in der Population im Allgemeinen normalverteilt. Weicht eine Verteilung von Rohwerten bei einer Zufallsstichprobe aus der Population markant von einer Normalverteilung ab, hat das meistens damit zu tun, dass die gewählten Rohwerte zur Messung der Eigenschaft nicht sonderlich geeignet sind. Sie bilden die Eigenschaft dann nicht linear, sondern messtechnisch verzerrt ab. Nichtlineare Messskalen eignen sich nicht gut als Ausgangsmaterial für Testverfahren. Zum einen stimmen dann die Annahmen der klassischen Testtheorie nicht (was noch zu verschmerzen wäre), zum anderen können wir nichtlineare Messskalen nicht mehr intuitiv interpretieren. Wir sind es gewohnt, dass bei den Maßeinheiten, mit denen wir täglich umgehen, gleichgroße Intervalle an verschiedenen Stellen einer Skala auch einen gleich großen Unterschied in der dahinterliegenden Eigenschaft (Länge, Gewicht, aber eben auch IQ, Gedächtniskompetenz, was immer) abbilden. Dies geht nur, wenn die Skala die dahinter stehende Eigenschaft linear abbildet und entsprechend zu einer Normalverteilung bei Zufallsstichproben führt.
-Bei allen in TDB2Online aufgenommenen Testverfahren werden deshalb lineare Testwerte angestrebt. Bei vielen Tests ist das einfach, weil schon die Rohwerte linear sind. Bei manchen Tests hat sich der Testautor oder die Testautorin schon Gedanken über eine Linearisierung gemacht und sie in die Auswertung eingearbeitet, z. B. wie seinerzeit David Wechsler durch die Transformation von Roh- in Wertpunkte. Leider bleiben aber immer noch eine ganze Reihe von Tests übrig, deren Rohwerte nichtlinear sind und die nachträglich in TDB2Online linearisiert werden müssen. Dabei sind die nachträglichen Lösungswege kompliziert und generell unerfreulich. Nur selten stehen nachträglich die Rohwerte einer Stichprobe junger Erwachsener zur Verfügung, was der Idealfall wäre. Manchmal hat man wenigstens eine Perzentilverteilung einer größeren Stichprobe gesunder junger Erwachsener. An Hand einer solchen empirischen Verteilung kann man auch eine heuristische Transformationstabelle erstellen, die die Skala linearisiert. Stichproben mit einem weiten Altersbereich sind kaum geeignet, weil hier zusätzliche altersbedingte Effekte einfließen, die verteilungsrelevant sind. Aus ähnlichen Überlegungen sind Patientenstichproben eher ungeeignet. Gelegentlich mussten bei der Linearisierung approximative Verfahren eingesetzt werden. Das ist unbefriedigend, aber immer noch besser als der Verzicht auf Linearisierung, obwohl die Rohwertverteilung eindeutig schief ist.
+Bei allen in TDB2Online aufgenommenen Testverfahren werden deshalb lineare Testwerte angestrebt. Bei vielen Tests ist das einfach, weil schon die Rohwerte linear sind. Bei manchen Tests hat sich der Testautor oder die Testautorin schon Gedanken über eine Linearisierung gemacht und sie in die Auswertung eingearbeitet, z. B. seinerzeit David Wechsler durch die Transformation von Rohpunkten in Wertpunkte. Leider bleiben aber immer noch eine ganze Reihe von Tests übrig, deren Rohwerte nichtlinear sind und die nachträglich in TDB2Online linearisiert werden müssen. Dabei sind die nachträglichen Lösungswege kompliziert und generell unerfreulich. Nur selten stehen die Rohwerte einer Stichprobe junger Erwachsener zur Verfügung, was für TDB2 der Idealfall wäre. Manchmal hat man wenigstens eine Perzentilverteilung einer größeren Stichprobe gesunder junger Erwachsener. An Hand einer solchen empirischen Verteilung kann man auch eine heuristische Transformationstabelle erstellen, die die Skala linearisiert. Stichproben mit einem weiten Altersbereich sind kaum geeignet, weil hier zusätzliche altersbedingte Effekte einfließen, die verteilungsrelevant sind. Aus ähnlichen Überlegungen sind Patientenstichproben eher ungeeignet. Gelegentlich mussten bei der Linearisierung approximative Verfahren eingesetzt werden. Das ist unbefriedigend, aber immer noch besser als der Verzicht auf Linearisierung, obwohl die Rohwertverteilung eindeutig schief ist.
 Die exakte Vorgehensweise wird bei den einzelnen Verfahren dokumentiert, eine Übersicht über die zur Verfügung stehenden Methoden wurde schon im Abschnitt [[dokumentation#methoden_der_linearisierung|Methoden der Linearisierung]] gegeben.
@@ Zeile 262: / Zeile 267: @@
   - Als Minimum waren Mittelwert und Standardabweichung pro Altersgruppe verfügbar.
-Die Quellen sind in den Texten zu den Einzeltests dokumentiert. Die Zusammenfassung der Normwerte erfolgte mit metaanalytischen Verfahren. Ziel war die Bereitstellung einer Normierung, die möglichst repräsentativ für die gesamte erwachsene Bevölkerung ist. Eine Stratifizierung nach anderen Merkmalen als dem Alter erfolgte nicht. Normquellen, die sich statistisch als Ausreißer erwiesen, werden nicht verwendet. Die Werte wurden über die Altersgruppen hinweg geglättet.
+Die Quellen sind in den Texten zu den Einzeltests dokumentiert. Die Zusammenfassung der Normwerte erfolgte mit (einfachen, deskriptiven) metaanalytischen Verfahren. Ziel war die Bereitstellung einer Normierung, die möglichst repräsentativ für die gesamte erwachsene Bevölkerung ist. Eine Stratifizierung nach anderen Merkmalen als dem Alter erfolgte nicht. Normquellen, die sich statistisch als Ausreißer erwiesen, wurden nicht verwendet. Die Werte wurden über die Altersgruppen hinweg geglättet.
+Gelegentlich wurde die Adäquatheit der Normdaten eines Tests dadurch untersucht, dass dessen Äquivalenz mit einem anderen, ähnlichen Verfahren geprüft wurde. Ergebnisse hierzu finden sich in den Dokumentationstexten zu den Einzeltests im Abschnitt Diskussion. Ziel solcher Arbeiten war es, Hinweise zur Abschätzung der Plausibilität der vorhandenen Normdaten zu erhalten.
-Gelegentlich wurde die Adäquatheit der Normdaten eines Tests dadurch untersucht, dass dessen Äquivalenz mit einem anderen, ähnlichen Verfahren geprüft wurde. Ergebnisse hierzu finden sich in den Dokumentationstexten zu den Einzeltests im Abschnitt Diskussion. Ziel solcher Arbeiten war es, Hinweise zur Abschätzung der Plausibilität der vorhandenen Normdaten zu erhalten.
 ===== Wahl der Standardskala =====
@@ Zeile 270: / Zeile 276: @@
   - Die IQ-Skalierung dürfte die bei Leistungstests am häufigsten benutzte sein. Die T-Wert-Skalierung (50;10) ist zwar bei Persönlichkeitstests sehr gebräuchlich, aber nicht bei Intelligenztests und weniger bei sonstigen Leistungstests. Die "SW"- Skalierung (100;10) ist zwar bei deutschen Intelligenztests durchaus gebräuchlich, international aber kaum zu finden.
-  - Bei der verbalen Interpretation von Testbefunden hat die IQ-Skala den Vorteil, dass die mittleren 50 Prozent der Verteilung, ein Bereich, der in der Statistik häufig als Durchschnittsbereich (Interquartildifferenz) gewertet wird, zwischen den markanten Werten 90 und 110 liegt. Auch ein weiterer Durchschnittsbereich (plus/minus eine Standardabweichung) ist mit den Werten 85 und 115 noch gut markiert, auch wenn man bei stetig verteilten Variablen gute Gründe braucht, um fast 70 Prozent einer Verteilung als „Durchschnitt“ zu bezeichnen. Die IQ-Skala macht es einem damit relativ leicht, Wechslers verbale Charakterisierung der kognitiven Leistungshöhe zu übernehmen (siehe dazu die Tabelle 1 im Abschnitt [[dokumentation#An der Normalverteilung orientierte Skalen|"An der Normalverteilung orientierte Skalen"]]).
+  - Bei der verbalen Interpretation von Testbefunden hat die IQ-Skala den Vorteil, dass die mittleren 50 Prozent der Verteilung, ein Bereich, der in der Statistik häufig als Durchschnittsbereich (Interquartildifferenz) gewertet wird, zwischen den markanten Werten 90 und 110 liegt. Auch ein weiterer Durchschnittsbereich (plus/minus eine Standardabweichung) ist mit den Werten 85 und 115 noch gut markiert, auch wenn man bei stetig verteilten Variablen gute Gründe braucht, um fast 70 Prozent einer Verteilung als „Durchschnitt“ zu bezeichnen. Die IQ-Skala macht es einem damit relativ leicht, Wechslers verbale Charakterisierung der kognitiven Leistungshöhe zu übernehmen (siehe dazu die Tabelle 1 im Abschnitt [[dokumentation#An der Normalverteilung orientierte Skalen|"An der Normalverteilung orientierte Skalen"]]). Mit sieben Stufen von "extrem niedrig" über "sehr niedrig", "niedrig", "durchschnittlich", "hoch", "sehr hoch" bis zu "extrem hoch" lässt sich eine Leistung meistens ausreichend gut verbal charakterisieren, zumal Zwischentöne wie etwa "am unteren Rand einer durchschnittlichen Leistung" die Aussage weiter qualifizieren können. Der Messgenauigkeit kognitiver Tests wird eine solche Charakterisierung jedenfalls besser gerecht als das oft Gelesene "unterdurchschnittlich", "durchschnittlich", "überdurchschnittlich".
 ===== Berechnung von Leistungswerten =====
-TDB2Online verfolgt das Ziel einer reinen Leistungsmessung auf einer Skala, die für alle verwendeten Messinstrumente vergleichbar ist. Die Interpretation eines Messwerts im Hinblick auf das Alter des Patienten wird mit Hilfsmitteln erleichtert, das Alter wird jedoch nicht dafür verwendet, den eigentlichen Messwert zu verändern. Andere biographische Parameter (Bildung, Geschlecht, was immer) werden nicht berücksichtigt. Welchen Stellenwert sie möglicherweise haben, muss im Testbefund verbal interpretiert werden, das ist nicht mehr Aufgabe der Leistungsmessung.
+TDB2Online verfolgt das Ziel einer reinen Leistungsmessung auf einer Skala, die für alle verwendeten Messinstrumente vergleichbar ist. Die Interpretation eines Messwerts im Hinblick auf das Alter des Patienten wird mit Hilfsmitteln erleichtert, das Alter wird jedoch nicht dafür verwendet, den eigentlichen Messwert zu verändern. Andere biographische Parameter (Bildung, Geschlecht, was immer) werden nicht berücksichtigt. Welchen Stellenwert sie haben, muss im Testbefund verbal interpretiert werden, das ist nicht mehr Aufgabe der Leistungsmessung.
-Für die Leistungsmessung wird eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen ("nicht-alterskorrigierten") Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt [[tests:wechsler_intelligenztest_fuer_erwachsene#Wertpunkttransformation|Wertpunkttransformation]] in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als **Leistungswerte**. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.
-==== Besonderheiten bei Demenztests ====
-Bei den meisten Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Beispiele für solche Tests sind die Mini Mental State Examination (MMSE), die CERAD-Testbatterie und der Zahlen-Verbindungs-Test ZVT-G. Bei den genannten Verfahren gibt es Normen für gesunde Probanden nur im Altersbereich von etwa 50 bis 90 mit einem Mittelwert um die 70 Jahre, oft nicht sonderlich gut spezifiziert. Bei diesen drei Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Personen von etwa 70 Jahren. In der Überschrift zu den jeweiligen Testverfahren ist die Quelle der Leistungsnormdaten immer dann angegeben, wenn sie vom Standard (junge Erwachsene) abweicht (siehe **Abbildung 4**).
-Der nächste Abschnitt gehört eigentlich zum Punkt Darstellung....
-**Abbildung 4** zeigt noch eine weitere Besonderheit der Demenztests. Diese Tests sind nicht zur Quantifizierung von Fähigkeiten über einen breiten Normbereich hinweg konstruiert. Bei ihnen steht der Nachweis und die Quantifizierung von Defiziten im Vordergrund. In fast allen Demenztests erreicht ein Gesunder schon mit mittleren Leistungen die Testdecke. Am auffälligsten ist das beim Subtest Wörter Wiedererkennen in der CERAD. In diesem Subtest erreichen mehr als 50 Prozent der Normstichprobe der 70-Jährigen die volle Punktzahl von 10 Richtigen. Man sieht das daran, dass der maximal erreichbare Rohwert von 10 zu einem Leistungswert von unter 100 führt. In solchen Fällen geben wir in der Spalte für die altersbezogenen Standardwerte statt eines festen Wertes nur noch einen Bereich an, hier also ">95".
+Für die Leistungsmessung wird nach Möglichkeit eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem lebenszeitlichen Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen ("nicht-alterskorrigierten") Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt [[dokumentation:wechsler_intelligenztest_fuer_erwachsene#Wertpunkttransformation|Wertpunkttransformation]] in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als **Leistungswerte**. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.
-{{:besonderheiten_bei_demenztests.png|}}
+==== Leistungswerte bei Demenztests ====
-**Abbildung 4: Angabe der Normbasis im Titel bei Abweichungen vom Standard**
+Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Ein prominentes Beispiel dafür ist die [[tests:cerad-testbatterie|CERAD-Testbatterie]]. Normen für gesunde Probanden gibt es hier nur in höheren Altersbereichen, frühestens von 50 an aufwärts, oft nicht sonderlich gut spezifiziert. Bei solchen Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Ältere. In der Überschrift zu den jeweiligen Testverfahren ist der Altersbereich für die Berechnung der Leistungsnormen immer angegeben.
 ===== Berechnung von altersnormierten Werten =====
-Für die klinische Beurteilung eines Testwerts ist vor allem bei älteren Patienten ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Nicht umsonst werden bei den meisten publizierten Tests die Rohwerte direkt in altersabhängige Standardwerte umgerechnet. Auch in TDB2Online werden zusätzlich zu den Leistungswerten auch altersabhängige Standardwerte (ASW, mit Mittelwert 100 und Standardabweichung 15) berechnet und im Testprofil numerisch angegeben. Die Werte werden mit den in TDB2Online agglutinierten Normdaten berechnet. Wie weiter oben dargestellt, beruhen diese auf einer möglichst breiten empirischen Basis und einer möglichst effizienten psychometrischen Aufarbeitung. Sie entsprechen deshalb nicht unbedingt den Normdaten, die sich in anderen Publikationen finden. Selbst bei publizierten Tests, bei denen es außer den publizierten Normdaten keine weiteren Normquellen gibt, sind Abweichungen wahrscheinlich, weil TDB2Online zum Beispiel immer zwischen den Rohwertstufen und zwischen benachbarten Altersgruppen Glättungen durchführt.
+Für die klinische Beurteilung eines Testwerts ist normalerweise ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Nicht umsonst werden bei den meisten publizierten Tests die Rohwerte direkt in altersabhängige Standardwerte umgerechnet. Auch in TDB2Online werden zusätzlich zu den Leistungswerten altersabhängige Standardwerte (ASW, mit Mittelwert 100 und Standardabweichung 15) berechnet und im Testprofil numerisch angegeben. Die Werte werden mit den in TDB2Online agglutinierten Normdaten berechnet. Wie weiter oben dargestellt, beruhen diese auf einer möglichst breiten empirischen Basis und einer möglichst effizienten psychometrischen Aufarbeitung. Sie entsprechen deshalb nicht unbedingt den Normdaten, die sich in anderen Publikationen finden. Selbst bei publizierten Tests, bei denen es außer den publizierten Normdaten keine weiteren Normquellen gibt, sind Abweichungen wahrscheinlich, weil für die TDB2Online-Normen zum Beispiel immer zwischen den Rohwertstufen und zwischen benachbarten Altersgruppen Glättungen durchgeführt wurden.
 ===== Darstellung als einheitliches Testprofil =====
@@ Zeile 299: / Zeile 298: @@
 {{:tmt_gross_doku.jpg?630|}}
-**Abbildung 5: Beispiel eines Leistungswertprofils**
+**Abbildung 4: Beispiel eines Leistungswertprofils**
-Ein Muster dieser Art der Visualisierung von Testergebnissen liefert **Abbildung 5**. Dargestellt ist ein Leistungswertprofil (Bereich 40 bis 145) mit zwei Einzeltestwerten im TMT A und B bei einem 58-Jährigen, dargestellt als schwarze Kreise. Im Beispiel betragen die Rohwerte 25 und 79, als Leistungswerte (Abszissenwerte) lassen sich circa 96 und 84 ablesen. Überlagert sind die Altersreferenzwerte. Das weiße Viereck markiert den Mittelwert der Altersgruppe (hier 55-59 Jahre) bzw. den //altersnormierten Standardwert// (ASW, kurz auch nur als Altersstandardwert bezeichnet) von 100 für dieses Alter. Der graue Bereich umfasst den ASW von 85 bis 115, entsprechend einem Prozentrang von 16 bis 84, die Endbalken gehen von ASW 70 bis ASW 130, entsprechend den Prozenträngen von 2,5 bis 97,5. Innerhalb dieser Altersnormwerte liegt der Testwert des Probanden im Teil A am oberen Rand des grauen Balkens, im Teil B knapp unterhalb des altersgemäßen Mittelwerts. Die entsprechenden Altersstandardwerte (113 im Teil A und 98 im Teil B) sind in der Spalte am rechten Rand eingetragen. (Zum Vergrößern anklicken!)
+Ein Muster dieser Art der Visualisierung von Testergebnissen liefert **Abbildung 4**. Dargestellt ist ein Leistungswertprofil (Bereich 40 bis 145) mit zwei Einzeltestwerten im [[tests:trail_making_tests|TMT A und B]] bei einem 58-Jährigen, dargestellt als schwarze Kreise. Im Beispiel betragen die Rohwerte 25 und 79, als Leistungswerte (Abszissenwerte) lassen sich circa 96 und 84 ablesen. Überlagert sind die Altersreferenzwerte. Das weiße Viereck markiert den Mittelwert der Altersgruppe (hier 55-59 Jahre) bzw. den //altersnormierten Standardwert// (ASW, kurz auch nur als Altersstandardwert bezeichnet) von 100 für dieses Alter. Der graue Bereich umfasst den ASW von 85 bis 115, entsprechend einem Prozentrang von 16 bis 84, die Endbalken gehen von ASW 70 bis ASW 130, entsprechend den Prozenträngen von 2,5 bis 97,5. Innerhalb dieser Altersnormwerte liegt der Testwert des Probanden im Teil A am oberen Rand des grauen Balkens, im Teil B knapp unterhalb des altersgemäßen Mittelwerts. Die entsprechenden Altersstandardwerte (113 im Teil A und 98 im Teil B) sind in der Spalte am rechten Rand eingetragen. (Zum Vergrößern anklicken!)
 ====== Funktionsmerkmale der gewählten Visualisierung ======
@@ Zeile 309: / Zeile 308: @@
 ===== Einschätzung der absoluten Leistung =====
-In TDB2Online wird jeder Testwert als schwarzer Punkt in ein Leistungswertgitter eingezeichnet, das von Test zu Test gleich bleibt und auf dem sich die Leistung über verschiedene Testverfahren hinweg vergleichen lässt. Die Skala mit der kleinen Beschriftung "Leistungswert", die dem Gitter zugrunde liegt, geht bei jedem Test von 40 bis 145 und die Werte stehen immer an der gleichen Position. Die kleinen Zahlen in dem Rechteck, das einen einzelnen Subtest darstellt, geben die Position der möglichen Rohwerte des Subtests an. In **Abbildung 6** lässt sich erkennen, dass ein Rohwert von 30 im WST ungefähr dem Leistungswert 100 entspricht, ein solcher von 20 ungefähr dem Leistungswert 85. Die Leistungswerte selbst sind von Test zu Test vergleichbar. Damit ist die Aussage möglich, dass bei diesem 38-jährigen Patienten die Leistung im Lernen einer Wortliste (VLMT, Lerndurchgang 5, Rohwert 14, Leistungswert etwa 111) um rund 27 IQ-Punkte (oder knapp zwei Standardabweichungen) besser ist als seine Leistung im Teil B des Pfadfindertests (Rohwert 79, Leistungswert etwa 84). Ohne die gemeinsame Messebene der Leistungswerte wären solche Profilinterpretationen hinsichtlich der gezeigten Leistung nicht möglich.
+In TDB2Online wird jeder Testwert als schwarzer Punkt in ein Leistungswertgitter eingezeichnet, das von Test zu Test gleich bleibt und auf dem sich die Leistung über verschiedene Testverfahren hinweg vergleichen lässt. Die Skala mit der kleinen Beschriftung "Leistungswert", die dem Gitter zugrunde liegt, geht bei jedem Test von 40 bis 145 und die Werte stehen immer an der gleichen Position. Die kleinen Zahlen in dem Rechteck, das einen einzelnen Subtest darstellt, geben die Position der möglichen Rohwerte des Subtests an. In **Abbildung 5** lässt sich erkennen, dass ein Rohwert von 30 im [[tests:wortschatztest|WST]] ungefähr dem Leistungswert 100 entspricht, ein solcher von 20 ungefähr dem Leistungswert 85. Die Leistungswerte selbst sind von Test zu Test vergleichbar. Damit ist die Aussage möglich, dass bei diesem 24-jährigen Patienten die Erinnerungsleistung beim Abrufen einer Wortliste ([[tests:verbaler_lern-_und_merkfaehigkeitstest|VLMT]], Abruf nach Interferenz, Rohwert 12, Leistungswert etwa 104) um rund 20 IQ-Punkte (mehr als eine Standardabweichung) besser ist als seine Leistung im Teil B des [[tests:trail_making_tests|TMT]] (Rohwert 79, Leistungswert etwa 84). Ohne die gemeinsame Messebene der Leistungswerte wären vergleichende Interpretationen der Leistungen in unterschiedlichen Domänen nicht möglich.
 ===== Ablesen des Messbereichs =====
-Der kleinste und der größte Rohwert, den ein Test liefern kann, ist immer im Profil eingezeichnet, wenn er im darstellbaren Leistungswertbereich zwischen 40 und 145 liegt. Man kann in **Abbildung 6** am Beispiel des //Wortschatztests WST// also sehen, dass der kleinstmögliche Rohwert 1 und der größtmögliche Rohwert 41 ist. Das entspricht einem relativ großen Messbereich, weil die entsprechenden Leistungswerte von ungefähr 60 bis ungefähr 140 reichen. Beim Subtest //Verzögertes Wiedererkennen// im //VLMT// (letzte Zeile in der **Abbildung 6**) ist das anders. Dieser Subtest erreicht seine Testdecke (den größtmöglichen Rohwert von 15) schon bei einem Leistungswert von etwa 114. In höheren Leistungsbereich kann dieser Subtest also nicht mehr differenzieren. Es ist nicht möglich, eine hohe von einer sehr hohen Leistung zu unterscheiden. Dafür geht der Messbereich sehr weit nach unten. Er würde sogar viel weiter reichen, als er hier erfasst ist. Rohwerte unter 9 liegen schon außerhalb des Darstellungsbereichs. Sie kommen extrem selten vor und sind deshalb nicht mehr normiert.
+Der kleinste und der größte Rohwert, den ein Test liefern kann, ist immer im Profil eingezeichnet, wenn er im darstellbaren Leistungswertbereich zwischen 40 und 145 liegt. Man kann in **Abbildung 5** am Beispiel des [[tests:wortschatztest|Wortschatztests WST]] also nachverfolgen, dass der kleinstmögliche Rohwert 1 und der größtmögliche Rohwert 41 ist. Das entspricht einem relativ großen Messbereich, weil die entsprechenden Leistungswerte von ungefähr 60 bis ungefähr 140 reichen. Beim Subtest //Verzögertes Wiedererkennen// im [[tests:verbaler_lern-_und_merkfaehigkeitstest|VLMT]] (letzte Zeile in der **Abbildung 5**) ist das anders. Dieser Subtest erreicht seine Testdecke (den größtmöglichen Rohwert von 15) schon bei einem Leistungswert von etwa 113. Bessere Leistungen kann dieser Subtest also nicht mehr differenzieren. Es ist nicht möglich, eine hohe von einer sehr hohen Leistung zu unterscheiden. Dafür geht der Messbereich sehr weit nach unten. Er würde sogar viel weiter reichen, als er hier erfasst ist. Rohwerte unter 9 liegen schon außerhalb des Darstellungsbereichs. Sie kommen extrem selten vor und sind deshalb nicht mehr normiert.
+{{:meinmusterpatient.jpg?630|}}
+**Abbildung 5: Beispielprofil für einen 24-jährigen Patienten**
-{{:beispieltdb2_38jahre.png|}}
-**Abbildung 6: Beispielprofil für einen 38-jährigen Patienten**
 ===== Bewertung der Messgenauigkeit =====
-Eine basale Einschätzung der Messgenauigkeit erhält man, wenn man die Auflösung der Rohwertskala mit der Auflösung der Leistungswertskala vergleicht. Beim //Wortschatztest WST// (siehe **Abbildung 6**) entsprechen die Rohwerte zwischen 10 und 20 ungefähr Leistungswerten zwischen 75 und 85. An dieser Stelle der Skala erhöht also ein zusätzliches richtiges Wort den gemessenen IQ um einen Punkt. Dies ist gleichbedeutend mit einer relativ hohen Messgenauigkeit. Im oberen Leistungsbereich (für den der Test auch nicht in erster Linie gedacht ist) erhöht ein zusätzliches richtiges Wort (z. B. von Rohwert 40 auf 41) den gemessenen IQ um 6 oder 7 Punkte. Wenn ein einziges zusätzlich gewusstes (oder gar geratenes) richtiges Wort die gemessene kognitive Leistungsfähigkeit so stark verändern kann, ist die Messgenauigkeit an dieser Stelle der Skala ziemlich niedrig.
+Eine basale Einschätzung der Messgenauigkeit erhält man, wenn man die Auflösung der Rohwertskala mit der Auflösung der Leistungswertskala vergleicht. Beim [[tests:wortschatztest|Wortschatztest WST]] (siehe **Abbildung 5**) entsprechen die Rohwerte zwischen 10 und 20 ungefähr Leistungswerten zwischen 75 und 85. An dieser Stelle der Skala erhöht also ein zusätzliches richtiges Wort den gemessenen IQ um einen Punkt. Dies ist gleichbedeutend mit einer relativ hohen Messgenauigkeit. Im hohen Leistungsbereich erhöht ein zusätzliches richtiges Wort (z. B. von Rohwert 40 auf 41) den gemessenen IQ um 6 oder 7 Punkte. Wenn ein einziges zusätzlich gewusstes (oder gar geratenes) richtiges Wort die gemessene kognitive Leistungsfähigkeit so stark verändern kann, ist die Messgenauigkeit an dieser Stelle der Skala ziemlich niedrig.
-An diesem Beispiel sieht man ganz praktisch, dass die Messgenauigkeit eines Tests keineswegs an allen Stellen gleich sein kann (wie die Reliabilitätstheorie und das von ihr abgeleitete Konzept des Standardmessfehlers suggerieren). Die meisten Tests messen im Mittelbereich genauer als an den Enden. Mit der Item-Response-Theorie, einer Skalierungsmethode für Testitems, lässt sich dies auch regelmäßig nachweisen.
+An diesem Beispiel sieht man ganz praktisch, dass die Messgenauigkeit eines Tests keineswegs an allen Stellen gleich ist (wie die Reliabilitätstheorie und das von ihr abgeleitete Konzept des Standardmessfehlers suggerieren). Die meisten Tests messen im Mittelbereich genauer als an den Enden. Mit der Item-Response-Theorie, einer Skalierungsmethode für Testitems, lässt sich dies auch regelmäßig nachweisen.
-Ein einziger Blick auf den //Verbalen Lern- und Merkfähigkeitstest VLMT// (siehe **Abbildung 6**) reicht aus um zu erkennen, dass alle vier Subtests nur relativ grob messen: Schon ein zusätzlich gelerntes oder erinnertes Wort erhöht den Leistungswert um viele IQ-Punkte.
+Ein Blick auf den [[tests:verbaler_lern-_und_merkfaehigkeitstest|Verbalen Lern- und Merkfähigkeitstest VLMT]] (siehe **Abbildung 5**) reicht aus um zu erkennen, dass alle vier Subtests nur relativ grob messen: Schon ein zusätzlich gelerntes oder erinnertes Wort erhöht den Leistungswert um viele IQ-Punkte.
 Noch einmal zur Erinnerung: Der Leistungswert selbst wird nicht numerisch ausgegeben. Er lässt sich nur an der Position des schwarzen Punkts im Testprofil (Abszissenwert) ablesen.
 ===== Vergleich mit der individuellen Altersnorm =====
@@ Zeile 336: / Zeile 334: @@
 Man kann die individuelle Stellung eines Patienten in den Grenzen seiner Altersbezugsgruppe natürlich aus der Grafik ablesen, allerdings ist das etwas mühsam und ungenau. Deshalb werden die altersnormierten Standardwerte vom Programm ausgerechnet und auf der rechten Seite des Profils in der Spalte ASW angezeigt. Auch diese //altersnormierten Standardwerte (ASW)// werden IQ-skaliert angezeigt, also mit Mittelwert 100 und Standardabweichung 15.
-An einem Beispiel kann man zeigen, wie der //ASW// berechnet wird: In der vorletzten Zeile der **Abbildung 6** (//Verzögerter Abruf im VLMT//) kann man erkennen, dass der individuelle Testwert des Patienten um etwa zwei Drittel des grauen Bereichs vom weißen Quadrat nach links entfernt liegt. Wäre er auf dem weißen Quadrat, wäre das der altersnormierte Standardwert 100. Wäre er am linken Ende des grauen Bereichs, wäre das der altersnormierte Standardwert 85. Da er tatsächlich etwa um 2/3 des grauen Bereichs unterhalb des weißen Quadrats liegt, entspricht dies dem altersnormierten Standardwert 90. Dieser Wert wird von TDB2Online berechnet und in die Spalte //ASW// auf der rechten Seite eingetragen.
+An einem Beispiel kann man zeigen, wie der //ASW// berechnet wird: In der Zeile //Teil B// des Trail Making Tests in **Abbildung 5** kann man sehen, dass der individuelle Testwert des Patienten um etwa ein Drittel Standardabweichung unterhalb des grauen Bereichs liegt. Wäre er auf dem weißen Quadrat, wäre das der altersnormierte Standardwert 100. Wäre er am linken Ende des grauen Bereichs, wäre das der altersnormierte Standardwert 85. Da er tatsächlich etwa um 1/3 Standardabweichung unterhalb des grauen Bereichs liegt, entspricht dies dem altersnormierten Standardwert 80. Dieser Wert wird von TDB2Online berechnet und in die Spalte //ASW// auf der rechten Seite eingetragen.
+Bei jungen Erwachsenen weichen die altersbezogenen Standardwerte kaum von den Leistungswerten ab. Die weißen Quadrate liegen also meistens in der Nähe des Leistungswerts 100. Je älter ein Patient ist und je mehr die Leistung in einem bestimmten Test mit zunehmendem Alter abnimmt, umso größer ist der Unterschied zwischen Leistungswerten und altersbezogenen Standardwerten. Man sieht das deutlich in **Abbildung 6**, die die gleichen Testwerte zeigt wie **Abbildung 5**, aber dieses Mal für einen Patienten im Alter von 74 statt 24 Jahren. Die Position der schwarzen Punkte im Leistungswertgitter bleibt gleich. An der absoluten Leistung ändert sich ja nichts. Was sich ändert, sind die Altersreferenzbereiche und damit die altersbezogenen Standardwerte in der Spalte ASW. Die Änderung des Alters wirkt sich sehr stark aus beim visokonstruktiven [[tests:trail_making_tests|Pfadfindertest (TMT)]] und beim Gedächtnistest [[tests:verbaler_lern-_und_merkfaehigkeitstest|VLMT]]. Hier wandern die Altersreferenzbereiche weit nach links. Sie hat keinen Effekt beim Wortschatztest [[tests:wortschatztest|WST]], weil es für den keine altersgestaffelten Normen gibt und das Alter von 78 Jahren noch im Altersbereich der Normstichprobe liegt. Im Wortschatztest der [[tests:wechsler_adult_intelligence_scale_-_fourth_edition|WAIS-IV]] sieht man etwas genauer, dass es im Alter von 74 Jahren auch im Wortschatz zu geringen Alterseinbußen in der Normstichprobe kommt, die unserem Probanden bei seiner gleichgebliebenen Leistung zu einem höheren ASW von 106 verhelfen. Man kann aber schnell sehen, dass die Alterseffekte bei TMT und VLMT viel größer sind.
+{{:meinaltermusterpatient.jpg?630|}}
+**Abbildung 6: Testleistungen wie Abbildung 5 bei einem 74 Jahre alten Patienten**
+===== Grenzen des Messbereichs =====
+Nicht alle Tests überspannen einen großen oder auch nur einen symmetrischen Leistungsbereich. Vorbildlich ist der Messbereich im Subtest Wortschatztest in der WAIS-IV, der von den Leistungswerten 45 (Rohwert 0) bis 143 (Rohwert 57) reicht (siehe **Abbildung 6**). Mit den Subtests des VLMT lassen sich dagegen sehr hohe Leistungen nicht mehr adäquat messen. Bei allen Subtests ist 15 der höchst erreichbare Rohwert. Im Subtest //Verzögertes Wiedererkennen// (letzte Zeile in **Abbildung 6** entspricht ein Rohwert von 15 nur einem Leistungswert von etwa 112. Höhere Leistungen sind nicht mehr messbar.
+Besonders häufig kommt dies bei Testverfahren vor, die gar nicht zur Quantifizierung von Fähigkeiten über einen breiten Normbereich hinweg konstruiert sind, sondern vornehmlich der Quantifizierung von Defiziten dienen. Im Besonderen trifft das für die Tests zur Quantifizierung von kognitiven Beeinträchtigungen von Demenzkranken zu. **Abbildung 7** zeigt ein Testprofil, das mit der [[tests:cerad-testbatterie|CERAD]] erhoben wurde.
+{{:cerad-beispiel.jpg?630|}}
+**Abbildung 7: CERAD-Testwerte bei einem 70-Jährigen**
+Wir haben schon darauf [[dokumentation#leistungswerte_bei_demenztests|hingewiesen]], dass es für viele Subtests der CERAD keine Normwerte für junge Erwachsene gibt. Darauf weist die Titelzeile der CERAD-Batterie in **Abbildung 7** auch explizit hin. Trotzdem erreicht man in manchen Subtests der CERAD schon mit mittleren Leistungen die Testdecke. Am auffälligsten ist das beim Subtest //Wörter Wiedererkennen//. Hier erreicht fast die Hälfte der Normstichprobe der 60--64-Jährigen die volle Punktzahl von 10 Richtigen. Folgerichtig führt der Rohwert 10 auch nur zu einem Leistungswert von knapp über 100. In solchen Fällen geben wir in der ASW-Spalte statt eines festen Wertes nur noch einen Bereich an, im Beispiel der **Abbildung 7** //>105//. Im Beispiel kommt es noch bei zwei weiteren Subtests nur zu Bereichsangaben.
+====== Ausblick ======
+TDB2 und TDB2Online sind aus der diagnostischen Praxis in einer psychiatrischen Universitätsklinik entstanden. Ausgangspunkt war die Unzufriedenheit mit der Heterogenität der existierenden Verfahren, nicht ihrer Inhalte, sondern ihrer psychometrischen Aufbereitung. Es war kaum möglich, Studierenden der Psychologie im Verlauf eines Sechs-Wochen-Praktikums beizubringen, auf der Grundlage des Handbuchs jedes einzelnen Tests einen vernünftigen und konsistenten Testbefund zu schreiben.
+Mit der Einführung von TDB2 in der Klinik (2009) wurde das deutlich einfacher. Wenn eine Praktikantin oder ein Praktikant die Prinzipien der TDB2-Profildarstellung begriffen hatte (das ging nicht auf Anhieb, war aber in der zweiten Woche meistens abgeschlossen), wurde das Besprechen der Befunde mit den Betreuern viel leichter. Insofern verdanken wir unseren Praktikanten (etwa 10 pro Jahr) die Außenanregung, die notwendig war, um TDB2 voranzubringen.
-Bei jungen Erwachsenen weichen die altersbezogenen Standardwerte kaum von den Leistungswerten ab. Je älter ein Patient ist und je mehr die Leistung in einem bestimmten Test mit zunehmendem Alter abnimmt, umso größer ist der Unterschied zwischen Leistungswerten und altersbezogenen Standardwerten. Man sieht das deutlich in **Abbildung 7**, die die gleichen Testwerte zeigt wie **Abbildung 6**, aber dieses Mal für einen Patienten im Alter von 78 statt 38 Jahren. Die Position der schwarzen Punkte im Leistungswertgitter bleibt gleich. Was sich ändert, sind die Altersreferenzbereiche und damit die altersbezogenen Standardwerte in der Spalte ASW. Die Veränderung des Alters des Patienten wirkt sich sehr stark aus beim visokonstruktiven //Pfadfindertest (TMT)// und beim Gedächtnistest //VLMT//. Sie hat keinen Effekt bei den beiden Wortschatztests, weil es für beide Tests keine getrennten Normen für einzelne Altersbereiche gibt. (Nach den Daten anderer Wortschatztests wäre mit einem gewissen Altersabbau zu rechnen, wenn man die Normierungsuntersuchung breit genug angelegt hätte, der Effekt wäre aber viel geringer als bei //TMT// und //VLMT//).
+TDB2 und TDB2Online sind keine abgeschlossenen Programme. An den Testverfahren werden sich Änderungen ergeben, wenn neue Normen verfügbar werden. Neue Verfahren können hinzukommen. Für Anregungen sind wir jederzeit dankbar.
-{{:beispielprofil_78_jahre.jpg?630|}}
+====== Literatur ======
-**Abbildung 7: Testleistungen wie Abbildung 6 bei einem um 40 Jahre älteren Patienten**
+#@VGW_ZM08_HTML@#