Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- dokumentation [2021/08/25 15:26] – [Leistungswerte] res
+++ dokumentation [2021/08/25 16:46] – [Berechnung von altersnormierten Werten] res
@@ Zeile 52: / Zeile 52: @@
 In der neuropsychologischen Diagnostik steht die Messung und vergleichende Beurteilung von Defiziten in unterschiedlichen Leistungsdomänen im Vordergrund. Für diese Aufgabe ist eine absolute Maßeinheit ein bedeutender Vorteil, weil damit direkte Vergleiche über die Zeit und/oder über Domänen möglich sind. Leistungswerte machen Leistungen über verschiedene Testverfahren und Rohwertarten hinweg vergleichbar. Sie liefern einen übertragbaren Maßstab zur Beurteilung kognitiver Einzelleistungen in einer standardisierten Form. Der für die Interpretation ebenfalls notwendige Bezug zum Alter lässt sich – wie in den meisten anderen Bereichen der klinischen Diagnostik – durch Altersnormwerte herstellen.
-Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig (Beispiel: [[dokumentation:wechsler_adult_intelligence_scale_-_fourth_edition#Allgemeines_Wissen|Subtest Allgemeines Wissen in der WAIS-IV]]). Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch (Beispiel: [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Zahlen-Symbol-Test|Subtest Zahlen-Symbol-Test in der WAIS-IV]]). Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche hinweg würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.
+Leistungswerte werden idealerweise an einer Stichprobe junger Erwachsener etwa im Bereich zwischen 20 und 30 Jahren standardisiert. Die Begründung für die Wahl dieser Altersklasse liegt darin, dass zu diesem Zeitpunkt im Allgemeinen der individuelle Höhepunkt der kognitiven Leistungsfähigkeit in standardisierten Tests erreicht wird. (Eine Ausnahme machen lediglich Wissenstests. Hier liegt das Leistungsmaximum später, der Unterschied zu den Zwanzig- oder Dreißigjährigen ist aber gering.) Bei Personen, die jünger als 20 oder älter als 30 sind, nimmt die Leistung ab. Dabei gibt es große Unterschiede in der Abfallrate zwischen den Fähigkeitsdomänen. In manchen Bereichen (zum Beispiel fast alle verbalen Fähigkeiten) ist die Abfallrate sehr niedrig (Beispiel: [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Allgemeines_Wissen|Subtest Allgemeines Wissen in der WAIS-IV]]). Bei Tests, die Anforderungen an die visomotorische Geschwindigkeit stellen, ist sie sehr hoch (Beispiel: [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Zahlen-Symbol-Test|Subtest Zahlen-Symbol-Test in der WAIS-IV]]). Wegen des unterschiedlichen Abfalls der Fähigkeiten eignen sich andere Altersgruppen als das junge Erwachsenenalter nicht zur Standardisierung, wenn man einen Vergleich von Leistungen über verschiedene Fähigkeiten hinweg haben will. Auch bei einer Standardisierung über alle Altersbereiche hinweg würden die unterschiedlichen Abfallraten die Beurteilung zwischen Leistungsdomänen verzerren.
 In prominenter Weise hatte David Wechsler dieses Prinzip mit seinen klassischen "Wertpunkten" angewendet. Damit ermöglichte er einen Leistungsvergleich zwischen den Subtests seiner Intelligenzbatterien (etwas, was mit den Rohwerten nicht möglich ist). Diese Form der absoluten Leistungsmessung war bis zum HAWIE-R für die Profildarstellung der Leistungen in den einzelnen Subtests vorgesehen (in der Testdokumentation zur WAIS-IV stehen [[tests:wechsler_adult_intelligence_scale_-_fourth_edition#Wertpunkttransformation|Details]] dazu). Sie wurde beim WIE und aktuell auch bei der WAIS-IV zugunsten einer altersabhängigen Darstellung der Subtestleistungen aufgegeben, wodurch der absolute Leistungsmaßstab verloren ging.
@@ Zeile 74: / Zeile 74: @@
 Die IQ-Skala wird meistens bei der Messung kognitiver Fähigkeiten benutzt, die T-Skala eher bei Persönlichkeitstests. Die in Deutschland bei Intelligenztests durchaus beliebte Standardwertskala mit einem Mittelwert von 100 und einer Standardabweichung von 10 ist international kaum gebräuchlich.
-Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der **Abbildung 1** erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man ausführlicheren Tabellen entnehmen kann.
+Die besonderen numerischen Eigenschaften der IQ-Skala lassen sich an Hand der **Abbildung 1** erkennen. Am wichtigsten ist hier der Vergleich zwischen den Werten der IQ-Skala und den Werten der Prozentrangskala. Man sieht, dass ein IQ-Wert von 130 einem Prozentrang von 97,7 entspricht, was nichts anderes bedeutet, als dass 97,7 Prozent der Vergleichsstichprobe einen niedrigeren IQ als 130 haben und die restlichen 2,3 Prozent einen höheren. Zu jedem IQ-Wert gibt es einen entsprechenden Prozentrangwert, den man berechnen oder ausführlicheren Tabellen entnehmen kann.
 {{:normalverteilung_615.png|}}
@@ Zeile 276: / Zeile 276: @@
   - Die IQ-Skalierung dürfte die bei Leistungstests am häufigsten benutzte sein. Die T-Wert-Skalierung (50;10) ist zwar bei Persönlichkeitstests sehr gebräuchlich, aber nicht bei Intelligenztests und weniger bei sonstigen Leistungstests. Die "SW"- Skalierung (100;10) ist zwar bei deutschen Intelligenztests durchaus gebräuchlich, international aber kaum zu finden.
-  - Bei der verbalen Interpretation von Testbefunden hat die IQ-Skala den Vorteil, dass die mittleren 50 Prozent der Verteilung, ein Bereich, der in der Statistik häufig als Durchschnittsbereich (Interquartildifferenz) gewertet wird, zwischen den markanten Werten 90 und 110 liegt. Auch ein weiterer Durchschnittsbereich (plus/minus eine Standardabweichung) ist mit den Werten 85 und 115 noch gut markiert, auch wenn man bei stetig verteilten Variablen gute Gründe braucht, um fast 70 Prozent einer Verteilung als „Durchschnitt“ zu bezeichnen. Die IQ-Skala macht es einem damit relativ leicht, Wechslers verbale Charakterisierung der kognitiven Leistungshöhe zu übernehmen (siehe dazu die Tabelle 1 im Abschnitt [[dokumentation#An der Normalverteilung orientierte Skalen|"An der Normalverteilung orientierte Skalen"]]).
+  - Bei der verbalen Interpretation von Testbefunden hat die IQ-Skala den Vorteil, dass die mittleren 50 Prozent der Verteilung, ein Bereich, der in der Statistik häufig als Durchschnittsbereich (Interquartildifferenz) gewertet wird, zwischen den markanten Werten 90 und 110 liegt. Auch ein weiterer Durchschnittsbereich (plus/minus eine Standardabweichung) ist mit den Werten 85 und 115 noch gut markiert, auch wenn man bei stetig verteilten Variablen gute Gründe braucht, um fast 70 Prozent einer Verteilung als „Durchschnitt“ zu bezeichnen. Die IQ-Skala macht es einem damit relativ leicht, Wechslers verbale Charakterisierung der kognitiven Leistungshöhe zu übernehmen (siehe dazu die Tabelle 1 im Abschnitt [[dokumentation#An der Normalverteilung orientierte Skalen|"An der Normalverteilung orientierte Skalen"]]). Mit sieben Stufen von "extrem niedrig" über "sehr niedrig", "niedrig", "durchschnittlich", "hoch", "sehr hoch" bis zu "extrem hoch" lässt sich eine Leistung meistens ausreichend gut verbal charakterisieren, zumal Zwischentöne wie etwa "am unteren Rand einer durchschnittlichen Leistung" die Aussage weiter qualifizieren können. Der Messgenauigkeit kognitiver Tests wird eine solche Charakterisierung jedenfalls besser gerecht als das oft Gelesene "unterdurchschnittlich", "durchschnittlich", "überdurchschnittlich".
 ===== Berechnung von Leistungswerten =====
@@ Zeile 282: / Zeile 282: @@
 TDB2Online verfolgt das Ziel einer reinen Leistungsmessung auf einer Skala, die für alle verwendeten Messinstrumente vergleichbar ist. Die Interpretation eines Messwerts im Hinblick auf das Alter des Patienten wird mit Hilfsmitteln erleichtert, das Alter wird jedoch nicht dafür verwendet, den eigentlichen Messwert zu verändern. Andere biographische Parameter (Bildung, Geschlecht, was immer) werden nicht berücksichtigt. Welchen Stellenwert sie haben, muss im Testbefund verbal interpretiert werden, das ist nicht mehr Aufgabe der Leistungsmessung.
-Für die Leistungsmessung wird nach Möglichkeit eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem lebenszeitlichen Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen ("nicht-alterskorrigierten") Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt [[tests:wechsler_intelligenztest_fuer_erwachsene#Wertpunkttransformation|Wertpunkttransformation]] in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als **Leistungswerte**. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.
+Für die Leistungsmessung wird nach Möglichkeit eine Skalierung benutzt, die die Testleistung gesunder Erwachsener auf dem lebenszeitlichen Höhepunkt ihrer kognitiven Leistungsfähigkeit zum Maßstab der Darstellung macht. Das Verfahren ist keineswegs neu. Es entspricht im Prinzip Wechslers „Wertpunkten“, und zwar in der klassischen ("nicht-alterskorrigierten") Form, die mit der WAIS-R bzw. dem HAWIE-R eingeführt wurde (siehe auch den Abschnitt [[dokumentation:wechsler_intelligenztest_fuer_erwachsene#Wertpunkttransformation|Wertpunkttransformation]] in der Testbeschreibung des WIE). Bei Wechslers Erwachsenentests beinhaltete die Umrechnung von Rohwerten in Wertpunkte zweierlei: zum einen eine Korrektur schiefer und verzerrter Verteilungsformen der Rohwerte hin zu einer Normalverteilung der Wertpunkte (was in TDB2Online meistens im Rahmen eines eigenen Arbeitsgangs durchgeführt wird) und zum zweiten die Standardisierung an einer Zufallsstichprobe junger gesunder Erwachsener, meist im Altersbereich zwischen etwa 20 und etwa 30). TDB2Online greift auf dieses Konzept zurück, allerdings mit einer skalierungstechnischen Änderung. Wechsler hatte seine Wertpunkte auf einen Mittelwert von 10 und eine Standardabweichung von 3 skaliert. Wegen der höheren Vertrautheit und der besseren Differenzierungsfähigkeit beziehen wir diese Leistungsmaße auf einen Mittelwert von 100 und eine Standardabweichung von 15 und bezeichnen sie als **Leistungswerte**. Leistungswerte sind immer positiv gepolt: Höhere Zahlen bedeuten bessere Leistungen.
 ==== Leistungswerte bei Demenztests ====
-Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Ein prominentes Beispiel dafür ist die [[tests:cerad-testbatterie|CERAD-Testbatterie]]. Normen für gesunde Probanden gibt es hier nur in höheren Altersbereichen, frühestens von 50 an aufwärts, oft nicht sonderlich gut spezifiziert. Bei solchen Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Ältere. In der Überschrift zu den jeweiligen Testverfahren ist die Quelle der Leistungsnormdaten immer dann angegeben, wenn sie vom Standard (junge Erwachsene) abweicht.
+Bei vielen Testverfahren, die für die Demenzdiagnostik verwendet werden, gibt es keine Normen für junge Erwachsene. Ein prominentes Beispiel dafür ist die [[tests:cerad-testbatterie|CERAD-Testbatterie]]. Normen für gesunde Probanden gibt es hier nur in höheren Altersbereichen, frühestens von 50 an aufwärts, oft nicht sonderlich gut spezifiziert. Bei solchen Tests beziehen sich die Leistungswerte nicht auf junge Erwachsene, sondern auf Ältere. In der Überschrift zu den jeweiligen Testverfahren ist der Altersbereich für die Berechnung der Leistungsnormen immer angegeben.
 ===== Berechnung von altersnormierten Werten =====
-Für die klinische Beurteilung eines Testwerts ist vor allem bei älteren Patienten ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Nicht umsonst werden bei den meisten publizierten Tests die Rohwerte direkt in altersabhängige Standardwerte umgerechnet. Auch in TDB2Online werden zusätzlich zu den Leistungswerten altersabhängige Standardwerte (ASW, mit Mittelwert 100 und Standardabweichung 15) berechnet und im Testprofil numerisch angegeben. Die Werte werden mit den in TDB2Online agglutinierten Normdaten berechnet. Wie weiter oben dargestellt, beruhen diese auf einer möglichst breiten empirischen Basis und einer möglichst effizienten psychometrischen Aufarbeitung. Sie entsprechen deshalb nicht unbedingt den Normdaten, die sich in anderen Publikationen finden. Selbst bei publizierten Tests, bei denen es außer den publizierten Normdaten keine weiteren Normquellen gibt, sind Abweichungen wahrscheinlich, weil für die TDB2Online-Normen zum Beispiel immer zwischen den Rohwertstufen und zwischen benachbarten Altersgruppen Glättungen durchgeführt wurden.
+Für die klinische Beurteilung eines Testwerts ist normalerweise ein Vergleich mit den Leistungen der entsprechenden Altersgruppe notwendig. Nicht umsonst werden bei den meisten publizierten Tests die Rohwerte direkt in altersabhängige Standardwerte umgerechnet. Auch in TDB2Online werden zusätzlich zu den Leistungswerten altersabhängige Standardwerte (ASW, mit Mittelwert 100 und Standardabweichung 15) berechnet und im Testprofil numerisch angegeben. Die Werte werden mit den in TDB2Online agglutinierten Normdaten berechnet. Wie weiter oben dargestellt, beruhen diese auf einer möglichst breiten empirischen Basis und einer möglichst effizienten psychometrischen Aufarbeitung. Sie entsprechen deshalb nicht unbedingt den Normdaten, die sich in anderen Publikationen finden. Selbst bei publizierten Tests, bei denen es außer den publizierten Normdaten keine weiteren Normquellen gibt, sind Abweichungen wahrscheinlich, weil für die TDB2Online-Normen zum Beispiel immer zwischen den Rohwertstufen und zwischen benachbarten Altersgruppen Glättungen durchgeführt wurden.
 ===== Darstellung als einheitliches Testprofil =====