dokumentation:cerad-testbatterie

Dies ist eine alte Version des Dokuments!


CERAD-Testbatterie

Abkürzung: CERAD

Seit dem 15. August 2019 gibt es in TDB2Online neue Normen für die Auswertung aller CERAD-Subtests. Sie werden in der TDB2OnlineApp unter dem Namen „CERAD“ aufgerufen. Wir empfehlen diese Normen für alle Erstuntersuchungen von Patienten. Die neue Normierung beruht auf einer breiteren Basis von Zufallsstichproben gesunder Probanden ohne Demenz.

Die vor dem 15. August 2019 verwendeten Normen stützten sich lediglich auf zwei Normquellen: bei der Linearisierung der Skalen auf die alte Arbeit von Welsh et al. (1994)1) und bei den Altersvergleichsgruppen auf die Baseler Normen2). Wir behalten diese alten Normen unter dem Namen „CERAD alt“ bis auf Weiteres in der App, damit früher untersuchte Patienten im Längsschnitt damit weiter verfolgt werden können.

Zu den klassischen Subtests der CERAD gehört die Mini Mental State Examination (MMSE), zu den Subtests der CERAD-Plus (s.u.) gehören die Trail Making Tests. Für diese Verfahren gibt es eine wesentlich breitere Normbasis als für die anderen CERAD-Subtest, insbesondere gibt es für sie auch Normen für junge Erwachsene. Sie werden in der App und in der Dokumentation deshalb zweimal aufgeführt: einmal unter ihren eigenen Namen MMSE und Trail-Making Tests A und B mit der breiten Normbasis, bei der die Leistungswerte auf den Werten junger Erwachsener beruhen, und zum anderen als Subtests innerhalb der CERAD-Batterie, wie im Folgenden dokumentiert.

Mitte der 80er Jahre schlossen sich mehrere nordamerikanische Kliniken und Forschungseinrichtungen unter der Ägide des National Institute on Aging unter der Bezeichnung Consortium to Establish a Registry for Alzheimer's Disease (CERAD) zusammen, um gemeinsam klinische, neuropsychologische, Labor- und Bildgebungsdaten von Patienten mit Alzheimer Demenz zu sammeln. Die neuropsychologische Testbatterie, auf die sich die Institutionen einigten3), trägt unter Neuropsychologen die Abkürzung CERAD-Testbatterie. Es handelt sich um eine Screening-Batterie für die Bereiche Orientierung, Sprache, Gedächtnis und (eingeschränkt) Visokonstruktion, deren Schwierigkeitsgrad an Patienten mit beginnender Demenz angepasst ist.

Die CERAD-Batterie hat sich schnell in anderen Ländern und Sprachen eingebürgert. Im deutschen Sprachraum legte die Memory Clinic der Geriatrischen Universitätsklinik Basel unter der Ägide von Hannes B. Stähelin eine autorisierte Übersetzung vor. Nachdem eine Zeitlang mit den amerikanischen Normen der Batterie gearbeitet wurde, startete 1997 eine multizentrische Normenstudie in deutschsprachigen Ländern, die am ausführlichsten in der elektronisch publizierten Dissertation von Chantal Aebi 4) beschrieben ist.

Seit 2005 verfügt die Baseler Version der CERAD-Batterie unter dem Namen CERAD-Plus über drei weitere Subtests. Diese Version ist sicher im deutschen Sprachraum am weitesten verbreitet.

Die Tabellen 1a und 1b geben einen Überblick über alle Subtests der CERAD-Plus, ihre Zuordnung zu kognitiven Domänen, die hier verwendeten Abkürzungen, den Rangplatz bei der Testdurchführung und den möglichen Rohwertebereich.

Tabelle 1a: Domänen und Subtests der klassichen CERAD

Domäne Subtest Abkürzung Abfolge Rohwertbereich
Globalwert Mini Mental State Examination MMSE 3 0-30
Konstruktive Praxis Figurenzeichnen: 4 Figuren abzeichnen FZ 5 0-11
Gedächtnis Wörterlernen: 10 Wörter in 3 Durchgängen lernen WL 4 0-30
Wörterabrufen: die vorher gelernte Wörter spontan abrufen WA 6 0-10
Wörterwiedererkennen: die Wörter in einer größeren Liste wiedererkennen WW 7 0-10
Figurenabruf: die 4 Figuren aus dem Gedächtnis nachzeichnen FA 8 0-11
Sprache Semantische Wortflüssigkeit: In einer Minute möglichst viele Tiere nennen SWF 1 ≥ 0
Benennen: 15 Items des Boston Naming Tests BN 2 0-15

Tabelle 1b: Domänen und Subtests der „Plus“-Ergänzungen

Domäne Subtest Abkürzung Abfolge Rohwertbereich
exekutive Funktionen Lexikalische Wortflüssigkeit: In einer Minute möglichst viele S-Wörter nennen LWF 11 ≥ 0
Visomotorische Geschwindigkeit Trail Making Test A TMT-A 9 ca. 8-180
Visomotor. Geschw. und exekutive Funktionen Trail Making Test B TMT-B 10 ca. 15-300

Das von den amerikanischen Autoren autorisierte deutsche Testmaterial für die CERAD-Batterie können Fachleute nach einer Anmeldung an der Webseite der Baseler Memory Clinic entweder als Papierversion kaufen oder kostenlos als pdf-Datei herunterladen. Darüber hinaus bietet die Memory Clinic auch eine Auswertungssoftware und einen Auswertungsservice an, die auf den Baseler Normen beruhen.

Das CERAD-Consortium beansprucht Rechte an den CERAD-Materialien. Sie können dort bestellt werden und in Forschung oder Patientenbehandlung eingesetzt werden. Eine Verwendung außerhalb der beiden Zwecke und insbesondere die Weitergabe an Dritte ist untersagt.

Es gibt eine Reihe von fremdsprachigen Versionen, darunter die zugelassene deutsche Version der Baseler Memory Clinic. Der Bezug und die Anwendung der deutschen Version steht unter ähnlichen Restriktionen wie die der US-amerikanischen Originalversion.

Die MMSE gehört standardmäßig zu den Subtests der CERAD-Batterie. Sie wurde zu einer Zeit in die Batterie eingeschlossen, als das Copyright der MMSE von den Autoren des Originalartikels nicht verfolgt wurde. Inzwischen wird bei der MMSE aber das Copyright verfolgt. In den oben genannten Webseiten fehlt jeder Hinweis darauf, dass der Bezug und/oder Selbstdruck des MMSE-Bogens durch den gegenwärtigen Rechteinhaber der MMSE gestattet wäre. Vielleicht gibt es ja eine entsprechende Vereinbarung aus den 80er Jahren, im Internet lässt sich zur Zeit aber kein Hinweis darauf finden.

Ähnliche Überlegungen könnte man für den Boston Naming Test anstellen. Seit seiner Erstpublikation 1967 wurde er von drei verschiedenen Verlagen publiziert, derzeit wohl ausschließlich von Pro-Ed in Austin, TX. Die OrderForm des CERAD-Consortiums enthält einen Hinweis auf das Copyright von Pro-Ed. Dabei ist (zumindest mir) nicht klar geworden, ob das CERAD-Consortium die Rechte von Pro-Ed eingeholt hat oder ob jeder Besteller das separat tun muss.

Die CERAD wird als Individualtest durchgeführt. Bei den mit der CERAD untersuchten Patienten liegt typischerweise zumindest ein Verdacht auf eine Demenz vor, häufig auch eine manifeste Demenz. Für die Durchführung der CERAD ist deshalb nicht nur die Kenntnis des Testmaterials und der Durchführungsanleitung, sondern auch eine gewisse Erfahrung mit dementen Patienten notwendig.

Das Baseler Testmanual beschreibt die Durchführung und Auswertung der Subtests sehr klar und ausführlich. In TDB2Online werden nicht alle Rohwerte ausgewertet, die im Basler Handbuch beschrieben werden. Da wir immer ein besonderes Gewicht auf eine möglichst große und möglichst repräsentative Normbasis legen, beschränken wir uns auf solche Parameter, für die es die besten Normstichproben gibt.

Für die praktische Anwendung als Screeningtest für eine (Alzheimer-)Demenz ist zusätzlich eine Messung oder Schätzung der prämorbiden Intelligenz notwendig. In der Gedächtnissprechstunde der Psychiatrischen Klinik im Klinikum der LMU München wird die CERAD-Batterie regelmäßig durch Schmidt & Metzler's Wortschatztest WST5) ergänzt, bei dessen Aufgaben man ein Wort unter mehreren Pseudo-Wörtern erkennen muss. Zumindest bei leichteren Demenzen erlaubt diese Messung von passiv-verbalen Fähigkeiten eine Abschätzung der prämorbiden Intelligenz. Als Alternative oder auch Ergänzung dazu ist auch die Anwendung einer Sozialformel sinnvoll, mit der man die prämorbide Intelligenz aus anamnestisch erhebbaren Daten errechnen kann. Sozialformeln für deutschsprachige Patienten haben zuletzt Jahn et al. 2013 vorgeschlagen.6)

Wir verwenden die folgenden Rohwerte bei den klassischen CERAD-Subtests:

  • Mini Mental State Examination: Punkte (Wertebereich 0-30)
  • Wörterlernen: Anzahl der gelernten Wörter über alle drei Lerndurchgänge (Wertebereich 0-30)
  • Wörterabrufen: Anzahl der spontan genannten richtigen Wörter (0-10)
  • Wörterwiedererkennen: Anzahl der richtig zugeordneten Wörter minus 10 (0-10)
  • Semantische Wortflüssigkeit: Anzahl der in einer Minute genannten richtigen Wörter (offen, Wertebereich von 0 bis 36 tabelliert)
  • Benennen: Anzahl der richtig benannten Zeichnungen (0-15)
  • Figuren Zeichnen: Anzahl der Punkte über alle vier Figuren (0-11)
  • Figuren Abrufen: Anzahl der Punkte über alle vier Figuren (0-11)

und bei den Subtests der CERAD-Plus:

  • Trail Making Test A: Zeit in Sekunden (offen, Wertebereich von 0 bis 500 tabelliert)
  • Trail Making Test B: Zeit in Sekunden (offen, Wertebereich von 0 bis 500 tabelliert)
  • Lexikalische Wortflüssigkeit: Anzahl der in einer Minute genannten richtigen Wörter (offen, Wertebereich von 0 bis 36 tabelliert)

Für die meisten Subtests der CERAD liegen keine Normierungsstudien bei jungen Erwachsenen vor. Wir können deshalb die Leistungswerte der CERAD-Subtests nicht auf die Leistungen junger Erwachsener beziehen, wie wir es sonst in TDB2Online machen. Für alle Subtests der CERAD werden deshalb die Leistungswerte auf die Leistungen von 60-64-Jährigen bezogen.

Für zwei Verfahren, die MMSE und die Pfadfindertests A und B, gibt es gute Normen für junge Erwachsene. Werden diese Verfahren innerhalb der CERAD-Batterie durchgeführt, wäre es aber nicht sinnvoll, sie auf der Grundlage anderer Normen auszuwerten als die restlichen Subtests. Beide beiden Verfahren sind in TDB2Online deshalb zwei Mal verfügbar: einmal als Subtests der CERAD mit einer einheitlichen Normierung für Personen ab 60 Jahre und einmal als separate Tests (MMSE und Pfadfindertests A und B) mit der üblichen Normierung der Leistungswerte auf der Basis junger Erwachsener.

Für die TDB2-Normierung der kompletten CERAD wurden die in Tabelle 2 angeführten Studien berücksichtigt. Das Kriterium für die Auswahl war, dass (mehr oder weniger zufällig und/oder repräsentativ gezogene) gesunde Personen im höheren Altersbereich untersucht und die Ergebnisse nach Altersgruppen getrennt publiziert wurden. Einzelheiten zu den Studien werden weiter unten erläutert, Tabelle 2 gibt zunächst eine Übersicht über die berücksichtigten Normierungsstudien und die entsprechende Literaturangabe. Der Lesbarkeit halber werden diese Studien später nur noch mit dem Namen des Erstautors referenziert.


Tabelle 2: Übersicht über die verwendeten Normierungsstudien

Erstautor Jahr Altersbereich Altersgruppen Schule N Stichprobendefinition verwendete Statistiken Subtests Land
ADAMS7) 2001 >69 (Originaldaten) 856 Zufallsstichprobe, repräsentativ für US-Population über 69 Originaldaten (auf Antrag erhältlich) alle USA
Welsh-Bohmer8) 2009 66-102, M=80 66-75; 76-85; 86+ 13 507 Zufallsstichprobe aus einer räumlich begrenzten Population von 5677 Personen über 65 Jahre; Demenz als Ausschlusskriterium Perzentile 95,90,75,50,25,10 und 5 alle USA
Luck9) 2009 75-98, M=80 75-79, 80+ keine vergleichbaren Angaben 2891 alle Patienten deutscher Muttersprache über 74 Jahren in 138 Hausarztpraxen; Ausschluss: Demenz und andere Krankheiten mit starkem Einfluss auf kognitive Leistungen Perzentilränge pro Rohwert für jeweils einzelne Gruppen; dazu M;s;etc. SWF, WL, WA, WW D
Fillenbaum10) 2011 >49 unterschiedliche 3 Zufallsstichproben, repräsentativ für bestimmte Gruppen der US-Population Perzentile 95, 90, 75, 50, 25, 10 und 5 nur FA USA
Welsh11) 1994 50-89 50-69; 70-89 413 gesunde Angehörige Häufigkeiten pro Rohwert für die Gesamtstichprobe; M und s für die 2 Altersgruppen alle außer FA USA
Murphy12) 2012 60-83, M=67 60-69; 70-83 12 99 community, through public advertising, 22 von 121 excluded, MMSE>23 M, s alle Irland
Beeri13) 2006 85-101, M=89 85-89; 90-101 15 196 Seniorenzentrum, Längsschnittstudie über kardiovaskuläre Risikofaktoren, Demenz ausgeschlossen M und s für Gesamtstichprobe, PR 10, 25, 50 und 75 für die 2 Altersgruppen alle USA
Collie14) 1999 >43, M=63 50-69; 70+ 12 243 gesunde Probanden, geworben mit Anzeigen oder durch Kontakt mit univ. Institution. Ausschlussgründe: Demenz oder andere Krankheiten mit Einfluss auf Kognition, MMSE<28 M, s alle (WL nur M) Australien
Monsch15) 2002 49-92, M=69 50-69; 70-79; 80-94 1100 gesunde Angehörige und Freiwillige M und s alle Schweiz

Zu den Studien im einzelnen:

Die ADAMS-Studie (Übersicht in Langa et al., 2005)16) kommt dem Ideal einer Normierungsstudie sehr nahe. Sie hat folgenden Hintergrund: Das Institute for Social Research der University of Michigan führt seit 1992 die „Health and Retirement Study“ (HRS) durch, die inzwischen mit über 30.000 Personen (5000 nach Eintritt in die Studie gestorben) die gesamte US-Bevölkerung über 50 Jahre repräsentiert. Im Zusammenhang mit HRS wurde die Aging, Demographics, and Memory Study (ADAMS) durchgeführt, deren Ziel eine populationsbasierte Demenzstudie ist. Bei einer Stichprobe von 856 Personen mit 70 und mehr Jahren wurden zwischen 2001 und 2003 zuhause durch Fachkräfte unter anderem die CERAD und die Trail Making Tests durchgeführt. Dies ist die einzige Studie, die tatsächlich zunächst die Daten einer Zufallsauswahl ohne weitere Selektion enthält. Es liegen viele weitere Daten vor, die es erlauben, die Ergebnisse für bestimmte Gruppen zu spezifizieren, z.B. Personen mit bestehender Demenz auszuschließen. Für eigene Forschungsarbeiten sind die Daten über die HRS-Website auf Antrag erhältlich.

Auch bei der zweiten Studie in Tabelle 2 (Welsh-Bohmer) wurde eine Zufallsstichprobe von Personen über 65 Jahren untersucht, allerdings innerhalb einer räumlich begrenzten Population (Cache County in Utah). Alle Personen wurden sorgfältig klinisch evaluiert. Eine Demenz oder eine leichte kognitive Störung (im Rahmen einer Krankheit diagnostiziert) führte zum Ausschluss.

In der Untersuchung von Luck et al. wurde eine Zufallsstichprobe von nicht-dementen Patienten von 138 Hausarztpraxen mit der CERAD untersucht. Der Altersbereich war auf 75 Jahre und älter angesetzt, Ergebnisse werden für vier Subtests der CERAD berichtet, allerdings sind die Altersgruppen angesichts der großen Stichprobe wenig differenziert (nur zwei Gruppen: 75-79 und 80+).

Fillenbaum et al. haben für den Subtest „Figuren Abrufen“ Normergebnisse aus drei Studien aufbereitet, von denen sich zwei auf Zufallsstichproben von begrenzten Populationen stützen, die dritte auf eine anfallende Stichprobe.

Die anderen fünf Studien in Tabelle 2 hatten nicht den Anspruch, Zufallsstichproben zu untersuchen. Welsh et al., Collie et al., und die Baseler Normierung der deutschen CERAD-Plus (Eintrag „Monsch“ in Tabelle 2, Handbuch und Normen nach Registrierung und Anmeldung abrufbar auf der Webseite der Baseler Memory Clinic, dort auch weitere Literatur) untersuchten vor allem gesunde Angehörige von Patienten in Gedächtnisprechstunden, ergänzt durch auf unterschiedliche Art geworbene Freiwillige. Murphy untersuchte Freiwillige in Cork (Irland) und Umgebung, Beeri et al. untersuchten Bewohner von Seniorenzentren und weitere angeworbene Personen im Rahmen einer Längsschnittstudie über kardiovaskuläre Risikofaktoren. In allen fünf Studien waren Personen mit einer manifesten Demenz ausgeschlossen.

Studien mit der CERAD in Entwicklungsländern (zum Beispiel 17),18)) wurden nicht berücksichtigt, weil die dort untersuchten Personen in der Mehrzahl weniger als 10 Jahre Schuldbildung aufwiesen.

Die Aufbereitung der klassischen CERAD-Subtests für TDB2Online weist einige Besonderheiten auf, die im Folgenden erläutert werden.

Normalerweise werden in TDB2Online Testleistungen auf die durchschnittlichen Leistungen von jungen Erwachsenen referenziert („Leistungswerte“). Bei der CERAD-Batterie ist das nicht möglich, weil Normuntersuchungen mit jungen Erwachsenen bei den meisten Subtests nicht durchgeführt wurden. Bei der CERAD-Batterie beziehen sich die Leistungswerte auf gesunde Personen im Alter von 60-64 Jahren.

Normalerweise stützt sich TDB2Online in erster Linie auf Normierungsuntersuchungen, die auf Zufallsstichproben beruhen. Bei Tests, die vorwiegend im Altersbereich zwischen 20 und 65 eingesetzt werden, liefern solche Stichproben die beste Basis für eine Teststandardisierung. Schwieriger wird es bei Tests, die für das höhere und hohe Alter gedacht sind. Altersassoziierte krankhafte kognitive Störungen nehmen bei Zufallsstichproben im hohen Alter einen relativ großen Anteil an der Stichprobe ein, je älter die Gruppe, desto größer der Anteil. In den meisten Normierungsstudien für die CERAD (siehe Tabelle 2) wurden Personen mit altersassoziierten krankhaften kognitiven Störungen von vornherein ausgeschlossen, auch wenn die Ausschlusskriterien oft mangelhaft definiert sind. In der ADAMS-Studie (beschrieben in Langa et al. (2005)19)) wurde im Gegensatz dazu zunächst niemand ausgeschlossen. Hier wurde eine Zufallsstichprobe von 856 Personen, repräsentativ für die US-Bevölkerung über 69 Jahren, zuhause aufgesucht und mit der kompletten CERAD einschließlich MMSE und TMT untersucht. Daneben erfolgten ausführlich dokumentierte, systematische klinische Untersuchungen auf vorliegende Krankheiten mit Auswirkungen auf die Kognition, die es möglich machen, verschiedene Ausschlusskriterien auf ihre Auswirkungen hin zu testen. Die klinischen Untersuchungen erfolgten in mehreren Wellen, sodass man in der Lage ist, auch Personen zu identifizieren, die ein paar Jahre nach der Erstuntersuchung mit der CERAD die Kriterien für eine Demenz erfüllten. Bereitet man die Originaldaten dieser Studie entsprechend auf, lässt sich der Effekt unterschiedlicher Ausschlusskriterien auf die Testleistungen gut demonstrieren. Wir benutzen dazu die MMSE-Daten der ADAMS-Studie. An Hand der Originaldaten haben wir dazu vier Gruppen gebildet:

  • Gruppe 1: die vollständige bevölkerungsrepräsentative (US-Population 2001) Ausgangsstichprobe bei der Erstuntersuchung (Zeitpunkt A), N=833
  • Gruppe 2: die Ausgangsstichprobe ohne die zum Zeitpunkt A Demenzkranken, N=738
  • Gruppe 3: die Ausgangsstichprobe ohne die zum Zeitpunkt A Demenzkranken und ohne die im Verlauf der nächsten 4 Jahren an einer Demenz Erkrankten (gemessen zum Zeitpunkt B, vier Jahre nach Zeitpunkt A), N=649
  • Gruppe 4: nur die zum Zeitpunkt A neurologisch und psychiatrisch komplett Gesunden, N=551

In Abbildung 1 sind die mittleren MMSE-Rohwerte dieser vier Gruppen über den erfassten Altersbereich hinweg gestrichelt mit den Kürzeln ADAMS_M1 bis ADAMS_M4 aufgetragen.


Abbildung 1: Altersverläufe der mittleren MMSE-Rohwerte der vier ADAMS-Gruppen (siehe Text)


Neben den vier ADAMS-Gruppen (ADAMS_M1 bis ADAMS_M4) sind in Abbildung 1 auch die Daten von zwei weiteren Zufallsstichproben erfasst, in denen keine Selektion von Teilnehmern mit kognitiv relevanten Erkrankungen stattfand. Die beiden Studien, Crum et al. (1993)20) und MRC CFAS (1998)21) gehören zu den Normierungsstudien der MMSE und sind im entsprechenden Abschnitt der Testdokumentation zur MMSE beschrieben. Man sieht, dass die Mittelwerte der reinen Zufallsstichproben (Crum_M, MRC_M und ADAMS_M1 in Abbildung 1) im Altersverlauf von 70 bis 94 Jahren gut miteinander übereinstimmen. Der Anteil von Personen mit krankhafter kognitiver Beeinträchtigung nimmt ab etwa 70 Jahren zu, je älter, desto mehr. Dies hat folgende Auswirkungen auf die Stichprobengrößen in den Gruppen 2 bis 4:

  • In Gruppe 2, bei der nur die zum Zeitpunkt der Testung Demenzkranken ausgeschlossen wurden, reduziert sich die Gruppengröße im Vergleich zur Gesamtstichprobe in der Altersgruppe 70-74 um 4%, 75-79 um 6%, 80-84 um 16%, 85-89 um 29% und in der Altersgruppe 90-94 um 28%.
  • Für die Gruppe 3 lauten die entsprechenden Zahlen 12%, 16%, 28%, 41% und 46%,
  • für die Gruppe 4 20%, 22%, 48%, 57% und 70%.

Die Auswirkungen auf die Mittelwertsverläufe sind erheblich: Man sieht in Abbildung 1, dass die Exklusion der aktuell Demenzkranken bei den 70-74-Jährigen noch keinen nennenswerten Effekt hat. Hier liegen die MMSE-Mittelwerte der Gruppe 2 ganz in der Nähe der drei Zufallsstichproben. In den folgenden Altersgruppen ändert sich das: der erhebliche Leistungsabfall, den wir in den Zufallsstichproben beobachten, reduziert sich zu einem nur sehr graduellen Leistungsabfall, der in den höheren Altersgruppen nicht viel anders aussieht als in den zwei Dekaden zuvor. Die zusätzliche Exklusion der Personen, die in den nächsten vier Jahren eine Demenz entwickeln (Definition der Gruppe 3) hat einen gewissen, aber keinen sehr großen Effekt auf den Altersverlauf. Etwas stärker ist der Effekt, wenn man von vornherein alle Personen ausschließt, die irgendwie psychiatrisch oder neurologisch auffällig sind (Gruppe 4). Diese Selektion führt offensichtlich zu einer insgesamt leistungsfähigeren Gruppe.

Die Aussagekraft dieser Befunde ist sehr hoch, da sie an großen (ADAMS) und sehr großen (Crum und MRC-CFAS) Zufallsstichproben erhoben wurden. Die Interpretation ist klar: Der in den Zufallsstichproben zu beobachtende erhebliche und mit höherem Alter zunehmende Leistungsabfall von Personen über 70 Jahren geht auf die Demenzkranken zurück, und zwar zu einem mit dem Alter zunehmenden Anteil. Er beruht also auf einer altersassoziierten Veränderung der Stichprobenzusammensetzung.

Für die Normierung der CERAD-Subtests greifen wir deshalb bei der ADAMS-Studie auf die Daten der Gruppe 2 zurück, bei den meisten anderen Normierungsuntersuchungen sind Personen mit Demenz ohnehin exkludiert.

Die Subtests der CERAD liefern Rohwerte mit sehr unterschiedlichen Verteilungseigenschaften. Die Rohwerte des Subtests Semantische Wortflüssigkeit erstrecken sich zum Beispiel über einen ausreichend großen Wertebereich und sind auch annähernd normalverteilt. Ganz anders hingegen beim Wiedererkennen der Wörter: Hier geht der Wertebereich nur von 0 bis 10. Weil die meisten Personen 9 oder 10 Wörter wiedererkennen, ist die Verteilung auch noch extrem schief.

Die weiteren Maßnahmen zur psychometrischen Aufarbeitung der Rohwerte zu aussagekräftigen Leistungswerten werden deshalb im Folgenden für jeden Subtest einzeln dargestellt. Ausgangspunkt für die Verteilungsanalysen ist immer die ADAMS-Stichprobe ohne aktuell Demente (= Gruppe 2), da hier die komplette Werteverteilung für alle Subtests vorliegt. Die anderen Zufallsstichproben aus der Tabelle 2, Welsh-Bohmer22), Luck23) und Fillenbaum24), werden bei den Subtests in unterschiedlicher Weise berücksichtigt.

Für die Beurteilung der Normstichproben werden auch die Mittelwerte aller anderen Stichproben aus Tabelle 2 zusammen mit den Zufallsstichproben jeweils übersichtlich dargestellt, unabhängig davon, ob sie in die Normen eingehen.

Die Mini Mental State Examination (MMSE) ist ein seit 1975 eingesetztes einfaches Verfahren zur Abschätzung des geistigen Leistungsniveaus von kognitiv eingeschränkten Personen im höheren Alter. Zu den Besonderheiten zählt, dass der Messbereich des Verfahrens seit breit ist, von „extrem beeinträchtigt“ (0-5 Punkte) bis zu „unauffällig“ (28-30 Punkte).

In TDB2Online ist die MMSE zweimal mit unterschiedlichen Normquellen und Normierungsdaten enthalten: einmal als Subtest der CERAD (dieses Kapitel) und einmal als eigenständiges Testverfahren. Dort gibt es auch eine ausführliche Beschreibung der MMSE hinsichtlich Geschichte, Testmaterial, Durchführung und Copyright.

Aus der ADAMS-Studie lassen sich die Verteilungen der Rohwerte des Subtests MMSE für alle Altersgruppen zwischen 70 und 94 errechnen. Die Verteilungsform (Abbildung 2) ist in allen Altersgruppen extrem schief. In den jüngeren Altersgruppen erreichen über die Hälfte aller Personen mindestens 28 Punkte, in der ältesten noch mindestens 27.

Abbildung 2: Verteilung der CERAD-MMSE-Rohwerte in der ADAMS-Studie


Wegen der Schiefe der Verteilung lassen sich die nur in groben Perzentilen vorliegenden Daten von Welsh-Bohmer nicht sinnvoll verwenden.

Transformiert man auf der Basis der ADAMS-Daten in Abbildung 2 die Rohwerte mit Hilfe einer Flächentransformation in Standardwerte, hier IQ-Standardwerte mit Mittelwert 100 und Standardabweichung 15, dann ergeben sich daraus die in Abbildung 3 dargestellten Beziehungen. Mit Rohwerten von 27 oder 28 erreicht man in allen Altersgruppen IQ-Standardwerte von 100. Oberhalb eines Standardwerts von 100 lässt sich kaum noch messen, weil der Rohwertbereich hier schon fast endet. Nach unten ist der Messbereich allerdings sehr differenziert, dies ist ja auch der Sinn des Verfahrens.

Abbildung 3: Transformation der ADAMS-CERAD-MMSE-Rohwerte in IQ-Standardwerte als Flächentransformation, Werte teilweise extrapoliert


Abbildung 4 zeigt die Transformationskurven, nachdem die Werte innerhalb der vorhandenen Altersgruppen interpoliert (durch gleitende Mittelwertsbildung über drei Altersklassen, die älteste und jüngste sind unverändert) und nach unten extrapoliert wurden.

Abbildung 4: Inter- und Extrapolation der Standardwerte


Durch die Flächentransformation der MMSE-Rohwerte wurde eine gute Linearisierung erreicht, allerdings ist der Messbereich am oberen Ende der Skala unzureichend.

Zur Beurteilung der Normquellen im Altersverlauf wurden die Daten aller Stichproben, die in Tabelle 2 erfasst sind und Daten für die MMSE liefern, in der Abbildung 5 zusammengefasst. Dabei sind die Daten aus Zufallsstichproben in rötlichen Farben dargestellt, die aus anfallenden Stichproben in blauen und grünen.

Abbildung 5: MMSE-Mittelwerte im Altersverlauf


Viele Studien lieferten die Daten nur in groberen Altersklassen. Man erkennt diese Studien in der Abbildung daran, dass die Mittelwerte in aufeinanderfolgenden Altersgruppen gleich bleiben. Die ADAMS-Daten wurden in Fünf-Jahres-Klassen berechnet, die Welsh-Bohmer-Daten wurden linear interpoliert. Beide Stichproben wurden linear um eine (W-B) bzw. zwei (ADAMS) Altersklasse nach unten extrapoliert. Dies schien uns auf Grund der recht linearen Altersverläufe gerechtfertigt.

Man sieht recht klar, dass die Testleistungen in den auf Zufallsstichproben beruhenden Studien niedriger sind als in denen mit anfallenden Stichproben. Besonders deutlich wird dies in den oberen Altersklassen. Die Leistungen der Probanden der Schweizer Normierung (grüne Linie) liegen in den meisten Altersklassen um ein oder zwei Rohwerte über den Leistungen der Probanden in der ADAMS- oder Welsh-Bohmer-Studie.

Wegen der klaren Mittelwertsdifferenzen zwischen Zufalls- und anfallenden Stichproben haben wir letztere nicht für die Normierung verwendet. Die beiden Zufallsstichproben zeigen ähnliche Verläufe. Da die Daten der ADAMS-Studie aber wesentlich feiner gradiert vorliegen, basieren wir die Leistungswerte und die Altersnormen nur an den Daten dieser Studie. Die Leistungswerte selbst berechnen wir an der jüngsten Altersgruppe, den 60-64-Jährigen.

Abbildung 6 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 6: Leistungswerte mit Rohwerten und Altersnormgrenzen


Wie schon betont, ist die Differenzierungsfähigkeit des MMSE in der oberen Hälfte der Verteilung insuffizient. Dafür ist der Test ja aber auch nicht gedacht. Im Leistungswertbereich von 40 bis 100 (entsprechend Rohwerten zwischen 15 und 28) differenziert der Test ausreichend gut, hier entspricht eine Leistungsdifferenz von einer Standardabweichung etwa drei bis vier Rohwerten. Der Rohwertbereich unterhalb von 15 kann im Rahmen der Normierung nicht sichtbar gemacht werden, weil hier der Bereich der schweren Demenzen beginnt und Probanden mit manifesten Demenzerkrankungen in der Normierungsstichprobe nicht eingeschlossen waren.

Es gibt drei Zufallsstichproben, bei denen man die Verteilung der Rohwerte des Subtests Wörterlernen (WL) errechnen oder rückrechnen kann, wenn auch unterschiedlich gut. Bei der ADAMS-Stichprobe liegen die Originaldaten vor. Bei Welsh-Bohmer gibt es die Perzentilwerte 5, 10, 25, 50, 75, 90 und 95 und bei Luck gibt es die Perzentile für alle Rohwerte von 0 bis 30, wenn auch getrennt für drei Bildungsgrade und zwei Geschlechter.

Die aus der ADAMS-Studie errechneten Rohwertverteilungen der Altersgruppen von 70 bis 94 (Abbildung 7) sind offensichtlich psychometrisch günstig und entsprechen - abgesehen von den Randbereichen, bei denen auch bei dieser Stichprobengröße Zufallseffekte eine Rolle spielen - weitgehend einer Normalverteilung.

Abbildung 7: Verteilung der CERAD-WL-Rohwerte in der ADAMS-Studie


Transformiert man die Rohwerte mit Hilfe einer Flächentransformation in Standardwerte, hier IQ-Standardwerte mit Mittelwert 100 und Standardabweichung 15, dann ergibt sich daraus eine weitestgehend lineare Beziehung. Abbildung 8 zeigt die aus der Flächentransformation entstandene Kurve, zusammen mit superponiertem linearen Trend, für drei Altersgruppen.

Abbildung 8: Transformation der ADAMS-CERAD-WL-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Wie man sieht, ist die lineare Approximation gut, an den Enden der Verteilung sicher besser als die Flächentransformation, die hier auch bei relativ großen Stichproben Zufallsschwankungen auf Grund kleiner Zahlen unterliegt. Wir überprüfen das noch an den beiden anderen Zufallsstichproben. Die Abbildungen 9 und 10 zeigen die entsprechenden Daten für die Normenstudie von Welsh-Bohmert. Dort liegen nur die Rohwerte für sieben Perzentile vor, weshalb die Verteilungsdaten grob ausfallen. Trotzdem ist die lineare Approximation ähnlich gut wie bei der ADAMS-Studie.

Abbildung 9: Verteilung der CERAD-WL-Rohwerte in der Welsh-Bohmer-Studie


Abbildung 10: Transformation der Welsh-Bohmer-CERAD-WL-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Die Altersgruppen sind in der Welsh-Bohmert-Studie leider breiter gefasst. In Abbildung 10 sind sie mit ihrem empirischen Altersdurchschnitt der jeweiligen Gruppen gekennzeichnet. Da sie linear und parallel verlaufen, ist es möglich, die üblichen 5-Jahres-Altersgruppen zu interpolieren und eine Gruppe 60-64-Jähriger zu extrapolieren.

Die Daten von Luck et al. (Abbildung 11) liegen leider nur in zwei Altersgruppen vor, einer eng gefassten (75-79) und einer etwa gleich großen, sehr weit gefassten (80+). Da das mittlere Alter der Gesamtstichprobe allerdings bei 80,2 Jahren lag, dürften die meisten in der Gruppe 80+ im Bereich 80-84 gelegen haben.

Abbildung 11: Transformation der CERAD-WL-Rohwerte (Luck et al.) in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Auch bei diesen Daten bestätigt sich die Normalverteilung und gute Linearität der Rohwerte.

Beim Subtest Wörterlernen liefern schon die Rohwerte eine sehr gute Verteilung, die eine einfache lineare Umwandlung der Rohwerte in Leistungswerte gestattet.

Zur Beurteilung der Normquellen im Altersverlauf wurden die Daten aller Stichproben, die in Tabelle 2 erfasst sind und Daten für WL liefern, in der Abbildung 12 zusammengefasst. Dabei sind die Daten aus Zufallsstichproben in rötlichen Farben dargestelle, die aus anfallenden Stichproben in blauen und grünen.

Abbildung 12: Mittlere WL-Leistungen im Altersverlauf


Viele Studien lieferten lediglich grobere Einteilungen für die Altersklassen, so dass 10 oder sogar 20 Jahre zusammengefasst waren. Man erkennt es an den stufenförmigen Verläufen. Die ADAMS-Daten wurden direkt in Fünf-Jahres-Klassen berechnet, die Welsh-Bohmer-Daten wurden linear interpoliert. Beide Stichproben wurden linear um eine (W-B) bzw. zwei (ADAMS) Altersklasse nach unten extrapoliert. Dies schien uns auf Grund der linearen Altersverläufe gerechtfertigt. Den linearen Altersverlauf in Gedächtnisleistungen in diesem Altersbereich kann man auch in den Daten zum VLMT erkennen.

Man sieht, dass fast alle Studien mit anfallenden Stichproben höhere Testleistungen erbringen als die Studien mit Zufallsstichproben. Eine Ausnahme ist die Studie von Murphy (2012), die sich kaum von den Zufallsstichproben unterscheidet. Mit 99 Probanden war diese allerdings auch sehr klein. Bei der Schweizer CERAD-Normierung (grüne Linie, „Monsch“) zeigt sich ein ähnlicher Altersverlauf wie bei den Zufallsstichproben, allerdings liegen die Mittelwerte um rund zwei Rohwerte über den gewichtet gemittelten Leistungen der Probanden in den Studien ADAMS und Welsh-Bohmer (rote Linie mit Kreisen). Sie liegen damit etwa eine halbe Standardabweichung höher.

Schaut man sich die vorliegenden Normquellen an, macht es Sinn, für die Normierung des Subtests Wörterlernen nur die beiden Zufallsstichproben zu verwenden, die einen weiten Altersbereich abstecken. Die Studie von Luck et al. verfügt zwar über eine sehr große Stichprobe, aber nur einen sehr eingeschränkten Altersbereich. Inhaltlich sind die Probanden dieser Untersuchung nur unwesentlich leistungsfähiger als die der beiden anderen Studien, trotzdem würde sich bei einer Berücksichtigung der Altersverlauf verzerren. Die Leistungswerte selbst berechnen wir an der jüngsten Altersgruppe, den 60-64-Jährigen.

Abbildung 13 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 13: Leistungswerte mit Rohwerten und Altersnormgrenzen

Auch beim Subtest Wörterabrufen (WA) gibt es drei Stichproben, aus denen man Verteilungen errechnen oder rückrechnen kann: bei der ADAMS-Stichprobe mit den Originaldaten und bei Welsh-Bohmer mit den Perzentilwerten 5, 10, 25, 50, 75, 90 und 95. Bei Luck liegen Perzentile für alle Rohwerte von 0 bis 10 vor, allerdings getrennt für drei Bildungsgrade und zwei Geschlechter. Wegen des eingeschränkten Altersbereichs haben wir hier auf die Verteilungsanalyse verzichtet.

Die aus der ADAMS-Studie errechneten Rohwertverteilungen der Altersgruppen von 70 bis 94 (Abbildung 14) kommen - gemessen an dem eingeschränkten Rohwertbereich - einer Normalverteilung noch ziemlich nahe. Leichte Deckeneffekte gibt es bei den 70-74-Jährigen, leichte Bodeneffekte bei den ältesten Gruppen.

Abbildung 14: Verteilung der CERAD-WA-Rohwerte in der ADAMS-Studie


Transformiert man die Rohwerte mit Hilfe einer Flächentransformation in Standardwerte, hier IQ-Standardwerte mit Mittelwert 100 und Standardabweichung 15, dann ergibt sich daraus erwartungsgemäß eine noch weitgehend lineare Beziehung. Abbildung 15 zeigt die aus den Flächentransformationen entstandenen Kurven, zusammen mit superponierten linearen Trendlinien, für drei Altersgruppen.

Abbildung 15: Transformation der ADAMS-CERAD-WA-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Wie man sieht, ist die lineare Approximation eine gute Annäherung an die Beziehung zwischen Roh- und Standardwerten, an den Enden der Verteilung und in den höheren Altersklassen sicher besser als die reine Flächentransformation, die hier Zufallsschwankungen auf Grund kleiner Zahlen unterliegt.

Für die Normenstudie von Welsh-Bohmert liegen nur die Rohwerte für sieben Perzentile vor, weshalb die Verteilungsdaten (Abbildung 16) grob ausfallen. Trotzdem ist die lineare Approximation (Abbildung 17) ähnlich gut wie bei der ADAMS-Studie.

Abbildung 16: Verteilung der CERAD-WA-Rohwerte in der Welsh-Bohmer-Studie


Abbildung 17: Transformation der Welsh-Bohmer-CERAD-WA-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Die breit gefassten Altersgruppen der Welsh-Bohmert-Studie sind in Abbildung 17 mit ihrem empirischen Altersdurchschnitt gekennzeichnet. Da auch eine parallel verlaufende Approximation die realen Daten gut trifft, ist es möglich, die üblichen 5-Jahres-Altersgruppen zu interpolieren und eine Gruppe 60-64-Jähriger zu extrapolieren.

Auch bei diesem Subtest liefern die Rohwerte eine gute Approximation an die Normalverteilung, was eine einfache lineare Umwandlung der Rohwerte in Leistungswerte gestattet.

Zur Beurteilung der Normquellen im Altersverlauf wurden die Daten aller Stichproben, die in Tabelle 2 erfasst sind und Daten für WA liefern, in der Abbildung 18 zusammengefasst. Dabei sind die Daten aus Zufallsstichproben in rötlichen Farben dargestelle, die aus anfallenden Stichproben in blauen und grünen.

Abbildung 18: Mittlere WA-Leistungen im Altersverlauf


Viele Studien lieferten grobere Einteilungen für die Altersklassenm, man erkennt es an den stufenförmigen Verläufen. Die ADAMS-Daten wurden direkt in Fünf-Jahres-Klassen berechnet, die Welsh-Bohmer-Daten wurden linear interpoliert. Beide Stichproben wurden linear um eine (W-B) bzw. zwei (ADAMS) Altersklasse nach unten extrapoliert. Dies schien uns auf Grund der linearen Altersverläufe gerechtfertigt. Den linearen Altersverlauf in Gedächtnisleistungen in diesem Altersbereich kann man auch in den Daten zum VLMT erkennen.

Man sieht auch hier, dass die anfallenden Stichproben im Allgemeinen höhere Testleistungen zeigen als die Zufallsstichproben. Der Unterschied ist aber nicht so groß wie beim Wörterlernen. Wieder unterscheidet sich die Studie von Murphy (2012) kaum von den Zufallsstichproben. Die Leistungen der Probanden der Schweizer Normierung (grüne Linie) liegen im Altersbereich bis 79 Jahre um rund einen Rohwert über den gewichtet gemittelten Leistungen der Probanden in den Studien ADAMS und Welsh-Bohmer (rote Linie mit Kreisen), in den älteren Jahrgängen sind sie vergleichbar. Ein Unterschied von einem Rohwert entspricht bei diesem Subtest etwa einer halben Standardabweichung.

Genau wie beim Subtest Wörterlernen verwenden wir auch beim Wörterabrufen für die Normierung nur die beiden Zufallsstichproben, die einen weiten Altersbereich abstecken. Die Leistungswerte selbst berechnen wir an der jüngsten Altersgruppe, den 60-64-Jährigen.

Abbildung 19 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 19: Leistungswerte mit Rohwerten und Altersnormgrenzen

Für jüngere gesunde Probanden hat ein Gedächtnistest mit nur 10 Wörtern eine zu niedrige Testdecke. Für die 70-74-Jährigen zeigte sich das schon in der Rohwertverteilung. Bei den extrapolierten Daten der 60-64-Jährigen gilt das noch mehr. Allerdings wurde die CERAD ja nicht entwickelt, um gesunde alte Personen zu untersuchen, sondern solche mit kognitiven Defiziten. Die Messgenauigkeit in den niedrigeren Bereichen ist vom Deckeneffekt nicht beeinträchtigt. Selbst bei den 90-94-Jährigen sind Testleistungen auf dem Niveau von zwei Standardabweichungen unter dem Altersmittelwert (ASW 70 oder knapp 1 Rohwert) noch gut messbar.

Beim Subtest Wörterwiedererkennen sind verschiedene Definitionen der Rohwerte im Umlauf. In vielen Studien werden die Anzahl der richtig erkannten zuvor präsentierten Wörter als Rohwert 1 und die Anzahl der richtig zurückgewiesenen nicht präsentierten Wörter als Rohwert 2 verrechnet. Mehr Sinn gibt es, wenn man die beiden Scores in einen überführt. Wir verwenden in TDB2Online die Summe dieser beiden Rohwerte minus 10. Falls diese Rechnung zu einem Wert unter Null führt (sehr selten, aber theoretisch möglich), zählt er als Null. Diese Verrechnung entspricht dem ursprünglich vom CERAD-Consortium vorgesehenen Rohwert25).

In der Baseler Version der CERAD wird das Wiedererkennen als Diskriminabilitätswert ausgewertet. Die Summe der beiden Rohwerte wird durch 20 geteilt und mit 100 multipliziert. Ein so berechneter Diskriminabilitätsindex von 100 (Prozent) entspricht einem Rohwert von 10 in TDB2Online, einer von 50 entspricht einem TDB2Online-Rohwert von 0. Diskriminabilitätsindizes unter 50 Prozent zeigen Ergebnisse an, die unter der Ratewahrscheinlichkeit liegen.

Wörterwiedererkennen ist ein CERAD-Subtest, der klinisch in manchen Fällen vernünftige Schlussfolgerungen erlaubt, der aber psychometrisch kaum zu fassen ist. Das größte Problem ist die niedrige Testdecke. Fast alle gesunden Personen, auch die im hohen Alter, erreichen in diesem Test zwischen 8 und 10 Rohwerte. Eine differenzierte Leistungserfassung ist mit nur drei Rohwerten naturgemäß schwierig. Wir versuchen es trotzdem.

Aus der ADAMS-Studie lassen sich die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren errechnen (Abbildung 20). Man sieht die extreme Schiefe der Verteilung, selbst noch in der höchsten Altersgruppe.

Abbildung 20: Verteilung der CERAD-WW-Rohwerte in der ADAMS-Studie


Wenn man genau hinschaut, fällt auf, dass die 85-89-Jährigen in diesem Subtest im unteren Leistungsbereich (so zwischen 2 und 8 Rohwerten) besser sind als die 80-84-Jährigen. Man sieht es auch in der Abbildung 21, die die Flächentransformation der Rohwerte in IQ-Standardwerte zeigt. Bei der begrenzten Stichprobengröße kann so ein Bruch in den Altersverläufen durchaus vorkommen. Er wird durch eine gleitende Mittelwertsbildung zwischen den Altersgruppen korrigiert.

Abbildung 21: Transformation der ADAMS-CERAD-WW-Rohwerte in IQ-Standardwerte mit Hilfe von Flächentransformationen


In Abbildung 21 kann man auch gut sehen, dass die Transformationskurven wegen der unterschiedlichen Verteilungsformen der Rohwerte von Altersgruppe zu Altersgruppe unterschiedliche Verläufe nehmen.

Abbildung 22 zeigt die Transformationskurven, nachdem die Werte innerhalb der vorhandenen Altersgruppen interpoliert (durch gleitende Mittelwertsbildung über drei Altersklassen, die älteste und jüngste sind unverändert) und nach unten extrapoliert wurden.

Abbildung 22: Inter- und Extrapolation der Standardwerte


Bei der Normenstudie von Welsh-Bohmert sind die mitgeteilten Perzentilnormen angesichts der Schiefe der Verteilung viel zu grob. Wir müssen uns deshalb auf die ADAMS-Normen beschränken.

Zu den guten Eigenschaften von Flächentransformationen gehört es, dass sie auch bei solchen schiefen, von Altersklasse zu Altersklasse auch noch unterschiedlichen, Verteilungsformen stets zu linearen Standardwerten führen. Der Transformation liegt lediglich die Annahme zugrunde, dass das gemessene Konstrukt in der Population normalverteilt ist (und bei besserer Quantifizierung des Tests auch zu messen wäre, könnte man ergänzen).

Die schlechte Quantifizierung der Testleistung bei diesem Subtest hat allerdings zur Folge, dass man zwischen durchschnittlichen und sehr guten Leistungen praktisch nicht mehr unterscheiden kann. Der höchst erreichbare alterskorrigierte Standardwert liegt zwischen 100 und 110 (siehe Abbildung 22).

Klinisch ist dieser Subtest vor allem dann von Bedeutung, wenn ein sehr schlechtes Ergebnis im Wörterabrufen auf ein durchschnittliches Ergebnis im Wörterwiedererkennen trifft. Dann kann man festhalten, dass wohl eher Aufmerksamkeitsdefizite und/oder sprachliche Defizite zur schlechten Abrufleistung geführt haben, weniger ein echtes Gedächtnisdefizit.

Abbildung 23 zeigt die Mittelwerte aller relevanten möglichen Normquellen für den Subtest Wörterwiedererkennen im Altersverlauf. Wieder sind die Daten aus Zufallsstichproben in rötlichen Farben, die aus anfallenden Stichproben in blauen und grünen Farben dargestellt.

Abbildung 23: Mittlere WW-Leistungen im Altersverlauf


In den jüngeren Altersklassen ist der Vergleich der Studien unergiebig, weil alle Mittelwerte zwischen 9 und 10 Rohwerten liegen. Erst ab etwa 75 Jahren differenzieren die einzelnen Studien in der vom Wörterlernen und Wörterabrufen gewohnten Weise: Hier liefern die Zufallsstichproben dann die niedrigeren Mittelwerte.

Noch zwei methodische Anmerkungen am Rande:

Mittelwerte sind ungeeignet, die zentrale Tendenz von schiefen Verteilungen widerzuspiegeln. Von den meisten hier aufgeführten Studien gibt es aber keine Mediane, die besser geeignet wären.

Auch die Perzentil-Angaben in der Literatur eignen sich häufig nicht gut für weitergehende Berechnungen, weil bei deren Berechnungen oft nicht berücksichtigt wird, dass Testrohwerte diskrete Verteilungen liefern und die Perzentilränge nicht für den eigentlichen Rohwert x gelten, sondern für den Rohwert x +0,5 (weil x bei einer Kontinuierlichmachung der Rohwerte von x-0,5 bis x+0,5 reichen würde). Je geringer die Rohwertanzahl, desto größer ist der mögliche Fehler durch die falsche Quantifizierung der Perzentilränge.

Beim Subtest Wörterwiedererkennen benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 24 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 24: Leistungswerte mit Rohwerten und Altersnormgrenzen

Für gesunde Probanden hat ein Wiedererkennenstest für nur 10 Wörter eine viel zu niedrige Testdecke. Der höchst erreichbare Rohwert, 10 führt so nur zu einem Leistungswert von 102. Bessere Leistungen kann der Test nicht messen. Nach unten lassen sich aber rund drei Standardabweichungen messtechnisch erfassen, wenn auch nicht mit hoher Genauigkeit, wie man am großen Abstand der Rohwerte in der Zeichnung sieht.

Wortflüssigkeitsaufgaben, bei denen innerhalb einer Minute möglichst viele Tiere zu nennen sind, gehören zu den am häufigsten eingesetzten Verfahren. Dieser Test kommt auch als Subtest des Regensburger Wortflüssigkeitstests vor. In der Diskussion werden wir die Normen der Verfahren vergleichen.

Die Verteilung der Rohwerte des Subtests Semantische Wortflüssigkeit (SWF) lässt sich sowohl aus der ADAMS-Stichprobe als auch aus der Arbeit von Welsh-Bohmer errechnen oder rückrechnen. Bei der ADAMS-Stichprobe liegen die Originaldaten vor. Bei Welsh-Bohmer gibt es die Perzentilwerte 5, 10, 25, 50, 75, 90 und 95.

Die aus der ADAMS-Studie errechneten Rohwertverteilungen der Altersgruppen zwischen 70 und 94 Jahren (Abbildung 25) entsprechen dem Anschein nach offensichtlich ganz gut einer Normalverteilung.

Abbildung 25: Verteilung der CERAD-SWF-Rohwerte in der ADAMS-Studie


Eine Flächentransformation der Rohwerte in IQ-Standardwerte ergibt - von den Randbereichen abgesehen - eine weitgehend lineare Beziehung. Abbildung 26 zeigt für drei Altersgruppen die aus der Flächentransformation entstandene Kurve, zusammen mit den - nur aus den gut besetzten mittleren Leistungsbereichen berechneten - linearen Trendlinien.

Abbildung 26: Transformation der ADAMS-CERAD-SWF-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Wie man sieht, ist die lineare Approximation gut, an den Enden der Verteilung sicher besser als die Flächentransformation, die hier auch bei relativ großen Stichproben Zufallsschwankungen auf Grund kleiner Zahlen unterliegt. Es lässt sich allerdings eine gewisse Beziehung zwischen Altersgruppe und der Steigung der Kurve beobachten: bei älteren Personen wird die Steigung größer bzw. die Verteilung der Werte enger. Dies dürfte Folge einer oft zu beobachtenden Korrelation zwischen Mittelwerten und Standardabweichungen bei nach unten begrenzten und nach oben unbegrenzten Rohwertbereichen sein: Je besser die Leistungen einer Gruppe im Durchschnitt sind, umso höher ist auch die Standardabweichung.

Abbildung 27 zeigt die Verteilungsdaten für die Normenstudie von Welsh-Bohmert. Weil dort nur die Rohwerte für sieben Perzentile vorliegen, kann die Verteilungsform nur grob umrissen werden.

Abbildung 27: Verteilung der CERAD-SWF-Rohwerte in der Welsh-Bohmer-Studie


Eine Flächentransformation der Werte in IQ-Standardwerte ergibt Werte, die sich mit linearen Trends gut beschreiben lassen (Abbildung 28)

Abbildung 28: Transformation der Welsh-Bohmer-CERAD-SWF-Rohwerte in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Hier sind die Trendverläufe über die Altersgruppen hinweg weitgehen linear, weshalb wir sie auch durch parallelisierte lineare Trends beschreiben werden. Bei den ADAMS-Stichproben verallgemeinern wir die beobachtete Korrelation der Mittelwerte mit den Standardabweichungen. Für die Normierung wird das gewichtete Mittel beider Stichproben verwendet.

Für die Berechnung der Leistungswerte beim Subtest Semantische Wortflüssigkeit ziehen wir beide Stichproben heran, ADAMS und Welsh-Bohmer, und verwenden das gewichtete Mittel aus den linearen Trends beider Stichproben für die Umwandlung.

Zur Beurteilung der Normquellen im Altersverlauf wurden die Daten aller Stichproben, die in Tabelle 2 erfasst sind und Daten für SWF liefern, in der Abbildung 29 zusammengefasst. Dabei sind die Daten aus Zufallsstichproben in rötlichen Farben dargestelle, die aus anfallenden Stichproben in blauen und grünen.

Abbildung 29: Mittlere SWF-Leistungen im Altersverlauf


In vielen Studien wurden die Altersverläufe nur in groben 10- oder 20-Jahres-Gruppen zusammengefasst. In der Abbildung sind sie am stufenförmigen Verlauf zu erkennen. Die ADAMS-Daten wurden direkt in Fünf-Jahres-Klassen berechnet, die Welsh-Bohmer-Daten wurden linear interpoliert. Beide Stichproben wurden linear um eine (W-B) bzw. zwei (ADAMS) Altersklasse nach unten extrapoliert. Dies schien uns auf Grund der linearen Altersverläufe gerechtfertigt.

Die auf Zufallsstichproben beruhenden Studien setzen sich bei SWF nicht so klar von denen ab, die auf anfallenden Stichproben beruhen, zumindest nicht in den jüngeren Jahrgängen. Die Schweizer CERAD-Normwerte liegen allerdings über den gesamten Altersverlauf deutlich über den Werten von ADAMS und W-B (und über allen anderen Studien). Der Unterschied liegt bei gut einer halben Standardabweichung. Die Patienten in der Luck-Studie liegen auch relativ hoch, was bei den Gedächntistests nicht der Fall war.

Für die Normierung des Subtests SWF wurden nur die beiden Zufallsstichproben verwendet, die einen weiten Altersbereich abstecken. Die Leistungswerte selbst berechnen wir an der jüngsten Altersgruppe, den 60-64-Jährigen.

Abbildung 30 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 30: Leistungswerte mit Rohwerten und Altersnormgrenzen

Eine Minute lang Tiere nennen dürfte wohl die bestuntersuchte Wortflüssigkeitsaufgabe sein. In der Diskussion zum Regensburger Wortflüssigkeitstest wurden im Abschnitt zu den kategorial-semantischen Subtests 22 Studien zu dieser Version der Wortflüssigkeitsaufgabe metaanalytisch zusammengefasst. Die allermeisten dieser Studien haben anfallende Stichproben untersucht und die Altersbereiche überlappen sich nur teilweise, sodass die Mittelwerte in verschiedenen Altersgruppen auf unterschiedlichen Studien beruhen. In Abbildung 31 wurde der Mittelwert der metaanalytisch zusammengefassten Studien im Verlauf über die Altersgruppen geglättet als schwarze Kurve mit der Bezeichnung M(MA) zu den anderen Kurven der Abbildung 28 hinzugefügt.

Abbildung 31: Mittlere SWF-Leistungen im Altersverlauf, Ergebnisse eines metaanalytischen Normvergleichs hinzugefügt


Man sieht, dass der metaanalytische Mittelwert der SWF-Rohwerte im Altersbereich zwischen 65 und 89 ganz gut zu unserem Mittelwert aus den ADAMS- und W-B-Daten passt. Dass der altersassoziierte Leistungsabfall insgesamt weniger stark ist, wäre zu vermuten: die meisten Studien mit anfallenden Stichproben untersuchen im hohen Altersbereich nicht systematisch alle Personen, sondern eher die Fitteren. Da würde man das erwarten. Unerwartet ist, dass unsere extrapolierten Mittelwerte für die beiden jüngsten Altersgruppen über den metaanalytisch abgeleiteten Mittelwerten liegen. Wir haben in den Daten aber keinen Hinweis darauf gefunden, dass der Altersverlauf in diesem Bereich nicht linear verläuft.

Der Subtest Benennen ist ein sehr leichter Test. Gesunde Personen lösen alle Aufgaben bis ins höchste Alter mehr oder weniger fehlerfrei. Der Modalwert der richtigen Antworten liegt in allen Altersgruppen zwischen 13 und 14 (bei 15 Items).

Aus der ADAMS-Studie lassen sich die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren errechnen (Abbildung 32). Die Verteilung ist extrem schief, viele Personen jeden Alters erreichen die Testdecke von 15 Rohwerten.

Abbildung 32: Verteilung der CERAD-BN-Rohwerte in der ADAMS-Studie


Dies hat zur Folge, dass der Test im oberen Leistungsbereich nicht mehr differenzieren kann. Man sieht das in der Abbildung 33, die die Flächentransformation der Rohwerte in IQ-Standardwerte zeigt. Werte unter einem IQ von 100 werden gut erfasst, solche oberhalb von 100 nur mangelhaft.

Abbildung 33: Transformation der ADAMS-CERAD-BN-Rohwerte in IQ-Standardwerte mit Hilfe von Flächentransformationen


Abbildung 34 zeigt die Transformationskurven, nachdem die Werte innerhalb der vorhandenen Altersgruppen interpoliert (durch gleitende Mittelwertsbildung über drei Altersklassen, die älteste und jüngste sind unverändert) und nach unten extrapoliert wurden.

Abbildung 34: Inter- und Extrapolation der Standardwerte


Bei der Normenstudie von Welsh-Bohmert sind die mitgeteilten Perzentilnormen angesichts der Schiefe der Verteilung viel zu grob. Wir beschränken uns deshalb auf die ADAMS-Normen.

Die Linearisierung der Messskala erfolgt über die Flächentransformation.

Abbildung 35 zeigt die Mittelwerte aller relevanten möglichen Normquellen für den Subtest Benennen im Altersverlauf. Wieder sind die Daten aus Zufallsstichproben in rötlichen Farben, die aus anfallenden Stichproben in blauen und grünen Farben dargestellt.

Abbildung 35: Mittlere BN-Leistungen im Altersverlauf


Bei diesem Subtest finden wir in den meisten Studien ähnliche Mittelwerte, auch über den Altersverlauf. Niedrigere Mittelwerte finden sich in der Studie von Murphy, ohne dass ein Grund ersichtlich wurde.

Hier gilt allerdings auch die methodische Anmerkung vom Abschnitt Wörterwiedererkennen: Mittelwerte sind bei schiefen Verteilungen keine guten Kennwerte.

Beim Subtest Benennen benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 36 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 36: Leistungswerte mit Rohwerten und Altersnormgrenzen

Für gesunde Probanden hat der Subtest Benennen eine zu niedrige Testdecke. Der höchst erreichbare Rohwert 15 führt nur zu einem Leistungswert von 103. Bessere Leistungen kann der Test nicht messen. Nach unten lassen sich rund drei Standardabweichungen messtechnisch gut erfassen. Darin liegt ja auch der Sinn dieses Subtests.

Figurenzeichnen ist ein Subtest der CERAD, der psychometrisch eher schwierig ist: zu einem geringen Wertevorrat kommt eine niedrige Testdecke.

Aus der ADAMS-Studie lassen sich die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren errechnen (Abbildung 37). Man sieht, dass auch diese Verteilung sehr schief ist. Bei einem Rohwertbereich von 0 bis 11 liegt der Modalwert in allen Altersgruppen im Bereich zwischen 9 und 10. Gleichzeitig kommen praktisch keine Rohwerte unter 4 vor.

Abbildung 37: Verteilung der CERAD-FZ-Rohwerte in der ADAMS-Studie


Abbildung 38 zeigt die Flächentransformation der Rohwerte in IQ-Standardwerte. Hier fallen gewisse Unstetigkeiten im Verlauf auf, die man auch schon in der Verteilung sehen konnte. Sie rühren daher, dass die 11 Rohwertpunkte nicht aus unabhängigen Items stammen, sondern aus Bewertungen von vier Figuren, bei denen man zwischen 2 und 4 Punkte erhalten kann.

Abbildung 38: Transformation der ADAMS-CERAD-FZ-Rohwerte in IQ-Standardwerte mit Hilfe von Flächentransformationen


Abbildung 39 zeigt die Transformationskurven, nachdem die Werte innerhalb der vorhandenen Altersgruppen interpoliert (durch gleitende Mittelwertsbildung über drei Altersklassen, die älteste und jüngste sind unverändert) und nach unten extrapoliert wurden. Dabei wurden die Unstetigkeiten im Verlauf bewusst nicht geglättet, weil sie nicht zufällig entstanden sind, sondern durch Konstruktionseigenarten des Subtests bedingt sind.

Abbildung 39: Inter- und Extrapolation der Standardwerte


Bei der Normenstudie von Welsh-Bohmert sind die mitgeteilten Perzentilnormen angesichts der Schiefe der Verteilung viel zu grob. Wir beschränken uns deshalb auf die ADAMS-Normen.

Die Linearisierung der Messskala erfolgte wieder über die Flächentransformation.

Abbildung 40 zeigt die Mittelwerte aller relevanten möglichen Normquellen für den Subtest Figurenzeichnen im Altersverlauf. Wieder sind die Daten aus Zufallsstichproben in rötlichen Farben, die aus anfallenden Stichproben in blauen und grünen Farben dargestellt.

Abbildung 40: Mittlere FZ-Leistungen im Altersverlauf


Angesichts der Messschwäche dieses Subtests verwundert es nicht, dass die meisten Stichproben ähnliche Mittelwerte über den Altersverlauf aufweisen. Bei den beiden Ausreißern, Collie und Beeri, ist wieder unklar, warum sie niedrigere Mittelwerte aufweisen. Weiter gelten die zuvor angesprochenen Caveats hinsichtlich der Aussagekraft von Mittelwerten bei solchen Verteilungen. Beim Figurenzeichnen kommt noch hinzu, dass die Auswertungsregeln von Studie zu Studie sicher nicht einheitlich gehandhabt wurden.

Beim Subtest Figurenzeichnen benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 41 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 41: Leistungswerte mit Rohwerten und Altersnormgrenzen

Für gesunde Probanden hat dieser Subtest eine viel zu niedrige Testdecke. Der höchst erreichbare Rohwert 11 führt so nur zu einem Leistungswert von 105. Bessere Leistungen kann der Test nicht messen. Nach unten lassen sich rund drei Standardabweichungen messtechnisch erfassen, allerdings nicht mit hoher Genauigkeit, wie man am großen Abstand der Rohwerte in der Zeichnung sieht. Der gesamte relevante Messbereich liegt zwischen 6 und 11 Rohwerten, mit sechs Messpunkten lässt sich nun mal nicht fein messen.

Der Subtest Figurenabrufen wurde erst Mitte der 90er Jahre zur CERAD hinzugefügt und von Anwendern oft nur zögerlich eingeschlossen. Von den in Tabelle 2 angeführten Studien liefern nur ADAMS, Welsh-Bohmer, Monsch und Fillenbaum Daten, letztere allerdings gleich aus drei unterschiedlichen Studien. Für die Ableitung von Leistungswerten eignen sich die ADAMS-Daten am besten. Im Abschnitt Beurteilung der Normquellen werden wir sie mit den anderen vorliegenden Studien vergleichen und diese dabei auch näher erläutern.

Aus der ADAMS-Studie lassen sich die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren errechnen (Abbildung 42). Der Subtest Figurenabrufen hat eine fast symmetrische Verteilung und ist damit trotz des geringen Wertebereichs psychometrisch einfacher zu behandeln als das Figurenzeichnen mit seiner niedrigen Testdecke.

Abbildung 42: Verteilung der CERAD-FA-Rohwerte in der ADAMS-Studie


Wie auf Grund der Verteilungsform zu erwarten, zeigt die Flächentransformation der Rohwerte in IQ-Standardwerte einen weitgehend linearen Verlauf, der sich gut mit linearen Trends fassen lässt (Abbildung 43).

Abbildung 43: Transformation der ADAMS-CERAD-FA-Rohwerte in IQ-Standardwerte als Flächentransformationen (durchgezogene Linien) und als lineare Transformationen (gestrichelte Linien)


Die Verteilung der Rohwerte entspricht approximativ einer Normalverteilung, was eine einfache lineare Umwandlung der Rohwerte in Leistungswerte gestattet.

Neben den ADAMS- und Monsch-Daten stehen die Daten von drei Stichproben zur Verfügung, die in der Arbeit von Fillenbaum et al. (2013)26) zusammengefasst sind:

  1. eine Zufallsstichprobe von Amerikanern afrikanischer Herkunft aus Indianapolis (Indiana) ohne krankhafte kognitive Störung (CDR-Score von 0), die zwischen 1997 und 2004 untersucht wurde (N=369)
  2. eine Zufallsstichprobe von Amerikanern fast ausschließlich europäischer Herkunft aus Cache County (Utah) ohne krankhaft kognitive Störung (klinische Consensus-Diagnose, N=484). Diese Stichprobe ist die gleiche wie in Welsh-Bohmer et al. (2009)27), aber neu in 5-Jahres-Klassen aufbereitet, weshalb wir sie hier vorziehen.
  3. eine anfallende Stichprobe von Amerikanern europäischer Herkunft aus der ursprünglichen CERAD-Normstichprobe28) ohne krankhafte kognitive Störung (N=177).

Keine dieser Stichprobe ist also eine für die gesamte USA repräsentative Studie, sondern nur eine Zufallsstichprobe aus unterschiedlichen und begrenzten Einzugsbereichen. Die Schulbildung der Indianapolis-Stichprobe (57% weniger als 12 Jahre) liegt deutlich unter der der beiden anderen Studien (17 bzw. 10% weniger als 12 Jahre).

Abbildung 44 zeigt die Mittelwerte der fünf Normquellen für den Subtest Figurenzeichnen im Altersverlauf. Die von uns favorisierte Normquelle, die ADAMS-Stichprobe, liegt zwischen den beiden regionalen Zufallsstichproben, die eine sehr hoch gebildete (Cache County) und eine sehr wenig gebildete (Indianapolis) Population repräsentieren. Die Schweizer Stichprobe ist im oberen Leistungsbereich zu finden.

Abbildung 44: Mittlere FZ-Leistungen im Altersverlauf


Beim Subtest Figurenabrufen benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 45 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 45: Leistungswerte mit Rohwerten und Altersnormgrenzen

Für junge und mittelalte Probanden ist auch dieser Subtest zu leicht. Der höchst erreichbare Rohwert 11 führt zu einem Leistungswert von 107, standardisiert auf die Leistungen der 60-64-Jährigen. Trotzdem ist der Subtest für seine eigentliche Aufgabe, die visuellen Gedächtnisdefizite alter Menschen zu erfassen, gut geeignet. Hier umfasst der messbare Leistungsbereich immerhin viereinhalb Standardabweichungen über 11 Messwerte hinweg.

Die Baseler CERAD-Plus enthält noch einen weiteren Subtest (lexikalische oder phonematische Wortflüssigkeit, LWF), bei dem innerhalb einer Minute möglichst viele Wörter genannt werden müssen, die mit S anfangen. In der amerikanischen CERAD ist dieser Subtest nicht enthalten. Für die Normierung würde es in diesem Fall auch nicht nützen: Für diesen Subtest lassen sich Normen nur verwenden, wenn sie aus dem deutschen Sprachraum stammen. Die Wortproduktion zu einem Buchstaben hängt von der Vorkommenshäufigkeit des Buchstabens in der Alltagssprache ab und die ist über Sprachen hinweg unterschiedlich. Etwas ausführlicher wird dieser Gesichtspunkt in der Dokumentation zum Regensburger Wortflüssigkeitstest (RWT) diskutiert.

Für die lexikalische Wortflüssigkeit gibt es deutsche Normen unseres Wissens nach nur in der Schweizer CERAD-Normierung und im RWT. Während die Schweizer Normen sich immerhin über drei Altersgruppen zwischen circa 60 und circa 85 Jahren erstrecken, gibt es in den RWT-Normen nur eine Altersgruppe im hier interessierenden Altersbereich, nämlich „über 65“. Die Normierung des Subtests LWF gründet deshalb ausschließlich auf den Schweizer CERAD-Normen.

Im Allgemeinen haben Wortflüssigkeitstests ganz vernünftige Rohwertverteilungen. Dies ist so bei der CERAD-Version der semantischen Wortflüssigkeit (weiter oben in dieser Doku) und es ist auch so beim Regensburger Wortflüssigkeitstest (RWT). Empirische Daten dazu liegen nur aus dem RWT in Form von Perzentildaten vor. Abbildung 46 zeigt die Rohwertverteilung des Subtests „S-Wörter“ in der Ein-Minuten-Version des RWT für fünf Altersgruppen.

Abbildung 46: Verteilung der CERAD-LWF-Rohwerte in der Ein-Minuten-Version des S-Wörter-Subtests des RWT


Eine Flächentransformation der Rohwerte in IQ-Standardwerte ergibt - von den Randbereichen abgesehen - eine weitgehend lineare Beziehung. Abbildung 47 zeigt für drei Altersgruppen die aus der Flächentransformation entstandene Kurve, zusammen mit den - nur aus den gut besetzten mittleren Leistungsbereichen berechneten - linearen Trendlinien.

Abbildung 47: Transformation der CERAD-LWF-Rohwerte in der Ein-Minuten-Version des S-Wörter-Subtests des RWT in IQ-Standardwerte als Flächentransformation (durchgezogene Linie) und als lineare Transformation (gestrichelte Linien)


Wie man sieht, ist die lineare Approximation gut, an den Enden der Verteilung sicher besser als die Flächentransformation, die hier auch bei relativ großen Stichproben Zufallsschwankungen auf Grund kleiner Zahlen unterliegt. Unter der Annahme, dass die Verhältnisse in der Schweizer CERAD-Normierung ähnlich sind, können wir die dort angegebenen Mittelwerte und Standardabweichungen über die diversen Gruppen gewichtet mitteln und dies als Grundlage für eine einfache lineare Normierung nehmen.

Bei diesem Subtest gibt es nur zwei Quellen, Monsch und RWT, beides anfallende Stichproben, die bei anderen Subtests relativ hohe Mittelwerte im Vergleich zu Zufallsstichproben gezeigt haben. Hinzu kommt, dass die Altersnormierung des RWT im oberen Altersbereich ungenügend differenziert ist. Somit bleiben nur die Monsch-Normen.

Für die Normierung des Subtests LWF wurde nur die Schweizer CERAD-Normierung („Monsch“ in Tabelle 2) verwendet. Wir haben die Mittelwerte und Standardabweichungen aller Teilstichproben pro Altersklasse gewichtet gemittelt und die Werte für 5-Jahres-Altersgruppen interpoliert. Die Leistungswerte wurden auch hier an den Leistungen der 60-64-Jährigen normiert. Abbildung 48 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen.

Abbildung 48: Leistungswerte mit Rohwerten und Altersnormgrenzen


In den Abbildungen 49 und 50 vergleichen wir die Baseler CERAD-Mittelwerte und Standardabweichungen mit denen des RWT. In beiden Abbildungen sind die Altersgruppen jeweils mit dem Altersmittelpunkt der Altersgruppe eingetragen. Dies dürfte außer bei den äußeren Gruppen auch in etwa mit dem tatsächlichen Altersmittelwert der Gruppe zusammenfallen.

Abbildung 49: Mittelwerte der beiden Normquellen im Altersverlauf


Abbildung 50: Standardabweichungen der beiden Normquellen im Altersverlauf


Hinsichtlich der Mittelwerte liegen Baseler Normen und RWT-Normen nicht allzu weit auseinander, vermutlich sind beide im Vergleich mit Zufallsstichproben zu hoch. Die Standardabweichungen fallen bei den Monsch-Stichproben relativ niedrig aus, vor allem bei der ältesten Gruppe. Dies hat zur Folge, dass die Altersnormgrenzen bei den ältesten Gruppen enger beieinander liegen als bei den jüngeren Gruppen. Auf Grund der RWT-Daten wäre nicht unbedingt von einer Korrelation zwischen Mittelwerten und Standardabweichungen über den Altersverlauf hinweg auszugehen, obwohl dies inhaltlich auch durchaus denkbar wäre. An Hand der vorliegenden Daten ist das nicht weiter beurteilbar.

Genau wie die MMSE sind auch die beiden Trail Making Tests zweimal in TDB2Online vorhanden: einmal als eigenständige Verfahren mit der üblichen Definition der Leistungswerte auf der Basis der Leistungen von jungen Erwachsenen und einmal als Subtests der CERAD mit der Normierung auf der Basis von 60-64-Jährigen (dieser Abschnitt). Von den in Tabelle 2 angeführten Studien liefern nur ADAMS, Welsh-Bohmer, Monsch und Beeri Daten. Für die Ableitung von Leistungswerten eignen sich nur die ADAMS-Daten. Im Abschnitt Beurteilung der Normquellen werden wir sie mit den anderen vorliegenden Studien vergleichen und diese dabei auch näher erläutern.

Bei den beiden Trail Making Tests bedeuten hohe Rohwerte (=lange Zeiten) schlechte Testleistungen.

Aus der ADAMS-Studie lassen sich die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren errechnen (Abbildung 51). Der Subtest TMT-A hat eine extrem linksgipflige Verteilung. Kaum ein Proband über 70 schafft den Test in weniger als 25 Sekunden, die Modalwerte liegen etwa zwischen 45 und 65 Sekunden, und viele Probanden brauchen zwei Minuten und länger, was zu dem weit nach außen reichenden rechten Schenkel der Verteilung führt.

Abbildung 51: Verteilung der CERAD-TMT-A-Rohwerte in der ADAMS-Studie


Für die Umwandlung der Rohwerte in Standardwerte kommt also nur eine Flächentransformation in Frage. Abbildung 52 zeigt die entsprechende Beziehung, auch für die in den Altersbereich 60-69 extrapolierten Werte.

Abbildung 52: Transformation der ADAMS-CERAD-TMT-A-Rohwerte in IQ-Standardwerte als Flächentransformationen


Die Linearisierung der Rohwerte erfolgte über eine Flächentransformation auf der Grundlage der ADAMS-Daten.

Von den in Tabelle 2 genannten Normierungsstudien haben vier auch Daten für TMT-A und TMT-B erhoben: ADAMS, Welsh-Bohmer, Monsch und Beeri.

Abbildung 53 zeigt die Mittelwerte dieser vier Normquellen für den Subtest TMT-A im Altersverlauf. Welsh-Bohmer, Beeri und Monsch liefern hier sehr ähnliche Daten. Die Verlaufskurve der ADAMS-Stichprobe liegt in allen Altersgruppen deutlich darüber. Ein Grund für die höheren Zeit-Rohwerte dürfte darin liegen, dass den Probanden in der ADAMS-Studie vergleichsweise viel Zeit zum Ausfüllen des Formulars gegeben wurde. Beim TMT-A wird sonst oft nach 90 Sekunden abgebrochen. Bei ADAMS kommen auch noch Zeiten von 6 oder 8 Minuten vor. Diese sehr hohen Werte verzerren die Mittelwerte nach oben. Man kann das leicht sehen, wenn man die Mittelwerte mit den Medianen der ADAMS-Studie vergleicht, die braun gestrichelt eingetragen sind: Die Mediane liegen deutlich unter den Mittelwerten. Bei so schiefen Verteilungen liefern Mittelwerte und Mediane meist unterschiedliche Werte.

Die schwarz gestrichelte Kurve, die auch noch auf der Abbildung zu sehen ist, stellt den Mittelwert der vielen Studien dar, die in die Normierung des TMT-A als Einzeltest eingegangen sind. Man sieht, dass es zumindest auf der Ebene der Mittelwerte keine großen Abweichungen von den hier erfassten Normquellen gibt.

Abbildung 53: Mittlere TMT-A-Rohwerte im Altersverlauf


Beim TMT-A benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 54 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen. An der Rohwertskala im Diagramm kann man noch einmal sehr schön die Skalenverzerrung der Zeitskala sehen: Der Unterschied zwischen 20 und 30 Sekunden ist auf der Fähigkeitsebene der Leistungswerte etwa so groß wie der Unterschied zwischen 60 und 120 Sekunden, nämlich jeweils etwa eine Standardabweichung. Man sieht allerdings auch, dass in den höheren Altersgruppen der Test wohl an seine Grenzen kommt. Jenseits einer Testdauer von 90 Sekunden kommen sicher viele motivationale Faktoren ins Spiel, auch hinsichtlich der Interaktion mit den Testleitern.

Abbildung 54: Leistungswerte mit Rohwerten und Altersnormgrenzen

Die Beschreibung wird kurz gehalten, weil das meiste des im letzten Abschnitt über den TMT-A Gesagte auch hier gilt.

Abbildung 55 zeigt die Rohwertverteilungen für alle Altersgruppen zwischen 70 und 94 Jahren. Die Verteilungen des TMT-B sind weniger schief als die des TMT-A, vor allem bei den älteren Jahrgängen. Allerdings brauchen hier viele Probanden Zeiten von über 5 Minuten, was in der Praxis einer Demenz-Ambulanz wohl häufig zu einem Testabbruch führt.

Abbildung 55: Verteilung der CERAD-TMT-B-Rohwerte in der ADAMS-Studie


Die Rohwerte wurden primär durch eine Flächentransformation in Standardwerte umgewandelt. Anschließend wurden die Kurven, die sich wegen der ungleichmäßigen Verläufe der Verteilungen teilweise überschnitten, durch Trendberechnungen über die Altersgruppen homogenisiert. Abbildung 56 zeigt die entsprechenden Beziehungen, auch für die in den Altersbereich 60-69 extrapolierten Werte.

Abbildung 56: Transformation der ADAMS-CERAD-TMT-B-Rohwerte in IQ-Standardwerte als Flächentransformation


Die Linearisierung der Rohwerte erfolgte über eine Flächentransformation auf der Grundlage der ADAMS-Daten.

Von den in Tabelle 2 genannten Normierungsstudien haben vier auch Daten für TMT-A und TMT-B erhoben: ADAMS, Welsh-Bohmer, Monsch und Beeri.

Abbildung 53 zeigt die Mittelwerte dieser vier Normquellen für den Subtest TMT-B im Altersverlauf. Alle vier Studien liefern hier sehr ähnliche Daten. Auch ist der Unterschied zwischen den Mittelwerten und den Medianen bei der ADAMS-Studie nicht so groß wie beim TMT-A. Dies hängt mit der weniger schiefen Verteilung des TMT-B zusammen.

Die schwarz gestrichelte Kurve, die auch noch auf der Abbildung zu sehen ist, stellt den Mittelwert der vielen Studien dar, die in die Normierung des TMT-B als Einzeltest eingegangen sind. Wie schon beim TMT-A gibt es auch hier keine großen Abweichungen von den im Zuge der CERAD-Normierung erfassten Normquellen.

Abbildung 57: Mittlere TMT-B-Rohwerte im Altersverlauf

Auch beim TMT-B benutzen wir nur die ADAMS-Studie für die Normierung. Die Leistungswerte selbst berechnen wir an der jüngsten (extrapolierten) Altersgruppe, den 60-64-Jährigen.

Abbildung 58 zeigt die Umrechnung von Roh- in Leistungswerte und zusätzlich die Altersnormgrenzen für alle Altersgruppen. Für die jeweils leistungsstärkere Hälfte der einzelnen Altersgruppen funktioniert die Flächentransformation im Sinne einer Linearisierung des Skala. Bei den Leistungsschwächeren ist dies offensichtlich nicht mehr der Fall. Am unteren Ende der Skala (also bei den langen und sehr langen Bearbeitungszeiten) kommt der TMT-B zumindest in den höheren Altersgruppen an seine Grenzen.

Abbildung 58: Leistungswerte mit Rohwerten und Altersnormgrenzen


An der Psychologischen Abteilung der Psychiatrischen Klinik im Klinikum der LMU München wurde die CERAD-Batterie seit Mitte der 90er Jahre benutzt, vorwiegend im Rahmen der Gedächtnissprechstunde. Schon früh wurden dafür die amerikanischen Normen aufgearbeitet und linearisiert; zur Darstellung wurde ein Profilblatt verwendet, das einige Merkmale des Darstellungsprinzips von TDB2Online vorwegnahm,29) inzwischen aber veraltet ist.

Bis zum 14. August 2019 beruhten die in TDB2Online verwendeten CERAD-Normen ausschließlich auf zwei Quellen: Die Leistungswerte wurden aus den Perzentilverteilungen von Welsh et al. (1994)30) abgeleitet, für die Altersnormgrenzen wurden zusätzlich die Daten der Normierungsstudie der Baseler Memory Clinic verwendet. Diese inzwischen veraltete Normierung steht zu Vergleichszwecken in TDB2Online bis auf Weiteres noch unter dem Namen CERAD alt zur Verfügung.


1) , 11) , 30)
Welsh, K. A., Butters, N., Mohs, R. C., Beekly, D., Edland, S., Fillenbaum, G. & Heyman, A. (1994) The consortium to establish a registry for Alzheimer's Disease (CERAD). Part V. A normative study of the neuropsychological battery. Neurology, 44, 609-614
3)
Morris, J. C., Heyman, A., Mohs, R. C., Hughes, J. R., van Belle, G., Fillenbaum, G. et al. (1989). The Consortium to Establish a Registry for Alzheimer's Disease (CERAD). Part I. Clinical and neuropsychological assessment of Alzheimer's disease. Neurology, 39, 1159-1165.
4)
Aebi, C. (2002). Validierung der neuropsychologischen Testbatterie CERAD-NP : eine Multi-Center Studie. Basel: Dissertation an der philosophisch-historischen Fakultät der Universität Basel.
5)
Schmidt, K.-H. & Metzler, P. (1992). Wortschatztest. WST. Testmappe. Weinheim: Beltz.
6)
Jahn, T., Beitlich, D., Hepp, S., Knecht, R. Köhler, K., Ortner, C., Sperger, E. & Kerkhoff, G. (2013) Drei Sozialformeln zu Schätzung der (prämorbiden) Intelligenzquotienten nach Wechsler. Zeitschrift für Neuropsychologie, 24, 7-24
7) , 16) , 19)
Langa, K. M., Plassman, B. L., Wallace, R. B., Herzog, A. R., Heeringa, S. G., Ofstedal, M. B., et al. (2005) The Aging, Demographics, and Memory Study: Study design and methods, Neuroepidemiology, 25, 181-191.
8) , 22) , 27)
Welsh-Bohmer, K. A., Ostbye, T., Sanders, L., Pieper, C. F., Hayden, K. M., Tschanz, J.T., et al. (2009) Neuropsychological performance in advanced age: Influences of demographic factors and apolipoprotein E: Findings from the Cache County Memory Study. The Clinical Neuropsychologist, 23, 77-99.
9) , 23)
Luck, T., Riedel-Heller, S. G., Wiese, B., Stein, J., Weyerer, S., Werle, J., et al. (2009) CERAD-NP-Testbatterie: Alters-, geschlechts- und bildungsspezifische Normen ausgewählter Subtests. Zeitschrift für Gerontologie und Geriatrie, 42, 372-384.
10) , 24) , 26)
Fillenbaum, G. G., Burchett, B. M., Unverzagt, F. W., Rexroth, D. F. & Welsh-Bohmer, K. (2011) Norms for CERAD Constructional Praxis Recall. The Clinical Neuropsychologist, 25, 1345-1358.
12)
Murphy, M. (2012) Normative CERAD-NP performance among community-dwelling older adults in Ireland. Clinical Gerontologist, 35, 15-26
13)
Beeri, M. S., Schmeidler, J., Sano, M., Wang, J., Lally, R., Grossman, H., & Silverman, J. M. (2006) Age, gender and education norms on the CERAD neuropsychological battery in the oldest old. Neurology, 67, 1006-1010
14)
Collie, A., Shafiq-Antonacci, R., Maruff, P., Tyler, P., & Currie, J. (1999) Norms and the effects of demographic variables on a neuropsychological battery for use in healthy ageing Australian populations. Australian and New Zealand Journal of Psychiatry, 33, 568-575
17)
Sosa, A. L., Albanese, E., Prince, M., Acosta, D., Ferri, C. P., Guerra, M., et al. (2009) Population normative data for the 10/66 Dementia Research Group cognitive test battery from Latin America, India and China: A cross-sectional survey. BMC Neurology, 9:48
18)
Lee, D. Y., Lee, K. U., Lee, J. H., Kim, K. W., Jhoo, J. H., Kim, S. Y., et al. (2004) A normative study of the CERAD neuropsychological assessment battery in the Korean elderly. Journal of the International Neuropsychological Society, 10, 72-81.
20)
Crum, R. M., Anthony, J. C., Bassett, S. S. & Folstein, M. F. (1993) Population-based norms for the Mini-Mental State Examination by age and educational level. Journal of the American Medical Association, 269, 2386-2391
21)
THE MEDICAL RESEARCH COUNCIL COGNITIVE FUNCTION AND AGEING STUDY (MRC CFAS) (1998). Cognitive function and dementia in six areas of England and Wales: the distribution of MMSE and prevalence of GMS organicity level in the MRC-CFA Study. Psychological Medicine, 28, 319-­335
25) , 28)
Morris, J. C., Heyman, A., Mohs, R. C., Hughes, J. R., van Belle, G., Fillenbaum, G. et al. (1989). The Consortium to Establish a Registry for Alzheimer's Disease (CERAD). Part I. Clinical and neuropsychological assessment of Alzheimer's disease. Neurology, 39, 1159-1165.
29)
Satzger, W., Hampel, H., Padberg, F., Bürger, K., Nolde, Th., Ingrassia, G. et al. (2001a). Zur praktischen Anwendung der CERAD-Testbatterie als neuropsychologisches Demenzscreening. Nervenarzt, 72, 196-203.
Melden Sie sich an, um einen Kommentar zu erstellen.
  • dokumentation/cerad-testbatterie.1626705067.txt.gz
  • Zuletzt geändert: 2021/07/19 14:31
  • von res