Trail Making Tests A und B
Abkürzungen: TMT, TMT-A, TMT-B
Hintergrund
Die Trail Making Tests, meist im Singular als Trail Making Test (TMT) bezeichnet, tragen diesen Namen seit ihrem Einschluss in die Army Individual Test Battery 1) im Jahr 1944. Sie waren aber schon vor 1944 unter anderen Namen in Gebrauch, unter anderem als Pathway-Test. Die beiden Tests werden meistens als Paar vorgegeben, obwohl sie keineswegs das Gleiche messen. Im Teil A müssen die auf einer DIN-A-4-Seite verstreuten Zahlen von 1 bis 25 so schnell wie möglich in der richtigen Reihenfolge mit einem Bleistift verbunden werden. Teil A erfasst also vor allem visomotorische Geschwindigkeit. Im Teil B wird die Aufgabe dadurch um eine Arbeitsgedächtniskomponente erweitert, dass abwechselnd Zahlen und Buchstaben in der natürlichen Reihenfolge (von 1 nach A, nach 2, nach B, usw. bis zur Zahl 13) verbunden werden müssen. Abbildung 1 zeigt eine Beispielseite für den Teil A, an Hand derer die Testaufgabe erläutert wird.
Abbildung 1: Beispielseite für den TMT A
Auch wenn der Test zunächst als Subtest einer allgemeinen Intelligenzbatterie in Gebrauch war, wurde seine Sensitivität für Leistungsdefizite in Folge von Hirnschäden bald bekannt. Der Test wird in allen wichtigeren englischsprachigen Lehrbüchern der neuropsychologischen Diagnostik besprochen 2) 3) 4). Weitere Hintergrundinformationen können diesen Quellen entnommen werden. Die heute übliche Testversion geht auf Ralph Reitan zurück 5).
Eine passende Übersetzung, die den Sinn der Testaufgabe auch im Deutschen schnell vermittelt, ist Pfadfindertest.
Testmaterial
Seit den fünfziger Jahren des letzten Jahrhunderts ist der Trail Making Test Bestandteil der Halstead-Reitan-Testbatterie (HRNTB, siehe zum Beispiel Reitan & Wolfson, 19936)), die vor allem in USA über viele Jahrzehnte häufig als neuropsychologische Standard-Testbatterie eingesetzt wurde. Das Testmaterial konnte man über Reitans Neuropsychology Laboratory kaufen. Aus dem Verkaufskatalog der Webseite des Labors ging 2009 hervor, dass ein Set, bestehend aus 100 Vorlagen für den TMT-A, 100 Vorlagen für den TMT-B und einem Manual 50 US Dollar kostet. Auch wenn die Webseite 2012 für einige Zeit verwaist zu sein schien, ist sie jetzt (August 2021) wieder erreichbar und der Preis für das Set ist noch derselbe. Inzwischen wurde das Testmaterial für alle Tests der HRNTB auch von einem anderen Hersteller verfügbar gemacht, dem „Neuropsychology Center (NPC)“, einer Firma in Texas, die von früheren Mitarbeitern des Reitan-Labors geführt wird.
Die Vorlagen zum TMT kursieren seit Jahrzehnten von Labor zu Labor und werden immer wieder kopiert oder nachgemalt, sicher auch schon vor ihrem Einschluss in die Halstead-Reitan Testbatterie. Die Testzentralen in Göttingen und Bern haben zur Zeit (Stand August 2021) keinen entsprechenden Test im Angebot. Die Baseler Memory Clinic bietet Fachpersonen das CERAD-Material und damit verbunden auch die TMT-Vorlagen (Teile A und B) zum Kauf an. Früher unterschieden sich die Baseler Vorlagen erheblich von den in der Halstead-Reitan-Batterie verwendeten: Die Zahlen und Buchstaben waren in einer relativ kleinen Serifen-Schrift statt in einer großen serifenlosen Schrift dargestellt und deshalb schwerer zu lesen, was sich besonders bei Älteren auswirkt. Inzwischen kann man die dort erhältlichen Vorlagen gut verwenden. Die weiter unten aufgeführten Normuntersuchungen haben - soweit bekannt - eine Blattgestaltung verwendet, die derjenigen in der Halstead-Reitan-Batterie entspricht. Eine erheblich abweichende Anordnung der Zahlen bzw. der Zahlen und Buchstaben könnte zu anderen Normwerten führen.
Copyright
Reitans Labor beansprucht kein explizites Copyright auf die Vorlagen. Vermutlich würde es auch nicht sehr weit tragen, weil die Vorlagen auch schon vor ihrem Einschluss in die HRNTB existierten und jeder sie leicht nachmalen konnte und kann.
Aus Gründen der Testsicherheit ist es notwendig, dass das Material nur Fachleuten zugänglich ist. Wichtig ist außerdem, dass die Vorlagen tatsächlich immer in der gleichen Form verwendet werden.
Testdurchführung
International hat sich die Durchführung des Tests nach der Anweisung von Reitan durchgesetzt, bei der der Versuchsleiter den Probanden eng supervidiert. Aufgetretene Fehler werden sofort moniert und der Proband wird zur Korrektur aufgefordert. Dadurch erübrigt sich eine getrennte Aufzeichnung der Fehler. Wenn welche vorkommen, erhöhen sie die Durchführungsdauer und gehen dadurch in das Testergebnis mit ein.
Meist hat es sich in den einzelnen neuropsychologischen Labors eingebürgert, die Durchführungszeit nach oben zu begrenzen. Häufig wird Teil A nach 90 Sekunden, spätestens aber nach drei Minuten, Teil B nach fünf Minuten abgebrochen. Eine Differenzierungsfähigkeit unterschiedlicher Zeiten ist in diesem Bereich nicht mehr gegeben, was auch die Normtabellen zeigen.
Testrohwerte
Bei der Durchführung nach Reitan gibt es nur einen einzigen Rohwerte pro Subtest des TMT, nämlich die Sekunden, die der Patient oder die Patientin für die Bearbeitung braucht. Fehler werden nicht einzeln notiert, sondern im Verlauf korrigiert und erhöhen dadurch die Durchführungszeit. Es gbit also zwei Rohwerte, die Durchführungszeit für Teil A und die für Teil B.
Verteilungseigenschaften der Rohwerte
Junge gesunde Erwachsene brauchen im TMT A durchschnittlich etwa 23 Sekunden. Weniger als 14 Sekunden kann man kaum brauchen, um 25 Zahlen zu verbinden, selbst wenn man extrem schnell ist. Bei der schnelleren Hälfte der Leute bewegen sich die Zeiten also in einem sehr engen Schwankungsbereich. Bei der langsameren Hälfte ist die Variationsmöglichkeit dagegen viel größer, prinzipiell ist sie unlimitiert. Tatsächlich kommen bei älteren Probanden durchaus Bearbeitungszeiten von zwei Minuten vor. Beim TMT-B ist die Situation im Prinzip genau so, die Durchführungszeiten sind nur generell länger. Aus diesen Randbedingungen resultiert eine linksgipflige Verteilung der Rohwerte, so wie es bei den meisten geschwindigkeitsabhängigen Tests der Fall ist, in denen die Durchführungszeit als Rohwert dient.
Empirische Daten dazu stehen in der Normensammlung von Heaton et al. (2004)7) zur Verfügung. Dort sind die Ergebnisse von 634 weißen und 578 schwarzen Amerikanern im Altersbereich zwischen 20 und 85 Jahren in einer Reihe von Tests, darunter der TMT, zusammengestellt. Die Autoren wandelten die Rohwerte über eine Flächentransformation (über alle Personen der Stichprobe hinweg) in Wertpunkte (Mittelwert 10, Standardabweichung 3) um und stellten das Ergebnis als Wertetabelle (Rohwert zu Wertpunkt) dar. Daraus ließen sich (nach Verstetigung und Glättung der groben Wertpunktskala) die Originalverteilungen der Daten auf Zeitebene zurückrechnen. Abbildung 2 zeigt die so rückgerechnete Rohwertverteilung über die 1212 Personen starke Gesamtstichprobe für den Teil A, Abbildung 3 für den Teil B.
Abbildung 2: Häufigkeitsverteilung der Rohwerte des TMT-A in der Gesamtstichprobe (N=1212) von Heaton et al. (2004)
Abbildung 3: Häufigkeitsverteilung der Rohwerte des TMT-B in der Gesamtstichprobe (N=1212) von Heaton et al. (2004)
Wie zu erwarten, ist die Rohwertverteilung in beiden Testteilen stark linksgipflig und damit ohne nicht-lineare Transformation nicht gut interpretierbar. Zwei Beispiele sollen das illustrieren:
- Eine direkte Folge von schiefen Verteilungen ist die unangenehme Eigenschaft, dass gleich große Differenzen an verschiedenen Stellen der Skala Unterschiedliches bedeuten. Eine Verlängerung der Bearbeitungszeit im TMT-A von 15 auf 20 Sekunden geht inhaltlich mit einer viel stärkeren Leistungseinbuße einher als eine Verlängerung von 45 auf 50 Sekunden. Die Zeitskala spiegelt das aber nicht wieder.
- Schiefe Verteilungen haben eine weitere unangenehme Eigenschaft. Bei beliebigen leistungsunterschiedlichen Subgruppen, also zum Beispiel bei Alterskohorten, sind die Standardabweichungen nicht gleich, sondern sie korrelieren positiv mit den Mittelwerten. An Hand der Daten von Heaton et al. (2004) lässt sich auch das gut zeigen. In Abbildung 4 sind die aus den Perzentiltabellen rückgerechneten Rohwertverteilungen von weißen Frauen und Männern mit 12-jähriger Schulbildung in zwei Altersgruppen im TMT-A gegenübergestellt, blau die Altersgruppe 20 bis 34 Jahre, rot die 60-64-Jährigen. Es lässt sich auf einen Blick erkennen, dass die Verteilung bei den älteren Probanden viel breiter ist als bei den Jüngeren, entsprechend dem höheren Mittelwert. Diese Verbreiterung geht aber zum größten Teil nicht auf eine größere Variabilität des Merkmals selbst zurück, sondern auf die Eigenschaften der Zeitskala, die das psychologische Merkmal verzerrt abbildet.
Abbildung 4: Rückgerechnete Häufigkeitsverteilungen der TMT-A-Rohwerte für zwei Altersgruppen (Daten aus Heaton et al., 2004)
Linearisierung der Messskala
Beim TMT gab es die seltene Gelegenheit, dass für die Linearisierung auf empirische Daten zurückgegriffen werden konnte, wenn auch nur in zusammengefasster Form und mit gewissen Kompromissen. In der oben schon erwähnten großen Studie von Heaton et al. (2004)8) war eine Flächentransformation der Zeitrohwerte in normalverteilte Standardwerte durchgeführt worden. Leider war dies nur über die Gesamtstichprobe erfolgt, was nicht ideal ist, weil sich in dieser heterogenen Stichprobe neben den hier interessierenden Einflüssen der Skala noch weitere Effekte spiegeln, die die Verteilungsform beeinflussen. Insbesondere sind dies Effekte des Alters, gerade bei einem so altersensitiven Test wie dem TMT. Aber immerhin, aus den Daten ließ sich nach Verstetigung und Glättung der Wertpunktskala eine fein gradierte Wertetabelle erstellen, die als Grundlage für die Linearisierung der Leistungswerte dienen konnte.
Für die Berechnung der Leistungswerte braucht man allerdings die Daten einer jungen gesunden Stichprobe. Die sind im Handbuch von Heaton et al. (2004) nicht separat dargestellt. Die Autoren hatten den Weg gewählt, mittels einer polynomialen Regression die Einflüsse von Alter, Geschlecht und Ausbildungsjahren auf die Rohwerte zu berechnen. Die Ergebnisse sind in Form von alters-, geschlechts- und ausbildungskorrigierten T-Werten tabelliert. Die Ausbildungsdauer der Gesamtstichprobe von Heaton et al. (2004) wich deutlich vom amerikanischen Durchschnitt nach oben ab. Für die Berechnung der Leistungswerte wurde deshalb nur auf die Teilstichprobe mit 12-jähriger Ausbildungsdauer zurückgegriffen(N=114). Dies entsprach damals dem Mittelwert der Ausbildungsdauer der amerikanischen Bevölkerung. Wegen der relativ groben Einteilung wäre eine breitere Bereichsbildung nicht möglich gewesen. Dabei hätte man eine große Abweichung vom Durchschnitt in Kauf nehmen müssen, was als schwererwiegend eingeschätzt wurde. Wie weiter unten dargestellt, entsprach die Leistung der hier gewählte Teilstichprobe relativ gut der Leistung der metaanalytisch verrechneten Stichproben.
Normempfehlungen in der Literatur
In der Army Individual Test Battery wurden damals die Zeitrohwerte in Wertpunkte zwischen 1 und 10 transformiert (und damit wohl immerhin annähernd linearisiert). Bei der Anwendung als neuropsychologische Tests bürgerten sich zunächst Cut-off-Werte für die Abgrenzung zwischen „normal“ und „pathologisch“ ein, die allerdings schnell und mit Recht kritisiert wurden. Die Testwerte in beiden Teilen des TMT (Teil B noch mehr als Teil A) sind stark von Intelligenz, insbesondere visomotorischer Geschwindigkeit, und vom Alter abhängig, weshalb einheitliche Cut-off-Werte nicht ratsam sein können.
Heute werden in den neuropsychologischen Lehrbüchern 9) 10) unterschiedliche Normdaten angeboten, teils als Prozentränge, teils als Mittelwerte und Standardabweichungen bestimmter Referenzgruppen. Die empfohlenen Normen weichen erheblich voneinander ab. In der Normensammlung von Mitrushina et al. (2005) 11) wird auf eine Empfehlung gleich völlig verzichtet. Die Autoren zitieren viele unterschiedliche Normquellen und empfehlen, diejenige zu wählen, die am ehesten der Population entspricht, der ein zu beurteilender Proband angehört. Eine solche Praxis würde zu einer nur schwer trennbaren Verschmelzung von Messung und Interpretation führen.
Eine verlässliche und einheitliche Zusammenfassung der unterschiedlichen Normquellen gibt es bisher nicht.
Normerstellung
Für die Erstellung der TDB2Online-Leistungswertnormen wurde systematisch auf möglichst alle zugänglichen Studien zurückgegriffen, in denen TMT-Daten gesunder Probanden enthalten waren. Da es sich bei dem TMT um einen weitgehend sprachfreien (allerdings an das lateinische Alphabet gebundenen) Test handelt, wurde dabei auf eine Beschränkung der nationalen und/oder sprachlichen Herkunft der Normdaten verzichtet. Die Bedingung für den Einschluss einer Studie war, dass Mittelwerte und Standardabweichungen der Zeitrohwerte einer Stichprobe von gesunden Probanden in mehreren differenzierten Altersbereichen berichtet wurden. Es ließen sich 22 individuelle Studien in 18 Publikationen lokalisieren, in denen Normdaten von rund 4000 Probanden im Altersbereich zwischen 15 und 94 Jahren angegeben waren. Mit Hilfe einer metaanalytischen Zusammenfassung wurden diese Normen integriert und damit von den Eigenheiten der einzelnen Studie unabhängig gemacht.
Normquellen
Für die hier errechneten Normen des TMT gab es zwei große Referenzwerke. Das eine ist eine Sammlung von Normdaten für eine Reihe von neuropsychologischen Standardverfahren, die unter dem Titel Handbook of Normative Data for Neuropsychological Assessment als Monographie publiziert wurde (Mitrushina et al., 1999 12) ). Für den TMT werden in diesem Handbuch insgesamt 24 Studien mit Normdaten besprochen. Vierzehn davon, nämlich die als Studien 1 13), 2 14), 4 15), 5 16), 7 17), 8 18), 9 19), 10 20), 11 21), 12 22), 15 23), 18 24), 20 25) und 21 26) genannten, erfüllten unsere Einschlusskriterien. Bei den Studien 8, 11 und 18 wurde jeweils nur die erste Testvorgabe einbezogen. In den Studien 5 und 10 wurden die Gruppen mit unterschiedlichen Bildungsabschlüssen jeweils einzeln einbezogen. Ausschlussgründe für die anderen Studien waren: ein zu weiter, undifferenzierter Altersbereich in den Studien 6, 19, 23 und 24; die selektive Vorgabe von Teil B ohne Teil A in den Studien 16 und 22, der Einbezug kranker Personen in die Stichproben der Studien 3 und 17 sowie eine Selektion auffällig guter Probanden in der Studie 14 (alle Referenzen dazu in Mitrushina et al, 1999).
Eine Besonderheit stellt die Studie 13 27) dar. Diese Studie wurde nicht einbezogen, weil sie die Vorläuferstudie zu dem schon genannten Normenhandbuch von Heaton et al. (2004) 28) ist, das die älteren Daten einbezieht. Dieses Handbuch ist das zweite wichtige Referenzwerk für die vorliegenden Normen, insbesondere, weil die Linearisierung der TMT-Rohwerte mit Hilfe der dort erhobenen Daten möglich war. Das Handbuch enthält ausführliche, statistisch aufgearbeitete Daten einer Stichprobe von 1212 gesunden US-Bürgern, die fast alle zur Halstead-Reitan-Batterie gehörenden Verfahren und weitere Intelligenztests durchgeführt hatten. Eine Teilstichprobe dieser Studie, nämlich die weißen US-Amerikaner mit einer 12-jährigen Ausbildungsdauer, wurde als weitere Stichprobe in die hier vorliegende Normen-Metaanalyse einbezogen.
Drei weitere Stichproben, die nicht bei Mitrushina et al. (1999) gelistet sind, wurden in die Metaanalyse eingeschlossen:
- In einer kleineren Normuntersuchung 29) wurden 101 gesunde Probanden im Alter zwischen 18 und 85 Jahren mit dem TMT und anderen neuropsychologischen Verfahren untersucht. Trotz der relativ geringen Stichprobengröße zeichnete sich diese Untersuchung dadurch aus, dass Alter, Ausbildung und Geschlecht der Probanden weitgehend dem Bevölkerungszensus entsprachen.
- Die Memory Clinic Basel (http://www.memoryclinic.ch) hat 2005 zusätzlich zu den Normdaten der CERAD-Batterie auch Normen für die Trail Making Tests auf ihrer Webseite präsentiert, die im Rahmen einer multizentrischen Untersuchung bei 604 gesunden Probanden im Alter zwischen 50 und 88 Jahren gewonnen wurden. Die Normdaten sind als Download für Fachpersonen (nach einer Anmeldung) erhältlich. Sie stehen für die drei Altersbereiche 50-69, 70-79 und 80-92 (und zusätzlich – hier nicht benutzt – nach Geschlecht und Bildung aufgeteilt) zur Verfügung. Die Aufteilung dieser Normdaten auf die hier verwendete feinere Alterseinteilung in Fünf-Jahres-Intervallen wurde auf Grund der ebenfalls angegebenen Statistiken der Altersverteilung (Mittelwert, Standardabweichung) geschätzt. (Das ist etwas genauer als die Gleichverteilung der Fälle auf alle beteiligten Altersklassen.)
- Eine weitere relativ umfangreiche Publikation von Normen hat Tombaugh 30) publiziert. Aus mehreren experimentellen Studien mit gesunden Probanden wurden Normdaten für die Trail Making Tests von 911 Personen im Altersbereich zwischen 18 und 89 Jahren nach Altersgruppen und Bildungsniveau gegliedert zusammengestellt. Für die vorliegende Metaanalyse wurde die jüngste Gruppe (18-24 Jahre) nicht mit aufgenommen, da sie ausschließlich aus Studenten bestand. Im restlichen Altersbereich waren vor allem die älteren Jahrgänge zwischen 55 und 84 vergleichsweise gut besetzt. Insgesamt wurden Daten von 752 Personen einbezogen.
Insgesamt wurden in die Normierung von Teil A 3976 Personen, in die von Teil B 3972 Personen einbezogen. Tabelle 1 gibt einige Details der Studien. Man sieht, dass die Gesamtstichprobe eine relativ hohe Schulbildung aufweist, zumal gemessen am Alter der Studien.
Tabelle 1: Übersicht über die metaanalytisch verrechneten Normierungsstudien
Erstautor | Jahr | Altersbereich | N | Ausbildung | IQ | % m. | Land |
---|---|---|---|---|---|---|---|
Davies31) | 1968 | 20-79 | 540 | k.A. | k.A. | 56 | England |
Wiens32) | 1977 | 21-28 | 48 | 14 | 117 | 100 | USA |
Bak33) | 1980 | 50-86 | 30 | 14+-3 | k.A. | 37 | USA |
Kennedy34) | 1981 | 20-69 | 150 | 12 | 125 | k.A. | Kanada |
Fromm-Auch35) | 1983 | 15-64 | 193 | 14,8+-3 | 119+-9 | 58 | Kanada |
Bornstein36) | 1985 | 18-69 | 360 | 12,3+-3 | k.A. | 49 | Kanada |
Ernst37) | 1987 | 65-75 | 110 | 10,3 | k.A. | 46 | Australien |
Stuss38) | 1987 | 16-69 | 60 | 14,3+-3 | k.A. | 55 | Kanada |
Yeudall39) | 1987 | 15-40 | 225 | 14,6+-3 | 112+-10 | 56 | Kanada |
Bornstein40) | 1988 | 55-70 | 134 | 11,5 | k.A. | 37 | Kanada |
Stuss41) | 1988 | 16-69 | 90 | 14+-2 | k.A. | k.A. | Kanada |
van Gorp42) | 1990 | 57-85 | 156 | 14,4+-3 | 117+-13 | 39 | USA |
Krey43) | 1993 | 18-85 | 102 | 13 | 105 | 38 | Deutschland |
Ivnik44) | 1996 | 56-94 | 359 | k.A. | 106+-14 | 47 | USA |
Tombaugh45) | 2004 | 25-89 | 752 von 911 | 13+-3 | k.A. | 45 | Kanada |
Heaton46) | 2004 | 20-84 | 320 von 1212 | 12 | k.A. | 66 | USA |
Mem Cli Bas47) | 2005 | 50-88 | 604 (A) 600 (B) | 12+-3 | k.A. | 55 | CH, D |
Eson48) | n.a. | 60-80 | 63 | k.A. | k.A. | k.A. | k.A. |
Metaanalytische Zusammenfassung der Normdaten
siehe ausführliche Testdokumentation
Leistungs- und Altersnormen im Überblick
siehe ausführliche Testdokumentation
Andere Versionen
Seit 1996 existiert mit dem Color Trails Test (CTT)49) eine veränderte Version der Trail-Making Tests. Sie wurde konstruiert mit dem Ziel, eine weltweit verwendbare Version des TMT zu schaffen. Dabei sollten vor allem die lateinischen Buchstaben im TMT B durch ein universelleres Konzept ersetzt werden. Teil 1 des CTT entspricht im Wesentlichen dem Teil A des TMT: Die Zahlen von 1 bis 25 sind möglichst schnell und richtig miteinander zu verbinden, auch wenn sie beim CTT1 in unterschiedlichen Farben gedruckt sind. Beim Teil 2 des CTT sind die Zahlen von 1 bis 21 doppelt auf dem Papierbogen vorhanden, einmal mit gelber und einmal mit pinker Farbe hinterlegt. Die Aufgabe besteht darin, bei der gelben 1 zu starten und eine Linie zu ziehen zur pinken 2, gelben 3, pinken 4 usw. Dabei müssen also die jeweils nicht passenden Zahlen ignoriert werden. Allerdings unterscheidet sich diese Version vom TMT B doch erheblich, weil statt der 13 Buchstaben in der richtigen Reihenfolge hier nur zwei Farben in alternierende Reihenfolge beachtet werden müssen. Die Anforderungen an das Arbeitsgedächtnis sind dementsprechend geringer. In einer Untersuchung an einer kleinen Stichprobe 50) fand sich eine sehr hohe Korrelation zwischen CTT1 und dem TMT A (r=.91) und eine deutlich geringere zwischen CTT2 und TMT B (r=.72).
Literatur