dokumentation:raven_advanced_progressive_matrices

Dies ist eine alte Version des Dokuments!


Raven Advanced Progressive Matrices

Abkürzung: APM

Die Advanced Progressive Matrices (APM) von John C. Raven sind ein anpruchsvolleres Alternativverfahren zu den Standard Progressive Matrices (SPM). Ausgangsbasis für ihre Entwicklung war die geringe Differenzierungskraft der SPM im oberen Quartil der Testwerteverteilung, vor allem bei überdurchschnittlich begabten Jugendlichen und Erwachsenen. Die erste Fassung der APM stammt aus dem Jahr 1943 und wurde zur Personalauslese im militärischen Bereich entwickelt. Zwischen 1947 und 1962 wurde der Test mehrfach umgearbeitet und analysiert. Seit 1962 liegt er in der heute üblichen Version vor1).

Die APM werden sowohl bei Kindern als auch bei Erwachsenen eingesetzt. Im Rahmen von TDB2Online wird nur die Anwendung bei Erwachsenen behandelt.

Die Testbeschreibung der Standard Progressive Matrices ist etwas ausführlicher gehalten als die vorliegende der APM, dort ist auch ein Beispiel für die Art der Aufgaben zu finden.

Die APM bestehen aus zwei Teilen (Set I und Set II), deren Aufgaben in zwei separaten Testheften veröffentlicht sind. Zu beiden gibt es einen separaten Antwortbogen. Teil I besteht aus 12 eher leichten Aufgaben, die als Lern- und Aufwärmmaterial für den Teil II verwendet werden. Wie bei den SPM bestehen die Aufgaben aus unvollständigen geometrischen Figuren oder Mustern, die aus jeweils acht Antwortalternativen (multiple choice) ergänzt werden sollen. Die 36 Aufgaben von Teil II sind in ihrer Darbietung und Grundstruktur mit dem ersten Teil vergleichbar, jedoch wesentlich komplexer. Normalerweise wird nur die Summe der richtigen Lösungen im Teil II als Testwert verwendet.

Die derzeit aktuelle Versione des Originalverfahrens ist 19982) erschienen. Nach Verlagswechsel und Fusion wird es in unveränderter Form zur Zeit von Pearson Assessment in San Antonio, TX, produziert und vertrieben.

Eine erste deutsche Version von Kratzmeier und Horn erschien 1980 bei Beltz Test3). Sie enthielt deutsche Normen lediglich für 15- und 16-Jährige, wobei abweichend von der normalen Auszählung beide Testteile Einzug in den Summenwert fanden.

Im Rahmen der Gesamtausgabe der Raven-Tests durch den Swets Test Service (später Harcourt Test Service, jetzt Pearson Assessment & Information GmbH, alle in Frankfurt/Main) erschienen 1998 die APM in der Bearbeitung von Bulheller und Häcker4). Das ist die derzeit aktuelle deutsche Version. Sie enthält deutsche Normen von 1997, im Wesentlichen allerdings für Schulkinder ab 13 Jahre und für Studierende. Die Altersklassen über 30 sind vergleichsweise dünn, die über 40 sehr dünn besetzt. Die Stichprobe zielt nicht auf Repräsentativität ab und ist insofern für allgemeine Normierungszwecke bei Erwachsenen nicht verwendbar.

Aktuell wird die zuerst bei Swets Test Service erschienene deutsche Version von Pearson Assessment & Information in Frankfurt verlegt. Sie sind direkt dort oder über die Testzentralen in Deutschland oder der Schweiz zu beziehen. Zur Durchführung der APM braucht man auf jeden Fall die beiden Testhefte (Set I und Set II) und die zugehörigen Antwortbögen. Eine zumindest kursorische Kenntnisnahme des Inhalts des deutschen APM-Manuals5) ist notwendig, auch wenn es vielerlei Theoretisches und praktisch keine direkt verwendbaren Normen für Erwachsene enthält. Zusätzlich empfehlen die Testautoren die Lektüre des Grundlagenmanuals zu den Matrizentests von Raven6).

J. C. Ravens Rechte an seinem Test wurden von Verlag zu Verlag weitergereicht und liegen heute international bei Pearson Assessment, in Deutschland vertreten durch die Pearson Assessment & Information GmbH in Frankfurt.

Die aktuellen Handbücher empfehlen die Durchführung der APM als zeitlich unbegrenzten Power-Test. Dabei dient Teil I dazu, das Aufgabenprinzip des Tests ausführlich (und nonverbal!) zu erklären. Der Test kann sowohl als Individual- wie auch als Gruppentest durchgeführt werden (wobei die Gruppengröße, speziell bei klinischen Anwendungen, auf wenige Personen begrenzt bleiben sollte). Die Testdurchführung dauert unter 10 Minuten für Teil I und etwa 40 Minuten für Teil II, kann aber im Einzelfall auch viel länger dauern.

Im Gegensatz zu den SPM, bei denen wegen der inhomogenen Schwierigkeitsanordnung der Aufgaben immer von einer zeitlimitierten Vorgabe abgeraten wird, lassen sich die APM prinzipiell auch als zeitbegrenzter Test vorgeben. Allerdings beziehen sich die weiter unten dargestellten Normen auf die unlimitierte Vorgabe.

Testrohwert ist die Anzahl richtiger Lösungen in Teil II der APM. Der Wertebereich geht von 0 bis 36.

In der Literatur gibt es keine genauen APM-Verteilungsdaten von Zufallsstichproben Erwachsener. Allerdings kann man Verteilungsformen rekonstruieren. Die Daten der APM-Normierung in Großbritannien von 1992 sind im APM-Handbuch als relativ feine Perzentilwerte tabelliert. Mit diesen Informationen lässt sich die Verteilungsform der Rohwerte darstellen, Abbildung 1 zeigt sie getrennt für drei Altersgruppen.

Abbildung 1: Rückgerechnete Verteilungsform der APM-Rohwerte in der britischen Normierung von 1992 für drei ausgewählte Altersgruppen

Bei allen drei Altersgruppen sind die Rohwertverteilungen zwar symmetrisch, aber an beiden Rändern gestutzt. Für die Praxis heißt das, dass der Test nur im Mittelbereich relativ fein misst, nicht an den Seiten.

Von Beginn an wurden Normen für die Raven-Tests als Prozentränge angegeben. Dies trägt der Tatsache Rechnung, dass die Beziehung zwischen Rohwerten und IQ-Werten nicht linear ist. Auf Grund der vorliegenden Prozentrangnormen ist die Umrechnung in lineare Leistungswerte über die Beziehung zwischen Prozenträngen und Einheiten der Normalverteilung formal einfach.

In den beiden deutschen APM-Manualen wurden keine zufriedenstellenden deutschen Normen für Erwachsene mitgeteilt (Details siehe unten). Deshalb wurden für die Ergebnisausgabe von TDB2Online wie schon bei den SPM alle internationalen Normerhebungen zusammengestellt, die zumindest einen gewissen Anspruch an die Repräsentativität der Stichprobenziehung erfüllen. Diese Arbeit wurde durch das APM-Manual7) erleichtert, in dem die relevanten Erhebungen bis etwa zum Jahr 1997 in Tabellenform abgedruckt sind.

In der ersten deutschen Ausgabe der APM von 19808) wurden ausschließlich Kinder untersucht. In der Version von 19989) sind zwar Normdaten enthalten, allerdings ohne jeden Anspruch auf Repräsentativität. Von den 1142 untersuchten Personen waren 466 zwischen 13 und 18 Jahren alt. 442 lagen im Altersbereich zwischen 20 und 29 Jahren. Sie bestanden allerdings fast ausschließlich aus Personen mit Fachoberschul- oder Abiturabschluss (357) oder Fachhochschul- oder Hochschulabschluss (38). Nur 21 hatten einen Hauptschulabschluss. In den oberen Altersbereichen dünnt die Stichprobe aus. Im Altersbereich zwischen 40 und 49 Jahren lagen 51 Personen, zwischen 50 und 75 noch 27 Personen. Über die angezielte Ursprungspopulation wird nichts berichtet. Für Normierungszwecke ist diese Untersuchung nicht brauchbar, ihre Ergebnisse werden allerdings deskriptiv weiter unten berichtet.

Man muss also konstatieren, dass es leider keine deutschen SPM-Normen für Erwachsene gibt. Wir werden uns, wie bei vielen anderen neuropsychologischen Tests, fürs erste mit einer metaanalytischen Zusammenfassung von Normen aus anderen Ländern begnügen müssen.

Die ersten frühen Normuntersuchungen mit der APM waren eher unsystematisch und sind aus heutiger Sicht veraltet. Eine repräsentative Stichprobenerhebung (mit SPM und APM) fand erst 1992 in der Stadt Dumfries in Schottland statt. Sie ist auch im deutschen APM-Handbuch10) ausführlich dargestellt. Dumfries zählte zu der Zeit etwa 25.000 Einwohner. Im Hinblick auf die demographischen Eigenschaften entsprach Dumfries dem Gesamtbild von Großbritanien. Einer Zufallsstichprobe (jede 29. im Wahlregister eingetragene Person) wurde schriftlich der Besuch eines Forschungsmitarbeiters angekündigt. Beim Hausbesuch wurde dann das Ziel der Studie erklärt und Teil I der APM durchgeführt. Wenn die Testperson eine Mindestpunktzahl erreichte (der Cut-off wurde zunächst auf 8 Punkte gesetzt und später auf 10 Punkte erhöht), wurde Teil II der APM durchgeführt. Wenn die Testperson die Mindespunktzahl nicht erreichen konnte, wurden die SPM durchgeführt. 80% der kontaktierten Personen erklärten sich bereit, an der Studie teilzunehmen. Insgesamt vervollständigten 645 Personen die APM I und entweder die SPM oder die APM II. Für die Standardisierung wurde eine Umrechnung von SPM-Werten in APM-Werte (und umgekehrt) verwendet, die zuvor von Andrich & Dawes erhoben wurde, Details zur Prozedur fehlen im Manual, die Umrechnungstabelle ist abgedruckt. Die Normen liegen in Form von Perzentilwerten für Rohwerte zwischen 4 und 35 vor und sind damit bei den jüngeren Probanden ziemlich vollständig. Was fehlt, sind die niedrigen Rohwerte der älteren Probanden. Ein Rohwert von 4 entspricht bei der Gruppe über 67 Jahren schon einem Prozentrang von 10.

Ein Jahr später wurden die APM (ebenfalls zusammen mit den SPM) an einer amerikanischen Stichprobe in Des Moines/Iowa standardisiert. Auch diese Untersuchung ist im deutschen APM-Handbuch11) referiert. Analog zu Dumfries entsprachen die demographischen Eigenschaften der Einwohner von Des Moines ungefähr dem Gesamtbild der US-Population. Der Aufbau der Untersuchung entsprach im Wesentlichen den Bedingungen der Studie in Dumfries. Allerdings erwies sich die Zusammenstellung einer Zufallsstichprobe in den USA im Vergleich zu Großbritannien schwieriger, da in den USA keine Namenslisten und Adressenlisten vorlagen. Aus diesem Grund wurden Daten aus einer Volkszählung verwendet, um die unterschiedlichen Wohngebiete ausfindig zu machen, über die man ein repräsentatives Abbild der zu untersuchenden Population hinsichtlich Alter, ethnischer Zugehörigkeit und sozioökonomischem Staus gewinnen könnte. Aus 30 solcher Wohngebiete wurde eine für die Gesamtbevölkerung von Des Moines repräsentative Gruppe von 1000 Testpersonen ausgewählt. Praktisch konnten mit diesem Verfahren dann 972 Adressen ermittelt werden. Die Antwortquote der kontaktierten Personen betrug 70%. Die Untersuchung ergab insgesamt 625 verwendbare Datensätze. 8% der Testpersonen waren schwarz, 87% weiß und die restlichen asiatischer Herkunft oder Hispanoamerikaner. Die Testdurchführung und Analyse entsprach der von Dumfries. Die Normen wurden für jede Altersgruppe durch die Anpassung der Kurven an geglättete Gesamtnormen erstellt.

Die amerikanischen Normen von 1993 sind etwas weniger detailliert abgedruckt, dort beginnt die Tabelle für jede Altersgruppe erst bei einem Prozentrang von 3, weshalb die unteren Rohwerte zensoriert sind.

In den Manualen zum SPM und APM, auch in den deutschen Versionen, sind jeweils Tabellen enthalten, mit deren Hilfe man den einen Rohwert in den anderen umrechnen kann. Die Tabellen gehen auf Arbeiten von Andrich und Dawes zurück, die nur im Research Manual12) und auch da nur sehr knapp beschrieben sind. Offensichtlich handelt es sich um eine Äquiperzentilkopplung (Equipercentile Equating, siehe z. B. Kolen & Brennan13) ), die über eine relativ breite Stichprobe durchgeführt wurde und den nutzbaren Wertevorrat beider Tests umfasst.

In der Literatur gibt es eine weitere Studie zur Äquiperzentilkopplung von APM und SPM14). Diese Studie wurde mit 261 Undergraduate College-Studenten durchgeführt. Auch hier wurden entsprechende Umrechnungstabellen bereitgestellt.

In Abbildung 2 sind die Daten beider Studien zusammen graphisch dargestellt.

Abbildung 2: Äquiperzentilkopplung von SPM und APM in zwei Studien

Man sieht sofort, dass die Kopplungskurve aus dem Raven-Handbuch einen breiteren Wertebereich umfasst und gleichzeitig entweder mehr Personen einbezog oder mehr geglättet ist als die Kurve nach den Daten von Jensen et al. Durch die Beschränkung auf College-Studenten fehlen in der letztgenannten Untersuchung die intellektuell weniger leistungsfähigen Personen und die Kurve bricht bei einem SPM-Wert um 40 herum ab. Unklar ist, warum die Kurven im oberen Bereich relativ weit auseinander liegen. Jensen's Studenten waren bei vergleichbaren APM-Scores in den SPM um 2 oder 3 Rohwerte schlechter. Vielleicht hat es mit der Zeitbeschränkung in dieser Studie zu tun: Beide Tests mussten in 40 Minuten durchgeführt werden, was für die 60 Aufgaben der SPM vergleichsweise weniger Zeit lässt als für die 36 Aufgaben der APM, auch wenn letztere im Durchschnitt schwerer sind.

Für praktische Zwecke des Equatings scheinen jedenfalls die Daten aus dem Raven-Manual umfassender und verlässlicher zu sein als die von Jensen und Mitarbeitern.

Von den vorliegenden Normuntersuchungen hatten nur zwei überhaupt den Anspruch, repräsentative Stichproben einer Erwachsenenbevölkerung zu ziehen. Ravens Untersuchungen in Schottland und Iowa gehen davon aus, dass die gewählten Regionen repräsentativ für UK bzw. USA sind. In beiden Untersuchungen konnten die Probanden ohne Zeitbegrenzung arbeiten, dies entspricht den Empfehlungen im Testmanual.

Bei der Beurteilung dieser beiden Normuntersuchungen für die SPM (es handelt sich ja um die gleichen Untersuchungen!) wurden Bedenken geltend gemacht, die mit der Abweichung vom üblichen Prozedere zu tun haben. Es gab Hinweise dafür, dass die Normen, zumindest in der oberen Hälfte der Verteilung, eher schwer ausgefallen sind. Wenn man diese Argumente auch für die APM geltend macht, scheint es nicht sinnvoll zu sein, nur diese beiden Studien zur Normbasis zu machen.

Die vorliegenden Daten zur Äquiperzentilkopplung von SPM und APM konnten auch benutzt werden, um die belgischen Normen zur SPM in APM-Werte umzuwandeln. Dieses Vorgehen bot den Vorteil, dass beide Verfahren auf der gleichen Normbasis beruhen.

Daraus ergaben sich dann insgesamt vier Datensätze, nämlich die UK- und US-Studie, die belgische Studie zu den SPM und die deutsche Normierung der APM. Abbildung 3 zeigt die Altersverläufe der mittleren APM-Rohwerte für diese vier Studien.

Abbildung 3: Mittlere APM-Rohwerte im Altersverlauf für vier Studien

Erwartungsgemäß liegen die britischen und die US-amerikanischen Daten ähnlich eng beieinander wie deren SPM-Rohwerte. Die belgischen Normen liegen - ebenfalls ähnlich wie bei den SPM - um rund 5 Rohwerte niedriger. Die Altersverläufe sind ähnlich. Die deutsche Stichprobe liegt noch drei bis vier Rohwertpunkte über den angloamerikanischen Werten. Wegen der überwiegenden Abitur- oder sogar Hochschulbildung dieser Stichprobe ist das plausibel.

In Analogie zum Vorgehen bei den SPM wurden für die tdb2-Normbasis nur die US-amerikanische und (über die Umrechnung von SPM zu APM) die belgische Untersuchung verwendet. Beide zusammen bestehen aus 1558 Personen im Altersbereich zwischen 20 und 84 Jahren.

Die belgischen Normen lagen in 10-Jahres-Intervallen (z. B. 50-59) vor, die US-amerikanischen in 5-Jahres-Intervallen, aber versetzt dazu (z. B. 48-52, 53-57, 58-62). Da die US-Normen ohnehin über die Altersklassen geglättet sind, wurden für eine Mittelung nur die Altersgruppen berücksichtigt, die genau in eine (belgische) 10-Jahres-Klasse fielen (also 50-59 der belgischen Normen mit 53-57 der US-amerikanischen zusammengebracht). Die Perzentile wurden in IQ-normierte Standardwerte (100;15) umgerechnet und auf dieser Ebene gemittelt. Auf eine Darstellung der ältesten Gruppe wurde verzichtet, weil bei niedrigen SPM-Werten die Umrechnung in APM-Werte nicht mehr sehr treffsicher ist. Dies stellt keine wirkliche Einschränkung dar: Nur sehr selten dürften bei über 70-Jährigen die APM das Verfahren der Wahl sein.

Bei in dieser Weise flächentransformierten Verteilungen ergeben sich an den Rändern der Verteilung unschöne Effekte, weil empirisch gewonnene Prozentrangverteilungen bei üblichen Stichprobengrößen am Ende immer zensoriert sind. Dieses Problem wurde schon öfters – vor allem in Verbindung mit der Diagnostik von Minderbegabungen (Lit) – diskutiert. Die Beziehungen zwischen Rohwerten und Leistungswerten wurden deshalb in den unteren Bereichen manuell korrigiert, wobei das pragmatische Lösungsprinzip darin bestand, die Differenz zwischen den IQ-Werten absolut leistungsgleicher aber unterschiedlich alter Probanden im Sinne einer Intervallskala gleich zu halten.

Abbildung 4 zeigt - wie Abbildung 3 - die mittleren APM-Rohwerte für die vier Studien in ihrem Altersverlauf. Zusätzlich wurden die Mediane der metaanalytischen Integration (dunkelblau und fett) sowie deren 16. und 84. Perzentil (hellblau und fett) darübergesetzt. Nur für diesen Zweck wurden sie in 5-Jahres-Gruppen interpoliert.

Abbildung 4: Mittlere APM-Rohwerte im Altersverlauf für die besprochenen APM-Untersuchungen und für die metaanalytische Zusammenfassung

Wie schon bei den SPM liegt auch hier die mittlere Leistung der deutschen Stichprobe mit überwiegender Gymnasial- oder Hochschulbildung etwa im Bereich von IQ 115 liegt (bei PR84 der metaanalytischen Integration, also eine Standardabweichung über deren Mittelwert), ein Wert, der nicht unplausibel ist.

Abbildung 5 zeigt die Leistungs- und Altersnormierung der APM von Raven im graphischen Überblick. Auf dieser Abbildung markieren die senkrechten Striche die Leistungswerte von 40 bis 145, auf der schwarzen waagerechten Linie sind die Rohwerte (gelöste Aufgaben) eingetragen. Die abwechselnd rot und blau eingezeichneten Linien enthalten die Normgrenzen für alle Altersgruppen in der Übersicht. Die fünf Markierungen auf jeder Linie stehen für die Prozentränge 2.5, 16, 50, 84 und 97.5. Jeweils eine solche Linie, nämlich die, die der Altersgruppe des Probanden entspricht, wird (in anderer Form) im TDB2Online-Profilblatt eingezeichnet, um bei der individuellen Interpretation der Testergebnisse zu helfen.


Abbildung 5: Leistungswerte der APM mit Rohwerten und Altersnormgrenzen (siehe Text)


Aus den vorliegenden Daten lassen sich recht klare Empfehlungen ableiten, wann welche Version der Progressiven Matrizen am besten anzuwenden ist. Abbildung 6 zeigt die Rohwerte von SPM, APM und CPM auf der Leistungswertskala. Dabei liegen der Umrechnung von Roh- in Leistungswerte bei SPM und APM die metaanalytisch gewonnenen Normen in TDB2Online zugrunde. Bei den CPM wurden die CPM-Rohwerte zunächst in SPM-Rohwerte umgerechnet, und zwar nach einer in den meisten Raven-Manualen angegebenen Umrechnungstabelle von Andrich und Dawes (zum Beispiel in Tabelle 11, Seite 62, des deutschen SPM-Manuals15)). Die so gewonnenen SPM-Rohwerte wurden dann wie normale SPM-Rohwerte in Leistungswerte verwandelt.

Abbildung 6: Rohwertpunkte von SPM, APM und CPM auf der Leistungswertskala

Jeder Punkt in den Kurven entspricht einer Rohpunktsumme. Betrachtet man zunächst nur den maximalen Wertebereich, der bei APM und CPM von 0 bis 36, bei SPM von 0 bis 60 geht, dann lassen sich mit den SPM Leistungswerte von 57 bis 131 messen, mit den APM solche von 64 bis 135 und mit den CPM solche von 57 bis 118. Allerdings muss man auch die Differenzierungsfähigkeit der Tests im Auge behalten. Je enger der horizontale Abstand der Punkte an einer Stelle ist, desto feiner kann der Test an dieser Stelle messen (einfach durch die Rohwertdichte bestimmt).

Vergleicht man in dieser Hinsicht SPM und APM, dann lässt sich ein Vorteil für die APM etwa ab einem LW von 105 erkennen, mit zunehmender Tendenz bei den hohen Leistungswerten. Zwischen 90 und 105 gibt es keinen Unterschied in der Differenzierungsfähigkeit, unter 90 messen die SPM feiner. Im klinischen Umfeld wäre eine Einsatz der APM also dann zu empfehlen, wenn man verlässliche Vorinformationen darüber hat, dass jemand mindestens durchschnittliche Leistungen (absolut gesehen, also Leistungswerte) in solchen Aufgaben erreichen wird. In den üblichen klinischen Untersuchungssituationen empfehlen sich daher wohl meistens eher die Standardmatrizen, zumal eine genauere Differenzierung im oberen Leistungsbereich eher selten zu den Fragestellungen gehören dürfte.

Vergleicht man die SPM mit den CPM, dann muss man feststellen, dass es bei Erwachsenen eigentlich an keiner Stelle eine wirklich bessere Differenzierungsfähigkeit für die CPM gibt, allerdings eine deutlich schlechtere oberhalb von Leistungswerten ab etwa 65. Die CPM sind deshalb bei Erwachsenen nur sehr selten angebracht.


1) , 2)
Raven, J., Raven, J. C. & Court, J. H. (1998). Advanced Progressive Matrices. 1998 Edition. Oxford: Oxford Psychologists Press.
3) , 8)
Kratzmeier, H. unter Mitarbeit von R. Horn (1980). Raven-Matrizen-Test, Advanced Progressive Matrices. Weinheim: Beltz Test.
4) , 5) , 7) , 9) , 10) , 11) , 15)
Bulheller, S. & Häcker, H. (Hrsg.)(1998). Manual für Raven's Progressive Matrices und Vocabulary Scales von J. Raven, J. C. Raven & J. H. Court, Teil 4: Advanced Progressive Matrices. Frankfurt: Swets Test Services.
6)
Häcker, H. & Bulheller, S. (Hrsg.) (1998) Manual der Progressiven Matrizen- und Wortschatztests von John Raven. Teil 1: Grundlagen. Frankfurt: Swets Test Services
12)
J. Raven & J. H. Court (Eds.) (1989) Research supplement no. 4 to the manual for Raven’s Progressive Matrices and Vocabulary Scales. Oxford, England: Oxford Psychologists Press
13)
Kolen, M.J. & Brennan, R. L. (2004) Test equating, scaling, and linking. Methods and practices. 2nd ed. New York: Springer
14)
Jensen, A. R., Saccuzzo, D. P. & Larson, G. E. (1988) Equating the standard and advanced forms of the Raven Progressive Matrices. Educational and Psychological Measurement, 48, 1091-1095
Melden Sie sich an, um einen Kommentar zu erstellen.
  • dokumentation/raven_advanced_progressive_matrices.1626528110.txt.gz
  • Zuletzt geändert: 2021/07/17 13:21
  • von res