Interrater-Reliabilität visueller Schlafstadienklassifikation nach Rechtschaffen- und Kales-Regeln: Review und methodische Erwägungen

Abstract
A literature review has been done on interrater reliability of sleep stage scoring according to the Rechtschaffen and Kales rules both between two and more than two raters. These results have been compared with the interrater reliability between visual scorings and semiautomatic as well as fully automated scorings. For single night scorings the interrater reliability varies between 61 % and 96 % while at the group level the agreement between visual scorings varies between 85 % and 95 % with an average of approximately 89 %. The interrater reliability between visual and automatic scoring at a group level varies between 70 % and 95 % with an average of about 83 %. The interrater reliability of sleep stage scorings varies with the number and the experience of the scorers, the choice of the 100 % reference (if two or more human experts are involved), the number of stages that are distinguished, the sample (healthy subjects vs. patients with sleep disturbances), the age of the subjects and the choice of the statistical method to estimate the interrater reliability. Based on the review of interrater reliability data methodological considerations on the measurement of interrater reliability are presented and discussed. For variables measured on different scales (quantitative sleep parameters measured on a metric scale vs. sleep stages as qualitative variables measured on a nominal scale) different approaches to estimate interrater reliability are used. For sleep parameters measured on a metric scale the advantages and disadvantages of correlation statistics on one hand and approaches to test group differences on the other are discussed. Among the approaches of correlation analysis, intra-class correlation should be the method of choice and with regard to approaches that test group differences the paired nature of the data has to be considered. Only a combination of both statistical approaches yields a comprehensive impression on the interrater reliability of the scoring results. For sleep stages, which represent nominal scaled qualitative data, agreement is commonly expressed as a percentage. Although this is a simple measure which is readily understood, it is not an adequate index of agreement since it makes no allowance for agreement between scorers that might be attributed just to chance. This disadvantage is overcome by the kappa statistics (by Cohen for two scorers and by Fleiss for more than two scorers), which expresses the difference between observed and chance agreement in relation to maximum possible excess of observed over chance agreement. Kappa usually varies between 0 (agreement is equal to chance) and 1 (complete agreement between scorers). Values < 0, which are rarely observed, indicate that there is a systematic deviation in agreement. Anhand eines Reviews und eigener Untersuchungen zur Interrater-Reliabilität von Schlafstadienauswertungen werden sowohl die Übereinstimmung zwischen zwei und mehr als zwei Experten, die Somnopolygraphien nach den Regeln von Rechtschaffen und Kales ausgewertet haben, als auch die Übereinstimmung zwischen visueller Auswertung und semiautomatischer bzw. automatischer Auswertung verglichen. Die Übereinstimmung zwischen den visuellen Auswertungen von zwei Experten für einzelne Aufzeichnungen variiert von 61 bis 96 %, bei gruppenstatistischer Betrachtung ist die Variationsbreite 85 bis 95 %. Werden visuelle und automatische Auswertung verglichen, so variiert die gruppenstatistische Übereinstimmung zwischen 70 und 95 %. Die Übereinstimmung zwischen zwei Experten ist mit durchschnittlich ca. 89 % höher als die zwischen visueller und automatischer Auswertung, die durchschnittlich ca. 83 % beträgt. Das Ausmaß der Übereinstimmung variiert mit der Zahl und der Erfahrung der Auswerter, der Wahl der 100 %-Referenz (bei zwei oder mehr Experten), der Anzahl der unterschiedenen Stadien, der Stichprobe (Gesunde vs. schlafgestörte Patienten), dem Alter der Probanden/Patienten und der Wahl der statistischen Methode zur Bestimmung der Interrater-Reliabilität. Anhand der in der Literatur publizierten Daten werden grundsätzliche methodische Erwägungen zur Analyse der Interrater-Reliabilität vorgestellt. Für die unterschiedlichen Skalenniveaus der Zielvariablen (quantitative Schlafparameter mit metrischen Skalenniveau vs. Schlafstadien als qualitative Merkmale mit Nominalskalenniveau) werden verschiedene Ansätze zur Bestimmung der Interrater-Reliabilität beschrieben: Für quantitative Schlafparameter werden die Vor- und Nachteile verschiedener korrelationsstatistischer Ansätze einerseits und Verfahren zur Überprüfung von Gruppenunterschieden andererseits diskutiert. Für die Schlafstadien werden die mit der Bestimmung einer prozentualen Übereinstimmung verbundenen Probleme aufgezeigt. Als Alternative, die zufallsbedingte Übereinstimmungen berücksichtigt, werden die Kappa-Koeffizienten nach Cohen für zwei Auswerter und nach Fleiss für mehr als zwei Auswerter vorgestellt.