Tutorial · 19 min read
Interrater-Reliabilität in der Verhaltenskodierung: Cohens Kappa in der Praxis
Was Interrater-Reliabilität in der Beobachtungsforschung bedeutet, wie Cohens Kappa berechnet und interpretiert wird, warum ein einzelner Kappa-Wert schwer zu lesen ist und wie man ihn berichtet — mit Beispielen und den zentralen Kritikpunkten der Methodenliteratur.
Interrater-Reliabilität ist der Nachweis, dass ein Kodierschema das Verhalten misst und nicht die kodierende Person. In der Beobachtungsforschung hängt jede Schlussfolgerung davon ab, wie Video und Audio kodiert werden — Gutachterinnen und Leser müssen also wissen, dass zwei geschulte Personen, unabhängig voneinander, denselben Momenten dieselben Codes zuweisen würden. Dieser Beitrag erklärt, was Interrater-Reliabilität ist, wie Cohens Kappa sie quantifiziert, wie man sie ehrlich liest, wo sie in die Irre führt und wie man sie berichtet — auf Basis der Methodenliteratur statt nach Faustregeln.
Was ist Interrater-Reliabilität?
Interrater-Reliabilität ist das Ausmaß, in dem unabhängige Kodierende denselben Verhaltensweisen dieselben Codes zuweisen. Sie unterscheidet ein reproduzierbares Kodierschema von der idiosynkratischen Interpretation einer einzelnen Person. Das Messinstrument der Beobachtungsforschung ist ein geschulter Mensch, der ein Kodierschema anwendet — und wie bei jedem Instrument muss dessen Genauigkeit feststehen, bevor die Daten Gewicht tragen (Bakeman, Deckner & Quera, 2005). Kommt eine zweite, für die erste Kodierung blinde Person zu denselben Entscheidungen, leistet das Schema die Arbeit; wenn nicht, spiegeln die Ergebnisse ein Urteil wider statt des Phänomens.
Interrater-Reliabilität ist keine Formsache. Sie gehört zu den ersten Punkten, die Gutachterinnen in jeder Beobachtungsstudie prüfen — denn jede nachgelagerte Statistik erbt die Reliabilität der Kodierung, auf der sie aufbaut.
Was ist Cohens Kappa?
Cohens Kappa (κ) ist ein Maß für die Übereinstimmung zwischen zwei Kodierenden, das die zufällig zu erwartende Übereinstimmung herausrechnet (Cohen, 1960). Es ist ein zusammenfassendes Gesamtmaß (in der Methodenliteratur „Omnibus-Statistik“ genannt) — eine einzige Zahl, die eine ganze Tabelle aus Übereinstimmungen und Abweichungen zusammenfasst. Es beantwortet eine schärfere Frage als „Wie oft waren sich die Kodierenden einig?”: „Wie stark stimmten sie über das hinaus überein, was der Zufall allein erzeugt hätte?”
Die Formel ist einfach:
κ = (pₒ − pₑ) / (1 − pₑ)
Dabei ist pₒ der beobachtete Anteil an Übereinstimmung und pₑ der zufällig zu erwartende Anteil, abhängig davon, wie häufig jeder Code verwendet wird. Kappa reicht von 1 (perfekte Übereinstimmung) über 0 (Zufallsniveau) und kann negativ werden, wenn Kodierende seltener übereinstimmen, als der Zufall erwarten ließe — was meist auf systematische Abweichung oder einen Eingabefehler hindeutet.
Warum prozentuale Übereinstimmung nicht genügt
Die reine prozentuale Übereinstimmung überschätzt die Reliabilität, weil sie den Zufall ignoriert. Ein Beispiel: Ein Verhalten tritt in 90 % der Fälle auf. Beurteilen zwei Kodierende nicht wirklich jeden Moment, sondern raten unabhängig voneinander einfach im Verhältnis dieser Häufigkeit — jede wählt zu 90 % „vorhanden” und zu 10 % „nicht vorhanden” —, dann stimmen sie schon allein durch die Häufigkeit überein: in 0,90 × 0,90 = 81 % der Fälle bei „vorhanden” plus 0,10 × 0,10 = 1 % bei „nicht vorhanden”, zusammen also rund 82 %. Diese 82 % sind reiner Zufall; niemand hat das Material tatsächlich beurteilt. Die prozentuale Übereinstimmung würde das als exzellent ausweisen, während Cohens Kappa genau diesen Zufallsanteil herausrechnet. Läge die beobachtete Übereinstimmung ebenfalls bei 82 %, wäre κ = (0,82 − 0,82) / (1 − 0,82) = 0 — korrekt als „keine Übereinstimmung über den Zufall hinaus”. Genau diese Korrektur um den Zufall ist der Grund, Kappa statt einer einfachen Übereinstimmungsquote zu verwenden.
Die Konfusionsmatrix ist der eigentliche Informationsort
Ein Kappa-Wert wird aus einer Übereinstimmungsmatrix berechnet — auch Konfusionsmatrix oder Kappa-Tabelle genannt. Die Zeilen sind die Entscheidungen der einen Person, die Spalten die der anderen, beide beschriftet mit demselben Satz sich gegenseitig ausschließender, erschöpfender Codes. Übereinstimmungen liegen auf der Diagonale; jede Zelle abseits der Diagonale ist eine konkrete Abweichung (Bakeman, Deckner & Quera, 2005). Die einzelne Kappa-Zahl verdeckt all das — dabei sitzt in der Matrix die eigentlich nützliche, handlungsleitende Information.
Zwei Muster lassen sich direkt aus der Matrix ablesen:
- Symmetrische versus asymmetrische Abweichungen. Nennt Kodierer A etwa ungefähr genauso oft „quengeln”, was B „weinen” nennt, wie umgekehrt, ist die Abweichung symmetrisch — beide sind gleichermaßen, wechselseitig verwirrt. Laufen die Verwechslungen überwiegend in eine Richtung (A kodiert „weinen”, wo B „quengeln” kodiert, aber selten umgekehrt), ist die Abweichung asymmetrisch und bedeutet, dass die Kodierenden unterschiedliche Schwellen für diesen Code anlegen. Asymmetrische Abweichungen sind die ernsteren: Sie verweisen auf ein Kalibrierungsproblem, das sich durch Nachtraining beheben lässt.
- Welche Codes Probleme machen. Weil Kappa ein solches Gesamtmaß ist, sagt es nicht, welche Unterscheidungen schwierig waren. Ein separates Kappa pro Code (eine 2 × 2-Tabelle je Code) identifiziert die problematischen, und die Zellen abseits der Diagonale zeigen genau, welche Code-Paare verwechselt werden (Bakeman, 2022).
Kurz: Berichten Sie den Kappa-Gesamtwert, aber diagnostizieren Sie mit der Matrix.
„Ist Kappa groß genug?” ist die falsche Frage
Ein bekannter Satz von Interpretationsbändern stammt von Landis und Koch (1977): unter 0 schlecht, 0,00–0,20 geringfügig, 0,21–0,40 ausreichend, 0,41–0,60 moderat, 0,61–0,80 beachtlich, 0,81–1,00 nahezu perfekt. Fleiss (1981) schlug ein ähnliches Schema vor. Diese Etiketten sind bequem, aber sie waren nie überzeugend begründet — und vor allem ignorieren sie die Umstände, die den Kappa-Wert bestimmen (Bakeman, 2022).
Das tiefere Problem: Kein einzelner Kappa-Wert ist universell akzeptabel, weil Kappa von mehr abhängt als von der Genauigkeit der Kodierenden. Bakeman und Quera (2011) nennen die Einflussgrößen: die Beobachter-Genauigkeit, die Anzahl der Codes, die Prävalenz jedes Codes, den Bias (ein Unterschied darin, wie die beiden ihre Codes verteilen) und die Unabhängigkeit der Kodierenden. Zwei davon wiegen besonders schwer:
- Die Anzahl der Codes. Hat ein Schema weniger als fünf Codes — besonders bei schiefer Prävalenz —, erzeugen gleich genaue Kodierende ein niedrigeres Kappa. Bei mehr als fünf Codes spielen Code-Anzahl und Prävalenzvariabilität kaum eine Rolle. Ein Kappa von .61 aus einem Zwei-Code-Schema ist also nicht dieselbe Leistung wie ein Kappa von .61 aus einem Acht-Code-Schema.
- Die Prävalenz. Ist ein Code sehr häufig oder sehr selten, kann Kappa überraschend niedrig sein, obwohl die Kodierenden bei nahezu jedem Ereignis übereinstimmen — das sogenannte Prävalenz-Paradoxon.
Deshalb ist ein einzelnes Kappa kaum interpretierbar. Bakeman (2022) empfiehlt, die Frage umzudrehen: nicht „Ist Kappa groß genug?”, sondern „Sind die Kodierenden genau genug?” Sein KappaAcc-Verfahren schätzt, wie genau simulierte Kodierende sein müssten, um das beobachtete Kappa zu reproduzieren — gegeben die tatsächliche Code-Anzahl und die Grundraten. In einem Rechenbeispiel entsprach ein Gesamt-Kappa von .61 (69 % rohe Übereinstimmung) bei fünf Codes etwa 82 % Beobachter-Genauigkeit — unter einem typischen Ziel von 85 %. Genauigkeit ist intuitiv verständlich, wie es ein nackter Kappa-Wert nicht ist, und macht „gut genug” zu einem bewussten, benennbaren Standard statt zu einem geliehenen Grenzwert.
Kappa-Maximum: wenn die Marginalverteilung die Obergrenze setzt
Kappa kann nur dann 1 erreichen, wenn beide Kodierenden ihre Codes identisch verteilen — also wenn die Zeilen- und Spaltensummen (die Marginalverteilungen) übereinstimmen. Weichen sie ab, sinkt der höchste Wert, den Kappa erreichen könnte, unter 1 — und je stärker die Marginalverteilungen abweichen, desto niedriger diese Obergrenze (Bakeman, Deckner & Quera, 2005). In einem Beispiel stand ein beobachtetes Kappa von .74 einem Kappa-Maximum von .87 gegenüber — die Kodierenden erreichten also 85 % des Möglichen, gegeben ihre Code-Verteilung. Ein bescheiden wirkendes Kappa von .58 erreichte in einer anderen Tabelle 87 % seines Maximums von .67.
Kappa gegen sein Maximum zu berichten, kann einen „niedrigen” Wert also fairer einordnen. Ein Allheilmittel ist es nicht: Ein niedriges Kappa-Maximum entsteht selbst durch abweichende Marginalverteilungen, was meist asymmetrische Abweichung bedeutet — ein Kalibrierungsproblem, das man untersuchen sollte, statt es wegzuerklären. In Bakemans Worten ist das Kappa-Maximum keine Panazee für niedrige Kappas.
Zwei Arten von Abweichung: Quantity und Allocation
Eine hilfreiche Sicht darauf, warum Kodierende abweichen, stammt aus der Genauigkeitsbewertung beim Kartenvergleich, wo Pontius und Millones (2011) — in einem bewusst „Death to Kappa” betitelten Beitrag — argumentieren, dass ein einzelner zufallskorrigierter Index mehr verdeckt als zeigt. Sie empfehlen, die Gesamtabweichung in zwei interpretierbare Teile zu zerlegen:
- Quantity Disagreement — Abweichung im Wie viel: Die beiden Quellen unterscheiden sich im Gesamtanteil, der einer Kategorie zugewiesen wird. In der Kodierung ist das ein Unterschied in den Marginalverteilungen — eine Person verwendet einen Code schlicht häufiger als die andere.
- Allocation Disagreement — Abweichung im Welches: Selbst wenn die Anteile übereinstimmen, unterscheiden sich die beiden darin, welche konkreten Ereignisse welchen Code erhalten.
Die Lektion lässt sich sauber auf die Verhaltenskodierung übertragen. „Quantity”-Abweichung ist im Kern Beobachter-Bias und genau jene Marginal-Differenz, die das Kappa-Maximum senkt; „Allocation”-Abweichung ist echte, ereignisweise Verwechslung der Kategoriezugehörigkeit. Die Trennung sagt, was zu tun ist: Ein Quantity-Problem verlangt nach neu kalibrierten Schwellen, ein Allocation-Problem nach schärferen Code-Definitionen oder mehr Training an schwierigen Fällen. Pontius und Millones gehen weiter und argumentieren, Kappa füge für praktische Entscheidungen wenig über die einfache Übereinstimmungsquote hinaus; man muss die volle „Kappa abschaffen”-Position nicht teilen, um den konstruktiven Punkt mitzunehmen — die Abweichung lesen, nicht bloß um den Zufall korrigieren.
Kodieren auf der Zeitachse: Segmentierung, Zeiteinheiten-Kappa und Toleranzfenster
Das einfache Kappa-Bild unterstellt, die Einheiten seien bereits segmentiert — Kodierende sortieren vorgeschnittene Ereignisse nur noch wie Billardkugeln nach Farbe. Echte Verhaltenskodierung ist meist eine doppelte Aufgabe: Kodierende müssen sowohl die Grenzen zwischen Verhaltensweisen finden als auch klassifizieren, was dazwischenliegt (Bakeman, Deckner & Quera, 2005). Abweichung kann also ebenso aus der Grenzsetzung wie aus der Kategorienwahl entstehen.
Eine robuste Lösung besteht darin, Kappa auf Zeiteinheiten zu berechnen — etwa jede Sekunde als das Kodierte zu behandeln. Eine sekundenweise Übereinstimmungsmatrix erfasst beide Aspekte zugleich: wo die Grenzen lagen und welcher Code galt. Der Preis: Zwei Kodierende setzen eine Grenze fast nie auf exakt denselben Augenblick, sodass ein exaktes Sekunden-Matching die tatsächliche Übereinstimmung unterschätzen würde.
Genau dafür gibt es das Toleranzfenster (auch Slippage): Eine Sekunde gilt als Übereinstimmung, wenn die andere Person denselben Code innerhalb eines definierten Fensters gesetzt hat. Ein Slippage von ±2 Sekunden akzeptiert Übereinstimmung etwa innerhalb einer Spanne von fünf Sekunden. Das Fenster ist Teil der Methode und muss berichtet werden, denn ein breiteres Fenster erhöht bei sonst gleichen Bedingungen die Übereinstimmung. Gute Werkzeuge zeichnen zudem eine Zeitleiste der Abweichungen, die genau zeigt, wo in der Sitzung die Kodierenden auseinanderlagen — unschätzbar für die erneute Sichtung der Aufnahme und gezieltes Nachtraining (Bakeman, Deckner & Quera, 2005).
Was Sie kodieren, bestimmt, wie zuverlässig Sie kodieren können
Das Können der Kodierenden ist nur ein Teil der Geschichte. Das Verhalten selbst — wie lange es dauert, wie oft es auftritt und wie klar es erkennbar ist — setzt einen Großteil der erreichbaren Übereinstimmung, unabhängig vom Training.
Dauer. Verhaltensweisen reichen von momentanen Ereignissen, bei denen der Zeitpunkt, nicht die Länge interessiert (eine Zeigegeste, eine Kopfdrehung), bis zu Dauer-Ereignissen oder Zuständen, die anhalten (eine Spielepisode, eine Fütterphase) (Bakeman, Deckner & Quera, 2005). Auf einer sekundenweisen Zeitachse sammelt ein langer Zustand viele übereinstimmende Sekunden — eine Abweichung von ein, zwei Sekunden über Beginn oder Ende hinweg ist ein kleiner Bruchteil des Ganzen und bewegt Kappa kaum. Ein kurzes momentanes Ereignis ist der umgekehrte Fall: Eine Grenzabweichung von ein, zwei Sekunden kann das gesamte Ereignis sein, sodass das Toleranzfenster sehr viel stärker ins Gewicht fällt und die gewählte Fenstergröße das Ergebnis maßgeblich prägt. Je kürzer das Verhalten, desto sorgfältiger muss das Match-Fenster begründet und berichtet werden.
Häufigkeit. Seltene Codes sind doppelt benachteiligt. Sie bieten wenige Gelegenheiten zur Übereinstimmung und belegen auf Zeitbasis sehr wenige „vorhanden”-Sekunden in einem Meer von „nicht vorhanden” — jene Prävalenz-Schieflage, die Kappa drücken kann, obwohl die Kodierenden bei nahezu jedem tatsächlichen Auftreten übereinstimmen. Für seltene, kurze Verhaltensweisen erzählt eine ereignisbasierte Übereinstimmungsprüfung oder ein Kappa pro Code oft ein faireres Bild als der Kappa-Gesamtwert über die Zeiteinheiten allein.
Erkennbarkeit. Manche Verhaltensweisen sind von Natur aus schwerer zu erkennen als andere. Ein Greifen, ein Zeigen oder ein Positionswechsel ist diskret und sichtbar; ein flüchtiges Augenrollen, eine subtile Affektverschiebung oder eine Blickrichtung ist mehrdeutig und leicht zu übersehen oder unterschiedlich zu lesen. Das ist kein Trainingsversagen — es ist eine Eigenschaft des Verhaltens. Gardner (zitiert in Bakeman, 2022) merkte an, dass rund 80 % Beobachter-Genauigkeit, so bescheiden sie klingt, für manche sozialen Verhaltensweisen und Affektäußerungen repräsentativ sein kann. Die praktische Folge bekräftigt das Leitmotiv dieses Beitrags: Ein realistisches Reliabilitätsziel sollte pro Verhalten gesetzt und nicht als einzelner Grenzwert geliehen werden — und subtile Codes brauchen besonders scharfe operationale Definitionen, Ankerbeispiele und Kalibrierung, bevor die Datenerhebung beginnt.
Zusammengenommen sind diese drei Eigenschaften der Grund, warum ein Kappa pro Code, abgelesen aus der Übereinstimmungsmatrix, so aufschlussreich ist: Es zeigt, welche Verhaltensweisen das Schema zuverlässig erfassen kann und welche grundsätzlich fragil sind — eine Information, die ein einzelner Gesamtwert verdeckt.
Wie viel sollte doppelt kodiert werden?
Es gibt keine universelle Regel, aber eine verbreitete Konvention besteht darin, eine zweite Person einen repräsentativen Teil — oft etwa 15–20 % des Materials — unabhängig nachkodieren zu lassen und die Interrater-Reliabilität für diesen Teil zu berichten. Geben Sie ausdrücklich an, wie viel doppelt kodiert wurde und wie dieser Teil ausgewählt wurde, damit Gutachterinnen einschätzen können, ob die Schätzung für den gesamten Datensatz repräsentativ ist.
Reliabilität ist keine einmalige Zahl
Die Reliabilitätsprüfung erfüllt zwei verschiedene Zwecke, je einen an jedem Ende eines Projekts (Bakeman, Deckner & Quera, 2005). Während des Trainings gibt Kappa angehenden Kodierenden ein klares Ziel, während Übereinstimmungsmatrix und Zeitleisten-Plots zeigen, was nachzutrainieren ist — welche Codes verwechselt werden und wo. Während der Datenerhebung bestätigen regelmäßige Reliabilitätsprüfungen, dass weiterhin konsistent kodiert wird; ein driftendes Kappa ist ein Frühwarnsignal, dass Definitionen verrutscht sind und eine Neukalibrierung ansteht. Reliabilität als einmalig berechnete Zahl rein für den Methodenteil zu behandeln, verschenkt ihre nützlichste Funktion: das Messinstrument über die Laufzeit der Studie kalibriert zu halten.
Häufige Fallstricke
- Ein einzelnes Kappa berichten. Ohne die Code-Anzahl, die Zahl der Einträge und die Grundraten ist ein einzelnes Kappa kaum interpretierbar (Bakeman, 2022).
- Die Heuristik als Urteil missverstehen. Ein Wert von 0,79 ist kein Versagen und 0,81 kein Triumph; die Bänder sind weiche Heuristiken, keine Schwellen.
- Das Prävalenz-Paradoxon. Bei sehr schiefen Grundraten kann Kappa trotz nahezu vollständiger Übereinstimmung niedrig sein. Berichten Sie die Prävalenz und ziehen Sie bei Extremwerten ergänzende Indizes in Betracht (etwa prävalenz- und bias-adjustiertes Kappa).
- Nicht wirklich unabhängige Kodierende. Besprechen Kodierende den Reliabilitätsteil gemeinsam, ist die Schätzung überhöht. Reliabilitätskodierung muss blind und unabhängig erfolgen.
- Sich auf das Kappa-Maximum stützen, um ein niedriges Kappa zu entschuldigen. Eine niedrige Obergrenze spiegelt meist asymmetrische Abweichung, die Prüfung verdient, keine Fußnote.
Wie man Interrater-Reliabilität berichtet
Eine vollständige Angabe nennt mindestens: welche Verhaltensweisen geprüft wurden und wie das Schema sie definiert; wie viel Material doppelt kodiert wurde und wie der Teil ausgewählt wurde; das Toleranzfenster für Zeitachsendaten; die Anzahl der Codes und die Zahl der Einträge in der Kappa-Tabelle; die Reliabilitätsstatistik und ihren Wert für jeden Code; sowie die verwendete Software (Bakeman, 2022). Kappa pro Code zu berichten — statt einer einzelnen gepoolten Zahl — zeigt, welche Unterscheidungen leicht und welche schwierig waren; und die Code-Anzahl samt Grundraten zu nennen, macht den Wert überhaupt erst interpretierbar.
Wie Mangold INTERACT die Interrater-Reliabilität behandelt
Mangold INTERACT berechnet Cohens Kappa direkt aus zwei unabhängig kodierten Zeitachsen — und macht die beiden in diesem Beitrag als entscheidend markierten Festlegungen, was als Treffer zählt und wie mit der Zeit umgegangen wird, zu sichtbaren, einstellbaren Parametern statt zu verborgenen Standardwerten. Das Handbuch sagt offen, dass diese Einstellungen die resultierenden Kappa-Werte enorm beeinflussen können und dass es keine allgemein beste Konfiguration gibt, weil die richtigen Werte von der Art der Codes, der Länge der Ereignisse und der erforderlichen Genauigkeit abhängen — derselbe Punkt, der oben zu Dauer und Erkennbarkeit gemacht wurde.
Die Match-Parameter. Zwei Kriterien definieren die Übereinstimmung. Die Überschneidung in Prozent legt für Codes mit Dauer fest, wie stark sich zwei Ereignisse zeitlich überlappen müssen, um als Treffer zu gelten; weil lange Zustände sich leicht überlappen und kurze Ereignisse kaum, rät das Handbuch, die Überschneidungsanforderung bei kurzen Codes zu senken — genau der oben beschriebene Dauer-Effekt. Das Toleranzzeitfenster behandelt sehr kurze Ereignisse, die sich womöglich gar nicht überlappen: Ein Zeitwert definiert, wie nah die beiden Startzeiten beieinanderliegen müssen, damit die Codes als Treffer zählen. Das ist das Slippage-Fenster der Zeitachsen-Kodierung — und wenn in kurzer Zeit viel passiert, empfiehlt das Handbuch, es zu verkleinern, um die Übereinstimmung nicht künstlich zu erhöhen. Dieselben zwei Kriterien, mit eigenen Werten, werden anschließend zur Kennzeichnung von Nichtübereinstimmungen angewendet — unterschiedliche Codes, die zeitlich zusammenfallen —, sodass das Verfahren das vollständige Bild aus Übereinstimmung und Abweichung aufbaut, statt nur Treffer zu zählen.
Die Paarfindungsroutine. INTERACT löst die beiden Zeitachsen in einer festgelegten Reihenfolge in Paare auf und vergleicht dabei nur Codes innerhalb passender DatenSets, sodass die Kodierung eines Subjekts nie gegen die eines anderen geprüft wird. Vereinfacht verknüpft es zuerst identische Codes, die sich zeitlich überlappen (Übereinstimmungen), dann identische Codes, deren Startzeiten ins Toleranzfenster fallen (Übereinstimmungen für kurze Ereignisse), dann unterschiedliche Codes, die ins Fenster fallen (Abweichungen), und belässt schließlich alles noch Unverknüpfte als „Keine Paare” — gezählt als „Beobachter A hat etwas kodiert, wo Beobachter B nichts kodiert hat”. Genau diese „Keine Paare”-Fälle sind die Auslassungs- und Hinzufügungs-Abweichungen, die Kappa senken — explizit ausgewiesen statt verborgen. Die gesamte Routine lässt sich Schritt für Schritt durchlaufen, wobei unter dem Diagramm die in jeder Phase verwendeten Parameter angezeigt werden, sodass nachvollziehbar ist, wie jedes Paar zustande kam.
Das Ergebnis lesen. Die Auswertung erscheint als farbcodierter Kappa-Graph und als Übereinstimmungsmatrix: Treffer auf der Diagonale, Nichtübereinstimmungen in Rot und unverknüpfte Codes in der Zeile/Spalte „Keine Paare”. INTERACT kann zwei Kodierende vergleichen, eine kodierende Person gegen mehrere andere oder alle gegeneinander — und unterstützt damit sowohl klassische Zwei-Rater-Prüfungen als auch Mehr-Rater-Designs. Weil die Matrix und die Zeitachse der Paare sichtbar sind, ist Reliabilität in INTERACT ein Diagnosewerkzeug und nicht bloß eine einzelne Zahl: Sie zeigt, welche Codes verwechselt wurden und wo — und macht aus einer Reliabilitätsprüfung gezieltes Feedback fürs Nachtraining. Die Software ersetzt weder ein gut definiertes Kodierschema noch das Urteil dahinter — aber sie macht jede folgenreiche Einstellung explizit, berichtbar und nachprüfbar.
INTERACTs Kappa-Ergebnisse lesen — und die typischen Fallen vermeiden
INTERACT zeigt das Ergebnis als Übereinstimmungsmatrix pro Klasse — Treffer auf der Diagonale, Nichtübereinstimmungen daneben — mit einer prozentualen Übereinstimmung pro Code sowie P(beobachtet) und P(erwartet). Der Kappa-Wert, die Zahl der Kodierungen, die verglichenen Dateinamen und die genau verwendeten Parameter werden mit ausgegeben, sodass ein Ergebnis reproduzierbar und nachprüfbar ist. Einige wiederkehrende Situationen lohnt es zu kennen — die meisten sind Eigenschaften von Cohens Kappa, nicht der Software:
- Ein Kappa nahe null oder negativ bedeutet meist zu wenig Material. Kappa ist wahrscheinlichkeitsbasiert und braucht einen Pool unterschiedlicher Codes; eine Klasse mit nur ein oder zwei Codes oder ein DatenSet mit sehr wenigen Ereignissen kann keinen sinnvollen Wert liefern — und ein Kappa von genau null bedeutet, dass die beobachtete Übereinstimmung der Zufallserwartung entsprach. Abhilfe: mehr Material poolen (die Sitzungen jeder kodierenden Person vor der Berechnung zu einer Kompilationsdatei zusammenführen), eine dünn besetzte Klasse durch Auffüllen der Lücken mit einem neutralen Platzhalter-Code lückenlos machen (das erhöht die Zahl der Codes pro Klasse) oder mehrere Klassen zu einer kombinieren.
- Es gibt kein einzelnes „Gesamt-Kappa” über Klassen hinweg. Cohen definierte Kappa pro sich gegenseitig ausschließender, erschöpfender Klasse — INTERACT berichtet es also pro Klasse; braucht man eine Zahl, kombiniert man die relevanten Codes bewusst in eine einzige Klasse und liest diese.
- INTERACT berichtet eine prozentuale Übereinstimmung pro Code, kein Kappa pro Code. Der Prozentwert ist für Kodiersysteme gedacht, für die Kappa nicht passt, und erlaubt es etwa, die Kodierung einer Trainerin Code für Code mit der einer angelernten Person zu vergleichen.
- Die Dateireihenfolge kann das Ergebnis verändern. Weil ein Treffer davon abhängt, wie stark sich zwei Ereignisse überlappen, ist eine 80-%-Überlappung gegen ein längeres Ereignis leichter zu erfüllen als gegen ein kürzeres — die Wahl der „Master”-Datei kann ein Grenzpaar daher kippen. Berichten Sie die Vergleichsreihenfolge und die Parameterwerte zusammen mit Kappa.
- Kappa ignoriert Dinge, die wichtig sein können. Es gewichtet weder, wie schwer ein Verhalten zu kodieren ist, noch die Semantik eines Codes oder die Varianz der Ereignisdauern — dieselben Grenzen wie oben. Genau deshalb sollten die Parameter und die Matrix berichtet und gelesen werden, nicht nur die Schlagzahl.
Wie die Überlappungsschwelle wirkt — ein Rechenbeispiel. Angenommen, die „Master”-Datei kodiert Verhalten A über 4 Sekunden, während die zweite Datei dasselbe Verhalten A über 8 Sekunden etwa zur gleichen Zeit, leicht versetzt, kodiert. Bei einer geforderten Überlappung von 80 % sind 80 % des 4-Sekunden-Ereignisses 3,2 Sekunden — bequem vom 8-Sekunden-Ereignis abgedeckt, das Paar zählt also als Treffer. Dreht man die Dateireihenfolge um, wird die Schwelle nun am 8-Sekunden-Ereignis gemessen: 80 % von 8 Sekunden sind 6,4 Sekunden, was ein 4-Sekunden-Ereignis niemals abdecken kann — die Überlappungsregel allein würde also eine Nichtübereinstimmung verbuchen. Hier wirkt das Toleranzfenster als Sicherheitsnetz: Konkurriert kein anderes Ereignis und beginnt das kürzere Ereignis innerhalb des Fensters, gemessen ab dem Beginn des längeren, zählt INTERACT es dennoch als Treffer. Praktische Lehre: Bei Ereignissen ungleicher Länge die Überlappung in Prozent am kürzeren Ereignis ausrichten, das Toleranzfenster nutzen und sowohl die Parameterwerte als auch die als Master verwendete Datei berichten.
Ein Beispiel aus der Säuglingsforschung
Eine aktuelle Open-Access-Studie zeigt gute Praxis. Kaletsch und Liszkowski (2026, Journal of Cognition and Development) untersuchten, ob ein Training, das Bezugspersonen zu mehr Responsivität anleitet, das Zeigen mit dem Indexfinger bei zwölf Monate alten Säuglingen erhöht. Das Team kodierte die Zeigegesten der Säuglinge und die Responsivität der Bezugspersonen aus Videoaufnahmen, kodierte 20 % der Aufnahmen mit einem Zwei-Sekunden-Match-Fenster doppelt und berichtete Cohens Kappa pro Code: κ = .82 für die Indexfinger-Zeigegesten, .81 für die Responsivität und .88 für die Zeigegesten der Bezugspersonen — alle im Bereich „nahezu perfekt”. Erst nachdem diese Reliabilität feststand, berichteten die Autorinnen ihre inhaltlichen Befunde. Genau diese Reihenfolge — zuerst die Reliabilität, dann die Ergebnisse, und pro Code mit angegebenem Match-Fenster — macht die Befunde glaubwürdig.
Kernaussagen
- Interrater-Reliabilität zeigt, dass ein Kodierschema reproduzierbar ist und nicht idiosynkratisch.
- Cohens Kappa ist der prozentualen Übereinstimmung vorzuziehen, weil es um den Zufall korrigiert.
- Ein einzelnes Kappa ist schwer zu interpretieren: Sein Wert hängt von der Code-Anzahl und den Grundraten ab — beides mitberichten.
- Fragen Sie „Sind die Kodierenden genau genug?” statt „Ist Kappa groß genug?”; die geschätzte Beobachter-Genauigkeit ist intuitiver als ein geliehener Grenzwert.
- Diagnostizieren Sie mit der Übereinstimmungsmatrix: symmetrische vs. asymmetrische Abweichungen, Kappa pro Code und Kappa-Maximum bei abweichenden Marginalverteilungen.
- Bei Zeitachsen-Kodierung Kappa auf Zeiteinheiten berechnen, das Toleranzfenster berichten und Zeitleisten-Plots fürs gezielte Nachtraining nutzen.
- Das Verhalten selbst — seine Dauer, Häufigkeit und wie schwer es zu erkennen ist — setzt einen Großteil der erreichbaren Übereinstimmung; Reliabilitätsziele pro Verhalten setzen und Kappa pro Code lesen.
- Kodieren Sie einen repräsentativen Teil doppelt (häufig ~15–20 %) und behandeln Sie Reliabilität als laufende Kalibrierung, nicht als einmalige Zahl.
Häufige Fragen
Was ist ein guter Cohens-Kappa-Wert?
Warum ist ein einzelner Kappa-Wert schwer zu interpretieren?
Was ist das Kappa-Maximum?
Was ist der Unterschied zwischen Quantity- und Allocation-Disagreement?
Warum erhalten manche Verhaltensweisen ein niedrigeres Kappa, egal wie gut die Kodierenden trainiert sind?
Warum genügt die prozentuale Übereinstimmung nicht?
INTERACT: Die 360° Software für Ihren gesamten Forschungs-Workflow
Von der Audio/Video-Inhaltskodierung und Transkription bis zur Analyse bietet INTERACT alles in einem Tool.
Literatur und weiterführende Quellen
- Bakeman, R. (2022). KappaAcc: A program for assessing the adequacy of kappa. Behavior Research Methods, 55, 633–638.
- Bakeman, R., Deckner, D. F., & Quera, V. (2005). Analysis of behavioral streams. In D. M. Teti (Hrsg.), Handbook of Research Methods in Developmental Psychology. Blackwell.
- Bakeman, R., & Quera, V. (2011). Sequential analysis and observational methods for the behavioral sciences. Cambridge University Press.
- Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
- Fleiss, J. L. (1981). Statistical methods for rates and proportions. Wiley.
- Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
- Pontius, R. G., & Millones, M. (2011). Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment. International Journal of Remote Sensing, 32(15), 4407–4429.