Reliabilität – die verschiedenen Arten und Typen

Lesedauer: 5 Minuten
So hilfreich ist dieser Beitrag 0
Bewertung abgeben 0 Kundenbewertungen
Reliabilität

Du führst bald eine Umfrage oder ein Experiment im Rahmen deines Studiums durch? Dann solltest du unbedingt wissen, was es mit der Reliabilität bzw. der Messgenauigkeit auf sich hat.

Häufig gestellte Fragen

Wenn sich deine Ergebnisse nach wiederholter Durchführung reproduzieren lassen, spricht man von reliabler Forschung.

Eine Reliabilität von 0.70 wird häufig als ausreichend bezeichnet. Eine Reliabilität von 0.80 gilt als gut und eine Reliabilität von über 0.90 wird als hoch interpretiert. Liegen die Werte unter 0.70 sind die Ergebnisse nicht zuverlässig.

Wenn du eine wiederholte Messung unter gleichen Bedinungen durchführst und diese andere Ergebnisse liefert, ist die Reliabilät eingeschränkt.

Während eine Messung dann valide ist, wenn sie das misst, was sie messen soll, ist eine Messung reliabel, wenn sie nach wiederholter Durchführung zuverlässige Ergebnisse liefert.

Sie ist ein Maß dafür, wie die Items eines Fragebogens miteinander zusammenhängen und die häufigste Art der Reliabilität, die gemessen wird.

Definition: Reliabilität

Reliabilität ist die Messgenauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Das Gütekriterium analysiert die Zuverlässigkeit von Messungen bei statistischen Erhebungen. Ein statistischer Messwert gilt dann als zuverlässig bzw. reliabel, wenn die Messgenauigkeit der verwendeten Messinstrumente (z.B. Fragebögen) oder die Messgenauigkeit der Ergebnisse besonders hoch sind. In einfachen Worten ausgedrückt: Bei dem Gütekriterium dreht sich alles darum, ob deine Forschung bei wiederholter Durchführung ebenfalls zuverlässige Ergebnisse erzielt. Sie gibt also Auskunft darüber, wie genau deine Messungen sind und ob sie sich reproduzieren lassen.

Die fünf Arten der Reliabilität

Insgesamt gibt es fünf Arten der Messgenauigkeit, die du im Rahmen deiner wissenschaftlichen Untersuchung überprüfen kannst. Im Folgenden gehen wir näher auf die fünf verschiedenen Reliabilitäten ein.

1. Interrater Reliabilität

Die Interrater-Messgenauigkeit ist ein Maß, welches die Übereinstimmungen bzw. Abweichungen zwischen den Bewertenden in der Auswertung der Daten festhalten soll. Sie stellt somit eine Verbindung zwischen den beiden Gütekriterien Reliabilität und Objektivität her. Wurden die Daten zu 100% objektiv ausgewertet und interpretiert, ist die Interrater-Reliabilität vollständig erfüllt. In einfachen Worten: Eine hohe Interrater Reliabität liegt vor, wenn mehrere Personen die gleichen Daten auswerten und dabei dieselben Ergebnisse produzieren. Bei Milieustudien, bei der Zuordnung von Befragten in zuvor festgelegte Kategorien sowie in der psychologischen Diagnostik spielt die Interrater-Messgenauigkeit eine zentrale Rolle. Gerade bei Forschungsprojekten, in denen kein standardisiertes Vorgehen verwendet wird und die Ergebnisse von Person zu Person unterschiedlich ausfallen können, ist die Interrater-Reliabilität von Bedeutung.

Beispiel: Du wertest anhand einer Video-Datei das Verhalten eines Patienten mit Angststörung aus. Du schreibst dir auf, wie oft du Hinweise auf ein bestimmtes Verhalten wahrnimmst. Das Verhalten (z.B. zitternde Hände verstecken, Vermeidung von Blickkontakt) wurde zuvor genau definiert. Anhand dieser Kriterien wertet eine weitere Person das Verhalten im Video aus. Anschließend werden die Ergebnisse miteinander verglichen. Erzielt man sehr ähnliche Ergebnisse, ist die Interrater-Reliabiltiät hoch und die Kriterien eignen sich gut für eine objektive Auswertung.

Beispiel: Du führst ein Experiment zum Zahlenstrahl durch. Anschließend wiederholst du dein Experiment mit den gleichen Versuchspersonen noch einmal. Die Korrelation zwischen beiden Ergebnissen ist deine Retest Messgenauigkeit.

2. Retest Reliabilität

Durch die wiederholte Messung der gleichen Daten lässt sich die sogenannte Retest Reliabilität bestimmen. Die Test-Retest-Methode wird also wiederholt eingesetzt und bietet den Vorteil, durch die Wiederholung der Messung Rückschlüsse auf die Zuverlässigkeit des jeweiligen Messinstruments bzw. Messverfahrens zu gewinnen. Du wiederholst also deine Untersuchung noch einmal unter denselben Bedingungen und vergleichst schließlich deine Ergebnisse miteinander. Doch Achtung: Für instabile Merkmale wie Zufriedenheit oder Emotionen ist das Maß eher nicht brauchbar. Auch bei Intelligenz- oder Mathetests, bei denen es nach mehrmaliger Durchführung zu Lerneffekten kommen kann, ist die Test-Retest-Methode nicht geeignet.

3. Paralleltest Reliabilität

Angenommen zwei verschiedene Versionen eines Messinstruments, messen dasselbe Merkmal. Mit Hilfe eines Paralleltests kannst du die Messgenauigkeit der beiden Messinstrumente überprüfen. Deine Versuchspersonen müssen zuerst die eine, dann die andere Version vollständig durchlaufen. Beide Messinstrumente sollten zu ähnlichen Ergebnissen kommen. In der Praxis ist die Paralleltest-Reliabilität allerdings schwer umzusetzen. Du müsstest einen weiteren, nicht-identischen Fragebogen mit genau der gleichen Fehlervarianz erstellen, dessen Items die gleichen Merkmale messen wie der erste Fragebogen. Der Paralleltest eignet sich also nur dann, wenn zwei gleichwertige Versionen eines Messinstruments verfügbar sind. Außerdem darf sich das zu messende Merkmal über einen längeren Zeitraum nicht mehr verändern.

Beispiel: Du hast zwei gleichwertige Fragenkataloge erstellt, die das Persönlichkeitsmerkmal „Offenheit“ messen sollen. Alle deine Versuchspersonen füllen beide Versionen aus. Anschließend misst du die Korrelation zwischen den Ergebnissen.

Beispiel: Du hast einen Fragebogen erstellt, der das Persönlichkeitsmerkmal „Extraversion“ erfassen soll. Jeder deiner Fragen sollte theoretisch darauf abzielen, das Merkmal Extraversion zu messen. Wenn du den Fragebogen in zwei Hälften teilst und die Eregebnisse parallel auswertest, stellst du fest wie konsistent dein Test ist. Sind die Ergebnisse nicht ähnlich, ist dein Test nicht in der Lage, dasselbe Merkmal konsistent abzufragen.

4. Split Half Reliabilität

Mit Hilfe des Split Half Tests bestimmst du den Aspekt der internen Konsistenz. Du führst den Test nur einmal durch, teilst dabei jedoch die Aufgaben bzw. Fragen künstlich in zwei Hälften. Die beiden Testhälften werden schließlich miteinander verglichen bzw. interkorreliert.

5. Interne Konsistenz Reliabilität

Wenn du die interne Konsistenz überprüfen möchtest, musst du einzelne Fragen in einem Fragebogen oder einem Interview miteinander vergleichen. Jede Frage wird dabei als eigene Umfrage betrachtet. Die Ergebnisse der einzelnen Fragen werden jeweils miteinander korrelliert. Sie ist die häufigste Art der Messgenauigkeit, die gemessen wird, da die Tests nicht noch einmal durchgeführt werden müssen. Dieses Maß der Reliabilität bedeutet also weniger Aufwand. Um die interne Konsistenz deines Tests anzugeben, verwendest du Cronbachs Alpha.

Beispiel: Du hast eine Umfrage erstellt, um das politische Wissen in der Bevölkerung zu messen. Wenn Ergebnisse einzelner Fragen stark mit dem Gesamtergebnis deiner Umfrage korrelieren, handelt es sich um eine Umfrage mit hoher interner Konsistenz.

Die drei Reliabilitätstypen

Den fünf Reliabilitäts-Arten werden drei verschiedene Reliabilitätstypen zugeordnet, auf die wir jetzt kurz eingehen möchten.

Reliabilität Reliabilitätstypen

Konsistenz

Messen alle Fragen in deiner Umfrage tatsächlich dasselbe Merkmal? Um die Konsistenz deiner Forschungsergebnisse zu überprüfen, eignen sich die interne Konsistenz sowie Split-Half-Reliabilität bestens.

Stabilität

Wie stabil bleiben die Messergebnisse deiner Forschung zu verschiedenen Testzeitpunkten? Um die Stabilität deiner Messergebnisse zu überprüfen, eignet sich die Retest Reliabilität hervorragend.

 Äquivalenz

Erzielen unterschiedliche Personen bzw. unterschiedliche Messverfahren bei der Auswertung desselben Merkmals gleichwertige Ergebnisse? Um die Äquivalenz bzw. allgemeine Gleichwertigkeit festzustellen, kannst du die Interrater Reliabilität und die Paralleltest Reliabilität heranziehen.

Reliabilität vs. Validität

Reliablität und Validität werden häufig miteinander verwechselt. Allerdings gibt es zwischen diesen beiden Gütekriterien wesentliche Unterschiede. Lies dir die folgenden Definitionen durch, um die zwei Gütekriterien garantiert nicht mehr miteinander zu verwechseln:

Reliabilität:

Bezieht sich darauf, ob die Forschung nach wiederholter Durchführung ähnliche bzw. zuverlässige Ergebnisse liefert.

Validität:

Eine Messung ist dann valide, wenn sie tatsächlich das misst, was sie messen soll.

Zusammenfassung

Reliable Messergebnisse sind zuverlässige Messergebnisse. D.h. wenn du deinen Test noch einmal durchführst, werden sehr ähnliche oder gleichwertige Ergebnisse erzielt. Das Messinstrument ist „reliabel“. Das musst du über die Messgenauigkeit wissen:

  • Gütekriterium bei statistischen Ergebnissen
  • Zeigt an, ob deine Ergebnisse zuverlässig bzw. reproduzierbar sind
  • Wird gerne in der psychologischen Diagnostik oder bei Milieustudien angewandt
  • Es gibt 5 verschiedene Arten der Messgenauigkeit
  • Zusätzlich gibt es 3 verschiedene Reliabilitätstypen