- Zielgruppe
- Qualitätsingenieure, IATF-Beauftragte, Prüfplaner — Automotive-Zulieferer mit Gut/Schlecht-Lehren, Kaliber oder visuellen Prüfungen im Control Plan
- Normgrundlage
- AIAG MSA Manual (4. Auflage) · VDA Band 5 · IATF 16949:2016 §7.1.5.1.1
- Lesezeit
- ca. 8 Minuten
Attributive MSA.
Gut/Schlecht-Lehren
brauchen Studien —
auch wenn der Auditor gleich fragt.
"Das ist eine Lehre, die braucht keine Studie" — dieser Satz ist im IATF-Audit kein akzeptables Argument. IATF 16949 §7.1.5.1.1 nimmt attributive Messsysteme nicht aus. Die attributive MSA (Typ 4) bewertet mit Kappa-Analyse, ob Prüfer dasselbe Prüfsystem konsistent und übereinstimmend nutzen.
Kein Messwert — nur Gut oder Schlecht
Messwertbasierte MSA-Studien wie Typ-1-Studie (Cg/Cgk) und Gage R&R (%GRR/ndc) arbeiten mit kontinuierlichen Zahlenwerten. Daraus lassen sich Mittelwerte, Streuungen und Varianzanteile berechnen. Attributive Messsysteme liefern keine Zahlen — sie liefern binäre Urteile: Gut oder Schlecht, Bestanden oder Nicht bestanden, Akzeptiert oder Zurückgewiesen. Für diese Systeme sind ANOVA und xbar/R nicht anwendbar. Die attributive MSA (Typ 4) arbeitet stattdessen mit Übereinstimmungsanalysen und dem Kappa-Koeffizienten.
Wann kommt Typ 4 zum Einsatz?
Gut/Schlecht-Lehren und Grenzlehren, Geh/Nicht-Geh-Kaliber, visuelle Oberflächenprüfungen, bildverarbeitende Systeme mit binärem Ausgang, taktile Prüfsysteme ohne Messwertausgabe — alle diese Messsysteme fallen unter Typ 4. Das Entscheidungskriterium: Wenn das Messsystem nur ein Urteil ausgibt und keinen numerischen Messwert, ist die attributive Studie der richtige Studientyp. Das gilt auch für automatisierte Prüfsysteme: Kamera-Systeme mit Gut/Schlecht-Ausgabe müssen genauso bewertet werden wie manuelle Prüfer mit einer Lehre.
Kapitel zu Attribute Measurement System Analysis. Empfiehlt 50 Teile, 2–3 Prüfer, 2–3 Wiederholungen. Kappa ≥ 0,75 als Akzeptanzgrenzwert.
Ergänzende Methodik für attributive Systeme. Boundary Samples als Pflichtbestandteil des Teilesets. Referenzurteil durch höherwertiges System.
Keine Ausnahme für attributive Systeme. Alle Messmittel im Control Plan vollständig bewertet — auch Lehren, Kaliber und visuelle Prüfungen.
Die häufigsten Fehler bei der attributiven Studie entstehen nicht in der Auswertung — sondern in der Teileauswahl und im Studiendesign: zu wenig Grenzteile, kein echtes Referenzurteil, nicht-blinde Messreihenfolge. Die folgenden Schritte zeigen worauf es ankommt.
Teile auswählen — 50 Teile mit gezieltem Grenzteileanteil
Wählen Sie 50 Teile, die das gesamte Spektrum des Prüfsystems abdecken. Das ist der wichtigste und am häufigsten vernachlässigte Schritt: Mindestens 20–25 % der Teile sollten Grenzteile sein — Teile die nahe an der Gut/Schlecht-Grenze liegen und echte Urteilsunsicherheit erzeugen. Wenn alle 50 Teile eindeutig gut oder eindeutig schlecht sind, ist die Studie wenig aussagekräftig: Jeder Prüfer kommt trivialerweise zu denselben Urteilen, weil die Fälle nicht wirklich schwierig sind. Die Stärke der attributiven Studie liegt in der Grenzfallprüfung. Tipp: Boundary Samples (Referenzteile genau an der Grenze) identifizieren und gezielt in die Studie aufnehmen.
Referenzurteil festlegen — bevor die Prüfer beginnen
Für jedes der 50 Teile muss ein Referenzurteil (Reference Standard) vorliegen: Ist das Teil definitiv gut oder definitiv schlecht? Das Referenzurteil wird durch ein höherwertiges Messsystem (z.B. Koordinatenmessmaschine statt Gut/Schlecht-Lehre) oder durch Fachexperten-Konsens ermittelt — nicht durch die Prüfer der Studie selbst. Das Referenzurteil muss vor der Studie festgelegt und den Prüfern unbekannt sein. Häufiger Fehler: Die Teile werden durch einen erfahrenen Prüfer "klassifiziert" und diese Klassifizierung gilt dann als Referenz. Das ist nur akzeptabel wenn der Prüfer nicht an der Studie teilnimmt.
Blind messen — jede Runde randomisiert und ohne Kenntnis der Vorrunde
Jeder Prüfer beurteilt alle 50 Teile in zufälliger Reihenfolge — mindestens 2, besser 3 Runden. Die Teile werden zwischen den Runden neu nummeriert oder neu geordnet, damit kein Prüfer seine eigene Vorrunde wiedererkennt. Kein Prüfer darf die Urteile der anderen Prüfer oder sein eigenes Urteil aus der Vorrunde kennen. Nicht-blinde Messreihenfolge — zum Beispiel weil Teile mit aufgeklebten Gut/Schlecht-Markierungen vorliegen — macht die Studie ungültig. Die Urteile werden für jeden Prüfer, jedes Teil und jede Runde separat protokolliert.
Auswertung — Kappa berechnen und Übereinstimmungsquoten prüfen
Die Auswertung umfasst drei Ebenen: Erstens die Repeatability-Analyse: Wie oft hat jeder Prüfer über alle Runden dasselbe Urteil für dasselbe Teil gefällt? Zweitens die Reproducibility-Analyse: Wie oft kamen alle Prüfer für dasselbe Teil zu demselben Urteil? Drittens das Reference-Agreement: Wie gut stimmt das Prüferurteil (nach Mehrheitsprinzip über die Runden) mit dem Referenzurteil überein? Für jede dieser drei Analysen wird der Kappa-Koeffizient berechnet. Grenzwerte: Kappa ≥ 0,9 sehr gut, ≥ 0,75 akzeptabel, < 0,75 nicht akzeptabel. Zusätzlich werden direkte Übereinstimmungsquoten ausgewiesen.
Die attributive Studie liefert vier Kennwerte, die drei verschiedene Fragen beantworten: Ist ein Prüfer mit sich selbst konsistent? Stimmen die Prüfer untereinander überein? Liegen die Urteile richtig im Vergleich zum Referenzsystem? Erst alle drei zusammen geben ein vollständiges Bild.
Misst wie konsistent ein einzelner Prüfer über mehrere Runden urteilt. Ein Prüfer mit hoher Repeatability kommt für dasselbe Teil in Runde 1 und Runde 2 zum gleichen Urteil. Niedriges Repeatability-Kappa deutet auf unklare Prüfmethode oder schwankende Bedingungen hin — nicht unbedingt auf ein Problem mit dem Prüfsystem selbst.
Misst wie übereinstimmend verschiedene Prüfer dasselbe Teil beurteilen. Niedriges Reproducibility-Kappa ist das häufigere Problem: Die Prüfer haben unterschiedliche Vorstellungen davon, was "gut" bedeutet. Ursache ist meist fehlende Standardisierung der Prüfkriterien — nicht das Prüfmittel selbst.
Das entscheidende Kennwert: Stimmt das Prüferurteil mit dem "richtigen" Urteil überein? Ein Prüfer kann intern sehr konsistent sein (hohe Repeatability) und trotzdem systematisch falscher urteilen als das Referenzsystem. Reference Agreement deckt auf, ob ein Prüfer z.B. systematisch zu streng oder zu lasch ist.
Ergänzt den Kappa-Koeffizienten durch eine intuitive Prozentzahl. Zielwert laut AIAG MSA Manual: ≥ 90 % direkte Übereinstimmung. Wichtig: Die direkte Quote ist nicht durch Zufall bereinigt — bei hoher Gut-Teil-Rate kann auch ein schlechtes Prüfsystem eine hohe Quote erreichen. Deshalb ist Kappa als zufallsbereinigte Kennzahl immer zusätzlich zu prüfen.
Die Kappa-Skala — und warum 0,75 das Minimum ist
Cohen's Kappa-Koeffizient reicht von −1 (systematisch gegenteilig) über 0 (nicht besser als Zufall) bis +1 (vollständige Übereinstimmung). Für MSA-Zwecke gilt nach AIAG MSA Manual: Kappa ≥ 0,9 ist sehr gut, Kappa 0,75–0,89 gilt als akzeptabel, Kappa unter 0,75 ist nicht akzeptabel. Ein Kappa von 0,70 klingt gut — bedeutet aber, dass das Prüfsystem 30 % der schwierigen Fälle nicht zuverlässig löst, sobald der Zufall herausgerechnet ist. In der Serienproduktion, wo die kritischen Grenzteile täglich durch das System laufen, ist das ein reales Fehlklassifizierungsrisiko.
| Kappa | Bewertung | Konsequenz |
|---|---|---|
| ≥ 0,90 | Sehr gut | Attributives Messsystem geeignet — kein Handlungsbedarf |
| 0,75–0,89 | Akzeptabel | Bedingt geeignet — Ursachenanalyse empfohlen · OEM-CSR prüfen |
| 0,40–0,74 | Nicht akzeptabel | Prüfsystem nicht geeignet — Ursachenanalyse + Maßnahme Pflicht, Prüfung einschränken oder aussetzen |
| < 0,40 | Nicht verwendbar | Prüfsystem sofort sperren — Übereinstimmung schlechter als Zufall |
Übereinstimmungsquote und Kappa ergänzen sich
Die direkte Übereinstimmungsquote (Percentage Agreement) und der Kappa-Koeffizient müssen beide geprüft werden, weil sie unterschiedliche Aspekte beleuchten. Ein Produktionsprozess mit 95 % Gut-Teilen erreicht fast automatisch eine hohe direkte Übereinstimmungsquote — selbst wenn das Prüfsystem bei Grenzteilen systematisch versagt. Kappa bereinigt diesen Effekt. Umgekehrt kann Kappa durch sehr ungleiche Gut/Schlecht- Verhältnisse verzerrt sein. Beide Kennwerte zusammen geben die vollständige Diagnose.
IATF 16949 Klausel 7.1.5.1.1 verlangt MSA-Bewertung für alle Messmittel im Control Plan — was Auditoren bei der Vollständigkeitsprüfung konkret kontrollieren und welche Nebenabweichungen am häufigsten entstehen: MSA nach IATF 16949 — Audit-Checkliste und Nebenabweichungen →
Kein echtes Referenzurteil
Das häufigste Designproblem: Die Teile werden durch den erfahrensten Prüfer oder den QM-Leiter klassifiziert — und diese Klassifizierung gilt dann als "Referenzurteil". Das ist methodisch problematisch, weil die Referenz und die Prüfer aus demselben Messsystem stammen. Ein valides Referenzurteil entsteht durch ein höherwertiges Messsystem (z.B. Koordinatenmessmaschine, die den Grenzwert direkt numerisch misst) oder durch dokumentierten Experten-Konsens mehrerer Personen. Fehlt das, ist das Referenzurteil keine unabhängige Basis — und die Reference-Agreement-Analyse hat keine Aussagekraft.
Zu wenig Grenzteile — oder gar keine
Eine attributive Studie mit 50 eindeutigen Gut-Teilen und keinen Grenzteilen ist wertlos: Jeder Prüfer kommt trivialerweise zu denselben Urteilen. Kappa erscheint perfekt — das Prüfsystem wurde aber nicht wirklich getestet. Grenzteile (Boundary Samples) — Teile nahe an der Toleranzgrenze, die echte Urteilsschwierigkeit erzeugen — sind der eigentliche Stress-Test. Mindestens 20–25 % des Teilesets sollten Grenzteile sein. In der Praxis sind passende Grenzteile schwer zu finden: Sie müssen aus der laufenden Produktion identifiziert, vermessen und als Boundary Samples dokumentiert aufbewahrt werden.
Studie ohne Wiederholungen — und damit ohne Repeatability-Aussage
Eine Studie mit nur einer Messrunde pro Prüfer kann keine Repeatability-Aussage liefern — es gibt keinen Vergleich desselben Prüfers mit sich selbst. In der Praxis entstehen solche Designs, weil die Studie "schnell" erledigt werden soll. Das Ergebnis ist eine Reproducibility-Analyse ohne Repeatability-Basis. AIAG MSA Manual empfiehlt mindestens 2, besser 3 Runden. Ohne Repeatability-Daten ist das Kappa-Ergebnis unvollständig — und Auditoren, die das Protokoll genau lesen, erkennen das.
Attributive Studien werden in der Praxis oft auf Papier durchgeführt: Protokollbogen je Prüfer, Urteile eintragen, Übereinstimmungen manuell zählen, Kappa irgendwie berechnen oder gar nicht. Das Ergebnis ist ein Protokoll, das im Audit weder vollständig noch revisionssicher wirkt. QIMS strukturiert die Erfassung: qims-messung führt die Prüfer durch die randomisierte Messreihe — blind, ohne Anzeige der Vorrunden. qims-auswertung berechnet Kappa-Repeatability, Kappa-Reproducibility und Reference Agreement automatisch aus den erfassten Urteilen.
Das vollständige Protokoll — Urteile je Prüfer je Runde, Referenzurteile, alle Kappa-Kennwerte, Übereinstimmungsquoten und Beurteilung — ist direkt exportierbar. Vor dem Audit braucht niemand mehr Papierprotokolle aus verschiedenen Ordnern zusammentragen: Die Vollständigkeit aller attributiven Studien gegen den Control Plan ist auf einen Blick sichtbar.
Blind-Messreihe für jeden Prüfer — randomisierte Reihenfolge, keine Anzeige der Vorrunde. Urteile direkt am Shopfloor erfasst, kein Papier-Zwischenschritt.
Kappa automatisch berechnet — Repeatability, Reproducibility, Reference Agreement. Protokoll sofort exportierbar, revisionssicher abgelegt.
Attributive MSA-Protokolle die Audits überstehen
In einer 30-Minuten-Demo zeigen wir, wie QIMS attributive Studien für Ihre Gut/Schlecht-Lehren strukturiert erfasst und auswertet — Kappa automatisch berechnet, Protokolle revisionssicher, Vollständigkeit gegen Control Plan auf einen Blick.
Müssen Gut/Schlecht-Lehren wirklich eine MSA-Studie haben?
Ja — und das ist einer der häufigsten Missverständnisse im IATF-Audit. IATF 16949 Klausel 7.1.5.1.1 schreibt die MSA-Bewertung für alle Messmittel im Control Plan vor. Attributive Messsysteme — also Gut/Schlecht-Lehren, Kaliber, visuelle Prüfungen — sind ausdrücklich nicht ausgenommen. Die Norm kennt keine Ausnahme für "einfache" Prüfsysteme. Ein Auditor, der die MSA-Liste gegen den Control Plan prüft, erwartet für jede dort eingetragene Gut/Schlecht-Lehre eine attributive Studie. Das Fehlen ist eine eigenständige Nebenabweichung — unabhängig davon, ob die Lehre kalibriert ist.
Was ist der Kappa-Koeffizient und wie wird er interpretiert?
Der Kappa-Koeffizient (Cohen's Kappa) misst die Übereinstimmung zwischen Prüfern — bereinigt um den zufälligen Anteil der Übereinstimmung. Ein Kappa von 1,0 bedeutet vollständige Übereinstimmung; ein Kappa von 0 bedeutet, die Übereinstimmung ist nicht besser als Zufall. Die übliche Grenzwert-Logik für MSA-Zwecke: Kappa ≥ 0,9 = sehr gut, Kappa 0,75–0,89 = akzeptabel, Kappa unter 0,75 = nicht akzeptabel. Zusätzlich wird die direkte Übereinstimmungsquote geprüft: Wie oft stimmte ein Prüfer mit sich selbst überein (Repeatability)? Wie oft stimmten Prüfer untereinander überein (Reproducibility)? Und: Wie gut stimmt das Prüferurteil mit dem Referenzurteil überein? Alle drei Quoten zusammen geben das Bild.
Wie viele Teile und Prüfer brauche ich für eine attributive Studie?
Das AIAG MSA Manual empfiehlt 50 Teile, 2–3 Prüfer, 2–3 Wiederholungen. Wichtig: Die 50 Teile müssen gezielt ausgewählt werden — darunter viele Grenzteile (Teile die nahe an der Gut/Schlecht-Grenze liegen). Wenn alle Teile eindeutig gut oder eindeutig schlecht sind, ist die Studie wenig aussagekräftig, weil ein konsistentes Ergebnis fast unvermeidlich ist. Die schwierigen Grenzfälle sind der eigentliche Test des Prüfsystems: Können die Prüfer auch dort zuverlässig und übereinstimmend urteilen? Als Minimum sind bei stark begrenztem Teilebestand 30 Teile möglich — aber die statistische Aussagekraft sinkt entsprechend.
Was ist der Unterschied zwischen Kappa für Repeatability und Reproducibility?
Repeatability-Kappa bewertet den Prüfer gegen sich selbst: Misst Prüfer A denselben Teil in zwei verschiedenen Runden konsistent? Reproducibility-Kappa bewertet Prüfer untereinander: Kommen Prüfer A und Prüfer B zu demselben Urteil für dasselbe Teil? Das dritte Kappa ist das entscheidende: Übereinstimmung mit dem Referenzurteil (Reference-Agreement). Das Referenzurteil ist die "wahre" Klassifizierung — ermittelt durch ein höherwertiges Messsystem oder durch Fachexperten-Konsens. Ein Prüfer kann intern sehr konsistent sein (hohe Repeatability) und trotzdem systematisch falsch liegen (niedriges Reference-Agreement). Auditoren prüfen alle drei.
Wie unterscheidet sich die attributive Studie von einer Gage R&R?
Gage R&R (Typ 2) arbeitet mit kontinuierlichen Messwerten: Das Messmittel liefert Zahlen, aus denen Mittelwerte und Streuungen berechnet werden. Kennwerte sind %GRR und ndc. Die attributive Studie (Typ 4) arbeitet mit binären Urteilen: Gut oder Schlecht, Ja oder Nein, Bestanden oder Nicht bestanden. Es gibt keine Messwerte — nur Klassifizierungen. Daher sind statistische Methoden wie ANOVA nicht anwendbar. Stattdessen kommen Kappa-Analyse und direkte Übereinstimmungsquoten zum Einsatz. Technisch gehört die attributive Studie zur MSA-Familie, ist aber methodisch ein eigenständiges Verfahren.
Was muss getan werden wenn Kappa unter 0,75 liegt?
Ein Kappa unter 0,75 ist ein Nicht-Bestehen — das attributive Messsystem ist für den vorgesehenen Zweck nicht geeignet. IATF 16949 verlangt auch hier eine dokumentierte Maßnahme. Typische erste Schritte: Analyse wo die Übereinstimmungsprobleme auftreten (nur bei Grenzteilen? Systematisch für einen bestimmten Prüfer? Nur in bestimmten Schichten?). Bei Repeatability-Problemen: Prüfmethode nicht ausreichend standardisiert — klarere Arbeitsanweisung, definierte Messbedingungen (Licht, Winkel, Einspannung). Bei Reproducibility-Problemen: Prüfer haben unterschiedliche Urteilskriterien — Schulung mit Referenzteilen (Boundary Samples). Die Studie muss nach Maßnahmen wiederholt werden.
Messsystemanalyse — alle vier Studientypen, Kennwerte und wann welcher Typ eingesetzt wird →
Gage R&R · %GRR · ndc · AIAG MSA ManualGage R&R (MSA Typ 2): Studiendesign, %GRR-Auswertung und ndc-Interpretation für mehrere Prüfer →
IATF 16949 · Klausel 7.1.5.1.1 · Audit-AnforderungenMSA nach IATF 16949 — was Auditoren konkret prüfen, häufige Nebenabweichungen und OEM-Vorgaben →
Typ-1-Studie · Cg/Cgk · VDA Band 5MSA Typ-1-Studie: Cg und Cgk berechnen — Schritt-für-Schritt mit Rechenbeispiel für die Fertigung →
Kappa berechnet.
Referenz geprüft.
Protokoll
auf Knopfdruck abrufbar.
Attributive Studien für Gut/Schlecht-Lehren manuell durchführen, Kappa per Hand berechnen, Protokolle zusammentragen — das ist die falsche Vorbereitung für einen IATF-Audit. QIMS übernimmt Studienführung, Auswertung und Dokumentation automatisch. Vor dem Audit ist die Vollständigkeit aller Studien in Sekunden geprüft, nicht in Stunden.
30 Minuten. Kein Pitch. Kein Vertriebsdruck danach.