Diese Studie untersuchte die Unterschiede in der Beurteilung potenzieller Pickverletzungen bei Putenhennen anhand von Bildausschnitten. Drei Beobachter (OBS1, OBS2, OBS3) mit unterschiedlichem Vorwissen – einer mit Erfahrung in der Beurteilung von Pickverletzungen bei Puten und zwei Informatikstudenten – bewerteten insgesamt 24.912 Bildausschnitte. Die Bildausschnitte wurden in Arbeitspaketen (je 2.076 Bilder) ausgewertet und von den Beobachtern als Kopfverletzung (HI), Hautverletzung im Federbereich (SI) oder keine Verletzung (NI) klassifiziert.
Zwei Beobachter bewerteten drei Pakete (OBS1, OBS2: je 6.228 Bildausschnitte), OBS3 annotierte sechs Arbeitspakete (12.456 Ausschnitte). Der prozentuale Anteil der Klassifizierungen in der chronologischen Reihenfolge der Beobachtungen wurde analysiert.
Unerfahrene Beobachter (OBS2 und OBS3) stuften durchschnittlich 13 % der gezeigten Bilder als HI (head injury, Kopfverletzung), 70 % als SI (skin injury, Hautverletzung) und 17 % als NI (no injury, keine Verletzung) ein. OBS1 klassifizierte im Durchschnitt 12 % der Bilder als HI, 60 % als SI und 28 % als NI.
Im Verlauf der Studie stuften alle Beobachter mehr Aufnahmen als NI ein. Insbesondere OBS1, der über die größte Erfahrung in der Beurteilung von Pickverletzungen verfügte, zeigte eine abweichende Bewertung, indem er im Laufe der Zeit mehr Bilder (plus 5 %) als NI einstufte (OBS2: plus 0,7 %; OBS3: plus 2,2 %).
Dieses Ergebnis wirft die Frage auf, ob abweichende Bewertungen bei wiederholten Beurteilungen immer auftreten und wie dieser Effekt vermieden werden kann.
Die Arbeit umfasste die Anmerkungen von drei Beobachtern, von denen einer (Forscher auf dem Gebiet des Tierschutzes) bereits Erfahrung mit Pickverletzungen bei Puten hatte (OBS1), während die anderen beiden Informatikstudenten waren (OBS2 und OBS3).
–
Die Studienergebnisse zeigten, dass die wiederholte Durchführung von Beurteilungen, wie beispielsweise die Klassifizierung von Pickverletzungen bei Puten, zu unterschiedlichen Einschätzungen führen kann. In einer Studie von Thomson et al. (2008) wurde ein Bewegungsbeurteilungsexperiment mit Milchkühen nach einer Woche wiederholt und ein zusätzliches Training durchgeführt. Beim zweiten Durchgang zeigte sich eine leicht verringerte Übereinstimmung zwischen den Beobachtern, da sie den Gang der Kühe gleichzeitig im Stall beurteilten. Thomson et al. (2008) nahmen an, dass der kurze Zeitraum zwischen den beiden Beurteilungen die Wahrscheinlichkeit verringerte, dass sich der tatsächliche Lahmheitsstatus der Kühe zwischen dem ersten und dem zweiten Durchgang veränderte, und stellten fest, dass das Beobachtertraining nur geringe Auswirkungen auf die Übereinstimmung zu haben schien.
In der vorliegenden Studie könnte die Modifizierung der Beurteilung potenzieller Pickverletzungen zu einer Abstumpfung der Beobachter geführt haben, da die Anzahl der als unverletzt klassifizierten Tiere abnahm. Es ist auch möglich, dass die Beobachter ihre Wahrnehmung der Bildausschnitte im Laufe der Zeit verbesserten, sodass diese Entwicklung als positiver Lerneffekt interpretiert werden kann. In einer Studie zur Zuverlässigkeit und Genauigkeit der Erkennung von Brustbeinschäden bei Hennen wurde durch Wiederholung eine Verbesserung der Palpationsbeurteilung beobachtet, die durch den Vergleich der Ergebnisse mit denen aus Röntgenaufnahmen und Sonografien bestätigt wurde (Tracy et al. 2019). Tracy et al. (2019) stellten zudem eine sehr große Streuung der Palpationsergebnisse zwischen den unterschiedlich erfahrenen Untersuchern fest. In der vorliegenden Studie lassen sich die Ergebnisse des erfahrenen Untersuchers (OBS1) jedoch vermutlich nicht durch einen Lerneffekt erklären. Dieser war in der Beurteilung von Pickverletzungen anhand von Bildern besonders geübt und geschult, dennoch war der Effekt der Auswertung weiterer Bildausschnitte mit NI bei OBS1 deutlicher ausgeprägt als bei den Informatikstudenten (OBS2 und OBS3). Es ist daher denkbar, dass unerfahrene, nicht spezialisierte Untersucher objektiver urteilen und die Qualität der Ergebnisse solcher Studien nicht beeinträchtigen, sondern sogar verbessern können. Dies hängt natürlich von der Komplexität des Beurteilungsverfahrens ab. In der vorliegenden Studie war weniger Vorwissen erforderlich als beispielsweise in Situationen, in denen ein Beobachter die Mittelwerte eines Gangmusters im Rahmen eines mehrstufigen Lokomotionsscores beurteilen soll (Winckler und Willen 2001) oder wenn ein Gesundheitszustand auf Grundlage medizinischer Expertise dokumentiert werden soll (Baadsgaard und Jørgensen 2003). Ein „Abstumpfungseffekt“ wird jedoch nur aufgrund der veränderten Annotationen eines einzelnen geschulten Beobachters vermutet. Um diese Annahme zu überprüfen, sollten wiederholte Beobachtungen von mehreren (erfahrenen) Teilnehmern durchgeführt werden.
Bei der Präsentation der Ergebnisse der wiederholten Beurteilungen ist zu beachten, dass in dieser Studie kein Goldstandard oder Ethogramm verwendet wurde. Daher lässt sich nicht feststellen, welche Beurteilung korrekt war und ob die veränderte Beurteilung die Ergebnisse verbessert hat. Es kann jedoch angenommen werden, dass Informatikstudierende, denen das Vorwissen über Pickverletzungen bei Puten fehlte, bei der Bildauswertung weniger erwartungsbedingte Verzerrungen aufwiesen. Eine solche Beurteilungsverzerrung ist wahrscheinlich, wenn der Beobachter starke Vorannahmen hat oder ein Eigeninteresse am Ergebnis besitzt (Tuyttens et al. 2014).
Eine Einschränkung dieser Studie ist das Fehlen eines Tests zur Intra- und Inter-Reliabilität zwischen den Beobachtern. Da diese Auswertungen erst nach Abschluss der Hauptstudie (Schmarje et al. 2022) durchgeführt wurden, war ein retrospektiver Beobachtervergleich nicht möglich. Daher sollten die Ergebnisse dieser Studie eher dazu anregen, mögliche zeitliche Veränderungen in der Bildbewertung genauer zu untersuchen. Dennoch ist es unbestritten, dass in weiteren Studien Tests zur Intra- und Inter-Reliabilität durchgeführt werden sollten. Darüber hinaus sollten Bildbewertungen wiederholt und Veränderungen in der Beobachtung berücksichtigt werden. In einem Artikel von Risinger et al. (2002) zu Beobachtereffekten aufgrund von Erwartungen wird ein Beispiel angeführt, in dem der Beobachter in einer Zeichnung etwas anderes sieht, je nachdem, welche ähnlichen Bilder er/sie zuvor betrachtet hat. Daher sollte die Bildauswertung an denselben Fotos in unterschiedlicher Reihenfolge durchgeführt werden, um eine mögliche „Abstumpfung“ zu vermeiden oder aufzudecken. Die Beurteilung eines nur leicht erkrankten oder leicht verletzten Tieres kann nämlich anders ausfallen, wenn man zuvor viele schwer kranke oder schwer verletzte Tiere gesehen hat.
Zusammenfassend lässt sich festhalten, dass der in diesem Kurzbericht angenommene „Abstumpfungseffekt“ in weiteren Studien mit einem anderen Studiendesign überprüft werden sollte. Es ist jedoch zu erwarten, dass analog zu den Annahmen bezüglich der „Abstumpfung“ in dieser Studie auch andere Bewertungen/Klassifizierungen Einflüssen wie Gewöhnung, Zeit oder Müdigkeit unterliegen. Zukünftige Studien sollten untersuchen, inwieweit unerfahrene, nicht spezialisierte Beobachter objektiver urteilen können und ab welcher Anzahl von Bildern eine solche „Abstumpfung“ beobachtet werden kann.
Varying image assessment of pecking injuries in Turkeys while performing repetitions, Volkmann et al. 2025
https://link.springer.com/article/10.1007/s11259-025-10833-6
In einer unserer Studien haben wir uns mit einer Frage beschäftigt, die in der Tierwohlforschung zentral ist und oft unterschätzt wird:
Wie stabil und verlässlich sind menschliche Bewertungen, wenn Bilder von Tieren wiederholt beurteilt werden?
In der Studie wurden Bildausschnitte von Putenhennen hinsichtlich möglicher Pickverletzungen bewertet. Dieses Vorgehen ist zum Beispiel relevant, um KI-Modelle für die automatisierte Erfassung von Tierwohlindikatoren zu trainieren. Drei Beobachtende mit unterschiedlichem Vorwissen ordneten die gleichen Bilder wiederholt Kategorien wie „Verletzung“ oder „keine Verletzung“ zu.
Das Ergebnis:
Alle Beobachtenden stuften im Verlauf der wiederholten Bewertungen zunehmend mehr Bilder als unverletzt ein. Dieser Effekt war besonders ausgeprägt bei der erfahrensten Beobachterin. Das wirft grundlegende Fragen auf zur Rolle von Erfahrung, Erwartungshaltungen und möglichen Gewöhnungseffekten bei der Tierbeurteilung.
Die Ergebnisse zeigen, dass selbst geschulte und erfahrene Personen nicht frei von zeitlichen Veränderungen in ihrer Bewertung sind. Gleichzeitig wird deutlich, dass auch fachfremde Beobachtende valide Beiträge leisten können, wenn die Aufgabe klar definiert ist.
Für die Forschung bedeutet das:
Beobachtungen brauchen klare Definitionen, Transparenz und eine kritische Reflexion der menschlichen Rolle im Bewertungsprozess. Gerade im Kontext von Digitalisierung und KI ist das entscheidend, denn Trainingsdaten sind nur so gut wie die Bewertungen, auf denen sie beruhen.