Spass mit Pferd
Motivation und Harmonie durch positive Bestärkung

Lernen durch Bestärkung

Ohne die Fähigkeit zu lernen, wären wir nicht im Stande, zu überleben. Lernen ist ein Prozess, der sich ein ganzes Leben lang vollzieht. Wir empfangen permanent unterschiedlichste Reize und Signale, die über die Sinnesorgane aufgenommen und vom Gehirn verarbeitet werden.

Ein großes Teilgebiet des Themas Lernen ist das Lernen durch Bestärkung. Auch im Alltag unterliegen wir den Prinzipien des Bestärkungslernens – häufig ohne es zu bemerken. Oft werden diese Prinzipien falsch angewendet – wir drohen, streiten und üben Zwang aus und vergessen dabei, im richtigen Moment zu loben und erwünschtes Verhalten zu bestärken. Ein Verhalten zu bestärken, bedeutet, die Häufigkeit des Auftretens zu beeinflussen, indem man es an einen positiven oder negativen Reiz koppelt.


Lernen ist auch im Alter noch möglich.

Positive/negative Bestärkung

Eine positive Bestärkung ist alles, was angenehm und erstrebenswert wirkt und in Zusammenhang mit einem Verhalten dazu führt, eine Handlung wiederholt auszuführen. Wir arbeiten für Geld, für Lob, für die Möglichkeit, uns eine Anerkennung zu verdienen. Tiere empfinden Dinge wie Nahrung, Wasser, Sozialkontakte, Spielen/Spielzeug als Bestärkung. Auch selbstverstärkendes Verhalten kann eine Belohnung darstellen. Für ein Pferd kann ein Galopp, ein Steigen oder ein freies Spiel Bestärkung sein, ebenso ein Kopfsenken oder Ablegen, weil es entspannend wirkt.

Ebenso kann ein gut trainiertes Signal zur Belohnung werden, weil es mit vielen positiven Erfahrungsmomenten in der Vergangenheit verknüpft ist und somit selbst Belohnungscharakter erhält.
Behavior Chains with Cues as Reinforcers

Negative Bestärkung stellt alles dar, was unangenehm ist und vermieden werden möchte. Eine negative Bestärkung sorgt dafür, dass eine Handlung ausgeführt wird, um einen unangenehmen Reiz zu umgehen. Das Anschnallsignal im Auto sorgt beispielsweise dafür, dass wir mit Gurt fahren, ein Impuls am Strick, dass das Pferd stehen bleibt.

Bei der Anwendung einer positiven Bestärkung wird etwas Angenehmes hinzugefügt.
Beim Einsatz einer negativen Bestärkung wird etwas Unangenehmes entfernt. Negativ ist dabei nicht wertend zu sehen, sondern mathematisch definiert: etwas Unangenehmes wird entfernt, also subtrahiert (minus). Im Vergleich dazu wird bei einer positiven Bestärkung etwas Angenehmes hinzugefügt, also addiert (plus).
Negative vs Positive Reinforcement


Das Verknüpfen mit etwas Positivem kann die Häufigkeit eines Verhaltens beeinflussen.

Lernen durch Strafe

Negative Bestärkung darf nicht mit Strafe verwechselt werden. Bei der Anwendung von negativer Bestärkung erfolgt der Reiz, der vermieden werden möchte, während des Verhaltens, das wir beeinflussen möchten. Ein Parieren am Zügel motiviert das Pferd beispielsweise dazu, stehen zu bleiben. Sobald der Trainee das erwünschte Verhalten zeigt, wird der Reiz entfernt.

Beim Einsatz von Strafe wird der unangenehme Reiz gegeben, nachdem ein nicht erwünschtes Verhalten bereits ausgeführt wurde. Das Pferd bekommt einen Ruck am Zügel oder wird verbal zurecht gewiesen, weil es nicht gehorcht hat. Das Tier hat keine Möglichkeit, ein Verhalten zu korrigieren, da es bereits passiert ist.
Wir sprechen dabei von der so genannten positiven Strafe. Positive Strafe hört sich erstmal paradox an. Wie kann etwas Unangenehmes positiv sein? Auch hier ist die Bezeichnung mathematisch zu sehen – bei der Anwendung von positiver Strafe folgt ein unangenehmer Reiz dem unerwünschten Verhalten, er wird also hinzugefügt.


Der Entzug von Aufmerksamkeit kann ein Verhalten korrigieren.

Der positiven Strafe steht die sogenannte negative Strafe gegenüber. Beim Einsatz von negativer Strafe wird etwas Angenehmes entfernt, also subtrahiert. Möchte man ein falsches Verhalten korrigieren, entfernt man Aufmerksamkeit, Futter oder Streicheleinheiten. Der Trainee erhält ein Timeout und hat keine Möglichkeit, sich eine Belohnung zu verdienen. Für ein positiv trainiertes Tier kann dieses Timeout eine massive Form von Strafe darstellen und sollte daher nur dosiert eingesetzt werden. Im Vergleich dazu kann ein Timeout beim Einsatz von anderen Trainingsmethoden eine Form von Belohnung sein (ich lasse das Tier in Ruhe).

Vergiftete Signale

In der Praxis wird der Einsatz von positiver und negativer Bestärkung und Strafe häufig kombiniert. Nicht selten mit dem Wunsch, eine Übung zuverlässig abzusichern. Dieses Absichern ist oft nicht nur entbehrlich, sondern kann auch dafür sorgen, dass ein Verhalten zusammen bricht. Trainiert man eine Übung über positive Bestärkung, wird der Trainee diese gerne ausführen, weil das Fehlen von Druck und die Aussicht auf eine Belohnung motivierend auf ihn wirken. Das Kommando und die Übung selbst wird mit etwas Positivem verbunden.

Sobald man beginnt, fehlerhafte Ausführungen zu bestrafen, um dem Tier klar zumachen, dass es die Übung jederzeit ohne Ausnahme durchführen muss, wird man Übung und Signal „vergiften“. Das Tier lernt, dass eine Lektion nicht nur Gutes verheißt. Sie kann auch bedeuten, dass etwas Unangenehmes folgt. Diese Ambivalenz kann zu Verwirrung und Stress führen. Verhalten, das bestraft werden kann, wird tendenziell vermieden. Bevor der Trainee das Risiko eingeht, bestraft zu werden, verzichtet er lieber auf die Belohnung.


Vergiftete Signale schleichen sich oftmals unbemerkt in den Trainingsalltag ein.

Um ein Signal oder eine Übung nicht zu vergiften, muss man sie frei von unangenehmen Reizen halten. Dass ein Verhalten nur durch Strafe zuverlässig trainiert werden kann, ist ein weit verbreiteter Irrtum. Gerade dort, wo Zuverlässigkeit und Genauigkeit an höchster Stelle stehen, ist der Einsatz dieser Methode schon lange verpönt. Einen Servicedog, Lawinen- oder Minensuchhund (oder -ratte) mit Hilfe von Strafe auszubilden, ist nicht nur ineffizient, sondern auch gefährlich. Tiere, die durch Meidemotivation trainiert werden, sind für diese Art von Jobs gänzlich ungeeignet.
Ein schönes Beispiel, wie zuverlässig Tiere durch den Einsatz von positiver Bestärkung arbeiten, bietet folgendes Video, das das Blindenpony Panda und seine Trainerin Alexandra Kurland zeigt:
Panda: A Clicker Trained Assistance Horse

Ein Signal zu vergiften, ist sehr einfach. Ein „Nein“ in Kombination mit dem Namen des Tieres kann dazu führen, dass dieser für das Tier etwas Unangenehmes darstellt. Ein unabsichtlich herabfallender Gegenstand nach einem Signal zum Sitz, der den Hund erschreckt, kann dafür sorgen, dass das Verhalten in Zukunft vermieden wird. Auch ein zu häufig an stressreichen Orten geübtes Verhalten kann sich mit der Zeit vergiften.


Reagiert das Pferd nicht auf das Signal, kann es vergiftet sein.

Konditionierte Bestärker

Beim Lernen durch Bestärkung ergibt sich ein Problem: Oft kann eine Bestärkung nicht im richtigen Moment gegeben werden. Der Trainee verbindet ein Verhalten vielleicht mit einem Bestärker, wenn dieser nach jeder Ausführung folgt. Er weiß aber nicht, welches Verhaltensdetail gerade erwünscht ist. Um dieses Problem zu lösen, muss eine Verknüpfung geschaffen werden zwischen der Übung und dem Bestärker. Man bedient sich dabei eines sogenannten konditionierten Bestärkers. Das ist ein für den Trainee anfangs bedeutungsloser Reiz, der mit einer Belohnung verknüpft und dadurch zu deren Vorankündigung wird. Wir sprechen dabei von einer sogenannten appetitiven Konditionierung.
Der Click ist ein Versprechen auf Futter, das Telefonklingeln kündigt einen netten Anruf an, die Küchenuhr verspricht leckeres Essen, die Schulglocke eine Pause.


Der Clicker ist ein konditionierter Bestärker.

Auch eine aversive Konditionierung ist möglich – ein Reiz wird mit etwas Unangenehmen in Verbindung gebracht. Ein Türklingeln signalisiert beispielsweise nichts Gutes, wenn wir häufig lästigen Besuch empfangen.
 
www.SpassMitPferd.at.tf