當前位置:
首頁 > 寵物 > 都是狗做對就獎勵,我和專業訓犬師有何不同?

都是狗做對就獎勵,我和專業訓犬師有何不同?

我回來的時候它很熱情的親我,該不該獎勵它?

它大部分時間都很聽話,我老想獎勵它,會不會太頻繁了呢?

獎勵總是要給吃的嗎?怎樣的獎勵最有效呢?這次我們就來談談獎勵。

我們曾經說過,對狗狗而言除了食物,還有很多行為可以成為獎勵(詳情《對狗狗而言,原來這些都算獎勵》)。在知道什麼是獎勵之後,如何正確運用獎勵,才能把獎勵效果最大化,讓狗狗更開心。

獎勵必須讓狗狗感覺到!每隻狗狗都有自己獨特愛好,都會重視某些獎勵,比如大多數狗狗都不能抵擋零食的誘惑。而且不同獎勵在狗狗心目中的地位,可能每一刻都不同。

舉個例子,一個雞肉乾,在上一刻是最具吸引力的獎勵。但是這一刻它身邊多了一大群狗狗,這時候它只想去玩。對你的表揚、撫摸、一塊雞肉乾都感到索然無味,給它一句「去玩吧」,才是當下最具有吸引力的獎勵。

也就是說,你可以把讓狗狗分心的事物,轉換成強化行為的獎勵,這種狗狗能感知到並強烈認同的獎勵,對正向引導良好行為會發揮最大功效。

獎勵必須立即,和懲罰一樣,因為延遲獎勵總會是強化錯誤的行為。

舉個栗子,如果狗狗在和其他狗玩,聽到召喚立即飛奔回來你身邊,稱讚就別給的太遲了。因為狗狗可能會無聊坐下或者向你撲跳,而遲來的獎勵就變成表揚坐下或撲跳。稍微一慢,獎勵的行為可能就完全不一樣。

延遲獎勵還有其他風險,就是產生「抑制好習慣」的悲劇效果。舉例說,如果狗狗聽話地回到你身邊,卻因為撲跳而受到懲罰,這項懲罰不但強烈抑制撲跳行為,也部分抑制了良好的召回行為,最後狗狗聽到你的召喚就不想回來了。你應該立即獎勵狗狗的正確行為,也應該立即懲罰狗狗的不良行為,這樣才能強化好習慣和抑制壞習慣。

關於何時該獎勵、何時不該獎勵動物,就有成千上萬的科學研究報告。動物心理學研究使用了好幾種不同的強化獎勵機制:

連續強化(CR) | 固定比率(FR)| 固定時距(FI)| 變化比率(VR)| 變化時距(VI)| 區辯性(DR)

別怕,因為上面很多獎勵機制都只適用於學術研究,生活中並不實用

連續強化其實只出現在實驗室裡面,一般通過電腦控制分配獎勵。連續強化在訓犬方面能發揮的功效相當有限,首先沒有任何訓練者,能那麼精確連續地為狗狗的每個正確回應給予獎勵;其二狗狗如果接受連續強化作用,一開始會積極學習,很快就會煩厭抗拒,這種獎勵沒法長久實施。

同樣的,如果使用固定時距獎勵,就等同於我們每個月定時發工資,反正你都知道不管中間有沒有偷懶,到點就會發工資,有的人就會在中間偷懶。這樣的獎勵時間機制,同樣對狗狗沒什麼效果。

推薦你使用「變化強化」的方式,去處理給予獎勵的時機。變化包括正確行為的執行次數,或者一個正確行為執行時間的變化。

好吧說人話,例如我們要狗狗學會坐下這個指令,那麼第1次做到有獎勵,第4次、第12次、第17次、第20次分別也有獎勵。把5次獎勵變化地分配到20次正確回應中,而不是平均的進行分配。

如果要狗狗學會安靜等待,我們可能要在等待5秒、等待20秒、等待13秒、等待34秒的時候給予獎勵,而不是每次達到15秒時給予獎勵。

當你用獎勵誘導狗狗進行訓練時,可以從一開始就使用變化的機制。

如果狗狗一開始就做對了,然後你要儘快開始降低獎勵的比率,要求它做出兩次正確的行為才給予一次獎勵。

有一點非常重要,不要讓狗狗每次做出同樣的行為都必然獲得獎勵。如果這樣做,它確實會學得很快,但也會忘記得很快。如果獎勵的時機是偶然和隨機的,它會學得很快,也會記得更牢固,會更努力爭取好的表現。

為什麼變化性的強化獎勵能有這樣的效果?明明它獲得的獎勵數量是比連續強化少得多。

如果連續獎勵,狗狗確實得到更多獎勵,但也更容易對獎勵感到厭倦,失去興趣和新鮮感,獎勵就沒有意義了。

此外,狗狗知道就算自己回應得晚了,只要回應,也會有獎勵,那我還急什麼急?甚至覺得「反正這次不做對,下次做對了也會有獎勵」,那麼這次懶得做,就下次再做唄。

為什麼雙十一大家發瘋一樣買買買?因為知道錯過了可能就沒機會,如果天天雙十一,你還會瘋狂買買買嗎?

玩抓娃娃機,你不停的投幣進去,一次又一次可愛的公仔都在邊緣滾動,你心癢難熬,總期待下一次它就會掉到你的手裡。在經過不斷的思考、努力、投幣之後,你付出了遠超過娃娃本身的費用,終於抓到了一個娃娃!這一次獎勵的成就感,讓你重新進入下一次的投幣……

狗狗也是一樣,通過你變化機制的訓練,它知道會有獎勵,但不知道什麼時候有。當沒有獎勵的時候,它不放棄也不埋怨,只會繼續努力的表現。

總有一些時候你手邊剛好沒零食,這時你並不需要著急擔心,因為你平時的訓練已經打下良好基礎,它仍然會有正確的反應。

人腦和電腦不同之處,是能感受到生命中情緒的細微變化。同樣一個撿球的行為,每次狗狗的回應都是有細微差別的。除了在上面說的隨機變化之外,我們更應該通過觀察狗狗每次表現的細微差別,去獎勵它最優秀的那些表現。

10次撿球,第3次反應快,第4次等待特別有耐心,第12次特別專註又愉快,這都是我們可以加強獎勵的時機,讓狗狗知道它有越好的表現,會得到越及時、強烈的獎勵,最優秀的一次表現甚至可以獲得超級大獎。

通過對時機、表現的把握,我們靈活運用獎勵去對狗狗進行訓練和行為強化,訓練就變成一個特別有趣的互動遊戲,而且是一個學無止境、精益求精的過程。狗狗的行為、情緒、性格,都在整個過程中得到正向的引導和塑造,你終將獲得一個越來越默契、服從性高、心態正面積極的生活伴侶。

參考

Dinsmoor, James A. (2004) " The etymology of basic concepts in the experimental analysis of behavior ." Journal of the Experimental Analysis of Behavior , 82 (3): 311-316.

Michael, Jack. (1975) " Positive and negative reinforcement, a distinction that is no longer necessary; or a better way to talk about bad things ." Behaviorism , 3 (1): 33-44.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 巨小萌 的精彩文章:

天下狗狗一樣貪吃,被pizza誘惑秒變清潔工,瘋狂舔窗戶
貓主子冷到發抖,冬天給貓保暖的八個秘訣,最好的就是曬太陽

TAG:巨小萌 |