在關(guān)于狗乞食行為的例子中,狗在做出乞食反應(yīng)后,伴隨著一些愉快的事情(得到肉塊),所以會使其反應(yīng)增多。相似地,如果你學(xué)習(xí)后取得了好成績,你就會繼續(xù)努力或更加努力地學(xué)習(xí)。在這一過程中,愉快的后果使反應(yīng)更可能發(fā)生,這叫正強(qiáng)化。
正負(fù)強(qiáng)化物和懲罰物
但也存在另一種類型的強(qiáng)化——負(fù)強(qiáng)化(negative reinforcement),它涉及去除一些不愉快事物的過程。例如,如果有人總是嘮叨讓你學(xué)習(xí),當(dāng)你聽從時就不再嘮叨,你的學(xué)習(xí)行為可能會增加——因為你想避免被嘮叨:同樣,吃藥會緩解病痛,在校園里刻意選擇走某條路就是為了避免碰見那個粗魯?shù)娜,都是?fù)強(qiáng)化發(fā)生的情況。
這種正負(fù)的區(qū)分也可用于懲罰:出現(xiàn)一些行為后,會發(fā)生一些不愉快事件(正懲罰),或者一些愉快事件被去除(負(fù)懲罰)。例如,如果你的朋友取笑你是個書呆子(正懲罰),或如果學(xué)習(xí)使你沒時間和朋友在一起(負(fù)懲罰),你可能就會停止學(xué)習(xí)。
正負(fù)強(qiáng)化和正負(fù)懲罰之間的區(qū)別常常是引起學(xué)生產(chǎn)生混淆的原因,它擾亂了許多聰明的大腦。如果你理解了“正”“負(fù)”與“好”“壞”無關(guān),就能更快地掌握這些術(shù)語。
它們是指是否呈現(xiàn)某物或拿走某物。在強(qiáng)化程序中,應(yīng)把正強(qiáng)化物看作某種增加或獲得的東西(你可以畫一個“+”號),負(fù)強(qiáng)化則是避免或逃離某種不愉快的事物(可以畫一個“—”號)。
在這兩種情況下,反應(yīng)都變得更可能發(fā)生。還記得小艾伯特通過經(jīng)典條件反射學(xué)會恐懼老鼠時發(fā)生了什么嗎?在他學(xué)會恐懼后,逃離當(dāng)前可怕的情境時,爬走的行為被強(qiáng)化了。逃離或避免某種不愉快事物帶來的負(fù)強(qiáng)化,可以解釋為什么如此多的恐懼可以長久持續(xù),在避免一種可怕物體或情境的同時,也切斷了所有消除恐懼的機(jī)會。
人們常;煜(fù)強(qiáng)化是可以理解的,這是因為二者都包含不愉快刺激。但是,在懲罰中,你遭受了不愉快刺激,而在負(fù)強(qiáng)化中,不愉快刺激則被去除掉了。
為了正確理解這些術(shù)語,應(yīng)當(dāng)記。簯土P(無論正負(fù))減少了反應(yīng)發(fā)生的可能性,而強(qiáng)化(無論正負(fù))則增加了這種可能性。
在現(xiàn)實生活中,懲罰和負(fù)強(qiáng)化常常同時存在。如果你使用項圈來教狗跟隨主人,那么猛拉項圈就是對它走到你前面去的懲罰,而放松項圈就是對狗在你旁邊的負(fù)強(qiáng)化。
你可以通過休息一會兒來正強(qiáng)化你對這些材料的學(xué)習(xí),當(dāng)你已經(jīng)掌握了這些材料時,焦慮降低就將對你的學(xué)習(xí)產(chǎn)生負(fù)強(qiáng)化。但是,我們希望你不會對自己說“我永遠(yuǎn)也會不了”或“這太難了”來懲罰你的努力。
操作性條件反射的原理
研究者進(jìn)行了數(shù)以千計操作性條件反射的研究,其中許多都是以動物為被試進(jìn)行的。一種受歡迎的研究工具是斯金納箱(Skinner box),它有一種裝置,當(dāng)動物做出期望反應(yīng)時就給它食物或水,當(dāng)做出不期望的反應(yīng)時就給它電擊。
在現(xiàn)在的版本中,電腦會記錄反應(yīng)并生成一張圖,表明反應(yīng)隨時間而增加的次數(shù)。
在斯金納(Skinner,1938)的早期學(xué)術(shù)生涯中,他使用斯金納箱經(jīng)典地證明了操作性條件反射。他將先前學(xué)會了通過食物釋放裝置吃東西的老鼠放在箱中,因為沒有食物,老鼠表現(xiàn)出典型的行為,倉皇四竄、到處嗅聞,偶爾會碰到地板和墻。非常偶然地,它壓到了墻上的杠桿,一粒美味鼠食立即掉在食盤中。
然后老鼠又四處亂竄,再次偶然地碰到杠桿,得到食物。再經(jīng)過幾次這樣碰到杠桿得到食物的重復(fù),它的行為就開始減少隨機(jī)性,能夠更協(xié)調(diào)地按壓杠桿。最后,斯金納使老鼠學(xué)會了盡可能快地按壓杠桿。
消退
就像經(jīng)典條件反射那樣,在操作性條件反射中,消退(extinction)是導(dǎo)致先前習(xí)得反應(yīng)消失的程序。在操作性條件反射中,保持反應(yīng)的強(qiáng)化物被去除或不能得到時就會發(fā)生消退。起初,可能會出現(xiàn)反應(yīng)爆發(fā),但隨后反應(yīng)就會漸漸變?nèi),最終則會消失。
設(shè)想一下,若你在售貨機(jī)里投入一枚硬幣,卻什么也沒得到,你也許會投入另一枚硬幣,甚至兩枚,但隨后你就可能會停止嘗試。第二天,你也許還會投入一枚硬幣,這是自然恢復(fù)的例子。但最終,你會放棄那臺機(jī)器。你的反應(yīng)已經(jīng)消退了。
刺激泛化和分化
就像經(jīng)典條件反射那樣,在操作性條件反射中也可能發(fā)生刺激泛化2(stimulus generaliza-tion)。也就是說,反應(yīng)可能會泛化到在最初的學(xué)習(xí)情境中沒有出現(xiàn)的但在某種程度上類似于最初刺激的刺激。
例如,通過訓(xùn)練已經(jīng)學(xué)會啄圓形的鴿子,也會啄有點橢圓的圖形。但是,如果你想訓(xùn)練這種鳥辨別這兩種形狀,你就應(yīng)同時呈現(xiàn)圓形和橢圓,每次鴿子啄圓形時就給出強(qiáng)化物,啄橢圓時就不給強(qiáng)化物,最后它就會產(chǎn)生刺激分化(stimulus discrimination)的反應(yīng)。
事實上,鴿子已經(jīng)獲得了特殊的辨別能力,它們甚至學(xué)習(xí)了區(qū)別凡·高(Van Gogh)和馬克·夏卡爾(Marc Chagall)的油畫(Watanabe,2001),然后,呈現(xiàn)這兩位畫家的其他兩幅作品,它們也能區(qū)分開。
有時,動物或人只有在其他一些刺激存在時,才能學(xué)會對刺激反應(yīng),這種刺激叫作辨別刺激。
這種辨別刺激提示了反應(yīng)是否會得到獎勵。對于斯金納箱中的鴿子來說,燈光可以作為啄圓形的辨別刺激。燈亮?xí)r,啄的行為會得到獎勵;燈滅時,啄的行為是徒勞的。人類的行為被許多辨別刺激所控制,如語言(營業(yè)時間是9點到5點)和非語言的(交通信號燈、門鈴、電話鈴、別人的面部表情)。為了有效生活并與他人相處,我們都學(xué)會了如何在辨別信號呈現(xiàn)時做出正確反應(yīng)。按程序?qū)W習(xí)
通常來說,當(dāng)一種反應(yīng)剛開始形成時,如果每次反應(yīng)都得到強(qiáng)化,學(xué)習(xí)得最快,這種程序叫作連續(xù)強(qiáng)化。但是,一旦反應(yīng)變得確實會發(fā)生,如果用間隔(部分)強(qiáng)化程序,反應(yīng)就不太可能消退,這種程序只對一些反應(yīng)進(jìn)行強(qiáng)化。
在斯金納(Skinner,1956)的研究中,偶爾會發(fā)生食球短缺的情況,斯金納被迫降低了強(qiáng)化物的發(fā)放頻率,卻意外地發(fā)現(xiàn)了這個事實。
在間隔強(qiáng)化程序中,一些間隔程序只在一定次數(shù)反應(yīng)后,給出強(qiáng)化物;另一些間隔程序只對上次強(qiáng)化物出現(xiàn)一定時間后做出的反應(yīng)進(jìn)行強(qiáng)化。這影響了行為的頻率、形式和時機(jī)。
間隔強(qiáng)化有助于解釋為什么人們常常喜歡“幸運”帽、護(hù)身符和宗教儀式。一個擊球手摸了一下耳垂,然后打出了一記本壘打,從那時起,他每次走向本壘時都要摸一下耳垂。一個學(xué)生考試用紫色筆得了A,此后她每次考試都用紫色筆。
這些儀式會繼續(xù)下去,因為有時它們會很偶然地帶來強(qiáng)化物(擊中球、好成績),所以它們不會消退。
斯金納(曾通過在實驗室中制造了8只“迷信的”鴿子證明了這種現(xiàn)象。他操縱鴿籠,即使鴿子一動不動,也讓食物每15秒送達(dá)一次。鴿子常常在活動,所以當(dāng)食物來了時,每只動物都可能正在做著什么,這種正在做著的行為被食物的送達(dá)所強(qiáng)化。
行為當(dāng)然完全是偶然被強(qiáng)化的,但仍然很可能再次發(fā)生,這樣就被再次強(qiáng)化。在很短時間內(nèi),6只鴿子一直在練習(xí)某種儀式性的行為——逆時針轉(zhuǎn)圈,上上下下地輕輕點頭,或者搖著頭走來走去。
這些活動都由于強(qiáng)化物的出現(xiàn)而具有很大的效果;這些鴿子表現(xiàn)出“迷信行為”。它們似乎認(rèn)為是自己的動作帶來了食物。
現(xiàn)在要集中注意了,因為下面是關(guān)于操作性條件反射所要了解的最有用的東西。如果你想在習(xí)得后能持久地保持某種反應(yīng),那么就應(yīng)該使用間隔強(qiáng)化,而非連續(xù)強(qiáng)化。
如果你的倉鼠哈里用鼻子推彈球,你連續(xù)給它強(qiáng)化,隨后你突然停止了強(qiáng)化,哈里就會很快停止推球。因為強(qiáng)化的改變是巨大的,從連續(xù)強(qiáng)化到根本沒有強(qiáng)化,哈里能很容易辨別出這種改變。但是如果你只是經(jīng)常強(qiáng)化哈里的行為,變化就不會這樣顯著,你那饑餓的倉鼠將會繼續(xù)應(yīng)答一段時間。
被間隔強(qiáng)化的鴿子、老鼠和人,在停下休息之前,特別是強(qiáng)化物出現(xiàn)的時機(jī)有變化時,已經(jīng)在實驗室中沒有強(qiáng)化的情況下應(yīng)答了幾千次。動物有時會為了不可預(yù)測的、不常出現(xiàn)的一點食物而如此努力地完成任務(wù),它們消耗的能量比從獎賞中獲得的食物還多。從理論上講,它們實際上能一直工作到死!
因此,如果你想消除自己或別人的某種反應(yīng),你就要小心,不要對它進(jìn)行間隔強(qiáng)化。如果你想通過忽略它來消退非期望行為,你必須完全一致地去避免強(qiáng)化(你的注意),如孩子的哭鬧、朋友的午夜電話、父母的煩人建議。
否則,別人會學(xué)會,如果他或她一直哭叫、打電話或提建議的時間足夠長,他們最終會得到獎賞。從行為主義的觀點來看,人們犯的最普遍的錯誤就是,他們間歇地獎勵他們想要消除的反應(yīng)。
來源:教育相先生