WARUNKOWANIE INSTRUMENTALNE

1. PUZZLE BOX THORNDIKE’A = głodne koty musiały nauczyć się uciekać, aby dostać miskę z jedzeniem – Thorndike mierzył ŁATWOŚĆ ucieczki. Wyniki = na przestrzeni prób, LATENCY spadła

stopniowość krzywej przekonała Thorndike’a, że zwierzęta nie wykształciły racjonalnego rozumienia sytuacji, ale raczej, że NAGRODA POKARMOWA STOPNIOWO STYMULOWAŁA STOWARZYSZENIE POMIĘDZY PUSZKAMI W PUZZLE BOX A UCIEKNIĘCIEM. Sformalizował swoje przekonanie w „PRAWIE SKUTKU”

„KIEDY ARESPONDENCJA JEST POWTARZALNIE UZUPEŁNIANA PRZEZ SATYSFAKCJONUJĄCY STAN AFFAIRS, TE RESPONSJE BĘDĄ WZRASTAĆ CZĘSTOTLIWOŚCIĄ”

2. PROCEDURY PRÓB DYSKRETNYCH = podczas szkolenia, 1) każda próba kończy się w momencie usunięcia zwierzęcia z aparatu i 2) odpowiedź instrumentalna jest wykonywana tylko raz podczas każdej próby. Zazwyczaj procedury prób dyskretnych wykorzystują pewien rodzaj labiryntu.

Wykorzystanie labiryntów zostało zapoczątkowane przez W.S. SMALL’a na Clark University, dzięki czemu mógł on badać uczenie się u szczurów.

Inspiracją dla niego był artykuł w Scientific American opisujący jak szczury żyły w podziemnych norach i musiały pokonywać „labiryntopodobne” przejścia przez cały czas – więc zapożyczył się z natury – to znaczy wprowadził naturę do laboratorium i stworzył to, co uważał za odpowiednik tych podziemnych labiryntów.

Pomiar 1)SZYBKOŚCI BIEGU = jak szybko zwierzę może dostać się z pola startowego do pola docelowego — zwykle wzrasta w czasie prób — zwierzęta stają się szybsze; lub 2)CZASU TRWANIA = czas, jaki zajmuje zwierzętom opuszczenie pola startowego i rozpoczęcie poruszania się w dół alejki — zwykle skraca się w czasie prób — zwierzęta stają się szybsze.

3) PROCEDURY WOLNEGO DZIAŁANIA = procedury obejmujące reakcje wykonywane przez zwierzę w tempie przez nie ustalonym (tj, są one „wolne” w działaniu w środowisku, reagując kiedy chcą i jak często chcą). Skinner całkowicie wyeliminował labirynt i zaprojektował komorę, w której pole startowe i pole docelowe znajdowały się w tym samym miejscu, dzięki czemu zwierzę nie musiało nigdzie biegać, i zbudował „puszkę Skinnera” – czyli komorę operacyjną.

KROKI W SZKOLENIU:

1 KROK = SZKOLENIE MAGAZINOWE = dźwięk dostarczanego jedzenia (warunkowanie klasyczne signtracking!)

2ND STEP =SHAPING = nagradzanie kolejnych przybliżeń do pożądanego zachowania

Pomiar zachowania zwierzęcia za pomocą REJESTRATORA KUMULACYJNEGO.

Jest to urządzenie, które ma obracający się bęben, który wyciąga papier w stałym tempie — długopisy na papierze. Jeśli nie nastąpi żadna reakcja, pióro pozostaje w miejscu i rysuje płaską, poziomą linię, gdy papier wychodzi z urządzenia. Jeśli zwierzę wykona naciśnięcie dźwigni, pióro przesuwa się o jeden stopień na papierze i pozostaje w górze – kolejna reakcja przesuwa pióro o jeszcze jeden stopień i tak dalej, i tak dalej – nazywa się to kumulatywnym, ponieważ można zmierzyć całkowitą liczbę reakcji, patrząc na pionową odległość między miejscem, w którym pióro się zaczęło, a miejscem, w którym pióro się zatrzymało po tym, jak zwierzę przestało reagować.

VERTICALDISTANCE = całkowita liczba odpowiedzi

HORIZONTALDISTANCE = ile czasu upłynęło

SLOPE OF THELINE = tempo odpowiedzi (jak szybko zwierzę naciskało na pasek)

4. REINFORCEMENT SCHEDULES =Reguły określające, kiedy reakcja zostanie wzmocniona.

CONTINUOUSREINFORCEMENT (CRF) = każda reakcja jest wzmocniona.

PARTIAL orINTERMITTENT REINFORCEMENT — 2 rodzaje: Ratio & Interval

1. RATIO SCHEDULE =wymuszanie zależy od liczby wyemitowanych odpowiedzi, przykład „fragmentarycznej” pracy, gdzie ludzie są opłacani według tego, ile elementów wykonują (NIE według tego, jak długo trwa ich wykonanie)

a. FIXED RATIO = stała liczba, w FR30 co 30. odpowiedź jest nagradzana.

b. VARIABLE RATIO = zmienna liczba, w VR30 średnio co 30 odpowiedź jest nagradzana.

2. INTERVAL SCHEDULE = wzmocnienie zależy od tego, ile czasu upłynęło od ostatniego wzmocnienia, np. otrzymanie poczty, gdzie możesz odwiedzać skrzynkę pocztową milion razy dziennie, ale i tak nie dostaniesz nic do 24 godzin po dzisiejszej partii.

a. FIXED INTERVAL = stała ilość czasu, w FI30 pierwsza odpowiedź po upływie 30 sekund jest nagradzana.

b. VARIABLE INTERVAL = zmienna ilość czasu, w VI30 nagradzana jest pierwsza odpowiedź po upływie średnio 30 sekund.

Każdy z harmonogramów ma inny wpływ na zachowanie:

FIXED INTERVAL= po wzmocnieniu pojawia się bardzo mało reakcji, ale tempo stale wzrasta i osiąga szczyt tuż przed następnym wzmocnieniem. Jest to tak zwany FI SCALLOP. CO TO MÓWI NAM O ZWIERZĘTACH – CO ONE ROBIĄ? SĄ SĄDEM CZASU — bardzo, bardzo ważne implikacje — jeśli nagradzasz co godzinę, to zachowanie będzie występowało tylko co godzinę.

FIXED RATIO = masz pauzę i bieg, nagrodę, następnie pauzę, po której następuje wiele naciśnięć, a następnie nagroda.

Z RÓŻNYMI KEDULAMI (albo VI albo VR) uzyskujesz o wiele większą regularność, ponieważ wzmocnienie może wystąpić w dowolnym czasie — nie można go przewidzieć. Jak myślisz, o których harmonogramach Las Vegas wie wszystko?

Jeden z ostatnich harmonogramów – STAŁY TERMINOWY – to automatyczne dostarczanie wzmocnienia w określonym czasie (np. co 2 minuty). W odróżnieniu od STAŁEJ HARMONOGRAMU CZASOWEGO, wzmocnienie nie jest uzależnione od jakiejkolwiek reakcji, to znaczy, że zwierzę jest wzmacniane bez względu na to, co robi w danym momencie. Skinner nazwał to „przypadkowe” wzmocnienie SUPERSTITIOUSBEHAVIOR, ponieważ zwierzę zachowuje się tak, jakby jego zachowanie wywoływało wzmocnienie, podczas gdy w rzeczywistości nic (lub cokolwiek), co robi, nie spowoduje otrzymania nagrody.

5. RESPONSE-OUTCOME CONTINGENCIES

Somedefinicje:

APPETITIVESTIMULUS = Przyjemne zdarzenie.

AVERSIVESTIMULUS = Nieprzyjemne zdarzenie.

POSITIVECONTINGENCY = reakcja „włącza” bodziec = szczur może nacisnąć pasek, który aktywuje magazynek z jedzeniem i dostanie trochę jedzenia.

KONTYNUACJA NEGATYWNA = reakcja „wyłącza” bodziec = szczur może siedzieć w pudełku Skinnera, a eksperymentator może wydać głośny dźwięk – jeśli szczur naciśnie pasek, dźwięk zostanie wyłączony.

Cztery wspólne procedury łączą nasze 2 rodzaje zdarzeń (APETYTNE i UMIARKOWANE) i nasze 2 rodzaje zależności reakcja-dochód (POZYTYWNE i NEGATYWNE):

a.POZYTYWNE WZMOCNIENIE = procedury, w których reakcja włącza STYMULACJĘ APETYTWNĄ. Jeśli pojawia się reakcja, to prezentowany jest bodziec apetyczny. Jeśli odpowiedź nie wystąpi, bodziec apetyczny nie jest prezentowany. Jest to POZYTYWNA KONTYNUACJA i wzrasta szybkość reagowania.

POSITIVEREINFORCEMENT

APETYTIVESTIMULUS

POSITIVECONTINGENCY

RESPONDINGINCREASES

b.KARANIE = procedury, w których reakcja włącza STYMULUS AVERSIVE. Jeśli reakcja wystąpi, odbiera bodziec awersyjny. Jeśli reakcja nie wystąpi, bodziec awersyjny nie jest prezentowany. Jest to POSITIVECONTINGENCY i szybkość reagowania maleje.

PUNISHMENT

AVERSIVESTIMULUS

POSITIVECONTINGENCY

RESPONDINGDECREASES

c.NEGATYWNE WZMOCNIENIE = procedury, w których reakcja wyłącza lub uniemożliwia powstanie STYMULUSU UMIARKOWANEGO. W przypadku wystąpienia reakcji, STYMULUS NADZWYCZAJNY albo w ogóle się nie włącza, albo zostaje wyłączony. Jeśli reakcja nie wystąpi, bodziec awersyjny włącza się lub pozostaje włączony. Jest to KONTYNUACJA NEGATYWNA i szybkość reagowania wzrasta.

NEGATIVEREINFORCEMENT

AVERSIVESTIMULUS

NEGATIVECONTINGENCY

RESPONDINGINCREASES

2 rodzaje NEGATIVEREINFORCEMENT — jeden z nich nazywa sięESCAPE, w którym reakcja wyłącza bodziec awersyjny. Przykład, eksperymentator może włączyć głośny hałas, a szczur naciska pasek raz i wyłącza go. Poprzez wykonanie odpowiedzi zwierzę uniknęło sytuacji awersyjnej.

Drugi rodzaj reakcji nazywany jest UNIKANIEM, w którym reakcja zapobiega STYMULUSOWI AVERSYWNEMU. Przykład, szczur może być klasycznie uwarunkowany przez połączenie światła z szokiem stóp. Zaprezentuj światło, a szczur podbiegnie i naciśnie raz pręt, zapobiegając w ten sposób wystąpieniu wstrząsu. Wykonując tę odpowiedź, zwierzę UNIKNĘŁO bodźca awersyjnego.

d.SZKOLENIE OMISJI = procedury, w których odpowiedź wyłącza lub zapobiega bodźcowi apetycznemu. Jeśli wystąpi reakcja, wówczas STYMULUS APETYTNY zostaje „pominięty”. Jeśli reakcja nie wystąpi, wtedy pojawia się bodziec apetyczny. Jest to NEGATYWNA KONTYNUACJA i szybkość reagowania maleje.

TRENINGOMISJI

APETYTNY STYMULUS

NEGATYWNA KONTYNUACJA

SZYBKOŚĆ REAGOWANIA

6. STIMULUS CONTROL = zjawisko, w którym prawdopodobieństwo reakcji zmienia się w zależności od bodźców obecnych w danym momencie. Reakcja jest pod kontrolą bodźca, jeśli prawdopodobieństwo jej wystąpienia różni się w obecności różnych bodźców.

7. GENERALIZACJA = Reakcja na jeden bodziec w wyniku treningu z udziałem innego, podobnego bodźca. Patrz powyżej KONDYCJA KLASYCZNA.

8. DYSKRYMINACJA = Zróżnicowane reagowanie na 2 bodźce. Podczas SZKOLENIA DYSKRYMINACJI prezentowane są 2 bodźce: bodziec wzmacniający jest prezentowany w obecności jednego z nich (S+), ale nie w obecności drugiego (S-). Zobacz powyżej KONDYCJONOWANIE KLASYCZNE.

9. PEAK SHIFT = przesunięcie gradientu generalizacji z dala od S-. Jeśli badani otrzymują test generalizacji po treningu z jednym bodźcem, szczyt gradientu generalizacji będzie zlokalizowany przy bodźcu treningowym. Jeśli jednak badani przechodzą trening dyskryminacyjny z dwoma bodźcami, to największa reakcja podczas testu generalizacji występuje nie na S+, ale na bodziec bardziej oddalony od S-.

10. ZWOLNIENIE = wzmocnienie zostaje przerwane. Kiedy po raz pierwszy wprowadza się ZNIECHĘCENIE po okresie wzmacniania, następuje BURZA reakcji – potem tempo reakcji stopniowo maleje. Poczekaj do następnego dnia i włóż zwierzę z powrotem do pudełka Skinnera — uzyskasz SPONTANICZNY ODZYSK, podobny do warunkowania klasycznego.

11. ODZYSK SPONTANICZNY = powrót wygaszonej reakcji po upływie pewnego czasu od ostatniej próby wygaszenia.

12. EFEKT CZĘŚCIOWEGO WZMOCNIENIA (PRE) = im wyższy odsetek reakcji, które nie są wzmocnione podczas treningu, tym bardziej uporczywa jest reakcja podczas wygaszania.

13. FRUSTRACJA & AGRESJA WYWOŁANA WYGASZENIEM = wzrost wigoru zachowania, który natychmiast następuje po braku wzmocnienia poprzednio wzmocnionej reakcji; jest to reakcja emocjonalna wywołana przez wycofanie oczekiwanego wzmocnienia. W pewnych okolicznościach frustracja może być wystarczająco silna, by wywołać reakcje agresywne.

Azrin, Hutchinson & Hake (1966) użył 2 gołębi umieszczonych w skrzynce Skinnera – jeden był skrępowany w rogu, więc nie mógł reagować, a drugi był szkolony do dziobania klucza dla wzmocnienia. Ten, który dziobał klucz, w zasadzie ignorował drugiego tak długo, jak długo dostawał swoje wzmocnienie. Kiedy wprowadzono ZWYCIĘSTWO, zaatakował on tego powstrzymywanego – FRUSTRACJA.

14. NEGATYWNE WZMOCNIENIE & AVOIDANCE

NEGATIVEREINFORCEMENT

AVERSIVESTIMULUS

NEGATIVECONTINGENCY

RESPONDINGINCREASES

Badania nad AVOIDANCE opierają się zarówno na procedurach CLASSICALCONDITIONING jak i INSTRUMENTAL CONDITIONING.

OCHRONA DYSKRYMINOWANA lub SYGNALIZOWANA obejmuje próby dyskretne.

Próba rozpoczyna się od prezentacji CS — np. tonu.

Jeżeli zwierzę wykona pożądaną reakcję, np. przebiegnie z jednej strony klatki na drugą, wówczas skutecznie UNIKNIE wstrząsu = jest to nazywane próbą UNIKANIA.

Jeżeli nie wykona pożądanej reakcji, otrzymuje wstrząs. Wstrząs pozostaje włączony, dopóki nie zrobi pożądanej odpowiedzi. Kiedy to zrobi, szok jest wyłączany = jest to próba ucieczki.

We wczesnej części szkolenia, większość prób to próby ucieczki. Kiedy zwierzę nauczy się, że CS przewiduje US, wtedy większość prób staje się próbami AVOIDANCE.

Najpopularniejszym urządzeniem stosowanym w DISCRIMINATEDAVOIDANCE jest SHUTTLE BOX, który jest klatką podzieloną na 2 połowy przez uchylone drzwi. Każda połowa ma oddzielną podłogę z siatki drucianej, przez którą możemy przepuścić prąd elektryczny. Zwierzę umieszczane jest po jednej stronie klatki i prezentowany jest mu CS. Jeśli zwierzę przejdzie na drugą stronę pudełka, unika wstrząsu. Po pewnym odstępie czasu (powiedzmy 1 minuta), CS zostanie ponownie włączone i szczur będzie musiał ponownie przejść do przeciwległego przedziału, aby uniknąć wstrząsu.

Więc przez cały czas trwania eksperymentu szczur będzie „przemieszczał się” tam i z powrotem między dwiema stronami pudełka.

15. SIDMAN AVOIDANCE = Procedura unikania opracowana przez Murraya Sidmana, która obejmuje bodziec ostrzegawczy. Zdarzenie odwracające uwagę, takie jak wstrząs, jest zaplanowane w ustalonych odstępach czasu (odstęp między wstrząsami); jeśli podmiot wykona wymaganą reakcję w dowolnym momencie tego odstępu, następny zaprogramowany wstrząs jest odroczony na ustalony okres (odstęp między reakcją a wstrząsem).

16. CHOICE BEHAVIOREXPERIMENTS = bardzo rzadko wzmocnienie działa na pojedynczą reakcję w izolacji. Instead of simplychoosing whether or not to make a response, we are often confronted with achoice between two or more responses each with a set of their own reinforcers. Eksperymenty dotyczące zachowań związanych z wyborem to te, w których można dokonać więcej niż jednej odpowiedzi.

Pomiar reakcji przy użyciu wskaźnika względnej szybkości reakcji dla każdego wyboru. Przykład: gołąb jest szkolony, aby dziobać klawisz A lub klawisz B. RELATIVE RATE OF RESPONDING for Key A which would equalthe Responses on A divided by the total of (responses on A plus responses on B)

RELATIVE RATE OFRESPONDING for key A = RA/(RA+RB)

RELATIVE RATE OFRESPONDING for key B = RB/(RA+RB)

Co się stanie jeśli gołąb dziobnie taką samą ilość razy na A i B…., powiedzmy 10 razy na każdym z nich. Jaka jest względna szybkość reakcji dla klawisza A? 0.5

Jaka jest względna szybkość reakcji dla klawisza B? 0.5

Co się stanie, jeśli gołąb dziobnie taką samą ilość razy na A i B…., powiedzmy 8 razy na A, ale tylko 2 razy na B?

Jaka jest RELATYWNA SKALA ODPOWIEDZI dla klawisza A? 0.8

Jaka jest względna szybkość reakcji dla klawisza B? 0.2

17. PRAWO DOPASOWANIA HERRNSTEINA (Herrnstein, 1961) = kiedy masz do wyboru kilka czynności, procent czasu, który poświęcasz na jedną z tych czynności będzie odpowiadał procentowi dostępnych wzmocnień, które uzyskałeś z tej czynności.

Przykład 1 = EKSPERYMENT Z ZACHOWANIAMI WYBORCZYMI : oba klucze (A &B) są na dokładnie tym samym planie VI60. Wyniki: będą dziobać tak samo często na każdym z kluczy i dostaną tyle samo wzmocnień na kluczu A, co na kluczu B – więc RATE OF REINFORCEMENT będzie równe.

Przykład 2 = CHOICE BEHAVIOR EXPERIMENT : Klucz A ma harmonogram VI6min w ciągu jednej godziny, jaka jest absolutna maksymalna liczba wzmocnień, które może dostać gołąb? 10 (ponieważ w ciągu godziny jest 10 6-minutowych interwałów). KluczB ma rozkład VI2min — w ciągu jednej godziny, jaka jest absolutna maksymalna liczba wzmocnień, które może otrzymać gołąb? 30 (jest 30 2-minutowych interwałów w ciągu godziny). Jest to więc 3 razy więcej niż jest to możliwe na kluczu A.

Wyniki: gołąb dopasowuje liczbę odpowiedzi do prawdopodobieństwa otrzymania wzmocnienia — będzie odpowiadał 3 razy częściej na kluczu B w porównaniu do klucza A.

18. EFEKTY KONTRASTU = zmiana skuteczności wzmacniacza w wyniku wcześniejszego doświadczenia z innymi wzmacniaczami (zazwyczaj wzmacniacz jest „przesunięty” z innym, mającym inny poziom pozytywnej lub negatywnej wartościowości). Efekty przesunięcia nagrody zostały pierwotnie zademonstrowane przez Crespi’ego – w rzeczywistości, zmiany zachowania po przesunięciu nagrody zostały nazwane zbiorczo „EFEKTEM CRESPI’ego”. Nowsze badanie zostało przeprowadzone przez Mellgren (1972).

Mellgren wziął grupy szczurów na pasie startowym

Podczas fazy 1– Grupa 1 i 2 dostały 2 granulki jedzenia za każdym razem, gdy biegły w dół pasa startowego. Grupa 3 & 4 dostała 22 granulki karmy.

Podczas Fazy 2– połowa szczurów została „przesunięta”. Tak więc Grupa 1 = pozostała taka sama i dostała 2 granulki (Small-Small); Grupa 2 = została przesunięta w górę i dostała 22 granulki (Small-Large); Grupa 3 = pozostała taka sama i dostała 22 granulki (Large-Large); a Grupa 4 = została przesunięta w dół i dostała 2 granulki (Large-Small)

Wyniki:

Grupa Small-Small nie zmieniła się zbytnio

Grupa Large-large nie zmieniła się zbytnio.

Ale, szczury przesunięte z Małej do Dużej nagrody biegły szybciej po dużą nagrodę niż te, które otrzymywały dużą nagrodę przez cały czas. Nazywa się to POZYTYWNYM KONTRASTEM BEHAWIORALNYM — więc POZYTYWNY KONTRAST BEHAWIORALNY jest definiowany jako zwiększona reakcja na korzystną nagrodę z powodu wcześniejszego doświadczenia z mniej atrakcyjnym wynikiem.

A szczury przesunięte z Dużej do Małej nagrody biegały wolniej po małą nagrodę niż te, które otrzymywały małą nagrodę przez cały czas. I to jest nazywane NEGATYWNYM KONTRASTEM BEHAWIORALNYM — tak więc NEGATYWNY KONTRAST BEHAWIORALNY jest definiowany jako obniżona reakcja na niekorzystną nagrodę z powodu wcześniejszego doświadczenia z lepszym wynikiem.

Virtual world

WARUNKOWANIE INSTRUMENTALNE

Dodaj komentarz Anuluj pisanie odpowiedzi

Ostatnie wpisy