INSTRUMENTELL KONDITIONERING

1. THORNDIKE’S PUZZLE BOX = hungriga katter var tvungna att lära sig att fly för att få en skål med mat — Thorndike mätte LÄTHETEN att fly. Resultat = över försök, LÄTTHETEN minskade

Den gradvisa karaktären av kurvan övertygade Thorndike om att djuren inte hade bildat sig en rationell förståelse av situationen, utan snarare att MAT belöningen gradvis staplade in en association mellan kuverten i pusselbåset och flykten. Han formaliserade sin övertygelse i sin ”LAG OM EFFEKT”

”NÄR ARRESPONSEN upprepade gånger följs av en tillfredsställande situation, kommer denna respons att öka i frekvens”

2. DISCRETE TRIALS PROCEDURER = under träningen 1) avslutas varje försök när djuret avlägsnas från apparaten och 2) det instrumentella svaret utförs endast en gång under varje försök. Vanligtvis används någon typ av labyrint vid diskreta försök.

Användningen av labyrinter var pionjär av W.S. SMALL vid Clark University för att han skulle kunna studera inlärning hos råttor.

Hans inspiration kom från en artikel i Scientific American som beskrev hur råttor levde i underjordiska hålor och måste ta sig igenom ”labyrintliknande” passager hela tiden – så han lånade från naturen – det vill säga han tog in naturen i laboratoriet och satte upp vad han trodde var motsvarigheten till dessa underjordiska labyrinter.

Mått 1) LÖPSNEDSLUTNING = hur snabbt ett djur kan ta sig från startrutan till målrutan — ökar vanligtvis under försöken — djuren blir snabbare; eller 2) LÅNGDSLUTNING = den tid det tar för djuren att lämna startrutan och börja röra sig nerför gången — blir vanligtvis kortare under försöken — djuren blir snabbare.

3. FRIOPERANTPROCEDURER = förfaranden som innebär att djuren reagerar i en takt som de själva bestämmer (dvs, de är ”fria” att påverka sin omgivning genom att svara när de vill och hur ofta de vill). Skinner eliminerade labyrinten helt och hållet och konstruerade en kammare där startrutan och målrutan fanns på samma ställe så att djuret inte behövde springa någonstans och byggde ”Skinner-lådan” – eller operantkammaren.

Steg i träningen:

1:a steg =MAGAZINTRAINING = Ljudet av att mat levereras (klassisk konditionering signtracking!)

2:a steget =SHAPING = belöning av successiva närmanden till det önskade beteendet

Mät djurets beteende med hjälp av en CUMULATIVE RECORDER.

Detta är en apparat som har en roterande trumma som drar ut papper i en konstant takt — en penna skriver på pappret. Om ingen reaktion sker står pennan stilla och ritar en platt, horisontell linje när pappret kommer ut ur maskinen. Om ett djur utför ett hävstångstryck flyttas pennan upp ett steg på pappret och stannar där – nästa reaktion flyttar pennan upp ytterligare ett steg och så vidare och så vidare – det kallas kumulativt eftersom man kan mäta det totala antalet reaktioner genom att bara titta på det vertikala avståndet mellan där pennan startade och där pennan stannade efter att djuret slutat reagera.

VERTICALDISTANCE = totalt antal svar

HORIZONTALDISTANCE = hur mycket tid som har förflutit

SLOPE OF THELINE = svarshastighet (hur snabbt djuret tryckte på stången)

4. Förstärkningsscheman =regler som bestämmer när ett svar ska förstärkas.

CONTINUOUSREINFORCEMENT (CRF) = varje svar förstärks.

PARTIELL ellerINTERMITTENT FÖRSTÄRKNING — 2 typer: Förhållande & Intervall

1. Ratio schema =förstärkningen beror på antalet svar som ges, till exempel ”styckarbete” där folk får betalt för hur många artiklar de tillverkar (INTE för hur lång tid det tar att tillverka dem)

a. FAST RATIO = fast antal, i FR30 belönas varje 30:e svar.

b. VARIABELT RATIO = variabelt antal, i VR30 belönas i genomsnitt 30 svar.

2. INTERVAL SCHEDULE =förstärkningen beror på hur mycket tid som har gått sedan den senaste förstärkningen, t.ex. att få post där du kan besöka brevlådan en zillion gånger om dagen, men du kommer ändå inte att få något förrän 24 timmar efter dagens sats.

a. FIXED INTERVAL = fast tidsperiod, i FI30 belönas det första svaret efter 30 sekunder.

b. VARIABELT INTERVAL = variabel tid, i VI30 belönas det första svaret efter att i genomsnitt 30 sekunder har förflutit.

Varje schemahar olika effekt på beteendet:

FIXED INTERVAL= man får väldigt lite svar efter en förstärkning, men hastigheten accelererar stadigt och når en topp strax innan nästa förstärkning ska ske. Detta kallas FI SCALLOP. VAD SÄGER DETTA OM DJUR – VAD GÖR DE? De bedömer tiden – mycket, mycket viktiga konsekvenser – om du belönar varje timme kommer beteendet bara att inträffa varje timme.

FIXED RATIO = du får paus och springa, belöning, sedan paus följt av många tryck och sedan belöning.

Med VARIABELLA SCHEDULER (antingen VI eller VR) får du en mycket jämnare ordning, eftersom förstärkningen kan inträffa när som helst – den kan inte förutsägas. Vilket schema tror du att Las Vegas känner till?

Ett sista schema – FIXED-TIME SCHEDULE – är den automatiska leveransen av en förstärkare vid en viss tidpunkt (t.ex. varannan minut). Den kan jämföras med en schema med fast tidsintervall på så sätt att förstärkningen i ett schema med fast tidsintervall INTE är beroende av något svar – det vill säga djuret förstärks oavsett vad det gör vid den tidpunkten. Skinner kallade denna ”oavsiktliga” förstärkning för SUPERSTITITIOUSBEHAVIOR eftersom djuret agerar som om hans beteende ger förstärkning när det i själva verket inte finns något (eller något) som han gör som leder till att han får belöningen.

5. RESPONSE-OUTCOME CONTINGENCIES

Somedefinitioner:

APPETITIVESTIMULUS = En trevlig händelse.

AVERSIVESTIMULUS = En obehaglig händelse.

POSITIVKONTINENS = Ett svar ”aktiverar” ett stimulus = en råtta kan trycka på stången som aktiverar matmagasinet och han kommer att få lite mat.

NEGATIV CONTINGENCY = ett svar ”stänger av” ett stimulus = en råtta kan sitta i Skinnerlådan och experimentatorn kan ge ett högt ljud – om råttan trycker på stången stänger han av ljudet.

Fyra gemensamma förfaranden för samman våra två typer av händelser (APPETITIVA och AVERSIVA) och våra två typer av respons-utfallsförutsättningar (POSITIVA och NEGATIVA):

a.POSITIV FÖRSTÄRKNING = Förfaranden där reaktionen aktiverar enAPPETITIV STIMULUS. Om svaret uppstår presenteras det aptitliga stimuluset. Om svaret inte inträffar presenteras inte det aptitliga stimuluset. Detta är en POSITIVECONTINGENCY och svarsfrekvensen ökar.

POSITIVEINFORCEMENT

APPETITIVESTIMULUS

POSITIVECONTINGENCY

RESPONSEINFÖRSÖRJNINGAR

b.STRAFFNING = förfaranden där reaktionen slår på en AVERSIV STIMULUS. Om responsen inträffar får den det aversiva stimuluset. Om responsen inte inträffar, får den aversiva stimulus inte presenteras. Detta är en POSITIVECONTINGENCY och svarsfrekvensen minskar.

BESTRAFFNING

AVERSIVESTIMULUS

POSITIVECONTINGENCY

RESPONSEFÖRMINSKAR

c.NEGATIV FÖRSTÄRKNING = Förfaranden där responsen stänger av eller förhindrar en AVERSIV STIMULUS. Om reaktionen inträffar, kommer den AVERSIVA STIUMULUSEN antingen inte alls igång eller stängs av. Om responsen inte inträffar, aktiveras eller förblir den aversiva stimulansen aktiverad. Detta är en NEGATIV CONTINGENCY och svarsfrekvensen ökar.

NEGATIVEREINFORCEMENT

AVERSIVESTIMULUS

NEGATIV KONTINENS

RESPONSERANDEINFÖRSTÄRKNING

2 typer av NEGATIV REINFORCEMENT — den ena kallasESCAPE där responsen stänger av det AVERSIVA STIMULUSET. Exempel: en försöksperson kan sätta på ett högt ljud och råttan trycker på stången en gång och stänger av det. Genom att utföra ett svar har djuret undvikit den aversiva situationen.

Och den andra kallas AVVIDANCE där svaret förhindrar ett AVERSIVT STIMULUS. Exempel: En råtta kan konditioneras på ett klassiskt sätt genom att koppla ihop ett ljus med en fotchock. Om man visar ljuset springer råttan över och trycker på stången en gång och förhindrar att chocken någonsin inträffar. Genom att utföra detta svar har djuret undvikit det aversiva stimuli.

d.OMISSIONSTRÄNING = förfaranden där svaret stänger av eller förhindrar ett aptitligt stimuli. Om det uppstår ett svar, så ”utelämnas” den aptitliga stimulansen. Om svaret inte inträffar, inträffar den aptitliga stimulansen. Detta är en NEGATIV CONTINGENCY och svarsfrekvensen minskar.

OMISSIONTRAINING

APPETITIVESTIMULUS

NEGATIVECONTINGENCY

RESPONSEDECREASES

6. STIMULUSKONTROLL = Ett fenomen där sannolikheten för ett svar varierar beroende på de stimuli som är närvarande vid den aktuella tidpunkten. Ett svar är under stimuluskontroll om sannolikheten för att det skall inträffa skiljer sig åt i närvaro av olika stimuli.

7. GENERALISERING = Att reagera på ett stimulus på grund av träning med något annat liknande stimulus. Se klassisk konditionering ovan.

8. DISKRIMINERING = Differentiellt svar på två stimuli. UnderDISKRIMINERINGSTRÄNING presenteras 2 stimuli: förstärkaren presenteras i närvaro av ett stimulus (S+), men inte i närvaro av det andra (S-). Se klassisk konditionering ovan.

9. PEAK SHIFT = en förskjutning i generaliseringsgradienten bort från S-. Om försökspersonerna får ett generaliseringstest efter träning med ett enda stimulus kommer toppen av generaliseringsgradienten att ligga vid träningsstimulansen. Men om försökspersonerna får diskrimineringsträning med två stimuli sker det största svaret under generaliseringstestet inte till S+ utan till ett stimulus som ligger längre bort från S-.

10. EXTINCTION = förstärkningen upphör. När EXTINCTION införs för första gången efter en period av förstärkning uppstår en BURST av reaktioner – sedan minskar reaktionshastigheten gradvis. Vänta till nästa dag och sätt tillbaka djuret i Skinnerlådan – du får en SPONTAN återhämtning som liknar klassisk konditionering.

11. SPONTAN RECOVERY = återkomst av ett släckt svar efter en viss tid efter det senaste släckningsförsöket.

12. PARTIAL REINFORCEMENT EFFECT (PRE) = Ju högre andelen svar som inte förstärks under träningen, desto mer ihållande är svaret under utsläckningen.

13. FRUSTRATION & EXTINCTION-INDUCED AGGRESSION = En ökning av beteendets styrka som omedelbart följer på att ett tidigare förstärkt svar inte förstärks; det är den känslomässiga reaktion som framkallas av att en förväntad förstärkare dras tillbaka. Under vissa omständigheter kan frustrationen vara tillräckligt allvarlig för att inkludera aggressiva reaktioner.

Azrin, Hutchinson & Hake (1966) använde sig av två duvor som placerades i en Skinner-låda – den ena var fastspänd i ett hörn så att den inte kunde reagera, och den andra tränades till att picka på en nyckel för att få förstärkning. Nyckelpiken ignorerade i princip den andra så länge han fick sin förstärkning. När EXTINCTION infördes attackerade han den fasthållne — FRUSTRATION.

14. NEGATIV FÖRSTÄRKNING & AVVÄNDNING

NEGATIVER FÖRSTÄRKNING

AVERSIVESTIMULUS

NEGATIV KONTINGENCY

RESPONERANDE FÖRSTÄRKNINGAR

Undersökningar om AVVÄNDNING bygger på både KLASSISK KONDITIONERING och INSTRUMENTELL KONDITIONERING.

DISKRIMINERAD eller SIGNALERAD AVVIKTIGHET omfattar diskreta försök.

En prövning inleds med att ett CS presenteras – t.ex. en ton.

Om djuret gör den önskade reaktionen, t.ex. springer från en sida av buren till en annan, har det lyckats undvika chocken = detta kallas för en prövning med AVOIDANCE.

Om djuret inte gör den önskade reaktionen, får det en chock. Chocken förblir på tills han gör den önskade reaktionen. När han gör det stängs chocken av = detta kallas en ESCAPE-provtagning.

Under den tidiga delen av träningen är de flesta provningarna ESCAPE-provtagningar. När djuret väl har lärt sig att CS förutsäger US, blir de flesta försöken AVVÄGNINGsförsök.

Den mest populära apparaten som används vid DISKRIMINERAD AVVÄGNING kallas SHUTTLE BOX, som är en bur som är uppdelad i två halvor med en bågformad dörr. Varje halva har ett separat golv med trådgaller genom vilket vi kan skicka en elektrisk ström. Djuret sätts i den ena sidan av lådan och CS presenteras. Om djuret går över till den andra sidan av lådan undviker det chocken. Efter någon form av interrialintervall (låt oss säga 1 minut) aktiveras CS igen och råttan måste återigen gå över till det motsatta facket för att undvika chocken.

Under hela försöket kommer råttan alltså att ”pendla” fram och tillbaka mellan de två sidorna av lådan.

15. SIDMAN AVOIDANCE = Ett undvikelseförfarande som utarbetades av Murray Sidmanth och som innefattar ett varningsstimulans. Om försökspersonen gör det begärda svaret när som helst under detta intervall skjuts nästa programmerade chock upp under en bestämd period (svars-chock-intervallet).

16. VÄLJANDEBETEENDEXPERIMENTER = Det är mycket sällan som förstärkning verkar på ett enskilt svar i isolering. I stället för att helt enkelt välja om vi ska göra ett svar eller inte, ställs vi ofta inför ett val mellan två eller flera svar, vart och ett med en uppsättning egna förstärkare. Försök med valbeteende är sådana där mer än ett svar kan göras.

Måla responsen med hjälp av ett mått för RELATIVA RATE OF RESPONDING för varje val. Exempel: En duva tränas att picka på antingen nyckel A eller nyckel B. Den relativa svarsfrekvensen för nyckel A är lika med svaren på A dividerat med summan av (svaren på A plus svaren på B)

RELATIVA svarsfrekvensen för nyckel A = RA/(RA+RB)

RELATIVA svarsfrekvensen för nyckel B = RB/(RA+RB)

Vad händer om duvan pickar lika många gånger på A och B…., säg 10 gånger på vardera. Vad är den relativa svarsfrekvensen för nyckel A? 0,5

Vad är den relativa svarsfrekvensen för tangent B? 0,5

Vad händer om duvan hackar lika många gånger på A och B…., till exempel 8 gånger på A men bara 2 gånger på B?

Vad är den relativa svarsfrekvensen för tangent A? 0,8

Vad är den relativa svarsfrekvensen för nyckel B? 0.2

17. HERRNSTEINS MATCHING LAW (Herrnstein, 1961) = när du har ett val mellan flera aktiviteter kommer den procentuella andel tid som du ägnar åt en av dessa aktiviteter att motsvara den procentuella andel av de tillgängliga förstärkare som du har fått från denna aktivitet.

Exempel 1 = CHOICE BEHAVIOR EXPERIMENT : båda tangenterna (A &B) står på exakt samma VI60-schema. Resultat: De kommer att picka lika ofta på var och en av nycklarna och de kommer att få lika många förstärkningar på nyckel A som på nyckel B – så förstärkningshastigheten kommer att vara lika.

Exempel 2 = VAL AV FÖRHÅLLANDE EXPERIMENT: Nyckel A har ett schema på VI6 minuter under en timme, vilket är det absoluta maximala antalet förstärkningar som en duva kan få? 10 (eftersom det finns 10 6-minutersintervaller på en timme). Nyckel B har ett schema VI2 min – vad är det absoluta maximala antalet förstärkningar som en duva kan få under en timme? 30 (det finns 30 2-minutersintervaller på en timme). Det är alltså tre gånger så mycket som är möjligt på nyckel A.

Resultat: duvan kommer att MATCHA antalet svar till sannolikheten att få förstärkning — den kommer att svara tre gånger så ofta på nyckel B jämfört med nyckel A.

18. KONTRAST EFFEKTER = En förändring av en förstärkares effektivitet på grund av tidigare erfarenheter av andra förstärkare (vanligtvis ”byts en förstärkare ut” mot en annan som har en annan nivå av positiv eller negativ valens). Effekterna av en förändring av belöningen påvisades ursprungligen av Crespi – i själva verket kallades beteendeförändringar efter förändringar av belöningen gemensamt för ”CRESPI EFFEKTEN”. En nyare studie gjordes av Mellgren (1972).

Mellgren tog grupper av råttor i en löparbana

Under fas 1– Grupp 1 och 2 fick 2 pellets mat varje gång de sprang nerför löparbanan. Grupp 3 & 4 fick 22 pellets mat.

Under fas 2– hälften av råttorna ”flyttades”. Så grupp 1 = förblev densamma och fick 2 pellets (Small-Small); grupp 2 = försköts uppåt och fick 22 pellets (Small-Large); grupp 3 = förblev densamma och fick 22 pellets (Large-Large); och grupp 4 = försköts nedåt och fick 2 pellets (Large-Small)

Resultat:

Den lilla-smala gruppen förändrades inte mycket

Den stora-grova gruppen förändrades inte mycket.

Men råttor som bytte från en liten till en stor belöning sprang snabbare för den stora belöningen än de råttor som hela tiden hade fått den stora belöningen. Detta kallas POSITIV BEHÅLLNINGSKONTRAST – så en POSITIV BEHÅLLNINGSKONTRAST definieras som ökat svar för en gynnsam belöning på grund av tidigare erfarenhet av ett mindre attraktivt resultat.

Och råttor som byttes från en stor till en liten belöning sprang långsammare för den lilla belöningen än de råttor som hela tiden hade fått den lilla belöningen. Och detta kallas för en NEGATIV BEHAVIORAL KONTRAST – så en NEGATIV BEHAVIORAL KONTRAST definieras som en nedtryckt reaktion vid en ogynnsam belöning på grund av tidigare erfarenhet av ett bättre resultat.

Virtual world

INSTRUMENTELL KONDITIONERING

Lämna ett svar Avbryt svar

Senaste inläggen