INSTRUMENTELE CONDITIONERING

1. THORNDIKE’S PUZZLE BOX = hongerige katten moesten leren ontsnappen om een bakje voer te bemachtigen — Thorndike mat de LATENTIJD om te ontsnappen. Resultaten = tijdens de proeven,

de geleidelijkheid van de curve overtuigde Thorndike ervan dat de dieren geen rationeel begrip van de situatie hadden gevormd, maar dat de beloning voor het voedsel steeds meer een associatie vormde tussen de kegels in de puzzelkast en het ontsnappen. Hij formaliseerde zijn overtuiging in zijn “LAW OF EFFECT”

“WHEN ARESPONSE IS REPEATEDLY FOLLOWED BY A SATISFYING STATE OF AFFIRS, THAT RESPONSEWILL INCREASE IN FREQUENCY”

2. Tijdens de training wordt 1) elke proef beëindigd wanneer het dier uit het apparaat wordt verwijderd en 2) de instrumentele respons slechts eenmaal tijdens elke proef uitgevoerd. Gewoonlijk wordt bij discrete proefnemingen gebruik gemaakt van een soort doolhof.

Het gebruik van doolhoven werd uitgevonden door W.S. SMALL aan de Clark University, zodat hij het leren bij ratten kon bestuderen.

Hij werd geïnspireerd door een artikel in de Scientific American waarin werd beschreven hoe ratten in ondergrondse holen leefden en zich voortdurend een weg moesten banen door “doolhofachtige” gangen — daarom leende hij van de natuur — dat wil zeggen hij bracht de natuur naar het laboratorium en zette wat hij dacht dat het equivalent was van deze ondergrondse doolhoven.

Maat 1) LOPENDE SNELHEID = hoe snel een dier van de startbox naar de doelbox kan komen — wordt gewoonlijk sneller na verloop van tijd — dieren worden sneller; of 2) LATTIJD = de tijd die de dieren nodig hebben om de startbox te verlaten en de gang in te gaan — wordt gewoonlijk korter na verloop van tijd — dieren worden sneller.

3. VRIJ-OPERANTE PROCEDURES = procedures waarbij het dier reageert in een door hem bepaald tempo (d.w.z., zij zijn “vrij” om hun omgeving te beïnvloeden door te reageren wanneer zij dat willen en hoe vaak zij dat willen). Skinner elimineerde het doolhof geheel en ontwierp een kamer met het startvak en het doelvak op dezelfde plaats, zodat het dier niet hoefde te rennen en bouwde de “Skinner box” – of operant kamer.

stappen in training:

1STE STAP =MAGAZINE TRAINING = geluid van voedsel dat wordt afgeleverd (klassieke conditionering signtracking!

2E STAP =HAPING = belonen van opeenvolgende benaderingen van het gewenste gedrag

Meting van het gedrag van het dier met behulp van een CUMULATIEVE RECORDER.

Dit is een apparaat dat een roterende trommel heeft die papier trekt in een constante snelheid – een pen zit op het papier. Als er geen reactie komt, blijft de pen stil liggen en trekt een vlakke, horizontale lijn als het papier uit de machine komt. Als een dier een hefboom indrukt, beweegt de pen een stap omhoog op het papier en blijft omhoog – de volgende reactie beweegt de pen nog een stap omhoog enzovoort enzovoort – het wordt cumulatief genoemd omdat je het totale aantal reacties kunt meten door alleen maar te kijken naar de verticale afstand tussen waar de pen begon en waar de pen ophield nadat het dier ophield met reageren.

VERTICALE AFSTAND = totaal aantal reacties

HORIZONTALE AFSTAND = hoeveel tijd er verstreken is

LOPEN VAN DE LIJN = snelheid van reageren (hoe snel het dier op de balk drukte)

4. REINFORCEMENT SCHEDULES =Regels die bepalen wanneer een reactie wordt versterkt.

CONTINUOUSREINFORCEMENT (CRF) = elke reactie wordt versterkt.

PARTIALE ofINTERMITTENTE REINFORCEMENT — 2 soorten: Ratio & Interval

1. RATIO SCHEDULE = strafmaat hangt af van het aantal gegeven antwoorden, voorbeeld “stukloon” werk waar mensen betaald worden naar het aantal items dat ze maken (NIET naar hoe lang het duurt om ze te maken)

a. VASTE RATIO = vast getal, in FR30 wordt elke 30e reactie beloond.

b. VARIABLE RATIO = variabel getal, in VR30 wordt een gemiddelde van 30 reacties beloond.

2. INTERVAL SCHEDULE =Beloning hangt af van hoeveel tijd er verstreken is sinds de laatste beloning, bijvoorbeeld het krijgen van post waarbij u de brievenbus een ziljoen keer per dag kunt bezoeken maar u nog steeds geen post zult krijgen tot 24 uur na de batch van vandaag.

a. VASTE INTERVAL = vaste tijd, in FI30 wordt het eerste antwoord beloond dat na 30 seconden wordt gegeven.

b. VARIABLE INTERVAL = variabele hoeveelheid tijd, in VI30 wordt het eerste antwoord beloond dat na gemiddeld 30 seconden wordt gegeven.

Elk schema heeft een ander effect op het gedrag:

FIXED INTERVAL= u krijgt heel weinig respons na een versterking, maar het tempo versnelt gestadig en bereikt een piek vlak voordat de volgende versterking moet komen. Dit wordt een FI SCALLOP genoemd. WAT VERTELT DIT ONS OVER DIEREN — WAT DOEN ZE? ZE JUISTEREN TIJD — Zeer, zeer belangrijke implicaties — als je elk uur beloont dan zal het gedrag slechts elk uur voorkomen.

FIXED RATIO = je krijgt pauze en lopen, beloning dan pauze gevolgd door veel drukken dan beloning.

Met VARIABLESCHEDULES (ofwel VI of VR) krijg je veel meer regelmaat omdat bekrachtiging op elk moment kan plaatsvinden — het kan niet voorspeld worden. Welk(e) schema(‘s) denk je dat Las Vegas kent?

Een laatste schema — FIXED-TIME SCHEDULE is de automatische toediening van een bekrachtiger op een bepaald tijdstip (zoals elke 2 minuten). Het kan worden gecontrasteerd met een VAST TIJDSCHEMA, in die zin dat bij een VAST TIJDSCHEMA, de bekrachtiging NIET afhankelijk is van een respons — dat wil zeggen, het dier wordt bekrachtigd ongeacht wat hij op dat moment aan het doen is. Skinner noemde deze “toevallige” bekrachtiging SUPERSTITIOUSBEHAVIOR omdat het dier doet alsof zijn gedrag bekrachtiging oplevert terwijl in werkelijkheid niets (of wat dan ook) wat hij doet zal resulteren in het verkrijgen van de beloning.

5. RESPONSE-OUTCOME CONTINGENCIES

Somedefinities:

APPETITIVESTIMULUS = Een prettige gebeurtenis.

AVERSIVESTIMULUS = Een onprettige gebeurtenis.

POSITIVECONTINGENCY = een respons “zet aan” een stimulus = een rat kan op het balkje drukken waardoor de etensbak wordt geactiveerd en hij wat te eten krijgt.

NEGATIEVE CONTINGENCY = een respons “zet uit” een stimulus = een rat kan in de Skinner box zitten en de experimentator kan een hard geluid laten horen – als de rat op het balkje drukt zal het geluid worden uitgezet.

Vier gemeenschappelijke procedures brengen onze 2 soorten gebeurtenissen (APPETITIEVE en AVERSIEVE) en onze 2 soorten respons-uitkomst-contingenties (POSITIEVE en NEGATIEVE) samen:

a.POSITIEVE REINFORCENTIE = procedures waarbij de reactie eenAPPETITIEVE STIMULUS teweegbrengt. Als de respons optreedt, wordt de appetitieve stimulus gepresenteerd. Als de respons niet optreedt, dan wordt de appetitieve stimulus niet gepresenteerd. Dit is een POSITIVECONTINGENCY en de snelheid van reageren neemt toe.

POSITIVEREINFORCEMENT

APPETITIVESTIMULUS

POSITIVECONTINGENCY

RESPONDINGINCREASES

b.STRAFFEN = procedures waarbij de reactie een AVERSIEVE STIMULUS teweegbrengt. Als de respons optreedt, krijgt hij de aversieve stimulus. Als de respons niet optreedt, dan wordt de aversieve stimulus niet gepresenteerd. Dit is een POSITIVECONTINGENCY en de snelheid van reageren neemt af.

VERSIEVE STIMULUS

AVERSIVE STIMULUS

POSITIVECONTINGENCY

RESPONDINGDECREËERT

c.NEGATIEVE REINFORCENTIE = procedures waarbij de reactie een AVERSIEVE STIMULUS uitschakelt of verhindert. Indien de reactie optreedt, gaat de AVERSIEVE STIUMULUS ofwel helemaal niet aan of wordt uitgeschakeld. Als de reactie niet optreedt, wordt de aversieve stimulus aangezet of blijft aan. Dit is een NEGATIEVE CONTINGENCY en de snelheid van reageren neemt toe.

NEGATIEVE REINFORCENTIE

AVERSIVESTIMULUS

NEGATIEVEECONTINGENCY

RESPONDINGINCREES

2 soorten NEGATIEVE REINFORCENTIE — één heetESCAPE waarbij de respons de AVERSIEVE STIMULUS uitschakelt. Bijvoorbeeld, een experimentator kan een hard geluid aanzetten en de rat drukt één keer op de staaf en schakelt het uit. Door het uitvoeren van een reactie heeft het dier de aversieve situatie VERLOTEN.

En de andere heet AVOIDANCE waarbij de reactie een AVERSIEVE STIMULUS voorkomt. Bijvoorbeeld, een rat kan klassiek geconditioneerd worden door een licht te koppelen aan een voetschok. Geef het licht, en de rat rent erheen en drukt één keer op de staaf en voorkomt dat de schok ooit zal gebeuren. Door het uitvoeren van deze reactie heeft het dier de aversieve stimulus VERWIJDERD.

d.OMISSIE TRAINING = procedures waarbij de reactie een APPETITIEVE STIMULUS uitschakelt of voorkomt. Treedt er een reactie op, dan wordt de APPETITIEVE STIMULUS “weggelaten”. Als de respons niet optreedt, dan treedt de appetitieve stimulus op. Dit is een NEGATIEVE CONTINGENCY en de snelheid van reageren neemt af.

OMISSIETRAINING

APPETITIEVE STIMULUS

NEGATIEVE CONTINGENCY

RESPONDINGDECREESTERT

6. STIMULUS CONTROLE = Een verschijnsel waarbij de waarschijnlijkheid van een reactie varieert naar gelang van de op dat moment aanwezige stimuli. Een reactie is onder controle van de stimulus als de waarschijnlijkheid dat zij optreedt verschilt in aanwezigheid van verschillende stimuli.

7. GENERALISATIE = Reactie op één stimulus als gevolg van training met een andere soortgelijke stimulus. Zie KLASSIEKE CONDITIONERING hierboven.

8. DISCRIMINATIE = Differentieel reageren op 2 stimuli. Tijdens DISCRIMINATietRAINING worden 2 stimuli gepresenteerd: de bekrachtiger wordt gepresenteerd in de aanwezigheid van de ene stimulus (S+), maar niet in de aanwezigheid van de andere (S-). Zie KLASSIEKE CONDITIONERING hierboven.

9. PEAK SHIFT = een verschuiving in de generalisatie gradiënt weg van S-. Als proefpersonen een generalisatietest krijgen na een training met één stimulus, zal de piek van de generalisatiegradiënt zich bevinden bij de trainingsstimulus. Krijgen proefpersonen echter een discriminatietraining met 2 stimuli, dan vindt de grootste respons tijdens de generalisatietest niet plaats bij S+, maar bij een stimulus die verder van S- afligt.

10. EXTINCTIE = de versterking wordt stopgezet. Wanneer EXTINCTIE voor het eerst wordt geïntroduceerd na een periode van bekrachtiging, is er deze BURST van reageren – daarna neemt de mate van reageren geleidelijk af. Wacht tot de volgende dag en zet het dier terug in de Skinner box — je krijgt SPONTANE RECOVERY vergelijkbaar met klassieke conditionering.

11. SPONTANE RECOVERY = de terugkeer van een uitgedoofde respons na een bepaalde tijd volgend op de laatste uitdovingsproef.

12. PARTIAL REINFORCEMENT EFFECT (PRE) = Hoe hoger het aandeel van responsen die tijdens de training niet versterkt worden, des te hardnekkiger is de respons tijdens de uitdoving.

13. FRUSTRATIE & EXTINCTIE GEINDUCEERDE AGGRESSIE = Een toename in de intensiteit van het gedrag dat onmiddellijk volgt op het niet versterken van een eerder versterkte respons; het is de emotionele respons die wordt opgewekt door de terugtrekking van een verwachte bekrachtiger. Onder bepaalde omstandigheden kan frustratie voldoende hevig zijn om agressieve reacties teweeg te brengen.

Azrin, Hutchinson & Hake (1966) gebruikte 2 duiven die in een Skinner box waren geplaatst — één was vastgebonden in de hoek zodat hij niet kon reageren, en de andere was getraind om een sleutel te pikken voor bekrachtiging. De sleutel pikker negeerde in principe de andere zolang hij zijn versterking kreeg. Toen EXTINCTION werd geïntroduceerd, viel hij de ander aan — FRUSTRATION.

14. NEGATIEVE VERVOLGING & AVOIDANCE

NEGATIEVE VERVOLGING

AVERSIVESTIMULUS

NEGATIEVE VERVOLGING

VERVOLGING

Studies over AVOIDANCE berusten zowel op CLASSICALCONDITIONING als op INSTRUMENTAL CONDITIONING procedures.

GEDISCRIMINATED, of SIGNALLED AVOIDANCE omvat discrete proeven.

Een proef begint met de presentatie van een CS – zoals een toon.

Als het dier de gewenste reactie geeft, zoals van de ene kant van de kooi naar de andere rennen, dan heeft hij met succes een schok vermeden = dit wordt een AVOIDANCE proef genoemd.

Als hij niet de gewenste reactie geeft, krijgt hij een schok. De schok blijft aan totdat hij de gewenste reactie geeft. Wanneer hij dat doet, wordt de schok uitgezet = dit wordt een ontsnappingsproef genoemd.

Tijdens het eerste deel van de training zijn de meeste proeven ontsnappingsproeven. Zodra het dier leert dat de CS de US voorspelt, dan worden de meeste proeven AVOIDANCE proeven.

Het meest populaire apparaat gebruikt in DISCRIMINATEDAVOIDANCE heet een SHUTTLE BOX dat is een kooi gescheiden in 2 helften door een gebarsten deur. Elke helft heeft een afzonderlijke vloer van draadraster waardoor een elektrische stroom kan worden geleid. Het dier wordt in de ene kant van de box gezet en de CS wordt gepresenteerd. Als het dier oversteekt naar de andere kant van de doos, vermijdt hij de schok. Na een soort interval (zeg 1 minuut) wordt de CS weer aangezet en moet de rat weer oversteken naar het tegenoverliggende compartiment om de schok te vermijden.

Dus gedurende het experiment zal de rat heen en weer “pendelen” tussen de 2 zijden van het doosje.

15. SIDMAN AVOIDANCE = Een door Murray Sidmant bedachte vermijdingsprocedure waarbij een waarschuwingsstimulus wordt gegeven. Een agressieve gebeurtenis zoals een schok wordt met vaste tussenpozen geprogrammeerd (het schok-schokinterval); indien de proefpersoon op om het even welk ogenblik tijdens dit interval de vereiste reactie geeft, wordt de volgende geprogrammeerde schok voor een vaste periode uitgesteld (het respons-schokinterval).

16. CHOICE BEHAVIOREXPERIMENTEN = zeer zelden werkt versterking op een enkele reactie in isolatie. In plaats van eenvoudigweg te kiezen of we al dan niet een reactie zullen geven, worden we dikwijls geconfronteerd met een keuze tussen twee of meer reacties, elk met een reeks van hun eigen bekrachtigers. Experimenten met keuzegedrag zijn experimenten waarbij meer dan één respons kan worden gegeven.

Meting van de respons met behulp van een meting van de RELATIEVE RESPONDATIETEMETING voor elke keuze. Voorbeeld: Een duif wordt getraind om te pikken op toets A of toets B. De RELATIEVE AANTAL RESPONS voor toets A die gelijk zou zijn aan de reacties op A gedeeld door het totaal van (reacties op A plus reacties op B)

RELATIEVE AANTAL RESPONS voor toets A = RA/(RA+RB)

RELATIEVE AANTAL RESPONS voor toets B = RB/(RA+RB)

Wat gebeurt er als de duif hetzelfde aantal keren op A en B pikt…., zeg 10 keer op elk. Wat is de RELATIEVE RESPONSnelheid voor toets A? 0.5

Wat is de RELATIEVE RESPONSnelheid voor toets B? 0.5

Wat gebeurt er als de duif hetzelfde aantal keren op A en B…. pikt, zeg 8 keer op A maar slechts 2 keer op B?

Wat is de RELATIEVE RESPONSATIETIJD voor toets A? 0.8

Wat is de RELATIEVE RESPONSNELHEID voor toets B? 0.2

17. HERRNSTEIN’S MATCHING LAW (Herrnstein, 1961) = wanneer u een keuze heeft uit verschillende activiteiten, zal het percentage van de tijd die u besteedt aan één van deze activiteiten overeenkomen met het percentage van de beschikbare bekrachtigers dat u uit deze activiteit heeft gehaald.

Voorbeeld 1 = CHOICE BEHAVIOR EXPERIMENT : beide sleutels (A &B) zitten op precies hetzelfde VI60 schema. Resultaat: ze pikken even vaak op elke toets en ze krijgen evenveel versterking op toets A als op toets B — dus de VERSTERKINGSAFSTAND zal gelijk zijn.

Voorbeeld 2 = KEUZE BEHAVING EXPERIMENT : Toets A heeft een VI6min schema in één uur, wat is het absolute maximum aantal versterkingen dat een duif kan krijgen? 10 (want er zijn 10 6-minuten intervallen in een uur). KeyB heeft een VI2 min schema — wat is in een uur het absolute maximum aantal versterkingen dat een duif kan krijgen? 30 (er zijn 30 2-minuten intervallen in een uur). Dat is dus 3 maal het aantal dat mogelijk is op toets A.

Resultaten: de duif zal het aantal reacties afstemmen op de waarschijnlijkheid van versterking — hij zal 3 maal zo vaak reageren op toets B in vergelijking met toets A.

18. CONTRAST EFFECTS = Een verandering in de effectiviteit van een bekrachtiger als gevolg van eerdere ervaring met andere bekrachtigers (meestal wordt een bekrachtiger “verschoven” met een andere bekrachtiger met een ander niveau van positieve of negatieve valentie). De effecten van een verschuiving in beloning werden oorspronkelijk aangetoond door Crespi – in feite werden gedragsveranderingen na verschuivingen in beloning collectief “het CRESPI EFFECT” genoemd. Een recentere studie werd gedaan door Mellgren (1972).

Mellgren nam groepen ratten in een landingsbaan

Tijdens Fase 1– Groep 1 en 2 kregen 2 pellets van voedsel elke keer dat ze de landingsbaan af renden. Groep 3 & 4 kreeg 22 korrels voedsel.

Tijdens Fase 2– werd de helft van de ratten “verschoven”. Dus Groep 1 = bleef gelijk en kreeg 2 pellets (Small-Small); Groep 2 = werd naar boven verschoven en kreeg 22 pellets (Small-Large); Groep 3 = bleef gelijk en kreeg 22 pellets (Large-Large); en Groep 4 = werd naar beneden verschoven en kreeg 2 pellets (Large-Small)

Resultaten:

De Small-Small groep veranderde niet veel

De Large-large groep veranderde niet veel.

Maar de ratten die van een kleine naar een grote beloning werden overgeplaatst, liepen sneller voor de grote beloning dan de ratten die al die tijd de grote beloning hadden gekregen. Dit wordt een POSITIEVE BEHAVIORALE CONTRAST genoemd — dus een POSITIEVE BEHAVIORALE CONTRAST wordt gedefinieerd als een verhoogde respons op een gunstige beloning vanwege een eerdere ervaring met een minder aantrekkelijke uitkomst.

En ratten die van een Grote naar een Kleine beloning werden overgeplaatst, renden langzamer voor de kleine beloning dan de ratten die steeds de kleine beloning hadden gekregen. En dit wordt een NEGATIEF BEHAVIORAL CONTRAST genoemd — dus een NEGATIEF BEHAVIORAL CONTRAST wordt gedefinieerd als depressief reageren op een ongunstige beloning als gevolg van eerdere ervaring met een betere uitkomst.

Virtual world

INSTRUMENTELE CONDITIONERING

Geef een antwoord Antwoord annuleren

Recente berichten