CONDIZIONAMENTO STRUMENTALE

1. THORNDIKE’S PUZZLE BOX = i gatti affamati dovevano imparare a scappare per ottenere una ciotola di cibo – Thorndike misurò la LATENZA alla fuga. Risultati = nel corso delle prove, la LATENZA diminuì

la natura graduale della curva convinse Thorndike che gli animali non avevano formato una comprensione razionale della situazione, ma piuttosto che il premio in cibo aveva gradualmente stampato un’associazione tra i colpi nella scatola del puzzle e la fuga. Egli formalizzò la sua convinzione nella sua “LEGGE DELL’EFFETTO”

“QUANDO LA RISPOSTA È RIPETUTAMENTE SEGUITA DA UNO STATO DI AFFARI SODDISFACENTE, LA RISPOSTA AUMENTERA’ IN FREQUENZA”

2. PROCEDURE DI PROVE DISCRETE = durante l’addestramento, 1) ogni prova termina quando si rimuove l’animale dall’apparecchio e 2) la risposta strumentale viene eseguita solo una volta durante ogni prova. Di solito, le procedure di prova discrete usano un qualche tipo di labirinto.

L’uso dei labirinti fu sperimentato da W.S. SMALL alla Clark University per poter studiare l’apprendimento nei ratti.

La sua ispirazione fu fornita da un articolo in Scientific American che descriveva come i ratti vivessero in tane sotterranee e dovessero farsi strada attraverso passaggi “simili a labirinti” per tutto il tempo – così prese in prestito dalla natura – cioè portò la natura in laboratorio e mise su quello che pensava fosse l’equivalente di questi labirinti sotterranei.

Misura 1)RUNNING SPEED = quanto velocemente un animale può andare dalla casella di partenza alla casella dell’obiettivo –di solito aumenta con le prove — gli animali diventano più veloci; o 2) LATENCY = il tempo che gli animali impiegano per lasciare la casella di partenza e iniziare a muoversi lungo il vicolo –di solito diminuisce con le prove — gli animali diventano più veloci.

3. FREE-OPERANT PROCEDURES = procedure che coinvolgono risposte fatte dall’animale ad un ritmo che hanno impostato (cioè, sono “liberi” di operare sull’ambiente rispondendo quando vogliono e quanto spesso vogliono). Skinner eliminò del tutto il labirinto e progettò una camera che aveva la scatola di partenza e la scatola dell’obiettivo nello stesso posto in modo che l’animale non dovesse correre da nessuna parte e costruì la “Skinner box” – o camera operante.

steps intraining:

1ST STEP =MAGAZINE TRAINING = suono del cibo consegnato (condizionamento classico signtracking!)

2° STEP =SHAPING = premiare approssimazioni successive al comportamento desiderato

Misurare il comportamento dell’animale usando un CUMULATIVE RECORDER.

Questo è un dispositivo che ha un tamburo rotante che tira fuori la carta ad una velocità costante – una penna sulla carta. Se non c’è risposta, la penna rimane ferma e traccia una linea piatta e orizzontale mentre la carta esce dalla macchina. Se un animale esegue una pressione di leva, la penna si muove su un gradino sulla carta e rimane su – la prossima risposta muove la penna su un altro gradino e così via e così via – si chiama cumulativo perché si può misurare il numero totale di risposte semplicemente guardando la distanza verticale tra dove la penna ha iniziato e dove la penna si è fermata dopo che l’animale ha smesso di rispondere.

DISTANZA VERTICALE = numero totale di risposte

DISTANZA ORIZZONTALE = quanto tempo è trascorso

PENDENZA DELLA LINEA = tasso di risposta (quanto velocemente l’animale stava premendo la barra)

4. PROGRAMMI DI RAFFORZAMENTO =Regole che determinano quando una risposta sarà rinforzata.

CONTINUOREINFORZAMENTO (CRF) = ogni risposta è rinforzata.

RINFORZO PARZIALE o INTERMITTENTE — 2 tipi: Rapporto & Intervallo

1. RATIO SCHEDULE = il rinforzo dipende dal numero di risposte emesse, esempio lavoro “piecemeal” dove le persone sono pagate in base a quanti oggetti fanno (NON in base a quanto tempo ci vuole per farli)

a. FIXED RATIO = numero fisso, in FR30 ogni 30° risposta viene premiata.

b. VARIABILE RATIO = numero variabile, in VR30 viene premiata una media di 30 risposte.

2. INTERVALLO SCADENZIATO = il rinforzo dipende da quanto tempo è passato dall’ultimo rinforzo, esempio ricevere la posta dove puoi visitare la cassetta un miliardo di volte al giorno ma non ne riceverai ancora fino a 24 ore dopo l’invio di oggi.

a. INTERVALLO FISSO = quantità fissa di tempo, in FI30 la prima risposta fatta dopo 30 secondi è premiata.

b. INTERVALLO VARIABILE = quantità di tempo variabile, in VI30 viene premiata la prima risposta fatta dopo una media di 30 secondi.

Ogni programma ha un effetto diverso sul comportamento:

INTERVALLO FISSO= si ottiene una risposta molto piccola dopo un rinforzo, ma il tasso accelera costantemente e raggiunge un picco appena prima del rinforzo successivo. Questo si chiama FI SCALLOP. COSA CI DICE QUESTO SUGLI ANIMALI – COSA STANNO FACENDO? STANNO GIUDICANDO IL TEMPO — implicazioni molto, molto importanti — se premiate ogni ora allora il comportamento si verificherà solo ogni ora.

RATIO FISSO =si ottiene pausa e corsa, ricompensa poi pausa seguita da molte pressioni poi ricompensa.

Con VARIABILESCHEDULES (sia VI che VR) si ottiene molto più regolare perché il rinforzo può avvenire in qualsiasi momento — non può essere predetto. Quale programma pensi che Las Vegas conosca?

Un ultimo programma – il programma a tempo determinato è la consegna automatica di un rinforzo in un dato momento (come ogni 2 minuti). Può essere contrastato con uno SCHEMA A INTERVALLO FISSO in quanto in uno SCHEMA A TEMPO FISSO il rinforzo NON è condizionato da alcuna risposta, cioè l’animale viene rinforzato indipendentemente da ciò che sta facendo in quel momento. Skinner chiamava questo rinforzo “accidentale” SUPERSTITIOUSBEHAVIOR perché l’animale si comporta come se il suo comportamento producesse un rinforzo quando in realtà, niente (o qualsiasi cosa) farà risulterà nell’ottenere la ricompensa.

5. CONTINGENTI DI RISPOSTA-OUTCOME

Somedefinizioni:

APPETITIVESTIMULUS = Un evento piacevole.

AVERSIVESTIMULUS = Un evento spiacevole.

ECONTINGENZA PROPOSITIVA = una risposta “accende” uno stimolo = un ratto può premere la barra che attiva il magazzino del cibo e riceverà del cibo.

CONTINGENZA NEGATIVA = una risposta “spegne” uno stimolo = un ratto può essere seduto nella Skinner box e lo sperimentatore può emettere un forte rumore – se il ratto preme la barra il rumore sarà spento.

Quattro procedure comuni riuniscono i nostri 2 tipi di eventi (APPETITIVO e AVERSIVO) e i nostri 2 tipi di contingenze risposta-risultato (POSITIVO e NEGATIVO):

a.RINFORZO POSITIVO = procedure in cui la risposta accende uno STIMOLO APPETITIVO. Se si verifica la risposta, allora viene presentato lo stimolo appetitivo. Se la risposta non si verifica, lo stimolo appetitivo non viene presentato. Questa è una CONTINGENZA POSITIVA e il tasso di risposta aumenta.

POSITIVAINFORZA

STIMOLOAPPETITIVO

POSITIVAECONTINGENZA

RESPONDINGINCREASE

b.PUNIZIONE = procedure in cui la risposta accende uno STIMOLO AVERSIVO. Se la risposta si verifica, riceve lo stimolo aversivo. Se la risposta non si verifica, allora lo stimolo aversivo non viene presentato. Questa è una CONTINGENZA POSITIVA e il tasso di risposta diminuisce.

PUNTIVA

STIMOLO AVERSIVO

POSITIVAECONTINGENZA

RESPONDENTEDECREASE

c.RINFORZO NEGATIVO = procedure in cui la risposta spegne o impedisce uno STIMOLO AVERSIVO. Se la risposta si verifica, lo STIMOLO AVERSIVO o non si accende affatto o si spegne. Se la risposta non si verifica, allora lo stimolo avversivo si accende o rimane acceso. Questa è una CONTINGENZA NEGATIVA e il tasso di risposta aumenta.

NEGATIVEREINFORZO

STIMOLO AVERSIVO

CONTINGENZA NEGATIVA

RISPONDENZAINCREMENTO

2 tipi di RINFORZO NEGATIVO – uno è chiamatoESCAPE in cui la risposta spegne lo STIMOLO AVERSIVO. Per esempio, uno sperimentatore può accendere un rumore forte e il ratto preme una volta la barra e lo spegne. Eseguendo una risposta l’animale è sfuggito alla situazione aversiva.

E l’altro è chiamato AVOIDANCE in cui la risposta impedisce uno STIMOLO AVERSIVO. Per esempio, un ratto può essere classicamente condizionato accoppiando una luce con una scossa ai piedi. Presentando la luce, il ratto corre e preme una volta la barra e impedisce che lo shock si verifichi mai. Eseguendo la risposta, l’animale ha EVITATO lo stimolo avverso.

d.OMISSION TRAINING = procedure in cui la risposta spegne o impedisce uno STIMOLO APPETITIVO. Se la risposta si verifica, allora lo STIMOLO APPETITIVO viene “omesso”. Se la risposta non si verifica, allora si verifica lo stimolo appetitivo. Questa è una CONTINGENZA NEGATIVA e il tasso di risposta diminuisce.

OMISSIONTRAINING

STIMOLO APPETITIVO

CONTINGENZA NEGATIVA

RESPONDINGDECREASE

6. CONTROLLO DELLO STIMOLO = Fenomeno per cui la probabilità di una risposta varia secondo gli stimoli presenti in quel momento. Una risposta è sotto il controllo dello stimolo se la sua probabilità di verificarsi differisce in presenza di stimoli diversi.

7. GENERALIZZAZIONE = Rispondere a uno stimolo grazie all’addestramento che coinvolge qualche altro stimolo simile. Vedere CONDIZIONAMENTO CLASSICO sopra.

8. DISCRIMINAZIONE = Risposta differenziale a 2 stimoli. Durante il TRAINING DI DISCRIMINAZIONE, vengono presentati 2 stimoli: il rinforzatore viene presentato in presenza di uno stimolo (S+), ma non in presenza dell’altro (S-). Vedi CONDIZIONAMENTO CLASSICO sopra.

9. PEAK SHIFT = uno spostamento del gradiente di generalizzazione lontano da S-. Se i soggetti vengono sottoposti a un test di generalizzazione dopo l’addestramento con un solo stimolo, il picco del gradiente di generalizzazione sarà situato in corrispondenza dello stimolo di addestramento. Tuttavia, se i soggetti sono dati discriminazione formazione che coinvolgono 2 stimoli, il più grande corrispondente durante la prova di generalizzazione si verifica non a S + ma a uno stimolo più lontano da S-.

10. ESTINZIONE = il rinforzo viene interrotto. Quando l’ESTINZIONE viene introdotta per la prima volta dopo un periodo di rinforzo, c’è questo scoppio di risposta – poi il tasso di risposta diminuisce gradualmente. Aspettate fino al giorno successivo e rimettete l’animale nella scatola di Skinner – otterrete un RECUPERO SPONTANEO simile al condizionamento classico.

11. RECUPERO SPONTANEO = il ritorno di una risposta estinta dopo un periodo di tempo successivo all’ultima prova di estinzione.

12. EFFETTO DI RINFORZO PARZIALE (PRE) = Più alta è la proporzione di risposte che non sono rinforzate durante l’allenamento, più persistente è la risposta durante l’estinzione.

13. FRUSTRAZIONE & AGGRESSIONE INDOTTA DALL’ESTINZIONE = Un aumento del vigore del comportamento che segue immediatamente il non rinforzo di una risposta precedentemente rinforzata; è la risposta emotiva indotta dal ritiro di un rinforzatore atteso. In determinate circostanze, la frustrazione può essere sufficientemente grave da includere reazioni aggressive.

Azrin, Hutchinson & Hake (1966) usò 2 piccioni posti in un box Skinner – uno era legato in un angolo in modo che non potesse rispondere, e l’altro era addestrato a beccare una chiave per il rinforzo. Il piccione con la chiave fondamentalmente ignorava l’altro finché riceveva il suo rinforzo. Quando fu introdotta l’ESTINZIONE attaccò quello trattenuto – FRUSTRATION.

14. RINFORZO NEGATIVO & AVOIDANZA

RINFORZO NEGATIVO

AVERSIVESTIMULUS

CONTINGENZA NEGATIVA

RESPONDENTE

Gli studi sull’AVOIDANZA si basano sia su procedure di CONDIZIONAMENTO CLASSICO che di CONDIZIONAMENTO STRUMENTALE.

L’AVOIDANZA DISCRIMINATA o SEGNALATA comporta prove discrete.

Una prova inizia con la presentazione di un CS – come un tono.

Se l’animale fa la risposta desiderata, come correre da un lato all’altro della gabbia, allora ha evitato con successo lo shock = questo è chiamato una prova di AVOIDANCE.

Se non fa la risposta desiderata, riceve uno shock. Lo shock rimane finché non fa la risposta desiderata. Quando lo fa, lo shock viene spento = questo è chiamato un processo di ESCAPE.

Durante la prima parte dell’addestramento, la maggior parte dei processi sono processi di ESCAPE. Una volta che l’animale impara che il CS predice gli US, allora la maggior parte delle prove diventano prove di AVOIDANCE.

L’apparato più popolare usato in DISCRIMINATEDAVOIDANCE è chiamato SHUTTLE BOX che è una gabbia separata in 2 metà da una porta ad arco. Ogni metà ha un pavimento a griglia metallica separato attraverso il quale possiamo far passare una corrente elettrica. L’animale viene messo in un lato della scatola e viene presentato il CS. Se l’animale attraversa l’altro lato della scatola, evita lo shock. Dopo una sorta di intervallo intertemporale (diciamo 1 minuto), il CS sarà acceso di nuovo e il ratto dovrà attraversare di nuovo lo scompartimento opposto per evitare lo shock.

Così per tutto l’esperimento, il ratto farà “la spola” avanti e indietro tra i 2 lati della scatola.

15. SIDMAN AVOIDANCE = Una procedura di evitamento ideata da Murray Sidman che comporta uno stimolo di avvertimento. Un evento eversivo come uno shock è programmato per verificarsi ad intervalli di tempo fissi (l’intervallo shock-shock); se il soggetto fa la risposta richiesta in qualsiasi momento durante questo intervallo, il prossimo shock programmato è posticipato per un periodo fisso (l’intervallo risposta-shock).

16. SPERIMENTI DI COMPORTAMENTO A SCELTA = molto raramente il rinforzo opera su una singola risposta in isolamento. Invece di scegliere semplicemente se fare o non fare una risposta, ci troviamo spesso di fronte ad una scelta tra due o più risposte, ciascuna con un insieme di rinforzi propri. Gli esperimenti di comportamento di scelta sono quelli in cui più di una risposta può essere fatta.

Misurare la risposta usando un RATE RELATIVO DI RISPOSTA per ogni scelta. Esempio: un piccione è addestrato a beccare sul tasto A o sul tasto B. Il TASSO RELATIVO DI RISPOSTA per la chiave A che sarebbe uguale alle risposte su A diviso il totale di (risposte su A più risposte su B)

TASSO RELATIVO DI RISPOSTA per la chiave A = RA/(RA+RB)

TASSO RELATIVO DI RISPOSTA per la chiave B = RB/(RA+RB)

Cosa succede se il piccione becca lo stesso numero di volte su A e B., diciamo 10 volte su ciascuno. Qual è il TASSO RELATIVO DI RISPOSTA per il tasto A? 0,5

Qual è il TASSO RELATIVO DI RISPOSTA per il tasto B? 0.5

Cosa succede se il piccione becca lo stesso numero di volte su A e B…., diciamo 8 volte su A ma solo 2 volte su B? 0,8

Qual è il TASSO RELATIVO DI RISPOSTA per il tasto B? 0.2

17. LEGGE DI ABBINAMENTO DI HERRNSTEIN (Herrnstein, 1961) = quando si ha una scelta tra diverse attività, la percentuale di tempo che si dedica ad una di queste attività corrisponderà alla percentuale dei rinforzi disponibili che si sono ottenuti da questa attività.

Esempio 1 = ESPERIMENTO DI COMPORTAMENTO DI SCELTA: entrambe le chiavi (A &B) sono sullo stesso programma VI60. Risultati: beccheranno con la stessa frequenza su ciascuno dei tasti e riceveranno altrettanti rinforzi sul tasto A e sul tasto B – quindi il TASSO DI RINFORZO sarà uguale.

Esempio 2 = ESPERIMENTO DI COMPORTAMENTO DI SCELTA: il tasto A ha un orario VI6min in un’ora, qual è il numero massimo assoluto di rinforzi che un piccione può ricevere? 10 (perché ci sono 10 intervalli di 6 minuti in un’ora). KeyB ha un orario VI2 min — in un’ora, qual è il numero massimo assoluto di rinforzi che un piccione può ricevere? 30 (ci sono 30 intervalli di 2 minuti in un’ora). Quindi è 3 volte la quantità possibile sul tasto A.

Risultati: il piccione farà corrispondere il numero di risposte alla probabilità di essere rinforzato – risponderà 3 volte più spesso sul tasto B rispetto al tasto A.

18. EFFETTI DI CONTRASTO = Un cambiamento nell’efficacia di un rinforzatore dovuto alla precedente esperienza con altri rinforzatori (di solito un rinforzatore viene “spostato” con un altro che ha un diverso livello di valenza positiva o negativa). Gli effetti di un cambiamento di ricompensa furono originariamente dimostrati da Crespi – infatti, i cambiamenti comportamentali che seguono i cambiamenti di ricompensa furono chiamati collettivamente “l’EFFETTO CRESPI”. Uno studio più recente fu fatto da Mellgren (1972).

Mellgren prese gruppi di ratti in una pista

Durante la fase 1– i gruppi 1 e 2 ricevettero 2 pellet di cibo ogni volta che correvano lungo la pista. Il gruppo 3 & 4 riceveva 22 palline di cibo.

Durante la fase 2– metà dei ratti venivano “spostati”. Così il gruppo 1 = è rimasto lo stesso e ha ricevuto 2 pellet (Small-Small); il gruppo 2 = è stato spostato in alto e ha ricevuto 22 pellet (Small-Large); il gruppo 3 = è rimasto lo stesso e ha ricevuto 22 pellet (Large-Large); e il gruppo 4 = è stato spostato in basso e ha ricevuto 2 pellet (Large-Small)

Risultati:

Il gruppo Small-Small non è cambiato molto

Il gruppo Large-large non è cambiato molto.

Ma i ratti passati da una ricompensa piccola a una grande hanno corso più velocemente per la ricompensa grande rispetto a quelli che avevano ricevuto la ricompensa grande per tutto il tempo. Questo è chiamato un CONTRASTO COMPORTAMENTALE POSITIVO – così un CONTRASTO COMPORTAMENTALE POSITIVO è definito come una maggiore risposta per una ricompensa favorevole a causa di una precedente esperienza con un risultato meno attraente.

E i ratti spostati da una grande a una piccola ricompensa correvano più lentamente per la piccola ricompensa rispetto a quelli che avevano ricevuto la piccola ricompensa per tutto il tempo. E questo si chiama CONTRASTO COMPORTAMENTALE NEGATIVO – quindi un CONTRASTO COMPORTAMENTALE NEGATIVO è definito come una risposta depressa per una ricompensa sfavorevole a causa della precedente esperienza con un risultato migliore.

Virtual world

CONDIZIONAMENTO STRUMENTALE

Lascia un commento Annulla risposta

Articoli recenti