1. THORNDIKE’S PUZZLE BOX = des chats affamés devaient apprendre à s’échapper pour obtenir un bol de nourriture — Thorndike a mesuré la LATENCE pour s’échapper. Résultats = au fil des essais, LATENCE diminuait
la nature graduelle de la courbe a convaincu Thorndike que les animaux n’avaient pas formé une compréhension rationnelle de la situation mais plutôt que la récompense alimentaire s’inscrivait progressivement dans une association entre les indices dans la boîte à puzzle et l’évasion. Il a formalisé sa conviction dans sa « LOI DE L’EFFET »
« QUAND UNE RÉPONSE EST SUIVIE RÉPÉTITIVEMENT PAR UN ÉTAT DES AFFAIRES SATISFAISANT, CETTE RÉPONSE AUGMENTERA EN FRÉQUENCE »
2. PROCÉDURES D’ESSAIS DISCRETS = pendant la formation, 1) chaque essai se termine lorsque vous retirez l’animal de l’appareil et 2) la réponse instrumentale n’est exécutée qu’une seule fois pendant chaque essai. Habituellement, les procédures d’essais discrets utilisent un certain type de labyrinthe.
L’utilisation de labyrinthes a été inaugurée par W.S. SMALL à l’Université Clark afin qu’il puisse étudier l’apprentissage chez les rats.
Son inspiration lui a été fournie par un article du Scientific American décrivant comment les rats vivaient dans des terriers souterrains et devaient se frayer un chemin à travers des passages « labyrinthiques » en permanence — il a donc emprunté à la nature — c’est-à-dire qu’il a amené la nature dans le laboratoire et a mis en place ce qu’il pensait être l’équivalent de ces labyrinthes souterrains.
Mesure 1)VITESSE DE COURSE = la vitesse à laquelle un animal peut se rendre de la boîte de départ à la boîte de but — généralement augmente au fil des essais — les animaux deviennent plus rapides ; ou 2)LATENCE = le temps qu’il faut aux animaux pour quitter la boîte de départ et commencer à se déplacer dans le couloir — généralement se raccourcit au fil des essais — les animaux deviennent plus rapides.
3) PROCÉDURES D’OPÉRATION LIBRE = procédures impliquant des réponses faites par l’animal à un rythme qu’il a fixé (c’est-à-dire, ils sont « libres » d’agir sur leur environnement en répondant quand ils le souhaitent et aussi souvent qu’ils le souhaitent). Skinner a éliminé complètement le labyrinthe et a conçu une chambre qui avait la boîte de départ et la boîte de but au même endroit afin que l’animal n’ait pas à courir n’importe où et a construit la « boîte de Skinner » – ou chambre opérante.
étapes dans l’entraînement:
1ère ÉTAPE = ENTRAÎNEMENT à la MAGAZINE = son de la nourriture livrée (conditionnement classique signant !)
DEUXIÈME ÉTAPE =SHAPING = récompenser les approximations successives du comportement désiré
Mesurer le comportement de l’animal à l’aide d’un ENREGISTREUR CUMULATIF.
C’est un appareil qui possède un tambour rotatif qui tire du papier à un rythme constant — un stylo s’inscrit sur le papier. Si aucune réponse ne se produit, le stylo reste immobile et trace une ligne plate et horizontale à mesure que le papier sort de la machine. Si un animal effectue une pression sur un levier, le stylo monte d’un cran sur le papier et reste en place – la réponse suivante fait monter le stylo d’un cran supplémentaire et ainsi de suite – on dit que c’est cumulatif parce qu’on peut mesurer le nombre total de réponses en regardant simplement la distance verticale entre l’endroit où le stylo a commencé et celui où il s’est arrêté après que l’animal a cessé de répondre.
DISTANCEVERTICALE = nombre total de réponses
DISTANCEHORIZONTALE = combien de temps s’est écoulé
PENTE DE LA LIGNE = taux de réponse (à quelle vitesse l’animal appuyait sur la barre)
4. SCHEDULES DE RENFORCEMENT =Règles qui déterminent quand une réponse sera renforcée.
REINFORCEMENT CONTINU (CRF) = chaque réponse est renforcée.
Renforcement partiel ou intermittent — 2 types : Ratio & Intervalle
1. RATIO SCHEMA =le renforcement dépend du nombre de réponses émises, exemple du travail « à la pièce » où les gens sont payés selon le nombre d’articles qu’ils fabriquent(PAS selon le temps qu’il faut pour les fabriquer)
a. RATIO FIXE = nombre fixe, en FR30 chaque 30ème réponse est récompensée.
b. RATIO VARIABLE = nombre variable, dans VR30 une moyenne de 30 réponses est récompensée.
2. CALENDRIER D’INTERVALLE =le renforcement dépend du temps écoulé depuis le dernier renforcement,exemple recevoir du courrier où vous pouvez visiter la boîte aux lettres un zillion de fois par jour mais vous ne recevrez toujours rien avant 24 heures après le lot d’aujourd’hui.
a. INTERVALLE FIXE = quantité de temps fixe, dans FI30 la première réponse faite après que 30 secondes se soient écoulées est récompensée.
b. INTERVALLE VARIABLE = quantité de temps variable, dans VI30 la première réponse faite après qu’une moyenne de 30 secondes s’est écoulée est récompensée.
Chaque horaire a un effet différent sur le comportement:
INTERVALLE FIXE= on obtient très peu de réponses après un renforcement, mais le taux s’accélère régulièrement et atteint un pic juste avant le prochain renforcement. C’est ce qu’on appelle un SCALLOP FI. QU’EST-CE QUE CELA NOUS APPREND SUR LES ANIMAUX ? QUE FONT-ILS ? ILS JUGENT LE TEMPS — implications très, très importantes — si vous récompensez toutes les heures alors le comportement ne se produira que toutes les heures.
RATIO FIXE =vous avez pause et course, récompense puis pause suivie de nombreuses pressions puis récompense.
Avec des CHAÎNES VARIABLES (soit VI ou VR) vous obtenez beaucoup plus de régularité parce que le renforcement peut se produire à tout moment — il ne peut pas être prédit. Quel(s) horaire(s) pensez-vous que Las Vegas connaisse bien ?
Un dernier horaire — L’HORAIRE FIXE est la livraison automatique d’un renforçateur à un moment donné (comme toutes les 2 minutes). Il peut être comparé à un SCHEDULE À INTERVALLE FIXE en ce sens qu’avec un SCHEDULE À TEMPS FIXE, le renforcement n’est PAS subordonné à une réponse, c’est-à-dire que l’animal est renforcé, peu importe ce qu’il fait à ce moment-là. Skinner a appelé ce renforcement « accidentel » SUPERSTITIOUSBEHAVIOR parce que l’animal agit comme si son comportement produisait un renforcement alors qu’en réalité, rien (ou n’importe quoi) de ce qu’il fait n’aboutira à l’obtention de la récompense.
5. CONTINGENCES RÉPONSES-REPONSES
Somedefinitions:
APPETITIFSTIMULUS = Un événement agréable.
AVERTISSEMENTSTIMULUS = Un événement désagréable.
ECONTINGENCEPOSITIVE = une réponse « active » un stimulus = un rat peut appuyer sur la barre qui activera le magasin de nourriture et il obtiendra de la nourriture.
CONTINGENCE NÉGATIVE = une réponse « éteint » un stimulus = un rat peut être assis dans la boîte de Skinner et l’expérimentateur peut délivrer un bruit fort – si le rat appuie sur la barre, le bruit sera éteint.
Quatre procédures communes réunissent nos 2 types d’événements (APPETITIF et MOYEN) et nos 2 types d’éventualités réponse-résultat (POSITIF et NÉGATIF) :
a.RENFORCEMENT POSITIF = procédures dans lesquelles la réponse déclenche un STIMULUS APPETITIF. Si la réponse se produit, alors le stimulus appétissant est présenté. Si la réponse ne se produit pas, le stimulus appétissant n’est pas présenté. Il s’agit d’une ECONTINGENCE POSITIVE et le taux de réponse augmente.
POSITIVEINFORCEMENT
APPETITIVETIMULUS
ECONTINGENCE POSITIVE
REPONDREINCREASES
b.PUNITION = procédures dans lesquelles la réponse met en marche un STIMULUS AVERTISSANT. Si la réponse se produit, elle reçoit le stimulus aversif. Si la réponse ne se produit pas, le stimulus aversif n’est pas présenté. Il s’agit d’une ECONTINGENCE POSITIVE et le taux de réponse diminue.
PUNITION
STIMULUS AVERSIF
ECONTINGENCE POSITIVE
REPONDANCEDECREASES
c.RENFORCEMENT NÉGATIF = procédures dans lesquelles la réponse éteint ou empêche un STIMULUS AVERTISSANT. Si la réponse se produit, le STIMULUS AVERTISSEMENT ne se déclenche pas du tout ou s’éteint. Si la réponse ne se produit pas, le stimulus aversif s’active ou reste activé. Il s’agit d’une CONTINGENCE NÉGATIVE et le taux de réponse augmente.
REINFORCEMENT NÉGATIF
STIMULUS AVERSIF
CONTINGENCE NÉGATIVE
RÉPONDANCEINCREASES
2 types de RENFORCEMENT NÉGATIF — l’un est appelé ESCAPE dans lequel la réponse désactive le STIMULUS AVERSIF. Par exemple, un expérimentateur peut allumer un bruit fort et le rat appuie une fois sur la barre et l’éteint. En effectuant une réponse, l’animal a échappé à la situation aversive.
Et l’autre est appelée AVOIDANCE dans laquelle la réponse empêche une STIMULATION AVERSIVE. Exemple, un rat peut être conditionné classiquement en associant une lumière à un choc des pieds. Présentez la lumière, et le rat court et appuie une fois sur la barre et empêche le choc de se produire. En effectuant cette réponse, l’animal a évité le stimulus aversif.
d.OMISSION TRAINING = procédures dans lesquelles la réponse désactive ou empêche une STIMULATION APPETITIVE. Si la réponse se produit, alors l’STIMULUS APPETITIF est « omis ». Si la réponse ne se produit pas, alors le stimulus appétissant se produit. Il s’agit d’une CONTINGENCE NÉGATIVE et le taux de réponse diminue.
TRAITEMENT D’OMISSION
STIMULUS APÉTITIF
CONTINGENCE NÉGATIVE
DÉCRÉATION DE LA RÉPONSE
6. CONTRÔLE DU STIMULUS = Phénomène dans lequel la probabilité d’une réponse varie en fonction des stimuli présents à ce moment-là. Une réponse est sous contrôle du stimulus si sa probabilité d’apparition diffère en présence de stimuli différents.
7. GÉNÉRALISATION = Réponse à un stimulus grâce à un entraînement impliquant un autre stimulus similaire. Voir le CONDITIONNEMENT CLASSIQUE ci-dessus.
8. DISCRIMINATION = Réponse différentielle à 2 stimuli. Au cours de la FORMATION DE DISCRIMINATION, 2 stimuli sont présentés : le renforçateur est présenté en présence d’un stimulus (S+), mais pas en présence de l’autre (S-). Voir CONDITIONNEMENT CLASSIQUE ci-dessus.
9. PEAK SHIFT = un déplacement du gradient de généralisation loin de S-. Si les sujets passent un test de généralisation après un entraînement avec un seul stimulus, le pic du gradient de généralisation sera situé au niveau du stimulus d’entraînement. Cependant, si les sujets reçoivent un entraînement à la discrimination impliquant 2 stimuli, la plus grande réponse pendant le test de généralisation se produit non pas à S+ mais à un stimulus plus éloigné de S-.
10. EXTINCTION = le renforcement est interrompu. Lorsque l’EXTINCTION est introduite pour la première fois après une période de renforcement, il y a ce sursaut de réponse – puis le taux de réponse diminue progressivement. Attendez le lendemain et remettez l’animal dans la boîte de Skinner – vous obtenez une RÉCUPÉRATION SPONTANÉE semblable au conditionnement classique.
11. RÉCUPÉRATION SPONTANÉE = le retour d’une réponse éteinte après une période de temps suivant le dernier essai d’extinction.
12. EFFET DE RENFORCEMENT PARTIEL (PRE) = Plus la proportion de réponses qui ne sont pas renforcées pendant l’entraînement est élevée, plus la réponse est persistante pendant l’extinction.
13. FRUSTRATION & AGGRESSION PROVOQUÉE PAR L’EXTINCTION = Une augmentation de lavigueur du comportement qui suit immédiatement le non-renforcement d’une réponse précédemmentrenforcée ; c’est la réponse émotionnelle induite par le retrait d’un renforçateur attendu. Dans certaines circonstances, la frustration peut être suffisamment sévère pour inclure des réactions agressives.
Azrin, Hutchinson &Hake (1966) a utilisé 2 pigeons placés dans une boîte de Skinner — l’un était retenu dans un coin pour ne pas pouvoir répondre, et l’autre était entraîné à picorer une clé pour obtenir un renforcement. Le pigeon qui picorait la clé ignorait l’autre tant qu’il recevait son renforcement. Quand l’EXTINCTION a été introduite, il a attaqué celui qui était retenu – FRUSTRATION.
14. RENFORCEMENT NÉGATIF & AVOIDANCE
NÉGATIVEREINFORCEMENT
AVERTISSEMENTTIMULUS
ECONTINGENCE NÉGATIVE
REPONDANCEINCREASES
Les études sur l’AVOIDANCE s’appuient à la fois sur les procédures deCONDITIONNEMENT CLASSIQUE et de CONDITIONNEMENT INSTRUMENTAL.
L’AVOIDANCE DISCRIMINÉE, ou SIGNALÉE, implique des essais discrets.
Un essai commence par la présentation d’un CS — comme une tonalité.
Si l’animal fait la réponse désirée, comme courir d’un côté de la cage à l’autre, alors il a réussi à ÉVITER le choc = on appelle cela un essai d’ÉVITEMENT.
S’il ne fait pas la réponse désirée, il reçoit un choc. Le choc reste allumé jusqu’à ce qu’il fasse la réponse désirée. Lorsqu’il le fait, le choc est désactivé = cela s’appelle un essai d’ÉCHAPPEMENT.
Durant la première partie de la formation, la plupart des essais sont des essais d’ÉCHAPPEMENT. Une fois que l’animal a appris que le CS prédit le US, alors la plupart des essais deviennent des essais d’ÉVITEMENT.
L’appareil le plus populaire utilisé dans l’ÉVITEMENT DISCRIMINÉ est appelé une BOÎTE À ÉVITEMENT qui est une cage séparée en 2 moitiés par une porte arquée. Chaque moitié a un plancher grillagé séparé par lequel on peut faire passer un courant électrique. L’animal est placé dans un côté de la boîte et le CS est présenté. Si l’animal passe de l’autre côté de la boîte, il évite le choc. Après une sorte d’intervalle d’essai (disons 1 minute), le CS sera à nouveau présenté et le rat devra à nouveau traverser dans le compartiment opposé pour éviter le choc.
Ainsi, tout au long de l’expérience, le rat fera la « navette » entre les 2 côtés de la boîte.
15. AVOIDANCE SIDMAN = Une procédure d’évitement conçue par Murray Sidmanthat qui implique un stimulus d’avertissement. Un événement aversif, tel qu’un choc, est programmé pour se produire à des intervalles de temps fixes (l’intervalle choc-choc) ; si le sujet donne la réponse requise à n’importe quel moment pendant cet intervalle, le prochain choc programmé est reporté pour une période fixe (l’intervalle réponse-choc).
16. CHOICE BEHAVIOREXPERIMENTS = il est très rare que le renforcement opère sur une seule réponse en isolation. Au lieu de simplement choisir de faire ou de ne pas faire une réponse, nous sommes souvent confrontés à un choix entre deux ou plusieurs réponses, chacune avec un ensemble de ses propres renforçateurs. Les expériences de comportement de choix sont celles dans lesquelles plus d’une réponse peut être donnée.
Mesurer la réponse en utilisant une mesure du TAUX RELATIF DE RÉPONSE pour chaque choix. Exemple, un pigeon est entraîné à picorer soit sur la touche A, soit sur la touche B. Le TAUX RELATIF DE RÉPONSE pour la clé A qui serait égal aux réponses sur A divisées par le total de (réponses sur A plus réponses sur B)
TAUX RELATIF DE RÉPONSE pour la clé A = RA/(RA+RB)
TAUX RELATIF DE RÉPONSE pour la clé B = RB/(RA+RB)
Que se passe-t-il si le pigeon picore le même nombre de fois sur A et B…., disons 10 fois sur chacune. Quel est le TAUX RELATIF DE RÉPONSE pour la touche A ? 0.5
Quel est le TAUX RELATIF DE RÉPONSE pour la touche B ? 0.5
Que se passe-t-il si le pigeon picore le même nombre de fois sur A et B…., disons 8 fois sur A mais seulement 2 fois sur B?
Quel est le TAUX RELATIF DE RÉPONSE pour la touche A ? 0.8
Quel est le TAUX RELATIF DE RÉPONSE pour la touche B ? 0.2
17. LA LOI DE CORRESPONDANCE DE HERRNSTEIN (Herrnstein, 1961) = lorsque vous avez le choix entre plusieurs activités, le pourcentage de temps que vous consacrez à l’une de ces activités correspondra au pourcentage des renforçateurs disponibles que vous avez obtenu de cette activité.
Exemple 1 = EXPÉRIENCE DE CHOIX DE COMPORTEMENT : les deux clés (A &B) sont exactement sur le même horaire VI60. Résultats : ils picoreront aussi souvent sur chacune des touches et recevront autant de renforts sur la touche A que sur la touche B — donc le TAUX DE RENFORCEMENT sera égal.
Exemple 2 = CHOICE BEHAVIOR EXPERIMENT : la touche A a un horaire VI6min en une heure, quel est le nombre maximum absolu de renforts que le pigeon peut recevoir ? 10 (car il y a 10 intervalles de 6 minutes dans une heure). KeyB a un horaire VI2 min — en une heure, quel est le nombre maximum absolu de renforts qu’un pigeon peut obtenir ? 30 (il y a 30 intervalles de 2 minutes en une heure). Donc c’est 3 fois la quantité possible sur la clé A.
Résultats : le pigeon fera correspondre le nombre de réponses à la probabilité d’être renforcé — il répondra 3 fois plus souvent sur la clé B par rapport à la clé A.
18. EFFETS DE CONTRASTE = Un changement dans l’efficacité d’un renforçateur en raison d’une expérience antérieure avec d’autres renforçateurs (habituellement un renforçateur est « déplacé » avec un autre ayant un niveau différent de valence positive ou négative). Les effets d’un changement de récompense ont été démontrés à l’origine par Crespi – en fait, les changements de comportement consécutifs aux changements de récompense ont été appelés collectivement « l’EFFET CRESPI ». Une étude plus récente a été faite par Mellgren (1972).
Mellgren a pris des groupes de rats dans une piste
Pendant la phase 1– Les groupes 1 et 2 ont reçu 2 boulettes de nourriture chaque fois qu’ils couraient sur la piste. Le groupe 3 & 4 recevait 22 boulettes de nourriture.
Pendant la phase 2– la moitié des rats étaient « décalés ». Ainsi, le groupe 1 = est resté le même et a reçu 2 granulés (Small-Small) ; le groupe 2 = a été décalé vers le haut et a reçu 22 granulés (Small-Large) ; le groupe 3 = est resté le même et a reçu 22 granulés (Large-Large) ; et le groupe 4 = a été décalé vers le bas et a reçu 2 granulés(Large-Small)
Résultats:
Le groupe Small-Small n’a pas beaucoup changé
Le groupe Large-large n’a pas beaucoup changé.
Mais, les rats passés d’une petite à une grande récompense ont couru plus vite pour la grande récompense que ceux qui avaient reçu la grande récompense depuis le début. C’est ce qu’on appelle un CONTRASTE POSITIF DE COMPORTEMENT — donc un CONTRASTE POSITIF DE COMPORTEMENT est défini comme une réponse accrue pour une récompense favorable en raison d’une expérience antérieure avec un résultat moins attrayant.
Et les rats passés d’une grande à une petite récompense couraient plus lentement pour la petite récompense que ceux qui avaient reçu la petite récompense depuis le début. Et ceci est appelé un CONTRASTE BEHAVIORAL NÉGATIF — donc un CONTRASTE BEHAVIORAL NÉGATIF est défini comme une réponse déprimée pour une récompense défavorableen raison d’une expérience antérieure avec un meilleur résultat.