CONDICIONAMIENTO INSTRUMENTAL

1. CAJA DE PUZZLE DE THORNDIKE = los gatos hambrientos tenían que aprender a escapar para conseguir un plato de comida – Thorndike midió la LATENCIA para escapar. Resultados = a lo largo de los ensayos, La LATENCIA disminuyó

la naturaleza gradual de la curva convenció a Thorndike de que los animales no se habían formado una comprensión racional de la situación, sino que la recompensa de la comida se había estampado en una asociación entre los cubos de la caja del rompecabezas y la huida. Formalizó su creencia en su «LEY DEL EFECTO»

«CUANDO LA RESPUESTA ES REPETIDA POR UN ESTADO DE SITUACIÓN SATISFACTORIO, ESA RESPUESTA AUMENTARÁ EN FRECUENCIA»

2. PROCEDIMIENTOS DE ENSAYOS DISCRETOS = durante el entrenamiento, 1) cada ensayo termina cuando se retira el animal del aparato y 2) la respuesta instrumental se realiza sólo una vez durante cada ensayo. Por lo general, los procedimientos de ensayos discretos utilizan algún tipo de laberinto.

El uso de laberintos fue promovido por W.S. SMALL en la Universidad de Clark para poder estudiar el aprendizaje en ratas.

Su inspiración fue un artículo de la revista Scientific American en el que se describía cómo las ratas vivían en madrigueras subterráneas y tenían que abrirse camino a través de pasajes «similares a un laberinto» todo el tiempo – así que tomó prestado de la naturaleza – es decir, trajo la naturaleza al laboratorio y estableció lo que él pensaba que era el equivalente de estos laberintos subterráneos.

Medir 1)VELOCIDAD DE CORRIDA = la rapidez con la que un animal puede ir desde la caja de salida hasta la caja de meta — normalmente aumenta a lo largo de las pruebas — los animales se hacen más rápidos; o 2)LATENCIA = el tiempo que tardan los animales en salir de la caja de salida y empezar a moverse por el callejón — normalmente se acorta a lo largo de las pruebas — los animales se hacen más rápidos.

3. PROCEDIMIENTOS DE OPERACIÓN LIBRE = procedimientos que implican respuestas hechas por el animal a un ritmo que ellos mismos establecen (es decir, son «libres» de operar en su entorno respondiendo cuando quieran y con la frecuencia que deseen). Skinner eliminó el laberinto por completo y diseñó una cámara que tenía la caja de inicio y la caja de meta en el mismo lugar para que el animal no tuviera que correr a ninguna parte y construyó la «caja de Skinner» – o cámara operante.

pasos en el adiestramiento:

1er paso = adiestramiento con magnetismo = sonido de la comida que se entrega (¡seguimiento de señales de condicionamiento clásico!)

2º PASO = ENTRENAMIENTO = recompensar las aproximaciones sucesivas al comportamiento deseado

Medir el comportamiento del animal utilizando un GRABADOR CUMULATIVO.

Se trata de un dispositivo que tiene un tambor giratorio que saca papel a un ritmo constante — un bolígrafo se posa en el papel. Si no hay respuesta, el bolígrafo se queda quieto y dibuja una línea plana y horizontal mientras el papel sale de la máquina. Si un animal presiona la palanca, el bolígrafo sube un escalón en el papel y se queda arriba; la siguiente respuesta hace que el bolígrafo suba un escalón más, y así sucesivamente; se llama acumulativo porque se puede medir el número total de respuestas con sólo mirar la distancia vertical entre el lugar donde empezó el bolígrafo y el lugar donde se detuvo después de que el animal dejó de responder.

DISTANCIA VERTICAL = número total de respuestas

DISTANCIA HORIZONTAL = cuánto tiempo ha transcurrido

CORRIENTE DE LA LÍNEA = tasa de respuesta (cuán rápido el animal estaba presionando la barra)

4. ESQUEMAS DE REFUERZO =Reglas que determinan cuándo se reforzará una respuesta.

REFUERZO CONTINUO (CRF) = cada respuesta se refuerza.

REFUERZO PARCIAL o INTERMITENTE — 2 tipos: Ratio & Intervalo

1. RATIO ESQUEMADO =el refuerzo depende del número de respuestas emitidas, ejemplo trabajo «a destajo» donde se paga por el número de artículos que se hacen(NO por el tiempo que se tarda en hacerlos)

a. RATIO FIJO = número fijo, en FR30 cada 30ª respuesta es recompensada.

b. RATIO VARIABLE = número variable, en VR30 se recompensa una media de 30 respuestas.

2. HORARIO DE INTERVALO = el refuerzo depende del tiempo que haya pasado desde el último refuerzo, por ejemplo, recibir el correo donde se puede visitar el buzón un billón de veces al día pero no se va a recibir hasta 24 horas después del lote de hoy.

a. INTERVALO FIJO = cantidad fija de tiempo, en FI30 se premia la primera respuesta realizada después de transcurridos 30 segundos.

b. INTERVALO VARIABLE = cantidad de tiempo variable, en VI30 se premia la primera respuesta realizada después de que haya transcurrido una media de 30 segundos.

Cada programa tiene un efecto diferente en el comportamiento:

INTERVALO FIJO= se obtiene muy poca respuesta después de un refuerzo, pero la tasa se acelera constantemente y alcanza un pico justo antes del siguiente refuerzo. A esto se le denomina INTERVALO FIJO. ¿QUÉ NOS DICE ESTO SOBRE LOS ANIMALES? ESTÁN JUZGANDO EL TIEMPO — Implicaciones muy, muy importantes — si usted recompensa cada hora entonces el comportamiento sólo ocurrirá cada hora.

Razón FIXTA = usted obtiene pausa y carrera, recompensa luego pausa seguida de muchas presiones y luego recompensa.

Con VARIABLESCHEDULES (ya sea VI o VR) usted obtiene mucho más regular porque el refuerzo puede ocurrir en cualquier momento — no puede ser predicho. ¿Qué horario crees que conoce Las Vegas?

Un último horario: el horario fijo es la entrega automática de un reforzador en un momento determinado (como cada 2 minutos). Se puede contrastar con un PROGRAMA DE INTERVALO FIJO en que un PROGRAMA DE TIEMPO FIJO, el refuerzo NO es contingente a ninguna respuesta – es decir, el animal es reforzado sin importar lo que esté haciendo en ese momento. Skinner llamó a este refuerzo «accidental» comportamiento supersticioso porque el animal actúa como si su comportamiento produjera un refuerzo cuando, en realidad, nada (o nada) de lo que haga dará lugar a la obtención de la recompensa.

5. CONTINGENCIAS RESPUESTA-SALIDA

Somedefiniciones:

APPETITIVIDAD = Un acontecimiento agradable.

AVERSIVIDAD = Un acontecimiento desagradable.

CONTINGENCIA POSITIVA = una respuesta «activa» un estímulo = una rata puede pulsar la barra que activará el cargador de comida y obtendrá algo de comida.

CONTINGENCIA NEGATIVA = una respuesta «apaga» un estímulo = una rata puede estar sentada en la caja Skinner y el experimentador puede emitir un ruido fuerte – si la rata presiona la barra el ruido se apagará.

Cuatro procedimientos comunes reúnen nuestros 2 tipos de eventos (APERCIBIDOS y AVERSIVOS) y nuestros 2 tipos de contingencias de respuesta-resultado (POSITIVOS y NEGATIVOS):

a.REFUERZO POSITIVO = procedimientos en los que la respuesta enciende un ESTIMULO APROPIADO. Si se produce la respuesta, se presenta el estímulo apetitivo. Si la respuesta no se produce, entonces el estímulo apetitivo no se presenta. Se trata de una CONTINGENCIA POSITIVA y la tasa de respuesta aumenta.

INFORME POSITIVO

ESTIMULO APETIVO

CONTINGENCIA POSITIVA

INCREMENTO DE LA RESPUESTA

b.CASTIGO = procedimientos en los que la respuesta enciende un ESTIMULO AVERSIVO. Si la respuesta se produce, recibe el estímulo aversivo. Si la respuesta no se produce, entonces el estímulo aversivo no se presenta. Se trata de una CONTINGENCIA POSITIVA y la tasa de respuesta disminuye.

Castigo

Estímulo aversivo

ConTINGENCIA POSITIVA

La respuesta disminuye

c.REFUERZO NEGATIVO = procedimientos en los que la respuesta apaga o impide un ESTIMULO AVERSIVO. Si se produce la respuesta, el ESTIMULO AVERSIVO no se enciende o se apaga. Si la respuesta no se produce, el estímulo aversivo se enciende o permanece encendido. Esto es una CONTINGENCIA NEGATIVA y la tasa de respuesta aumenta.

REFUERZO NEGATIVO

ESTÍMULO AVERSIVO

CONTINGENCIA NEGATIVA

INCREMENTO DE LA RESPUESTA

2 tipos de REFUERZO NEGATIVO — uno se llama ESCAPE en el que la respuesta apaga el ESTÍMULO AVERSIVO. Por ejemplo, un experimentador puede encender un ruido fuerte y la rata presiona la barra una vez y lo apaga. Al realizar una respuesta, el animal ha ESCAPADO de la situación aversiva.

Y la otra se llama EVITANCIA en la que la respuesta evita un ESTIMULO AVERSIVO. Por ejemplo, se puede condicionar clásicamente a una rata emparejando una luz con un choque de pies. Si se presenta la luz, la rata corre y presiona la barra una vez e impide que se produzca el choque. Al realizar la respuesta, el animal ha EVITADO el estímulo aversivo.

d.ENTRENAMIENTO POR OMISIÓN = procedimientos en los que la respuesta desactiva o impide un ESTÍMULO APROPIATIVO. Si se produce la respuesta, entonces el ESTIMULO APPETITIVO se «omite». Si la respuesta no se produce, entonces el estímulo apetitivo se produce. Se trata de una CONTINGENCIA NEGATIVA y la tasa de respuesta disminuye.

Entrenamiento de la omisión

Estimulo apetitivo

ConTINGENCIA NEGATIVA

Disminuye la respuesta

6. CONTROL DE ESTÍMULOS = Fenómeno en el que la probabilidad de una respuesta varía en función de los estímulos presentes en ese momento. Una respuesta está bajo control de estímulo si su probabilidad de ocurrencia difiere en presencia de diferentes estímulos.

7. GENERALIZACIÓN = Responder a un estímulo debido al entrenamiento con algún otro estímulo similar. Véase el CONDICIONAMIENTO CLÁSICO más arriba.

8. DISCRIMINACIÓN = Respuesta diferencial a 2 estímulos. Durante el ENTRENAMIENTO DE DISCRIMINACIÓN, se presentan 2 estímulos: el reforzador se presenta en presencia de un estímulo (S+), pero no en presencia del otro (S-). Véase el CONDICIONAMIENTO CLÁSICO más arriba.

9. PEAK SHIFT = un desplazamiento del gradiente de generalización lejos de S-. Si los sujetos reciben una prueba de generalización tras un entrenamiento con un solo estímulo, el pico del gradiente de generalización se situará en el estímulo de entrenamiento. Sin embargo, si los sujetos reciben un entrenamiento de discriminación con 2 estímulos, la mayor respuesta durante la prueba de generalización no se produce en S+ sino en un estímulo más alejado de S-.

10. EXTINCIÓN = se interrumpe el refuerzo. Cuando se introduce la EXTINCIÓN por primera vez después de un período de refuerzo, se produce esta explosión de respuesta – luego la tasa de respuesta disminuye gradualmente. Espere hasta el día siguiente y vuelva a poner al animal en la caja de Skinner – obtendrá una RECUPERACIÓN ESPONTÁNEA similar a la del condicionamiento clásico.

11. RECUPERACIÓN ESPONTÁNEA = el retorno de una respuesta extinguida después de un período de tiempo tras el último ensayo de extinción.

12. EFECTO DE REFUERZO PARCIAL (PRE) = Cuanto mayor es la proporción de respuestas que no se refuerzan durante el entrenamiento, más persistente es la respuesta durante la extinción.

13. FRUSTRACIÓN & AGRESIÓN INDUCIDA POR LA EXTINCIÓN = Aumento del vigor de la conducta que sigue inmediatamente al no refuerzo de una respuesta previamente reforzada; es la respuesta emocional inducida por la retirada de un reforzador esperado. Bajo ciertas circunstancias, la frustración puede ser lo suficientemente severa como para incluir reacciones agresivas.

Azrin, Hutchinson &Hake (1966) utilizó 2 palomas colocadas en una caja de Skinner – una estaba sujeta en la esquina para que no pudiera responder, y la otra estaba entrenada para picotear una llave para obtener refuerzo. La paloma que picoteaba la llave básicamente ignoraba a la otra mientras recibía su refuerzo. Cuando se introdujo la EXTINCIÓN, atacó al restringido — FRUSTRACIÓN.

14. REFUERZO NEGATIVO & AVOIDANZA

REFUERZO NEGATIVO

AVERSIVO

CONTINGENCIA NEGATIVA

RESPONSABILIDAD

INCREMENTOS

Los estudios sobre la AVOIDANZA se basan tanto en procedimientos de CONDICIONAMIENTO CLÁSICO como de CONDICIONAMIENTO INSTRUMENTAL.

La AVOIDANCIA DISCRIMINADA o SEÑALADA implica ensayos discretos.

Un ensayo comienza con la presentación de un CS, como un tono.

Si el animal hace la respuesta deseada, como correr de un lado de la jaula a otro, entonces ha evitado con éxito el choque = esto se llama un ensayo de AVOIDANCE.

Si no hace la respuesta deseada, recibe un choque. La descarga se mantiene hasta que el niño responda de la manera deseada. Cuando lo hace, el choque se apaga = esto se llama un ensayo de ESCAPE.

Durante la primera parte del entrenamiento, la mayoría de los ensayos son ensayos de ESCAPE. Una vez que el animal aprende que el CS predice el US, entonces la mayoría de los ensayos se convierten en ensayos de AVOIDANCE.

El aparato más popular utilizado en DISCRIMINATEDAVOIDANCE se llama SHUTTLE BOX que es una jaula separada en 2 mitades por una puerta con arco. Cada mitad tiene un suelo de rejilla de alambre separado a través del cual podemos pasar una corriente eléctrica. El animal se coloca en un lado de la caja y se le presenta el CS. Si el animal cruza al otro lado de la caja, evita el choque. Después de algún tipo de intervalo de prueba (digamos 1 minuto), el CS se encenderá de nuevo y la rata tendrá que cruzar al compartimento opuesto de nuevo para evitar el choque.

Así que a lo largo del experimento, la rata «irá» de un lado a otro de la caja.

15. SIDMAN AVOIDANCE = Un procedimiento de evitación ideado por Murray Sidman que implica un estímulo de advertencia. Un acontecimiento agresivo, como un choque, se programa para que se produzca a intervalos de tiempo fijos (el intervalo choque-choque); si el sujeto da la respuesta requerida en cualquier momento durante este intervalo, el siguiente choque programado se pospone durante un período fijo (el intervalo respuesta-choque).

16. Experiencias de comportamiento de elección = muy raramente el refuerzo opera sobre una sola respuesta aislada. En lugar de elegir simplemente si hacer o no una respuesta, a menudo nos enfrentamos a una elección entre dos o más respuestas, cada una con un conjunto de sus propios reforzadores. Los experimentos de comportamiento de elección son aquellos en los que se puede hacer más de una respuesta.

Medir la respuesta utilizando una medida de TASA RELATIVA DE RESPUESTA para cada elección. Ejemplo, se entrena a una paloma para que picotee la Llave A o la Llave B. La TASA RELATIVA DE RESPUESTA para la clave A que sería igual a las respuestas en A dividido por el total de (respuestas en A más respuestas en B)

Tasa relativa de respuesta para la clave A = RA/(RA+RB)

Tasa relativa de respuesta para la clave B = RB/(RA+RB)

¿Qué sucede si la paloma picotea el mismo número de veces en A y B…., digamos 10 veces en cada una. ¿Cuál es la TASA RELATIVA DE RESPUESTA para la tecla A? 0,5

¿Cuál es la TASA RELATIVA DE RESPUESTA de la tecla B? 0.5

¿Qué pasa si la paloma picotea el mismo número de veces en A y en B…., digamos 8 veces en A pero sólo 2 veces en B?

¿Cuál es la TASA RELATIVA DE RESPUESTA para la tecla A? 0,8

¿Cuál es la TASA RELATIVA DE RESPUESTA de la tecla B? 0.2

17. LEY DE COINCIDENCIA DE HERRNSTEIN (Herrnstein, 1961) = cuando se tiene una elección entre varias actividades, el porcentaje de tiempo que se dedica a una de estas actividades coincidirá con el porcentaje de los reforzadores disponibles que se ha obtenido de esta actividad.

Ejemplo 1 = EXPERIMENTO DE COMPORTAMIENTO DE ELECCIÓN : ambas llaves (A &B) están en el mismo horario VI60. Resultados: picotearán con la misma frecuencia en cada una de las llaves y recibirán tantos refuerzos en la llave A como en la llave B — por lo que la TASA DE REFUERZO será igual.

Ejemplo 2 = EXPERIMENTO DE COMPORTAMIENTO DE ELECCIÓN : La llave A tiene un horario de VI6min en una hora, ¿cuál es el número máximo absoluto de refuerzos que puede recibir una paloma? 10 (porque hay 10 intervalos de 6 minutos en una hora). ClaveB tiene un horario VI2min — en una hora, ¿cuál es el número máximo absoluto de refuerzos que puede obtener una paloma? 30 (hay 30 intervalos de 2 minutos en una hora). Así que es 3 veces la cantidad que es posible en la tecla A.

Resultados: la paloma igualará el número de respuestas a la probabilidad de ser reforzada — responderá 3 veces más en la tecla B comparada con la tecla A.

18. EFECTOS DE CONTRASTE = Un cambio en la efectividad de un reforzador debido a la experiencia previa con otros reforzadores (normalmente un reforzador es «cambiado» por otro que tiene un nivel diferente de valencia positiva o negativa). Los efectos de un cambio en la recompensa fueron demostrados originalmente por Crespi; de hecho, los cambios de conducta tras los cambios de recompensa se denominaron colectivamente «EFECTO CRESPI». Un estudio más reciente fue realizado por Mellgren (1972).

Mellgren tomó grupos de ratas en una pista

Durante la fase 1– Los grupos 1 y 2 recibieron 2 bolitas de comida cada vez que corrían por la pista. El Grupo 3 & 4 obtuvo 22 pellets de comida.

Durante la Fase 2– la mitad de las ratas fueron «cambiadas». Así, el Grupo 1 = permaneció igual y obtuvo 2 pellets (Pequeño-Pequeño); el Grupo 2 = fue desplazado hacia arriba y obtuvo 22 pellets (Pequeño-Grande); el Grupo 3 = permaneció igual y obtuvo 22 pellets (Grande-Grande); y el Grupo 4 = fue desplazado hacia abajo y obtuvo 2 pellets(Grande-Pequeño)

Resultados:

El grupo Pequeño-Pequeño no cambió mucho

El grupo Grande-Grande no cambió mucho.

Pero, las ratas que pasaron de una recompensa Pequeña a una Grande corrieron más rápido por la recompensa grande que las que habían recibido la recompensa grande todo el tiempo. Esto se denomina CONTRASTE POSITIVO DE LA CONDUCTA – así que un CONTRASTE POSITIVO DE LA CONDUCTA se define como un aumento de la respuesta para una recompensa favorable debido a la experiencia anterior con un resultado menos atractivo.

Y las ratas cambiadas de una recompensa grande a una pequeña corrieron más lentamente por la recompensa pequeña que las que habían recibido la recompensa pequeña todo el tiempo. Y esto se llama CONTRASTE DE COMPORTAMIENTO NEGATIVO – así que un CONTRASTE DE COMPORTAMIENTO NEGATIVO se define como una respuesta deprimida para una recompensa desfavorable debido a la experiencia previa con un resultado mejor.

Virtual world

CONDICIONAMIENTO INSTRUMENTAL

Deja una respuesta Cancelar la respuesta

Entradas recientes