CONDICIONAMENTO INSTRUMENTAL

1. THORNDIKE’S PUZZLE BOX = gatos famintos tiveram que aprender a escapar para geta bowl de comida — Thorndike mediu a LATENCIA para escapar. Resultados = sobre as provas, LATENCY declinou

a natureza gradual da curva convenceu Thorndike de que os animais não tinham formado um entendimento da situação aracional, mas sim que o alimento REWARDGRADUALLY STAMPED IN AN ASSOCIATION BETWEEN CUES IN THE PUZZLE BOX AND ESCAPE. Ele formalizou a sua crença na sua “LEI DE EFEITO”

“QUANDO A ARESPONSAGEM É REPEATIVAMENTE SEGUIDA POR UM ESTADO DE ASSUNTOS SATISFAZENTADOS, QUE A RESPONSABILIDADE AUMENTARÁ EM FREQÜÊNCIA”

2. PROCEDIMENTOS DE DISCRETE TRIALS = durante o treinamento, 1) cada teste termina quando você remove o animal do aparelho e 2) a resposta instrumental é executada apenas uma vez durante cada teste. Normalmente, os procedimentos de ensaios discretos usam algum tipo de labirinto.

O uso domazes foi pioneiro por W.S. SMALL na Clark University para que ele pudesse estudar o aprendizado em ratos.

A sua inspiração foi fornecida por um artigo na Scientific American descrevendo como os ratos viviam em tocas subterrâneas e têm que fazer o seu caminho através de passagens “tipo labirinto” o tempo todo — então ele pediu emprestado da natureza — isto é, ele trouxe a natureza para o laboratório e montou o que ele pensava ser o equivalente desses labirintos subterrâneos.

Medida 1)VELOCIDADE DE EXECUÇÃO = quão rápido um animal pode passar da caixa de partida para a caixa de golo — aumenta normalmente sobre as tentativas — os animais ficam mais rápidos; ou 2)LATENCIA = o tempo que leva os animais a saírem da caixa de partida e a começarem a descer pelo beco — normalmente fica mais curto sobre as tentativas — os animais ficam mais rápidos.

3. PROCEDIMENTOS LIVRE-OPERANTE = procedimentos que envolvem respostas feitas pelo animal a um ritmo que eles definem (i.e, eles são “livres” operando no seu ambiente respondendo sempre que quiserem e quantas vezes quiserem). Skinner eliminou completamente o labirinto e desenhou o Achamber que tinha a caixa de partida e a caixa de meta no mesmo lugar para que o animal não tivesse que correr para qualquer lugar e construiu a “Skinner box” – ou “operantchamber”.

passos intraining:

1ST STEP =TREINAMENTO DE MAGAZINE = som dos alimentos a serem entregues (clássico condicionamento de sinal!)

2PASSO =SHAPING = recompensar aproximações sucessivas ao comportamento desejado

Medir o comportamento do animal usando um GRAVADOR CUMULATIVO.

É um dispositivo que tem um tambor rotativo que puxa o papel para fora a um ritmo constante — uma caneta no papel. Se não houver resposta, a caneta fica parada e desenha uma linha plana e horizontal à medida que o papel sai da máquina. Se um animal executa uma pressão de alavanca, a caneta sobe um degrau no papel e fica para cima – a resposta seguinte move a caneta para cima mais um degrau e assim por diante e assim por diante – ela é cumulativa porque você pode medir o número total de respostas apenas olhando para a distância vertical entre onde a caneta começou e onde a caneta parou de responder.

VERTICALDISTÂNCIA = número total de respostas

HORIZONTALDISTÂNCIA = quanto tempo decorreu

LINHA DE LINHA = taxa de resposta (quão rápido o animal estava a pressionar a barra)

4. REGRAS DE REFORÇO =Regras que determinam quando uma resposta será reforçada.

CONTINUOUSREINFORCEMENT (CRF) = cada resposta é reforçada.

REINFORÇO PARCIAL ou INTERMITENTE – 2 tipos: Razão & Intervalo

1. RATIO SCHEDULE =reinforço depende do número de respostas emitidas, exemplo: trabalho “fragmentado” onde as pessoas são pagas por quantos itens elas fazem (NÃO por quanto tempo leva para fazê-los)

a. RÁCIO FIXO = número fixo, em FR30 cada 30ª resposta é recompensada.

b. RÁCIO VARIAVEL = número variável, em VR30 uma média de 30 respostas é recompensada.

2. CALENDÁRIO INTERVALO = reforço depende de quanto tempo passou desde o último reforço,exemplo recebendo correio onde você pode visitar a caixa de correio um zilhão de vezes por dia, mas você ainda não vai receber nenhum até 24 horas após o lote de hoje.

a. CORRIGIDO INTERVALO = quantidade fixa de tempo, no FI30 a primeira resposta depois de 30 segundos já passou é recompensada.

b. INTERVALO VARIÁVEL = quantidade de tempo variável, em VI30 é recompensado o primeiro responsável após decorridos em média 30 segundos.

Cada horário tem um efeito diferente no comportamento:

INTERVALO MIXO= obtém-se muito pouca resposta após um reforço, mas a taxa acelera constantemente e atinge um pico pouco antes do próximo reforço ser devido. A isto chama-se um FI SCALLOP. O QUE É QUE ISTO NOS DIZ SOBRE OS ANIMAIS — O QUE É QUE ELES ESTÃO A FAZER? TEM TEMPO DE JULGAMENTO — Implicações muito, muito importantes — se você recuar de hora em hora, então o comportamento só ocorrerá a cada hora.

RATIO MIXO = você recebe pausa e corre, recompensa e depois pausa seguida por muitas prensas e depois recompensa.

Com VARIABLESQUEDULOS (VI ou VR) você fica muito mais regular porque o reforço pode ocorrer a qualquer momento — não pode ser previsto. Que horário(s) acha que Las Vegas sabe tudo sobre?

Um calendário de duração — O CALENDÁRIO FIXO-TIME é a entrega automática de um reforço no tempo determinado (como a cada 2 minutos). Pode ser contrastado com um REGULAMENTO INTERVALO FIXADO em que um REGULAMENTO DE TEMPO FIXO, o reforço NÃO está dependente de qualquer resposta — isto é, o animal é reforçado, não importa o que ele esteja fazendo no momento. Skinner chamou este reforço “acidental” de SUPERSTITIOUSBEHAVIOR porque o animal age como se seu comportamento produzisse reforço quando na realidade, nada (ou qualquer coisa) que ele faça resultará em esquecer a recompensa.

5. RESPONSE-OUTCOME CONTINGENCIES

Somedefinitions:

APPETITIVESTIMULUS = Um evento agradável.

AVERSIVESTIMULUS = Um evento desagradável.

POSITIVECONTINGENCY = uma resposta “acende” um estímulo = um rato pode pressionar a barra que irá activar o magazine alimentar e ele irá obter alguma comida.

NEGATIVE CONTINGENCY = uma resposta “turnsoff” um estímulo = um rato pode estar sentado na caixa do Skinner e o experimentador pode emitir um ruído alto – se o rato pressionar a barra o ruído será desligado.

Quatro procedimentos comuns reúnem os nossos 2 tipos de eventos (APPETITIVO e AVERSIVO) e os nossos 2 tipos de contingências de resposta – chegada (POSITIVO e NEGATIVO):

a.REINFORMAÇÃO POSITIVA = procedimentos em que a resposta acende uma ESTÍMULO APETITIVO. Se a resposta ocorrer, então o estímulo appetitivo é apresentado. Se a resposta não ocorrer, então o estímulo appetitivo não é apresentado. Esta é uma POSITIVECONTINGÊNCIA e a taxa de resposta aumenta.

POSITIVEREINFORCEMENT

APPETITIVESTIMULUS

POSITIVECONTINGENCY

RESPONDINGINCREASES

b.PUNISHMENT = procedimentos em que a resposta acende um ESTÍMULO AVERSIVO. Se a resposta ocorrer, ela recebe o estímulo aversivo. Se a resposta não ocorrer, então o estímulo aversivo não é representado. Esta é uma POSITIVECONTINGENCIA e a taxa de resposta diminui.

PUNISMENTO

AVERSIVESTIMULUS

POSITIVECONTINGENCY

RESPONDINGDECREASES

c.REINFORMAÇÃO NEGATIVA = procedimentos em que a resposta desliga ou previne um ESTÍMULO AVERSIVO. Se a resposta ocorrer, o ESTIÚULO AVERSIVO ou não se liga em todos os orgãos desligados. Se a responsabilidade não ocorrer, então o estímulo aversivo é ligado ou permanece ligado. Este é um CONTINGÊNCIA NEGATIVA e a taxa de resposta aumenta.

NEGATIVEREINFORCEMENT

AVERSIVESTIMULUS

NEGATIVECONTINGENCY

RESPONDINGINCREASES

2 tipos de REINFORMAÇÃO NEGATIVA — um chama-seESCAPE em que a resposta desliga o ESTÍMULO AVERSIVO. Exemplo, um experimentador pode ligar um ruído alto e o rato pressiona a barra uma vez e desliga-a. Ao executar a resposta em ares o animal tem ESCAPADO a situação aversiva.

E a outra é chamada AVOIDÂNCIA na qual a resposta impede um ESTÍMULO AVERSIVO. Por exemplo, um rato pode ser classicamente condicionado através do emparelhamento de uma luz de choque com os pés. Apresente a luz, e o rato passa por cima e pressiona a barra uma vez e evita que o choque se torne sempre visível. Ao executar a resposta, o animal AVOIA o estímulo aversivo.

d.TREINAMENTO DE OMISSÃO = procedimentos em que a resposta se desliga ou previne um ESTIMULO APETITIVO. Se a resposta ocorrer, então o ESTÍMULO APETITIVO é “omitido”. Se a resposta não ocorrer, então o estímulo appetitivo ocorre. Este é um CONTINGÊNCIA NEGATIVA e a taxa de resposta diminui.

TREINAMENTO DE MISSÃO

APPETITIVESTIMULO

NEGATIVECONTINGENCY

RESPONDINGDECREAS

6. CONTROLE ESTIMULAR = Um fenômeno cuja probabilidade de resposta varia de acordo com os estímulos presentes no tempo. Uma resposta é controle de subestimulo se sua probabilidade de ocorrência difere na presença de estímulos diferentes.

7. GENERALIZAÇÃO = Responder a um estímulo devido a um treinamento envolvendo algum outro estímulo similar. Ver CONDIÇÃO CLÁSSICA acima.

8. DISCRIMINAÇÃO = Diferencial que corresponde a 2 estímulos. Durante o TREINAMENTO DE DISCRIMINAÇÃO, 2 estímulos são apresentados: o reforço é apresentado na presença de um estímulo (S+), mas não na presença do outro (S-). Ver CONDIÇÃO CLÁSSICA acima.

9. PEAK SHIFT = um deslocamento no gradiente de generalização para longe de S-. Se os sujeitos forem submetidos a um teste de generalização após o treinamento com estímulo asingle, o pico do gradiente de generalização será localizado no estímulo de treinamento. Entretanto, se os sujeitos receberem treinamento discriminatório envolvendo 2 estímulos, o greatestresponding durante o teste de generalização não ocorre para S+ mas para um estímulo mais distante de S-.

10. EXTINCTION = o reforço é descontinuado. Quando EXTINCTION é introduzida pela primeira vez após um período de reforço, existe este BURST de resposta – depois a taxa de resposta diminui gradualmente. Espere até ao dia seguinte e coloque o animal de volta na caixa Skinner — obtém RECUPERAÇÕES ESPONTÂNEAS – semelhantes ao condicionamento clássico.

11. SPONTANEOUS RECOVERY = o retorno de uma resposta extinta após um período de tempo após o último ensaio de extinção.

12. EFEITO DE REINFORMAÇÃO PARCIAL (PRE) = Quanto maior a proporção de respostas não reforçadas durante o treinamento, mais persistente é a resposta durante a extinção.

13. FRUSTRAÇÃO & AGRESSÃO DE EXTINÇÃO-INDUZIDA = Um aumento do vigor do comportamento que se segue imediatamente ao não reforço de uma resposta previamente reforçada; é a resposta emocional induzida pela retirada de um reforço esperado. Em certas circunstâncias, a frustração pode ser suficientemente severa para incluir reacções agressivas.

Azrin, Hutchinson & Hake (1966) usou 2 pombos colocados numa caixa Skinner — um foi imobilizado no canto para que não pudesse responder, e o outro foi treinado para bicar uma chave para reforço. O bicador de chaves basicamente ignorou o outro, desde que ele conseguisse o seu reforço. Quando EXTINCTION foi induzido, ele atacou a chave de reforço — FRUSTRATION.

14. REINFORMAÇÃO NEGATIVA & AVOIDÂNCIA

NEGATIVEREINFORCEMENT

AVERSIVESTIMULUS

NEGATIVECONTINGENCY

RESPONDINGINCREASES

Estudos sobre AVOIDÂNCIA dependem de procedimentos de CONDITIONAMENTO CLÁSSICO e INSTRUMENTAL.

DISCRIMINADO,ou AVOIDANÇA SINALIZADA envolve ensaios discretos.

Um ensaio começa com a apresentação de um CS — como um tom.

Se o animal produz a resposta desejada, como correr de um lado de uma gaiola para outro,então ele tem o choque AVOIDADO com sucesso = isto é chamado de ensaio AVOIDANCE.

Se ele não produzir a resposta desejada, ele recebe um choque. O choque permanece ligado até que ele faça a resposta desejada. Quando o faz, o amortecedor é desligado = isto chama-se um ensaio ESCAPE.

Durante a parte inicial do treino, a maioria dos ensaios são ensaios ESCAPE. Quando o animal aprende que o CS prediz os EUA, então a maioria dos testes tornam-se testes AVOIDANCE.

O aparelho mais popular usado no DISCRIMINATEDAVOIDANCE é chamado de SHUTTLE BOX que é uma gaiola separada em 2 metades por uma porta artilhada. Cada metade tem um chão de rede de arame separado através do qual podemos passar uma corrente eléctrica. O animal é colocado num dos lados da caixa e o CS é apresentado. Se o animal atravessar para o outro lado da caixa, ele evita o choque. Após algum tipo de intervalo entre ensaios (digamos 1 minuto), o CS será ligado novamente e o rato terá de atravessar novamente para o compartimento oposto para evitar o choque.

Então, através da experiência, o rato irá “vaivém” entre os 2 lados da caixa.

15. SIDMAN AVOIDANCE = Um procedimento para evitar a fuga concebido por Murray Sidman que envolve um estímulo de aviso. Um evento de aversão como um choque é programado para ocorrer em intervalos de tempo fixos (o intervalo choque-choque); se o sujeito fizer a resposta necessária a qualquer momento durante este intervalo, o próximo choque programado é adiado para um período fixo (o intervalo choque-resposta).

16. CHOICE BEHAVIOREXPERIMENTS = muito raramente o reforço funciona com uma única inisolação de resposta. Ao invés de simplesmente escolher se devemos ou não fazer uma resposta, somos frequentemente confrontados com o Acice entre duas ou mais respostas, cada uma com um conjunto de seus próprios reforços. Os experimentos de comportamento de escolha são aqueles em que mais de uma resposta pode ser feita.

Medida de resposta usando uma TAXA RELATIVA DE RESPONSABILIDADE-medida para cada escolha. Exemplo, o pombo é treinado para bicar na Chave A ou na Chave B. A TAXA RELATIVA DE RESPONSABILIDADE para a chave A que seria igual às respostas de A dividida pelo total de (respostas de A mais respostas de B)

TAXA RELATIVA DE RESPONSABILIDADE para a chave A = RA/(RA+RB)

TAXA RELATIVA DE RESPONSABILIDADE para a chave B = RB/(RA+RB)

O que acontece se o pombo bicar o mesmo número de vezes em A e B…., digamos 10 vezes em cada um. Qual é a TAXA RELATIVA DE RESPONSABILIDADE para a chave A? 0,5

Qual é a TAXA RELATIVA DE RESPONSABILIDADE para a chave B? 0,5

O que acontece se o pombo bicar o mesmo número de vezes em A e B…., digamos 8 vezes em A mas apenas 2 vezes em B?

Qual é a TAXA DE RESPONSABILIDADE RELATIVA para a chave A? 0,8

Qual é a TAXA RELATIVA DE RESPONSABILIDADE para a chave B? 0.2

17. HERRNSTEIN’S MATCHING LAW (Herrnstein, 1961) = quando você tem achoice entre várias atividades, a porcentagem de tempo que você dedica a uma dessas atividades vai corresponder à porcentagem dos reforços disponíveis que você ganhou com essa atividade.

Exemplo 1 = EXPERIMENTO DE COMPORTAMENTO DE ESCOLHA : ambas as chaves (A &B) estão exatamente na mesma programação VI60. Resultados: eles bicarão com a mesma frequência em cada uma das chaves e receberão apenas alguns reforços na chave A como na chave B — então a TAXA DE REFORÇO será igual.

Exemplo 2 = EXPERIÊNCIA DE ESCOLHA DE COMPORTAMENTO : a chave A tem um horário de VI6min em uma hora, qual é o número máximo absoluto de reforços que um pombo pode receber? 10 (porque há 10 intervalos de 6 minutos em uma hora). A KeyB tem um horário de VI2 minutos — numa hora, qual é o número máximo absoluto de reforços que um pombo pode obter? 30 (há 30 intervalos de 2 minutos em uma hora). Assim é 3 vezes a quantidade possível na chave A.

Resultados: o pombo irá FAZER a correspondência entre o número de respostas à probabilidade de ser reforçado — ele irá responder 3 vezes mais vezes na KeyB do que na Key A.

18. EFEITOS DO CONTRASTO = Uma mudança na eficácia de um reforço devido à experiência de toprior com outros reforços (normalmente um reforço é “deslocado” com outro com um nível diferente de valência positiva ou negativa). Os efeitos de uma mudança na recompensa foram originalmente demonstrados pelo Crespi – na verdade, as mudanças de comportamento após as mudanças de recompensa foram coletivamente chamadas “o EFEITO CRESPI”. Um estudo morerecente foi feito por Mellgren (1972).

Mellgren levou grupos de ratos em uma pista

Durante a Fase 1–Os grupos 1 e 2 receberam 2 pellets de alimento cada vez que correram pela pista. Grupo 3 &4 obteve 22 pellets de alimento.

Durante a Fase 2– Metade dos ratos foram “deslocados”. Então o Grupo 1 = permaneceu o mesmo e recebeu 2 pelotas (Pequeno-Pequeno); Grupo 2 = foi deslocado para cima e recebeu 22 pelotas (Pequeno-grande); Grupo 3 = permaneceu o mesmo e recebeu 22 pelotas (Grande-Grande); e Grupo 4 = foi deslocado para baixo e recebeu 2 pelotas(Grande-Pequeno)

Resultados:

O grupo Pequeno-Pequeno não mudou muito

O grupo Grande-Grande não mudou muito.

Mas, o grupo Pequeno-grande passou mais rápido para a grande recompensa do que os ossos que receberam a grande recompensa o tempo todo. Isto é chamado de CONTRASTO POSITIVO DE COMPORTAMENTO POSITIVO – então um CONTRASTO POSITIVO DE COMPORTAMENTO POSITIVO é definido como um aumento na resposta a uma recompensa favorável por causa da experiência anterior com um resultado menos atraente.

E os ratos passaram de uma recompensa Grande para uma Pequena recompensa correram mais devagar para a pequena recompensa do que aqueles que receberam a pequena recompensa o tempo todo. E isso é chamado de CONTRASTO NEGATIVO DE COMPORTAMENTO COMPATIVO – então um CONTRASTO NEGATIVO DE COMPORTAMENTO é definido como uma resposta deprimida a uma recompensa desfavorável por causa de uma experiência anterior com um resultado melhor.

Deixe uma resposta

O seu endereço de email não será publicado.