1. ソーンダイクのパズルボックス=空腹の猫は餌の入ったボウルを得るために逃げることを学ばなければならなかった–ソーンダイクは逃げるまでの遅れを測定した。 結果=試行錯誤の結果。 LATENCYは減少した
その曲線の緩やかさから、ソーンダイクは、動物は状況を合理的に理解したのではなく、パズルボックスのキューと脱出の関連性を食べ物の報酬で徐々に刻印したと確信しているのです。 彼はその信念を「効果の法則」
「反応に満足する状態が繰り返し続くと、その反応は頻度を増す」
2 に定式化している。 DISCRETE TRIALS PROCEDURES = 訓練中、1)動物を装置から取り出した時点で各試験が終了し、2)道具的反応は各試験中に1度だけ行われる。
迷路の使用は、クラーク大学のW.S.SMALLがラットの学習を研究するために先駆的に行った。
彼のインスピレーションは、サイエンティフィック・アメリカンの記事で、ラットが地下の穴に住んでいて、常に「迷路のような」通路を通らなければならないことを説明していたことから得られました。
Measure 1)RUNNING SPEED = 動物がスタートボックスからゴールボックスまでどれだけ速く移動できるか — 通常は試行回数が増えるほど速くなる — または 2)LATENCY = 動物がスタートボックスを出て路地を移動し始めるまでにかかる時間 — 通常は試行回数が増えると短くなる — 動物はより速くなる。
3.自由行動計画(FREE-OPERANT PROCEDURES)=動物が設定したペースで行う反応を含む計画(すなわち, つまり、好きなときに好きな回数だけ反応して、環境を「自由に」操作するものです。) スキナーは迷路を完全に排除し、スタートボックスとゴールボックスが同じ場所にあるachamberを設計したので、動物はどこにも走る必要がなく、「スキナーボックス」、つまりoperantchamberを構築しました。
steps intraining:
1STEP = Magazine Training = food being delivered (classical conditioning signtracking!)
2nd STEP =SHAPING =望ましい行動に連続的に近似した報酬を与える
CUMULATIVE RECORDER.
これは一定の速度で紙を引き出す回転ドラムを持っているデバイスです – 紙にペンシルを置きます。 何も反応がなければ、ペンは静止し、紙が機械から出てくるときに平らな水平線を描きます。 動物がレバープレスをすると、ペンは紙の上に1段上がってそのままになります。
VERTICALDISTANCE = 反応の総数
HORIZONTALDISTANCE = どれくらいの時間が経過したか
SLOPE OF THELINE = 応答速度(動物がどれだけ速くバーを押していたか)
4. REINFORCEMENT SCHEDULES = 応答がいつ強化されるかを決定するルール
CONTINOUSREINFORCEMENT (CRF) = すべての応答が強化される
PARTIAL or INTERMITTENT REINFORCEMENT — 2種類。 レシオ & インターバル
1. RATIO SCHEDULE = 反応の数に応じた強化。例えば、「piecemeal」ワークでは、作ったアイテムの数によって報酬が支払われる(作るのにかかる時間ではなく)
a. 固定比率=固定数、FR30では30回目の回答ごとに報酬が支払われます。
b. VARIABLE RATIO = 可変数、VR30では平均30回の応答が報われる。
2.インターバルスケジュール = 強化は最後の強化からどのくらい時間が経過したかに依存する、例えば、一日に何度もメールボックスを訪問しても、今日のバッチの後24時間まで何も来ないようなメールを得る。
a. FIXED INTERVAL = 固定時間、FI30では30秒経過後の最初の応答が報酬となります。
b. FIXED INTERVAL = 固定時間、FI30では30秒経過後の最初の応答が報酬となります。 VARIABLE INTERVAL = 可変時間、VI30では、平均30秒経過後の最初の応答が報酬を受ける。
Each schedule has a different effect on behavior:
FIXED INTERVAL=強化の後ほとんど反応がないが、徐々に加速して次の強化の直前にピークに達するというもの。 これをFI SCALLOPと呼びます。 これは動物について何を教えてくれるのでしょうか? THEY ARE JUDGING TIME – 非常に、非常に重要な意味 – if youreward every hour then the behavior will only occur every hour.
FIXED RATIO = you get pause and run, reward then pause followed by many presses then reward.
VARIABLESCHEDULES (either VI or VR) with you get much regular because reinforcement canoccur at any time – it cannot be predicted.これは予測不可能な行動であり、強化はいつでも起こるので、より多くの規則的な行動をとります。
ラスベガスはどのスケジュールを知っていると思いますか?
最後のスケジュール–固定時間スケジュールは、与えられた時間(2分ごとなど)に自動的に強化子が与えられることです。 これは、固定時間制では、強化がいかなる反応にも左右されないという点で、固定間隔制と対照的である–つまり、動物がそのとき何をしていても強化される。 スキナーはこの「偶発的」強化をSUPERSTITIOUSBEHAVIORと呼んだが、それは動物があたかも自分の行動が強化につながるかのように振る舞っているが、実際には何も(あるいは何も)しなければ報酬を得ることはできないからである
5. 反応-結果連続性
Somedefinitions:
APPETITIVESTIMULUS = 楽しい出来事
AVERSIVESTIMULUS = 不愉快な出来事
POSITIVECONTINGENCY = ある反応が刺激を「オンに」させる= ネズミはバーを押すと食物雑誌が起動して食物を手にすることができる。
Negative CONTINGENCY = 反応が刺激を「消す」 = ラットがスキナー箱に座り、実験者が大きな音を出すことができる – ラットがバーを押せば音は消される。
4つの共通手順により、2種類のイベント(APPETITIVEとAVERSIVE)と2種類の反応-結果偶発性(POSITIVEとNEGATIVE)がまとめられます:
a.POSITIVE REINFORCEMENT = 応答がAPPETITIVE STIMULUSをONにする手順。 もし反応が起これば、食欲刺激を提示する。 もし反応が起こらなければ、食欲刺激は提示されない。 これはPOSITIVEREINFORCEMENT
APPETITIVESTIMULUS
POSITIVECONTINGENCY
RESPONDINGINCREASES
b. POSITIVEREINFORCEMENTとRESAPTEVENTは、Positive Contingencyと呼ばれ、反応率が増加する。PUNISHMENT=応答がAVERSIVE STIMULUSをONにする手順。 反応が起これば、回避的刺激を受ける。 反応が起こらなければ、回避的な刺激は提示されない。 これはPOSITIVECONTINGENCYであり、反応の割合は減少する。
PUNISHMENT
AVERSIVESTIMULUS
POSITIVECONTINGENCY
RESPONDINGDECREASES
c. PONITVENTION
c.NEGATIVE REINFORCEMENT = 反応がAVERSIVE STIMULUSをOFFにする、または防止する手順。 応答が発生した場合、AVERSIVE STIUMULUSは全く点灯しないか、またはOFFになります。 もし反応が起こらなければ、回避的な刺激がオンになるか、オンのままになります。 これは負の継続性であり、反応の割合は増加します。
NEGATIVEREINFORCEMENT
AVERSIVESTIMULUS
NEGATIVECONTINGENCY
RESPONDINGINCREASES
2種類のNEGATIVE REINFORCEMENT–一つはESCAPEといい、これは反応がAVERSIVE STIMULUSをOFFにすることである。 例えば、実験者が大きな音を出すと、ネズミはバーを一回押して音を消します。
そして、もうひとつは回避(AVOIDANCE)と呼ばれるもので、これは反応によって常同刺激を防ぐものです。 例えば、ラットは古典的な条件付けとして、光と足裏の衝撃を対にすることができる。 ライトを提示すると、ラットは走ってきてバーを1回押し、ショックが二度と起こらないようにします。
d.OMISSION TRAINING = 反応が味覚刺激を止める、または防ぐ手順。 反応が起これば、APPETITIVE STIMULUSは「省略」される。 もし反応が起こらなければ、食欲刺激が起こる。 これはNEGATIVE CONTINGENCYであり、反応速度は低下する。
OMISSIONTRAINING
APPETITIVESTIMULUS
NEGATIVECONTINGENCY
RESPONDINGDECREASES
6. 刺激制御=反応の可能性がその時存在する刺激によって変化する現象。 異なる刺激の存在下で反応の発生確率が異なる場合、反応は刺激制御下にある。 GENERALIZATION = 他の類似の刺激を含む訓練によって、ある刺激に反応すること。 古典的条件づけの項参照)
8. 差別化=2つの刺激に差をつけて反応させること。 DISCRIMINATION訓練では2つの刺激が提示され、一方の刺激(S+)があると強化子が提示され、他方の刺激(S-)があると強化子が提示されないというものです。 上記の古典的条件付けを参照してください。
9. PEAK SHIFT=一般化勾配がS-から遠ざかること。 もし被験者が一つの刺激で訓練した後に汎化テストを受けると、汎化勾配のピークは訓練刺激に位置することになる。 しかし、被験者に2つの刺激を含む弁別訓練を行うと、般化テスト中の最大の反応はS+ではなく、S-からさらに離れた刺激に起こる。
10. EXTINCTION=強化が打ち切られる。 強化の期間の後、EXTINCTIONが最初に導入されたとき、この反応のBURSTがあります – その後、反応の割合は徐々にdecrease.Thisは、強化の期間の後、EXTINCTIONが最初に導入されたとき、この反応のBURSTがあります。 翌日まで待ち、動物をスキナー箱に戻すと、古典的条件付けに似たSPONTANEOUS RECOVERYが得られる
11. 自発的な回復=最後の消滅試行から一定期間後に消滅した反応が戻ってくること
12. 部分強化効果(PRE)=訓練中に強化されなかった反応の割合が高いほど、絶滅時の反応がより持続的になること
13. FRUSTRATION & EXTINCTION-INDUCED AGGRESSION = 以前に強化された反応の非強化の直後に起こる行動の活力の増加、それは期待された強化剤の取り下げによって引き起こされる情動反応である。
Azrin, Hutchinson & Hake (1966) はスキナー箱に入れられた2羽のハトを使いました–1羽は隅に拘束されて反応できず、もう1羽は強化のために鍵をつつくよう訓練されました。 キーペッカーは基本的に彼がhirreinforcementを得た限り、他の1つを無視した。 EXTINCTION が導入されると、彼は拘束された方を攻撃した — FRUSTRATION.
14. 負の強化 & AVOIDANCE
NEGATIVEREINFORCEMENT
AVERSIVESTIMULUS
NEGATIVECONTINGENCY
RESPONDINGINCREASES
回避の研究において古典条件付けと計測条件付けの両方の手続に依拠している。
DISCRIMINATED,or SIGNALLED AVOIDANCEは離散的な試行を含む。
試行はCS(音のようなもの)の提示から始まります。
動物がケージの一方から他方へ走るような望ましい反応をすれば、ショックを回避することに成功したことになり、これを回避試験といいます。 ショックは、彼が望ましい反応を示すまで続きます。
トレーニングの初期には、ほとんどの試行が逃避試行となります。
訓練初期にはほとんどの試行が逃避試行になる。
逃避試行で最もよく使われる装置はシャトルボックスと呼ばれ、アーチ型の扉で2つに分けられたケージである。 各半分には、電流を流すことができる独立したワイヤーグリッドの床があります。 動物が箱の片側に入れられ、CSが提示されます。 動物が箱の反対側に渡るとショックを避けることができる。 ある種の試行間隔(たとえば1分)の後、CSは再びオンになり、ラットはショックを避けるために再び反対側の区画に渡る必要があります。
つまり、実験中、ラットは箱の2面を「シャトル」して行き来することになります。 シドマン回避(SIDMAN AVOIDANCE)=マレイ・シドマンが考案した警告刺激を伴わない回避方法。 ショックなどの回避事象は一定の時間間隔(ショック-ショック間隔)で起こるように計画され、この間に被験者が必要な反応をすれば、次に計画されたショックは一定時間(反応-ショック間隔)延期される。 CHOICE BEHAVIOREXPERIMENTS =強化が単一の反応に単独で作用することは非常にまれである。 単に反応をするかしないかを選択するのではなく、それぞれが強化子を持つ2つ以上の反応間の選択に直面することが多いのです。 選択行動実験とは、複数の反応をさせることができる実験である
各選択肢について相対反応速度(RELATIVE RATE OF RESPONDING)を用いて反応を測定する。 例:ハトは鍵Aか鍵Bのどちらかをつつくように訓練される。 Aの応答回数÷(Aの応答回数+Bの応答回数)<4935> <2450>Aの応答回数=RA/(RA+RB)<4935> <2450>Bの応答回数=RB/(RA+RB)<4935> <341>AとBで同じ回数をつついたらどうなるか?…、例えばそれぞれ10回ずつ。 鍵盤Aの相対応答速度はどうなるか。 0.5
キーBの相対的反応速度は? 0.5
AとBで同じ回数つつくとどうなるか…たとえばAで8回、Bで2回だけつつくとどうなるか?
キーAの相対的反応速度は? 0.8
キーBの相対的応答速度は? 0.2
17. HERRNSTEIN’S MATCHING LAW (Herrnstein, 1961) = 複数の活動の中から選択する場合、これらの活動の一つに割く時間の割合は、この活動から得た強化剤の割合と一致する。
例1 = 選択行動実験:両方の鍵(A &B)が全く同じVI60スケジュール上にある場合。 結果:それぞれの鍵で同じ頻度でつつき、鍵Aでも鍵Bと同じだけ増援を受けるので、増援率は等しくなる
例2 = 選択行動実験:鍵Aは1時間でVI6分のスケジュールだが、ハトが得られる絶対最大増援数は何個か? 10個(1時間に6分間隔が10個あるから) KeyBはVI2minのスケジュールで、1時間にハトが獲得できる増援の絶対数は? 30(1時間に2分間隔が30回)。
結果:鳩は強化される可能性と反応回数を一致させる–キーBではキーAに比べて3倍の頻度で反応する
18. 対照効果(CONTRAST EFFECTS)=他の強化子との先行経験により強化子の効果が変化すること(通常、強化子はプラスまたはマイナスの価数の異なるものと「シフト」される)。 報酬のシフトの効果はもともとクレスピによって実証され、実際、報酬のシフトに伴う行動の変化を総称して「クレスピ効果」と呼ばれています。 より新しい研究はMellgren(1972)によって行われた。
Mellgrenはラットのグループを滑走路に入れた
第1段階において、グループ1と2は滑走路を走るたびに餌を2ペレット得た。 グループ3 & 4は22個の餌を得た。
第2段階では–ラットの半分が「移動」させられた。 つまり、グループ1=そのままで、2ペレットを得た(Small-Small)、グループ2=上にシフトして22ペレットを得た(Small-Large)、グループ3=そのままで、22ペレットを得た(Large-Large)、グループ4=下にシフトして2ペレット得た(Large-Small)
結果:
Small-Small グループはあまり変化せず
Large-large グループはあまり変化なし
結果:
グループ3はあまり変化なし。
しかし、小から大に移行したネズミは、ずっと大の報酬を受けていたネズミよりも大の報酬に対して速く走りました。 これはPOSITIVE BEHAVIORAL CONTRASTと呼ばれ、POSITIVE BEHAVIORALCONTRASTは、より魅力的ではない結果を事前に経験しているため、好ましい報酬に対する反応が増加すると定義される。
そして、大きな報酬から小さな報酬にシフトしたラットは、小さな報酬を最初から受け取っていたラットに比べ、小さな報酬に対してゆっくり走るようになった。 そして、これはNEGATIVE BEHAVIORAL CONTRASTと呼ばれています–ですから、NEGATIVEBEHAVIORAL CONTRASTは、より良い結果に対する以前の経験のために、好ましくない報酬に対する反応が落ち込むと定義されています
。