Cours 7 : PLANS DE RENFORCEMENT et NOTIONS DE RENFORCATEUR Flashcards Preview

Psycho de l'apprentissage final > Cours 7 : PLANS DE RENFORCEMENT et NOTIONS DE RENFORCATEUR > Flashcards

Flashcards in Cours 7 : PLANS DE RENFORCEMENT et NOTIONS DE RENFORCATEUR Deck (59):
1

Quels sont les 2 types de plans de renforcement?

Simple et complexe

2

Quels sont les 2 types de plans de renforcement simples?

– Plans de renforcement à ratio
– Plans de renforcement à intervalle

3

Qu'est-ce qu'un plan de renforcement complexe?

2 règles ou plus (combinaison de renforcements simples)

4

Qu'est-ce que le renforcement continu?

chaque réponse appropriée est suivi d’un renforcement

5

Quels sont les avantages du renforcement continu?

- Apprentissage rapide: on récompense chaque réponse et chaque réponse a pour effet d'augmenter le comportement, la loi de l’effet s’applique à tous les pairages.

6

Quels sont les désavantages du renforcement continu?

- Problème: le renforcement continu n’est pas très résistant à l’extinction.
Dès que le levier ne donne plus de bouffe, le rat s’en rend compte, perçoit que les choses ont changé. On passe du blanc au noir!!!

7

Le renforcement continu est il préférable pour des conditions expérimentales ou cliniques?

- Pour des fins expérimentales: 90% du temps = renforcements continu et façonnement. (ça sert à rien de résister à l’extinction)
- Fins cliniques: le renforcement continu n’est pas la meilleure façon de préparer à l’environnement naturel. On ne veut pas de choc à la sortie.

8

Qu'est-ce que le renforcement partiel?

chaque réponse appropriée n’est pas nécessairement suivi d’un renforcement

9

Quels sont les avantages du renforcement partiel?

Le rat a déjà vécu des fois où ça n’a pas marché: + résistant à l’extinction.

La récompense n’arrive pas: pas un signal d’extinction mais juste que ça a pas marché cette fois-ci.

10

Montrer un exemple de renforcement partiel indésiré possible (avec nouveaux parents qui se font dire que le bébé doit faire ses nuits et qu’ils doivent arrêter de s’occuper du bébé s’il pleure pendant la nuit.)

Si les parents craquent après 15 min de pleurs, cela indique au bébé qu’il doit pleurer un peu plus avant d’avoir sa récompense. Forme de renforcement partiel (passer de pleurer 3-4 min à 15 min)

(si le réconfort n’arrive pas toute de suite: pas un signal d’extinction mais juste que ça a pas encore marché cette fois ci)

11

Quelle est la meilleure façon de se débarasser d'un comportement renforcé partiellement?

La meilleure façon de se débarrasser d’un comportement est D’ABORD de retourner en renforcement continu.

12

Toujours dans le contexte de renforcement partiel, quelle est la signification de l'échec?

En renforcement partiel, l’échec signifie que ça va marcher après (éventuellement). Échouer est un signal possible du succès qui s’en vient.
Quelqu’un qui a toujours réussi n'a aucune expérience de l’échec. Avoir un échec est important pour apprendre que c’est pas la fin du monde.

13

Quel est l'effet du renforcement partiel sur la courbe d'apprentissage et l'extinction?

– ralentissement de la courbe d’apprentissage
– résistance à l’extinction

14

Nommer 2 types de plans de renforcement simples (ceux vus en classe)

Plan à ratio et plan à intervalles.

15

Qu'est-ce qu'un plan à ratio?

l’obtention du renforcement est conditionnel à la production d’un nombre de réponses répétitives

(il est basé sur le nombre de réponses)

16

Qu'est-ce qu'un plan à intervalles?

il est basé sur le délai depuis le dernier renforcement (dépend du moment où on fait le renforcement)

17

Quels sont les 2 types de plans à ratio?

– ratio fixe (FR)
– ratio variable (VR)

18

Quels sont les 2 types de plans à intervalles?

– intervalle fixe (FI)
– intervalle variable (VI)

19

Quel serait le "ratio fixe" d'un renforcement continu?

1:1

20

Qu'est-ce qu'un plan à ratio fixe?

l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives (toujours le même)

21

Donner un exemple de plan à ratio fixe

ex: un rat pèse 6x sur un levier, il a de la bouffe à la 3e fois et 6e fois.

22

Quel est le comportement observé et la courbe décrite par un plan de renforcement à ratio fixe?

Comportement observé : réponse à haute fréquence mais suivie d’une pause “post-renforcement” pour les ratio élevés (fatigue ou consommation)
Courbe de performance cumulative: escalier de moyenne pente (pente moins élevée que ratio variable)

23

Comment décrire la performance sous un plan de renforcement à ratio fixe? Donner un exemple de la vraie vie de plan de renforcement à ratio fixe.

La performance créée par un plan à ratio fixe (basé sur le nombre de réponse) est TRÈS élevée.
Quantité astronomique de réponses produites. MAIS possible détérioration de la qualité.

- il faut donc convaincre la personne que quelque part, la qualité est vérifiée.

 Exemple : le travail payé à l’unité produite ou travail à la commission. (incite les vendeurs à plus aller voir les gens)

24

Quand le ratio devient très élevé qu'arrive-t-il?

on voit l’apparition de plateaux (le rat arrête de presser sur le levier)

25

Pourquoi la performance diminue quand le ratio devient trop élevé?

- Fatigue (on ne peut soutenir le plan très longtemps)
- Vacances (avoir tellement de récompenses, on arrête de consommer, le rat dit —> jvais prendre une pause, j’ai assez de bouffe et je vais manger)

26

Définir plan à ratio variable.

Ratio : l’obtention du renforcement est conditionnel à la production d’un nombre déterminé de réponses répétitives
Variable : le nombre de réponses nécessaires varie d’un renforcement à l’autre
On ne peut prévoir si la prochaine réponse va être récompensée ou non.

27

Donner un exemple de plan à ratio variable.

Exemple : une machine à sous de Loto-Québec

- machine à sous: clairement un plan ratio (car plus on joue, plus on a de chances de gagner, MAIS le % de chances n’est pas fixe, pour pas que ce soit prévisible.

Parenthèse: Observation de gens qui jouent dans une machine à sous
- jouer aléatoirement: joueur non-professionnel
- 2 types de joueurs professionnels

- La personne qui perd, perd, perd, perd, comprend que c’est un plan à ratio (un jour va gagner) et qu’il n’y a pas d’autre choix pour gagner que le nombre de réponses. Demandent à leur ami de guetter leur place pendant qu’ils vont au toilettes.
- Joueur qui regarde et va prendre la machine que les gens délaissent et essaient 15-20 minutes dessus. Comprennent que le plan à ratio variable n’est pas variable pour toujours et qu’à un bon moment ils vont finir par gagner.

28

Quel est le comportement observé et la courbe décrite par un plan de renforcement à ratio variable?

Comportement observé : effort élevé et constant. Pas de pause.

Les plans à ratio variables: comportements très persistants: «ON SAIT JAMAIS ».

Courbe: pente constante (pas de pauses/escalier) et très élevée

29

Nommer un type de plan de renforcement temporel

Plan à intervalles.

30

Définir "intervalle" dans un plan de renforcement à intervalle.

Intervalle : le renforcement est disponible (pour être obtenu)seulement après une période de temps déterminée - une seule réponse est alors suffisant

- Intervalle: période réfractaire où il n’y a pas de récompense.

31

Quel est l'effet d'un plan de renforcement à intervalle sur un rat

Le rat peut indirectement découvrir qu’il y a un délai (Thorndike: le rat revient de plus en plus vite -> graduellement, le délai de retour va approcher de la période d’intervalle.) Comportement régulier.

32

Donner 2 exemples de la vraie vie de plans de renforcement à intervalles fixes.

Exemple : vérifier si on a reçu un chèque de bien-être social (intervalle: 1 mois)

Autre exemple: Donner un cours à l’université, jour, heure et durée fixe. Il n’y a pas de récompense au prof (salaire) s’il se pointe et donne un cours à un autre moment.

33

Quel est le comportement observé et la courbe décrite par un plan de renforcement à intervalle fixe?

Comportement observé : des réponses isolées et espacées dans le temps

Courbe: longs plateaux avec réponses (grosses augmentations) à certains intervalles.

Évite la fatigue et empêche d’obtenir beaucoup de récompenses en bcp de temps (vacances)

34

Quel est l'avantage d'un plan à intervalle fixe?

Avantage: Régularise les réponses, stables (ex: 9 à 5)

35

Quel est le désavantage d'un plan à intervalle fixe? (pour un employeur)

Si on veut que les gens travaillent bcp et vite, on évite les plans à intervalles.

36

Définir plan de renforcement à intervalle variable.

Intervalle : le renforcement est disponible (pour être obtenu) seulement après une période de temps déterminée - une seule réponse est alors suffisante
Variable : la durée de l ’intervalle varie d ’un renforcement à un autre

37

Donner un exemple de plan de renforcement à intervalle variable.

Exemple : recomposer un numéro de téléphone occupé

38

Qu'est-ce qui va déterminer le rythme des réponses pour un plan de renforcement à intervalle variable? Donner un exemple (téléphone occupé)

Les BESOINS du sujet.

ex: - Si on n’a pas vraiment besoin de parler a la personne (on est en mars et pour Noël) on évite les réponses inutiles: on attend 3h (le max de la durée de l’appel) ou plus.
- Si on en a VRAIIIIMENT besoin de la récompense (besoin immédiat, on prend des risques de faire des réponses inutiles): on appelle toutes les 30 secondes.

39

Quel est le comportement observé et la courbe décrite par un plan de renforcement à intervalle variable?

Comportement observé : rythme de réponses lent mais assez constant

Courbe: pente constante (pas de pause/escalier) et moins élevée que pour ratio variable.

40

La loi de l’effet de Thorndike: la cause du renforcement est-elle la contiguité ou la contingence?

La contiguité (Dans la formulation même: « suivi », Skinner dit que Thorndike dit que le mécanisme est la contiguité.)

41

Pourquoi est-ce que Skinner est-il en désaccord avec "suivi" dans la formulation de la loi de l'effet de Thorndike?

Skinner n'est pas d'accord car cela contredit la notion de contingence comme cause du conditionnement.

- Skinner: Conséquence = l’important (R-C)
- Le rat doit produire la réponse car la réponse est causative.

42

Qu'est-ce que démontre Tinklepaugh en 1928?

Il démontre que les organismes apprennent à s’attendre à recevoir des renforçateurs particuliers: des singes à qui on donne une feuille de salade se montrèrent déçus quand ils “s’attendaient” à un morceau de banane.

La salade n'est donc pas un renforçateur dans ce cas!!!

Ça dépend du contexte, des ATTENTES.

Donc, la cause du conditionnement ne serait pas juste R-C comme Skinner l'a proposé :)

Plus S-R-C. (comme le proposent Colwill et Rescola dans leur modèle de contingence)

43

L ’expérience de contingence d’Hammond (1980) est apparentée au concept.....

Go-NoGo

44

Décrire les phases de l'expérience d'Hammond (étudiant de Rescola).

Phase 0: on met les rats dans une boite et ils apprennent que le levier donne de la bouffe.

Phase 1: renforcement de 5% des réponses (1:20)

Phase 2: continuation du renforcement de la phase 1, mais ajout de récompenses dans 5% des cas où aucune pression n ’a été faite (on donne de la bouffe gratuite aléatoirement)

Phases 3 & 4 répétition de 1 & 2 (design ABAB)

45

Qu'est-ce qui se produit dans les phases 1 et 2 de l'expérience d'Hammond?

Phase 1 : 3000 pression de levier par heure; 1 pression presque par seconde. (plutôt fort)

Phase 2: Le taux de réponse diminue graduellement presque à zéro. La réponse du rat: attendre et ne pas presser le levier pour recevoir de la nourriture.

46

Après les étapes 1 et 2 de l'expérience de Hammond que devrait-on s'attendre a observer pour les étapes 3 et 4 (répétition des 2 conditions) ?

Est-ce ce qui arrive?

- Selon Rescola, on aurait transféré la contingence d’une réponse à l’autre. (il n’y a q’une seule contingence)
- Le rat ne devrait plus presser le levier pour les étapes subséquentes.

Est-ce ce qui arrive? NON

47

Qu'est-ce qui se produit dans les phases 3 et 4 de l'expérience d'Hammond?

Phase 3: plus de nourriture gratuite, le rat continue à presser le levier, instantanément (on n’a pas réappris à presser le levier, et pas de récupération spontanée)

Phase 4: Le rat instantanément arrête de presser le levier.

ON ALTERNE D'UNE CONTINGENCE À L' AUTRE!!!

48

Que peut-on conclure de l'expérience d'Hammond?

Clairement, le rat a appris qu’il était possible d’obtenir de la nourriture de 2 façons. Le rat a appris 2 contingences pour la même conséquence.
S -> R1 -> C
s -> R2 -> C

Ainsi, le modèle de conditionnement instrumental n’est pas comme le conditionnement classique: il est possible d’apprendre plusieurs réponses.

S ——> C !!!

49

Pour Skinner, c'est la _________ qui qui crée un apprentissage. ________ et ______ne sont pas d'accord

Pour Pavlov, Skinner et Thorndike, c'est la conséquence qui qui crée un apprentissage. (un pairage pas de conséquence: il n’y a pas d’apprentissage pour ce pairage.)

Tinklepaugh et Premack ne sont pas d'accord.

50

David Premack est un béhaviorisme progressif qui se convertit au cognitivisme dans les années 1970. Pendant ses années de behaviorisme progressif, il va contribuer à développer une conception différente de ce qui constitue (ou peut constituer) un _______ suite à une série d’observations faites chez le ______.

renforcateur ; cochon

51

Pourquoi est-ce que Premack a choisi le cochon pour son expérience?

il y a de la variation individuelle dans la personnalité, s’approche un peu plus de l’humain.

52

En quoi constitue l'expérience de Premack?

Observer 1h de la vie de 2 cochons différents (Newt et Jack)

53

Quels sont les résultats de l'expérience de Premack?

 Newt préfère (passe plus de temps à faire) la recherche de racines (travailler) Newt est un cochon travaillant
– la recherche de racine peut renforcer Newt

 Jack préfère le repos. Jack est un cochon fainéant.
– le repos peut renforcer Jack

54

Quelle est la conclusion obtenue par Pramack?

On peut utiliser un comportement comme renforçateur. (un comportement qu’on aime faire plus qu’un autre). Les comportements préférés peuvent récompenser les comportements non-préférés.

55

Qu'est-ce que proposent Timberlake et Allison?

Tout comportement produit à un niveau inférieur à son niveau optimal (seuil de satisfaction) peut être un renforçateur.

C'est la THÉORIE DE LA PRIVATION DE LA RÉPONSE: « Ce qui constitue un renforçateur change avec le contexte. »

56

En quoi est-ce que ce qui est proposé par Timberlake et Allison diffère de la conclusion obtenue par Premack? Donner un exemple.

C'est plus précis que ce que propose Premack car ça montre que c'est pas juste parce qu'on préfère un comportement à un autre qu'il va être une récompense. Ex: récompense de jouer au xbox —> peut ne plus être une récompense si on a joué toute la journée.

57

Selon Timberlake et Allison, si le niveau optimal de préférence d’un individu est d’étudier 20 % du temps et qu’il ne peut étudier que 10 % du temps, alors....

pouvoir étudier plus que 10 % pourra servir à renforcer un autre comportement.

58

« Ce qui constitue un renforçateur change avec le contexte. » Montrer un contexte où aller aux toilettes peut devenir

priver quelqu’un d’aller au toilettes, le niveau d’optimal n’est pas atteint -> devient une récompense

59

La théorie de Timberlake et Allison, (théorie de ________ de la réponse) montre que tout est ______ et que tous les concepts d’______(ex: Rescola) ne fonctionnent pas.

privation ; relatif ; absolu