Cours 4 Flashcards
(49 cards)
La reconnaissance des objets: Neuroscience cognitive et computationnelle
D’un point de vue psychophysique, quelles sont les propriétées de l’image qui qui caractérisent les objets?
–>–>quelles sont les propriétés d’un objet qui ont permis a la personne de le reconnaitre
Comment est-ce que le cerveau traite l’information visuelle pour reconnaître et catégoriser les objets?
Comment est-ce que ces principes peuvent inspirer et informer les technologies modernes de reconnaissance d’objets.
–>ex les autos autonomes
à mesure quon avance dans le cortex visuel, le plus les choses sont complexes
Importance de la reconnaissance d’objets
La capacité à reconnaître et à catégoriser les objets est fondamentale pour la survie et l’interaction avec notre environnement.
–> on doit être capable de catégoriser et reconnaître objets
Elle nous permet de naviguer dans notre monde, de reconnaître les dangers, de trouver de la nourriture, et contribue grandement aux interactions sociales.
Dans le contexte technologique, en reproduisant ces capacités, nous pouvons créer des systèmes qui améliorent notre sécurité, notre santé, et notre bien-être, en prenant en charge des tâches allant de la conduite autonome à la détection précoce de maladies dans des images médicales.
Défis computationnels et leçons de la neuroscience dans la reconnaissance d’objets
Les défis dans la création de systèmes de reconnaissance d’objets efficaces reflètent les complexités du traitement visuel dans le cerveau:
–>la variabilité des objets
–>leur contexte
–>les conditions d’éclairage
Ceci exige des systèmes capables d’abstraction et de généralisation à partir d’exemples limités, similaire à la capacité humaine d’apprendre et de reconnaître des objets nouveaux ou peu familiers.
une des facons d’améliorer ces modèles c’est ajouter de la variabilité des objets
→ très tot chez l’enfant on commence a reconnaître objets et on le pratique
le contexte: ex je vois une craie alors je devrai aussi voir un tableau ou je vois crayon je vais pt voir aussi efface ou papier
→aide à la prédicition et travailler plus rapidement
condition d’éclairage: bien voir
la quantité d’bjets dans laquelle on est exposé dans notre vie est énorme impossible a compter so faudrait en montrer plus au ai nous on est exposé à 10000 fois plus
→ on essaye d’entrainer les modeles avec une mince fraction de cette info
Le problème de la reconnaissance d’objets: analogie du sys visuel
→ analogie des 5 personnes aveugles
Les images n’étaient qu’un tas de pixels sur un écran, mais dans chaque cas, vous perceviez un éléphant.
Comment votre système visuel passe-t-il des points lumineux, comme les pixels, à des entités entières dans le monde, comme les éléphants ?
les 5 points c’est des champs récepteurs, on image que ces cercles c’est des personnes aveugles, elles peuvent juste toucher ce qui est encerclé (chacune leur cercle)
→ si on demande aux 5 ils vont pt guess mais si on demande à juste une, elle touche juste une partie so elle va pas savoir c un elephant
les champs récepteurs du cortex vis primaire à ces régions en isolation peuvent pas conclure que c’est un éléphant mais ensemble oui lorsque tt l’info est intégrée ensemble
La théorie des gabarits
Théorie des templates (gabarits) : La proposition selon laquelle le système visuel reconnaît les objets en faisant correspondre la représentation neuronale de l’image avec une représentation interne de la même “forme” dans le cerveau.
quand on est en présence d’un exemplaire d’un objet pis on le compare ayu gabrit quon a dans cerveau pis si ça match alors good on reconnait
ex: clef → si on a la bonne clef avec bonne serrure alors on comprend bon c’est la bonne clef mais si autre clef bin ah ça marche pas c pas la bonne clef
→ il faudrait quil y ait un gabarit pour chaque version de chaque objet ex les fonts de lettres
→ difficile d’imaginer quon ait autant d’espace dans cerveau pour ça
La théorie des prototypes
on a pt pas des gabarits mais des protoypes
→ on ferait genre une moyenne de tous les exemplaires vus pour créer un prototype
on compare l’objet a tous nos prototypes pis là on voit c’st quel objet
Le concept de représentations prototypiques dans la reconnaissance des objets a été largement influencé par les travaux de la psychologue Eleanor Rosch dans les années 1970
Introduit l’idée de catégories cognitives organisées autour de prototypes.
Prototype: un membre “typique” ou “moyen” d’une catégorie, possédant les caractéristiques les plus représentatives de cette catégorie.
Les individus classent plus rapidement et plus facilement des objets comme appartenant à une catégorie s’ils sont proches du prototype de cette catégorie.
Par exemple, dans la catégorie des oiseaux, un robin est souvent considéré comme un exemple plus typique (ou prototypique) que, disons, un pingouin.
La théorie des exemplaires
théoriedes exemplaires (pas exactement comme gabarits)
→ on garde en mémoire une représentation abstraite de tous exmplaires rencontrés, en présenve d’une objet on se demande a quel exemplaire il ressemble plus pis on reconnait
–>exemplaires spécifiques, pas un prototype moyen
Formalisée durant les années 80 par prof. Robert Nosofsky.
Les individus classent des objets et des événements en se basant sur la comparaison avec des exemples spécifiques (ou exemplaires) qu’ils ont rencontrés dans le passé, plutôt que par rapport à un prototype moyen ou idéal de chaque catégorie.
–>il a développé un cadre mathématique avec lequel on peut expliquer la catégorisation
General Recognition Theory
La théorie de la reconnaissance généralisée fut introduite par Prof. Gregory Ashby en 1986.
–>Se veut une extension multidimensionnelle de la SDT.
–>Considère la reconnaissance d’objets comme un processus de décision probabiliste.
extension de la théorie de la détection des signaux
considère recon d’objet comme décision probabiliste
si objets ont grand chevauchement en terme de carctéristiques alors on estime que c mm catégorie
General Recognition Theory les graphiques
a. stimulus
b. individual percepts
c. probabilistic perceptual reprensatation
visages qui varient sur le genre et expression faciale (2 dimensions sur lequels les objets varient)
dependemment de ou on se trouve sur les axes ont va pouvoir tirer conclusion sur ce qu’est l’objet
General Recognition Theory: indépendance perceptuelle
pas compris
concept d’indépendance perceptuelle : si les carct. se chevauchent pas ou ont pas une relation linéaire alors y’a pas de raison de penser que ????? idk
General Recognition Theory: séparabilité perceptuelle
comment esquon peut différencier différents exemplaires
chaque stimulus représenté avec contribution unique et avec sa propre distribution de probabilité d’appartenir à la catégorie
a droite pas de séparabilité perceptuelle: les deux distribution se permet pas de déterminer si on est en présence
General Recognition Theory: séparabilité décisionnelle
zones dans les représentations
quand y,a une colinéarité entre deux dimensions ont peut pas séparer les deux catégories
Théorie de reconnaissance par composants
Théorie de la reconnaissance par composants:
–>Le modèle de reconnaissance d’objets de Biederman: soutient que les objets sont reconnus par les identités et les relations de leurs composants.
–> Géons : Les « ions géométriques » à partir desquels les objets sont construits.
on peut créer un alphabet de composants qui combinés permettent de reconstruire nimporte qul objet → les géons
à partir des relations entre les géons qu’on peut formuler hypothèse sur objet présenté
y’a 36 géons
à partir de 36 géons on peut créer tous les objets
c’est une extension de la théorie de la détection des signaux
les géons c’est un peu comme les lettres de l,alphabet on fait un nombre infini de mots avec ces lettres
très générique permet de reconnaître presque nimporte quelle tasse
les relations entre géons sont importantes aussi genre position de chaque géon
Modèles computationnels de reconnaissance des objets: Réseau neuronal profond (DNN)
–> Réseaux de neurones à plusieurs niveaux pouvant être entraînés à reconnaître des objets.
–> De nombreuses instances d’un objet sont montrées au réseau, avec du feedback
–> Au fil du temps, le réseau peut reconnaître de nouvelles instances de l’objet sur lesquelles il n’a jamais été entrainé.
le réseau va modifier ses représentations internes afin de s’améliorer
en combinant les champs récepteurs à travers les couches on arrive à finalement encoder un concept comme vache donc reconnaitre
–>contrairement aux modèles bio-inspirés précédents, les derniers DNN rivalisent avec les performances de représentation du cortex IT (chez le singe) sur une tâche de reconnaissance visuelle d’objets.
–>cortex infero-temporal
–>Les représentations d’un modèle DNN de reconnaissance d’objet “expliquent” les représentations mesurées dans IT avec l’IRMf.
–>on arrive à prédire avec les représentations de l’ia les représentations qui sont faites dans le cerveau humain
–>En utilisant un DNN pour modéliser les propriétés visuelles du stimulus, les auteurs montrent que les propriétés de niveau intermédiaire et de haut niveau des images peuvent prédire la conscience visuelle, et peuvent fournir une explication mécanistique du phénomène du clignement attentionnel.
–> on peut prédire si on va voir ou non l’image présentée genre si on reconnaît
–>comparer ce quon voit en imagerie cérébrale vs dans le réseau de neurone → établir une correspondance entre comment les images sont traités dans cerveau vs ordi
La théorie des cellules grand-mère
Cellules “grand-mère” :
–> Un seul neurone pourrait-il être responsable de la reconnaissance de votre grand-mère ?
–>Initialement une anecdote lancée par Jerry Lettvin au MIT en 1969.
–>Contribue au débat “localisé” vs. “distribué” que nous aborderons plus tard.
manière satirique d’illustrer une version extrême comme la théorie des exemplaire où les concepts sont localisés dans le cerveau
-> un neurone pour chaque objet
Une cellule pour Jennifer Anniston?
Plusieurs études furent publiées dans les années 2000, suggérant certaines évidences pour les cellules Grand-Mère.
Notamment, une étude de Quiroga
plusieurs études qui ont prit cette anecdote au serieux (it wasnt..) qui ont démontré l’existance de cellules grand mere dans le cerveau
épileptique on a présenté stimulis visuel pour voir les signaux qui pourraient aider a comprendre les représentations de catégorie
→ on cherchait pour des neurones, esque ce neurone s’active ou non pour cette image
→ chex un des patients ils ont troouvé un neurone qui s’activait systématiquement en présence d,une image -|> la cellule stai une cellule qui s’activait uniquement en présence de jennifer aniston.. différentes poses, coiffures, lunettes
→ mais pas si elle est avec brad pitt ou à une aitre actrice similaire
plus tard on a observé que ces cellule répondaient a la voix de jennifer aussi
d’autres cellules chex d’autres participants pour des endroits spécifiques ou d’autre célébrités etc
on semble etre en présence de cellules qui répondraient a des concepts uniques
Les neurones dans le cerveau humain
notre cortex c’est 88% du cerveau et 20% des neurones environ
cervelet 10% du cerveau et 80% des neurones environ
→ etant donne nos capacité cognitives on s’attend a ce que le cortex soit ce qui qcontient le plus de neurones mais non!
esque c probable quon ait un neurone par concept?
hmm difficile à croire, trop de concepts dans le monde qui nous entoure
et aussi la mort de neurone… si neurone meurt as they often do, on oublie c quoi un crayon?
Une approche intégrant les théories
d’un coté réponses cérébrales avec neuroimagerie a une centaine d’objets uniques et de l’autre ils ont fait une tache comportementale en demandant aux gens si l’ojet est animé ou inanimé genre vache vs crayon
c quoi le temps de réponse selon objet
→ mettre ces données en lien avec les représentation de ces objet dans le cortex
ligne pointillées est la frontière décisionnelle
le décodeur dit tt ce qui est à gauche c’est animé, droite, inanimé
→ décodeur est pas parfait → y’a un point rouge du mavais coté comme on peut voir dans l’image
plus un objet est loin de la frontière décisionelle, plus rapidement cet objet sera reconnu comme faisant parti de sa catégorie (pcq ressemble pas à l’autre catégorie)
plusieurs théories de décodage afin de créer une théorie
on met en lien avec les temps de réponse
model de drift diffusion peut modeliser combine d’évidence ça prend pour prendre décision sur quelle catégorie l’objet est
→ plus un stimulus est proche de la frontière décisionnelle, plus on a besoin d’accumuler d’évidence sur le stimulus et donc plus long est le temps de réponse
Des lignes et bordures aux propriétés des objets
Comment reconnaît-on les objets ?
–> Cellules ganglionnaires rétiniennes et LGN = Taches
–> Cortex visuel
primaire = Barres
Comment les taches et les barres deviennent-elles des objets et des surfaces ?
–>De toute évidence, notre cerveau fait quelque chose d’assez sophistiqué au-delà de V1.
corps genouillé latéral (lgn)
cortex visuel primaire: une barre active les cellules (on peut le voir comme une combinaison de taches qui sont organisées dans une direction spécifique)
comment on intègre cette info de bas niveau pour reconnaître des objets?
→ on y va bcp plus complexe après
Les champs récepteurs des cellules extrastriées sont plus sophistiqués que ceux du cortex strié.
Ils répondent à des propriétés visuelles importantes pour la perception des objets.
–>Par exemple, « boundary ownership ». Pour une frontière donnée, quel côté fait partie de l’objet et quel côté fait partie de l’arrière-plan ?
appartenance de frontière
→ propriété qui va influencer la réponse de cellules dans le cortex extrastrié
Bordures et champs récepteurs voir slide 40
oval c’est la bordure
a: le champ récepteur rouge représente un neurone qui répondrait a un bord noir a droite et gris a gauche
b et c montre comment un neurone réponderait différemment à la mm entrée
les neurones dans V2 vont commencer a répondre a des trucs plus sophistiqués → ils vont répondre de facn préférencielle a de bordures qui vont pouvoir séparer des textures
La vision de niveau intermédiaire (mid-level)
Vision de niveau intermédiaire:
une étape vaguement définie du traitement visuel qui intervient après que les caractéristiques de base ont été extraites de l’image (vision de bas niveau) et avant la reconnaissance d’objet et la compréhension de la scène (vision de haut niveau).
–>Implique la perception des bords et des surfaces
–>Détermine quelles régions d’une image doivent être regroupées en objets
bas niveau comme les barres et les taches
se trouve entre bas niveau et haut niveau qui est la recon d’objets
La vision de niveau intermédiaire (mid-level): Trouver les bords
Comment trouvez-vous les bords des objets?
Les cellules du cortex visuel primaire ont de petits champs récepteurs.
Comment savez-vous quels bords vont ensemble et lesquels ne vont pas ensemble?
avec le v1 primaire on a pas bcp d’info
Les détecteurs de bord informatisés ne sont pas aussi performants que les humains.
Parfois, les ordinateurs ne trouvent pas les bords que les humains voient facilement.
Contour illusoire :
Un contour qui est perçu même si rien ne change d’un côté du contour à l’autre.
ex 3 figures de “cercles” mais ils sont coupés comme ca on voit un triangle blacn sur fond blacn, c’est un contour illusoire
ex flèche avec gradiant noir blacn gris sur fond de mm gradient: nous on voit clairement la forme d’une fleche on voit pas de trou dans le slignes mais puisque y’a des changements de gradient continu, un detecter informatisé lui verrait pas de continuité
La théorie de la Gestalt
La théorie de la Gestalt (en allemand, “forme” ou “tout”).
“Le tout est plus grand que la somme de ses parties.”
Opposé à d’autres écoles de pensée, comme le structuralisme, qui mettent l’accent sur les éléments de base de la perception.
structuralisme: reconnaissance apr composants c’est structuraliste genre les géons
Règles de regroupement Gestalt :
un ensemble de règles qui décrivent quand les éléments d’une image apparaîtront comme s’ils étaient regroupés.
–>Le tout est plus grand que la somme de ses parties