Examen final Flashcards

(49 cards)

1
Q

Trois types de résumés automatique…

A

indicatif, par extraction et résumé au sens propre du terme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

indicatif?

A

liste de mots qu’on va produire à partir du texte, donne pas le contenu, mais donne une idée de ce que traite le texte, repérer des mots

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

par extraction?

A

repérer les phrases qui résume le plus le texte, phrases résumantes, identifier ces phrases et les assembler, surtout là-dedans qu’on travaille

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

résumé au sens propre du terme?

A

un résumé comme un être humain le ferait, faut très bien connaître le domaine du texte, le comprendre et le reformuler, recherche fondamentale (lit, discute, échange, colloque, etc.) nous on se situe dans la recherche appliquée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qui commence en 1959 la génération de résumés par extraction

A

H.P. Luhn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hypothèse de Luhn…

A

lorsqu’on rédige un texte scientifique, terminologie disciplinée (un nom qu’on utilise toujours, on utilise pas de synonymes et de paraphrases, ainsi la fréquence des mots peut être indicatif du sujet contrairement au texte littéraire) la fréquence des mots est un critère qui reflète leur importance dans un texte.

le choix du vocabulaire change selon les sujets abordés : un regroupement de mots fréquents dans une même phrase reflète son caractère «résumant» parce qu’elle porte sur différents sujets du texte (exemple si on traite de l’uranium d’un point de vue militaire on n’aura pas le même vocabulaire que d’un point de vue du minerais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Méthode Luhn:

A
  1. identification des mots prépondérants (absents de l’antidictionnaire, fréquence supérieur à un ratio, nombre de mots total sur nombre de mots différents absents de l’antidictionnaire)
  2. calcul de la prépondérance des phrases (nombre de mots prépondérants au carré divisé par le nombre de mots dans la phrase)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Approche de Edmundson en quelle année?

A

69

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

méthodologie générale Edmundson…

A

corpus de 100 articles scientifiques, création d’un résumé par extraction pour chaque article par un résumeur humain, calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères, recherche exploratoire afin de déterminer la meilleure combinaison de critères

plus son logiciel va se rapprocher des résumés faits par les humains plus le résultat va être bon (selon lui, en réalité très subjectif)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

critères identifiés par Edmundson

A

premier critère = indices tous les mots du corpus va calculer la fréquence d’un mot dans l’ensemble des textes divisés par le nombre de textes dans lesquels il apparaît
fréquence d’un mot dans l’ensemble des textes divisé par le nombre de textes dans lesquels il apparaît

mots positifs - ratio élevé (fréquence élevé, peu de distribution 100 fois mais dans juste 2 textes)
mot négatifs - ratio faible (fréquence pauvre mais grande distribution 10 fois dans 10 texte)
mots neutres - distribution élevée-ration moyen
résidu - distribution faible- ratio faible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

mots positifs

ed

A
> 0 (cote de 1)
comparatifs
superlatifs
adverbes de conclusion
termes spécialisés 
pronoms relatifs interrogatifs (qui, quoi?)
conjonctions causales (pcq, car)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

mots négatifs

ed

A

< 0 (cote de -1)
expressions anaphoriques
expressions péjoratives

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

mots neutres

ed

A
cote de 0
auxiliaires
pronoms
adjectifs
prépositions
grosso modo l'antidictionnaire
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

résidu

ed

A

cote de 0
archaïsmes
mots techniques
qualificatifs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Deuxième critère (mots prépondérant)

ed

A

en guise d’antidictionnaire, il utilise la liste des mots neutres crée en 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

mots des titres absents de l’antidictionnaire (troisième critère)
ed

A

chaque mot se fait attribuer un poids. Les mots du titre principal se font donner un poids légèrement supérieur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

quatrième critère (position des phrases)

ed

A

début et fin de texte
début et fin de section
début et fin de paragraphe

on amplifie le poids déjà accordé à ces phrases
Pour deux phrases de même poids l’une au début d’une section et l’Autre au centre d’une section, celle qui est en début de section se fera donner priorité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

calcul de la prépondérance

ed

A

pour chaque phrase d’un texte
on fait la somme des poids
la présence d’un mot positif fait augmenter de 1
présence d’un mot négatif fait diminuer de 1
présence d’un mot prépondérant fait augmenter de 1
présence de mots qu’on retrouve dans les titres fait augmenter de 1
le poids est augmenté en fonction de sa position

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Recherche exploratoire

Edmundson a obtenu les meilleurs résultats en utilisant….

A

indices + mots des titres + position
l’utilisation des mots prépondérants nuisait

cela ne veut pas dire que les mots prépondérants ne sont pas utiles. Cela signifie qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmundson

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

aspects techniques (Edmundson)…

A

calcul de la distribution
identification des titres
dépendant d’un domaine

21
Q

approche de Kupiec, Pedersen et Chen

A

Méthodologie générale

  • corpus de documents scientifiques
  • création d’un résumé par extraction pour chaque document par un résumeur humain
  • calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de cinq critères
22
Q

Cinq critère de KPC

A
  1. longueur de la phrase (on rejette les phrases de moins de 5 mots)
  2. présence de locutions comme : cette lettre, en conclusion, ou des mots comme : résultat, résumé discussion, etc.
  3. position des paragraphes (les phrases des 10 premiers et 5 derniers paragraphes ont un poids plus important)
  4. présence de mots thématiques (absents d’un antidictionnaire + fréquence élevé) Uniquement appliqué aux phrases ayant déjà un poids important
  5. présence de noms propres
23
Q

prépondérance des phrases… KPC

A

utilisation du théorème de Bayes (probalités conditionnelles)

24
Q

KPC, amélioration comparé à Edmunson…

A

le poids est attribué automatiquement aux critères plutôt que manuellement, le calcul est plus précis

25
évaluation de KPC...
pour des résumés à 25%, 84% des phrases choisies par leur logiciel avaient été choisies par un résumeur humain
26
aspects techniques KPC
plus facile à implémenter que l'approche de Edmundson reconnaissance automatique des noms propres le théorème de Bayes est applicable parce que les critères constituent des variables indépendantes
27
Présentation de Prolog
compile buffer, ne pas oublier les points à la fin varaible = majuscule pour interroger, jamais nous on va placer une information dans une variation, Prolog va le faire lui-même
28
prolog = programmation en logique
langage de programmation déclaratif il fait appel aux mécanismes d'inférence de la logique des prédicats permet de représenter des relations et de faire des inférences contrairement à la logique procédurale (on n'a pas à chercher de valeurs pour les variables, on n'a pas à formuler de comparaison, on n'a pas à manuellement choisir quoi afficher
29
quand utilise-t-on prolog?
pour des problèmes exprimés sous forme d'objets et de relations par exemple : création d'un arbre généalogique, représentation de relations sémantiques (hyperonyme, hyponyme, synonyme)
30
représentation des connaissances (prolog)
lorsqu'on dit Jean possède un livre on identifie deux objets livre et jean on exprime une relation d'appartenance on fait appel aux connaissances du lecteur ou de l'interlocuteur sur la nature des objets et sur les propriétés de la relation (elle est unidirectionnelle et ce qu'elle représente) = prolog fait la même chose c'est là sa grande forme
31
la relation (prolog)
n'exige pas obligatoirement que tous les objets soient nommés explicitement l'interlocuteur comprend les informations implicites en fonction de ses connaissances et du contexte (c'est l'esprit de Prolog)
32
l'interprétation (prolog)
prolog vérifie si si la relation de possession existe et porte sur les objets : jean et livre
33
programmation en prolog
comporte 3 niveaux décrire des connaissances de base (en prolog : identifier des faits) définir de nouvelles connaissances à partir des connaissances de base (en prolog : définir des règles, exemple gp, agp) exploiter les connaissances (en prolog : consulter les connaissances) = interroger l'interface
34
les variables...
sont locales et se propagent. quand on veut améliorer un programme en prolog devient plus courts contrairement à Python les variables d'une même règle sont les mêmes mais sont différents d'une règle à l'autre
35
caractéristiques de prolog
non déterministe (il peut exploiter plusieurs possibilités sans y voir de contradiction) représentation de structures récursives capable de revenir sur ses décisions (on dit de faire des remontées du backtracking)
36
prolog historique
Marseille, 1972 par le groupe d'Intelligence Artificielle de Luminy (Alain Colmerauer) est devenu populaire au début des années 80, avec les projets internationaux de développement de l'intelligence artificielle
37
versions de prolog...
deux grandes familles le standard de Marseille et celui d'Edimbourg (on utilise ce dernier)
38
Grammaire à clauses définies...
formalisme : qui permet de créer une grammaire sans avoir à manipuler les variables de base ne requiert pas le prédicat append\3 qui permet d'utiliser la flèche à la place de :- prolog convertit ensuite la forme 2 vers la forme 1 «ou à peu près...»
39
Utilisation de la GCD
en mode reconnaissance p([le,chat,mange,la,souris],[]). | en mode génération p(x,[]).
40
un prédicat s'identifie par...
son nom et son nombre d'arguments (arité), la somme des faits, même nom et même nombre d'arguments s'écrit comme cela personne\1, doit toujours mentionner le nombre d'argument
41
foncteur
est le mot avant la parenthèse d'un fait, personne(marie), personne est le foncteur à gauche du :-
42
argument
(atome,chaîne,nombre,structure) dans la parenthèse d'un fait | personne(marie) = marie est l'argument
43
règle
:- (présence d'un si), avec des conditions à droite du :-
44
fait
tout ce qui n'est pas une règle, le dictionnaire
45
programmation (prolog)
l'ordre des éléments, arbitraire : on choisit l'ordre qu'on veut la signification d'un terme (arbitraire) patient(jean) patience, malade mais doit toujours être la même
46
variables
commencent par une majuscule portée UNIQUEMENT à l'intérieur d'un fait ou d'une règle Variable anonyme une variable peut contenir : un atome, ex:père(X,marie)., un nombre, ex: nbrEnfants(michel,X)., une structure possede(jean,livre(patricia_cornwell,combustion)), possede(jean,X).
47
la virgule
équivaut à et, rend les deux conditions obligatoires
48
le point-virgule
représente ou signifie qu'au moins un des deux conditions doit être vraie, évite au maximum de l'utiliser
49
Les critères de Edmunson
1=indices=tous les mots du corpus va calculer la fréquence d'un mot 2=mots prépondérants 3= mots des titres absents de l'antidictionnaire 4=position des phrases