Semaine 7 et 8 Flashcards

1
Q

Qu’est-ce que la linguistique de corpus ?

A

C’est l’étude du langage qui s’appuie sur des données textuelles, traitables informatiquement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les 3 définitions classiques d’un corpus ?

A

1- C’est un ensemble de textes d’une langue ou d’une variété langagière
2- C’est un ensemble de textes numérisés dans une ou plusieurs langues
3- C’est un grand ensemble de textes numérisés qui représente une langue ou une variété de celle-ci

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Dans quels domaines se sert-on des données de corpus ?

A
  • La didactique des langues
  • Le droit
  • Les GAFAM
  • La lexicographie
  • La traduction
  • Des domaines scientifiques (psycho, neurosciences…)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qui se retrouve dans un corpus ?

A

À la base il est constitué de signifiants, mais on peut obtenir 3 types de données comme des attestations, des fréquences et des interactions.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Avec quoi est-il possible d’enrichir les données d’un corpus ?

A

Des annotations. Ce sont des informations linguistiques interprétatives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les types d’annotation que l’on peut retrouver (4) ?

A

1- Syntaxique
2- Sémantique
3- Pragmatique
4- Morpholexicale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelles sont les annotations qui se prêtent moins bien à l’informatisation ?

A

1- Phonétique (transcription de la prononciation du mot)
2- Paralinguistique (noter les gestes qui accompagnent les paroles)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Avant 1964, comment compilait-on les données pour produire un corpus ?

A

On faisait une compilation manuelle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Chomsky était le père de quelle théorie linguistique ?

A

La grammaire générative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pourquoi devrait-on plus s’intéresser à la compétence qu’à la performance selon Chomsky?

A

La compétence serait innée et serait l’objet véritable des sciences du langage. La compétence s’étudie grâce à l’intuition, car un corpus ne contient pas de preuves négatives, c’est grâce à l’intuition qu’on le sait.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Pourquoi entre 1957 et 2005 les linguistes appellent cette période de l’âge sombre de la grammaire générative ?

A

Parce que la linguistique a délaissé les données empiriques pour se tourner vers des données inventées, surtout dans les disciplines de la syntaxe, sémantique, morphologie et phonologie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Pourquoi il y a un problème avec les données qui se fondent sur l’intuition (2) ?

A
  • Parce que les linguistes ne sont pas infaillibles, leurs jugements de grammaticalité peuvent être erronés.
  • Ils ne sont pas neutres non plus, l’orientation théorique influence leurs jugements.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

C’est dans les quelles années que la lexicographie commence à adopter la linguistique de corpus ?

A

Au début des années 80 et 2000, on y développe de grands corpus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quels sont certains développements que l’on peut observer au niveau de la linguistique de corpus ?

A
  • Elle continue à se répandre à travers le monde
  • Il y a un développement et de la disponibilité de corpus dans plusieurs langues
  • Lancement de plusieurs journaux scientifiques dédiés à la linguistique de corpus
  • Les données deviennent plus empiriques, car les tests statistiques sont plus sophistiqués
  • Il y a une modification des programmes de 1er et 2e cycles.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quelles sont les causes (2) qui ont fait en sorte que la linguistique de corpus ait pris plus d’importance 1980-2000?

A

1- La révolution numérique, l’accès aux outils informatiques est abordable, stockage informatique
2- Le tournant empirique, on prend conscience de l’importance des données

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nomme-moi des exemples de sources de données orales et écrites en linguistique.

A

(orale) = entrevue, film, débat politique, bulletin de nouvelles
(écrites) = presse écrite, littérature, dictionnaire

17
Q

Quels sont des types de données Web et de données extraites de grands corpus ?

A

(web) = google livre, google, sketch engine, eureka
(grands corpus) = frantext

18
Q

Quelles peuvent être les limites d’un corpus ?

A
  • Certains phénomènes peuvent refléter la constitution d’un corpus (langage d’un auteur, la période dans le temps)
  • La transcription d’un corpus oral
19
Q

Quelles sont les 3 méthodes standardisées pour faire une analyse de corpus ?

A

1- L’analyse collocationnelle (associations significatives à gauche et à droite d’un mot pivot)
2- Analyse multidimensionnelle (annotations sur mesure + regroupements)
3- Analyse vectorielle (associer les sens différents associés à une même unité lexicale

20
Q

Quelle serait une procédure générale pour effectuer une analyse collocationnelle ?

A
  • Faire une collecte et un tri des données
  • Manipulation des données dans le logiciel LancsBox : la taille de la fenêtre, la génération de graphes collocationnels, modifier le type d’associations (fréquence/MI)
21
Q

Quelle serait une procédure générale pour l’analyse multidimensionnelle ?

A
  • Faire une collecte et un tri des données
  • Observation des données
  • Sélection des variables à annoter
  • Annotations indépendantes (2 personnes le font)
  • Vérifications des annotations (avec un code book)
  • Analyse multidimensionnelle
  • Interprétation des résultats