Semaine 7 et 8 Flashcards

Question 1

Q

Qu’est-ce que la linguistique de corpus ?

Answer

A

C’est l’étude du langage qui s’appuie sur des données textuelles, traitables informatiquement.

Question 2

Q

Quels sont les 3 définitions classiques d’un corpus ?

Answer

A

1- C’est un ensemble de textes d’une langue ou d’une variété langagière
2- C’est un ensemble de textes numérisés dans une ou plusieurs langues
3- C’est un grand ensemble de textes numérisés qui représente une langue ou une variété de celle-ci

Question 3

Q

Dans quels domaines se sert-on des données de corpus ?

Answer

A

La didactique des langues
Le droit
Les GAFAM
La lexicographie
La traduction
Des domaines scientifiques (psycho, neurosciences…)

Question 4

Q

Qu’est-ce qui se retrouve dans un corpus ?

Answer

A

À la base il est constitué de signifiants, mais on peut obtenir 3 types de données comme des attestations, des fréquences et des interactions.

Question 5

Q

Avec quoi est-il possible d’enrichir les données d’un corpus ?

Answer

A

Des annotations. Ce sont des informations linguistiques interprétatives.

Question 6

Q

Quelles sont les types d’annotation que l’on peut retrouver (4) ?

Answer

A

1- Syntaxique
2- Sémantique
3- Pragmatique
4- Morpholexicale

Question 7

Q

Quelles sont les annotations qui se prêtent moins bien à l’informatisation ?

Answer

A

1- Phonétique (transcription de la prononciation du mot)
2- Paralinguistique (noter les gestes qui accompagnent les paroles)

Question 8

Q

Avant 1964, comment compilait-on les données pour produire un corpus ?

Answer

A

On faisait une compilation manuelle.

Question 9

Q

Chomsky était le père de quelle théorie linguistique ?

Answer

A

La grammaire générative

Question 10

Q

Pourquoi devrait-on plus s’intéresser à la compétence qu’à la performance selon Chomsky?

Answer

A

La compétence serait innée et serait l’objet véritable des sciences du langage. La compétence s’étudie grâce à l’intuition, car un corpus ne contient pas de preuves négatives, c’est grâce à l’intuition qu’on le sait.

Question 11

Q

Pourquoi entre 1957 et 2005 les linguistes appellent cette période de l’âge sombre de la grammaire générative ?

Answer

A

Parce que la linguistique a délaissé les données empiriques pour se tourner vers des données inventées, surtout dans les disciplines de la syntaxe, sémantique, morphologie et phonologie.

Question 12

Q

Pourquoi il y a un problème avec les données qui se fondent sur l’intuition (2) ?

Answer

A

Parce que les linguistes ne sont pas infaillibles, leurs jugements de grammaticalité peuvent être erronés.
Ils ne sont pas neutres non plus, l’orientation théorique influence leurs jugements.

Question 13

Q

C’est dans les quelles années que la lexicographie commence à adopter la linguistique de corpus ?

Answer

A

Au début des années 80 et 2000, on y développe de grands corpus.

Question 14

Q

Quels sont certains développements que l’on peut observer au niveau de la linguistique de corpus ?

Answer

A

Elle continue à se répandre à travers le monde
Il y a un développement et de la disponibilité de corpus dans plusieurs langues
Lancement de plusieurs journaux scientifiques dédiés à la linguistique de corpus
Les données deviennent plus empiriques, car les tests statistiques sont plus sophistiqués
Il y a une modification des programmes de 1er et 2e cycles.

Question 15

Q

Quelles sont les causes (2) qui ont fait en sorte que la linguistique de corpus ait pris plus d’importance 1980-2000?

Answer

A

1- La révolution numérique, l’accès aux outils informatiques est abordable, stockage informatique
2- Le tournant empirique, on prend conscience de l’importance des données

Question 16

Q

Nomme-moi des exemples de sources de données orales et écrites en linguistique.

Answer

A

(orale) = entrevue, film, débat politique, bulletin de nouvelles
(écrites) = presse écrite, littérature, dictionnaire

Question 17

Q

Quels sont des types de données Web et de données extraites de grands corpus ?

Answer

A

(web) = google livre, google, sketch engine, eureka
(grands corpus) = frantext

Question 18

Q

Quelles peuvent être les limites d’un corpus ?

Answer

A

Certains phénomènes peuvent refléter la constitution d’un corpus (langage d’un auteur, la période dans le temps)
La transcription d’un corpus oral

Question 19

Q

Quelles sont les 3 méthodes standardisées pour faire une analyse de corpus ?

Answer

A

1- L’analyse collocationnelle (associations significatives à gauche et à droite d’un mot pivot)
2- Analyse multidimensionnelle (annotations sur mesure + regroupements)
3- Analyse vectorielle (associer les sens différents associés à une même unité lexicale

Question 20

Q

Quelle serait une procédure générale pour effectuer une analyse collocationnelle ?

Answer

A

Faire une collecte et un tri des données
Manipulation des données dans le logiciel LancsBox : la taille de la fenêtre, la génération de graphes collocationnels, modifier le type d’associations (fréquence/MI)

Question 21

Q

Quelle serait une procédure générale pour l’analyse multidimensionnelle ?

Answer

A

Faire une collecte et un tri des données
Observation des données
Sélection des variables à annoter
Annotations indépendantes (2 personnes le font)
Vérifications des annotations (avec un code book)
Analyse multidimensionnelle
Interprétation des résultats

Brainscape's Knowledge GenomeTM

Semaine 7 et 8 Flashcards

Brainscape's Knowledge Genome^TM