Semaine 7 et 8 Flashcards
Qu’est-ce que la linguistique de corpus ?
C’est l’étude du langage qui s’appuie sur des données textuelles, traitables informatiquement.
Quels sont les 3 définitions classiques d’un corpus ?
1- C’est un ensemble de textes d’une langue ou d’une variété langagière
2- C’est un ensemble de textes numérisés dans une ou plusieurs langues
3- C’est un grand ensemble de textes numérisés qui représente une langue ou une variété de celle-ci
Dans quels domaines se sert-on des données de corpus ?
- La didactique des langues
- Le droit
- Les GAFAM
- La lexicographie
- La traduction
- Des domaines scientifiques (psycho, neurosciences…)
Qu’est-ce qui se retrouve dans un corpus ?
À la base il est constitué de signifiants, mais on peut obtenir 3 types de données comme des attestations, des fréquences et des interactions.
Avec quoi est-il possible d’enrichir les données d’un corpus ?
Des annotations. Ce sont des informations linguistiques interprétatives.
Quelles sont les types d’annotation que l’on peut retrouver (4) ?
1- Syntaxique
2- Sémantique
3- Pragmatique
4- Morpholexicale
Quelles sont les annotations qui se prêtent moins bien à l’informatisation ?
1- Phonétique (transcription de la prononciation du mot)
2- Paralinguistique (noter les gestes qui accompagnent les paroles)
Avant 1964, comment compilait-on les données pour produire un corpus ?
On faisait une compilation manuelle.
Chomsky était le père de quelle théorie linguistique ?
La grammaire générative
Pourquoi devrait-on plus s’intéresser à la compétence qu’à la performance selon Chomsky?
La compétence serait innée et serait l’objet véritable des sciences du langage. La compétence s’étudie grâce à l’intuition, car un corpus ne contient pas de preuves négatives, c’est grâce à l’intuition qu’on le sait.
Pourquoi entre 1957 et 2005 les linguistes appellent cette période de l’âge sombre de la grammaire générative ?
Parce que la linguistique a délaissé les données empiriques pour se tourner vers des données inventées, surtout dans les disciplines de la syntaxe, sémantique, morphologie et phonologie.
Pourquoi il y a un problème avec les données qui se fondent sur l’intuition (2) ?
- Parce que les linguistes ne sont pas infaillibles, leurs jugements de grammaticalité peuvent être erronés.
- Ils ne sont pas neutres non plus, l’orientation théorique influence leurs jugements.
C’est dans les quelles années que la lexicographie commence à adopter la linguistique de corpus ?
Au début des années 80 et 2000, on y développe de grands corpus.
Quels sont certains développements que l’on peut observer au niveau de la linguistique de corpus ?
- Elle continue à se répandre à travers le monde
- Il y a un développement et de la disponibilité de corpus dans plusieurs langues
- Lancement de plusieurs journaux scientifiques dédiés à la linguistique de corpus
- Les données deviennent plus empiriques, car les tests statistiques sont plus sophistiqués
- Il y a une modification des programmes de 1er et 2e cycles.
Quelles sont les causes (2) qui ont fait en sorte que la linguistique de corpus ait pris plus d’importance 1980-2000?
1- La révolution numérique, l’accès aux outils informatiques est abordable, stockage informatique
2- Le tournant empirique, on prend conscience de l’importance des données