Cap 3 Chiari Flashcards
(30 cards)
Cosa si intende per Linguistica Informatica?
Lo studio computazionale dei dati linguistici immersi nel loro contesto cultural di produzione.
Quali sono i due approcci della LI?
Approccio Empirico –> quantitativo
Approccio Umanistico –> qualitativo
Quali sono dei testi ‘born digital’?
E-mail, blog, reddit post, didascalie di Instagram.
Insorgono però problemi di Accessibilità, Rilevanza, e Conservazione.
Come definiamo la Linguistica dei Corpora?
Come un approccio, non una branca, della scienza linguistica.
Chi rifiutò questo approccio negli anni ‘50?
Lo studioso americano Noam Chomsky. Di conseguenza, questo approccio ebbe una battuta di arresto negli anni Sessanta/Settanta. Dopo tale periodo vi fu un’esplosione opposta con progetti nazionali e internazionali etc. Questo grazie alla diffusione delle tecnologie informatiche.
Qual è l’oggetto di specifica indagine della linguistica dei corpora? (LdC)
Il testo come ‘occorrenza comunicativa’ in quanto espressione delle conoscenze linguistiche di una comunità e governato da principi interni ed esterni, assume una rilevanza senza precedenti nella seconda metà del Novecento, anche grazie a nuove tecniche di trattamento informatizzato.
Cosa critica Chomsky alla LdC?
Critica il ricorso ad un approccio empirico, in quanto considera i corpora incompleti. Sicuramente c’è un minimo di ragione, ma lo studio dei corpora ha un’importanza elevata. I corpora rappresentano la varietà della lingua e danno informazioni di frequenza, quindi possono svelarci cose altrimenti inosservabili.
Chi è che fa la distinzione tra Linguistica Corpus-based e Linguistica Corpus-driven?
Elena Tognini Bonelli (2001). La prima Linguistica fa uso dei corpora per integrare le teorie con dati linguistici reali (come il Dictionary of the English Language 1775-1756 di Samuel Johnson). La seconda Linguistica si fonda solo sui dati estratti dai corpora per elaborare teorie e ipotesi linguistiche generali (Longman Grammar of Spoken and Written English, Biber –> basata su un corpus di inglese britannico e americano di circa 40 milioni di parole).
Che definizione dà De Mauro del Corpus?
Corpus (plur. corpora) è una raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia. Oppure, un campione di una lingua preso in esame nella descrizione di una lingua, da un punto di vista linguistico.
Perché un corpus di lingua è un campione di lingua?
Perché non può mai contenere tutte le possibili occorrenze testuali di una data lingua.
Cosa si intende per ‘popolazione’?
Un insieme di tutte le possibili osservazioni di un tipo su un dato campo.
Cosa si intende per ‘campione’?
Una sezione, una parte di popolazione, che include solo alcune delle possibili osservazioni. Es. si vuole studiare l’uso del dialogo sarcastico in Jane Austen –> l’opera intera della Austen (popolazione) - Orgoglio e Pregiudizio (campione).
Perché la scelta del materiale è delicata?
Perché bisogna scegliere accuratamente il materiale in modo tale che sia rappresentativo della popolazione.
Quali sono le caratteristiche di un corpus bilanciato?
- Leggibilità –> che sia letto dai Software per procedere con annotazione.
- Autenticità –> che il quadro linguistico sia storicamente e socialmente motivato.
- Estensione –> che sia sufficiente.
- Rappresentatività.
Cosa si intende per rappresentatività?
Un campione per essere rappresentativo deve avere caratteristiche simili a quelle che avrebbe l’intera popolazione, esibire lo stesso tipo di informazione (qualitativa) e con la stessa probabilità di occorrenza (quantitativa). Inoltre, deve essere fedele: omologia tra campione e popolazione.
Perché la rappresentatività varia?
Perché varia in base all’aspetto che si sceglie di studiare. Dunque, è un concetto relativo, dinamico, e teoricamente sfuggente.
Perché è importante l’estensione del corpus?
L’estensione di un corpus è la sua ampiezza e ovviamente il numero di testi influenza la stessa rappresentatività.
Quali sono i metodi più efficaci per valutare un campione e la sua rappresentatività?
Un campione non è mai di per sé rappresentativo, ma può esserlo da un certo punto di vista. La maggior parte delle valutazioni più accurate sono quelle che si basano sulla ricchezza del vocabolario. Tuttavia, un indicatore più globale può considerare anche il numero di occorrenze (tokens) di parole grafiche nel testo.
Perché ad oggi un corpus di 500 MILA parole ci apparirebbe insufficiente?
Perché l’estensione standard è cambiata. Per le lingue più studiate oggi il minimo di estensione si aggira intorno a 100 MILIONI di parole (come il British National Corpus o Corpus di Italiano scritto contemporaneo CORIS). Alcuni raggiungono 500 milioni (Bank of English).
Quali sono gli scopi principali delle ricerche basate su corpora?
- Usare le osservazioni per estenderle all’intera popolazione.
- Comparare le osservazioni su diversi corpora e confrontarle infine con un corpus di riferimento, individuandone le deviazioni.
Qual è la differenza tra corpus testuali e corpus campionari?
I corpus testuali presentano testi nella loro interezza, senza tagli o selezioni.
I corpus campionari (sample corpora) danno conto di parti selezionate. Oggi questi ultimi sono raramente usati, perché essendoci l’intervento troppo forte del linguista, non sono affidabili.
Quali sono le 4 caratteristiche per definire un corpus e far si che possa essere comparato con altri corpora individuate da McEnery e Wilson (1996)?
- Campionatura e rappresentatività
- Estensione finita
- Formato elettronico
- Riferimento standard
Cosa riguarda la campionatura e rappresentatività?
Riguarda il metodo di raccolta e la tipologia dei testi scelti come esponenti di una data varietà di lingua.
Cosa concerne l’estensione finita?
Concerne il numero di testi (e di parole) di cui è costituito un corpus. Solitamente tale estensione è circoscritta e statica.