Linguistica dei corpora Flashcards

Question

Cosa si intende per token e tokenizzazione? A cosa serve questa pratica?

Answer 1

Con token si intende **la più piccola unità linguistica che è possibile indicare alla macchina**, oltre che i numeri e i segni di interpunzione. Ogni token è tendenzialmente un elemento delimitato da spazi, compresi però anche gli a capo etc. La tokenizzazione è necessaria per compiere **analisi quantitative del testo**. La macchina non è in grado di dividere autonomamente le unità; quindi, bisogna fornire alla macchina la capacità di comprendere la struttura logica del testo.

Answer 2

Sebbene la definizione copra un certo numero di casi, non può essere applicata a fenomeni diversi, come: - parole distinte ma che non sono divise da uno spazio (es. *c'era*) - parole formate da due segmenti distinti, ma che consideriamo unitarie a livello semantico (es. La Spezia) - varianti ortografiche, come quelle nella scrittura dei numeri con le migliaia

Answer 3

La puntegiatura rappresenta **un tipo di token molto ambiguo**. Per esempio, il punto è fondamentale per individuare le unità linguistiche, anche se non è l’unico segno di interpunzione che ha il significato di fine di frase. Il punto inoltre può apparire in contesti in cui non abbiamo fine di frase, ovvero nelle sigle, nelle cifre decimali, nelle abbreviazioni. Per disambiguare il punto possiamo fornire alla macchina l’informazione che un punto di fine frase si presenta in caso della sequenza **punto-spazio-lettera maiuscola**. Questo purtroppo non riesce a disambiguare casi come *Sig. Rossi*. In questo caso la scelta migliore è fornire al computer **una lista di parole frequentemente abbreviate**, di cui tener conto nella ricerca dei punti di fine frase. Simile ambiguità caratterizza casi come quello dell'apice ('), utilizzato come apostrofo, virgoletta e accento.

Answer 4

Il computer percepisce una stessa parola scritta in modo diverso come tre token differenti (si dice dunque ***case sentitive***), perché associate a combinazioni Unicode differenti. Le maiuscole sono utilizzate all’inizio di una frase, per dare enfasi e per i titoli, e hanno una precisa funzione all’interno del testo, per cui non ha senso a monte normalizzare tutto. Si parla quindi di **normalizzazione intelligente**, quindi risolviamo a minuscole solo quelle parole in cui la presenza della maiuscola non cambia il significato della parola stessa (diversamente quindi dal caso di Chiara e chiara).

Answer 5

Gli acronimi vanno inquadrati opportunamente perché all’interno del testo funzionano come parole a tutti gli effetti. È molto complesso trattarli perché presentano **alta variabilità** (per per esempio possono essere scritti con tutte le lettere maiuscole affiancate, oppure divise da punti, o ancora con solo la prima lettera maiuscola). Normalmente per trattare questi elementi si forniscono al computer **elenchi precompilati**, poi si fa in modo che si considerino come abbreviazioni le sequenze formate da una o più lettere maiuscole.

Answer 6

Si intendono sequenze di caratteri che, sebbene contengano spazi, sono entità unitarie dal punto di vista linguistico, e che quindi vanno considerate come un singolo token. È il caso di: - **nomi propri**, come La Spezia, Los Angeles etc. - **multiword expressions** es. Carta di credito, ad hoc, di rado - **Strutture alfanumeriche** (unità di misura, date, …)

Answer 7

Le espressioni regolari permettono di definire in maniera formale **pattern di stringhe (di caratteri)**. Un pattern è un modello di stringa che specifica i criteri che devono soddisfare le stringhe da individuare nel testo (ad es. ‘tutte le parole che iniziano con la b e terminano per a’). Molti programmi supportano le ER e il loro impiego permette di potenziare la ricerca nei documenti. Con **pattern matching** si intende il verificare se una certa stringa soddisfa un pattern

Answer 8

La ER più elementare è costituita da un solo carattere (attenzione, la ER. è case sensitive) Vi possono poi essere **classi di caratteri**, costituite da un insieme di caratteri racchiusi tra parentesi quadre. La ER viene soddisfatta da uno qualsiasi dei caratteri indicati all’interno delle parentesi. Alcune classi di caratteri possono essere abbreviate con il **trattino**, che specifica un **intervallo di caratteri** tra una scala (si può avere ad es. anche [a-d] oppure [0-3]). Una classe di caratteri in cui la parentesi di apertura è seguita da **^** è soddisfatta da qualsiasi carattere diverso da quelli specificati nella classe Il **backslash** \ serve per indicare che il carattere seguente ha un’interpretazione speciale. Ad es. (\t) indica la tabulazione. Il **punto** (**.**) è un carattere jolly, corrisponde a qualsiasi carattere.

Answer 9

Quando abbiamo a che fare con sequenze di caratteri, bisogna considerare l’intera stringa di caratteri. Vale a dire che la sequenza di caratteri /il/ è soddisfatta da *il* e non da un solo carattere (i oppure l). Come interpretiamo le stringhe? Si tenga prsente che \s → spazio e \d → cifra numerica. La disgiunzione tra stringe di caratteri viene espressa da (|) (operatore di alternativa) La sequenza di caratteri si scrive fra slash.

Answer 10

Sono operatori che permettono di specificare **quante volte il carattere che li precede deve comparire**: * **?** Zero o una occorrenza del carattere precedente * * Zero o più occorrenze del carattere precedente * **+** Una o più occorrenze del carattere precedente Esistono anche moltiplicatori avanzati come: - **{n}** esattamente n occorrenze del carattere prcedente - **{n,m}** almeno n e massimo m occorrenze del carattere precedente - **{n,}** almeno n occorrenze del carattere precedente

Answer 11

Si tratta di caratteri che **indicano la posizione in cui deve comparire la stringa**: ^ inizio della riga di testo $ fine della riga di testo \b confine di token \B qualsiasi punto che non sia la fine di un token

Answer 12

Raggruppamenti e precedenze sono utilizzati per meglio far funzionare i moltiplicatori. Per esempio, perché il moltiplicatore allarghi la propria portata, è necessario raggruppare i caratteri tra parentesi tonde. L'ordine di precedenza con cui vengono applicati gli operatori è il seguente: - parentesi - moltiplicatori - sequenza e ancore - alternativa

Answer 13

Con le ER è possibile anche effettuare trasformazioni, come ad es. sostituzioni. Queste sono possibili componendo la seguente stringa: `s/espressione_regolare/nuova_stringa/` Le sostituzioni possono anche avvenire a condizione che si verifichi una determinata situazione da noi espressa. Per far in modo per esempio che quando t o d sono seguite da o, quest'ultima sia trasformata in i, scriveremo: `s/ ([td])o / \1i /` Dove \1 si riferisce alla sequenza precedentemente memorizzata all'interno delle parentesi

Answer 14

In statistica, una **popolazione** è l’insieme di unità statistiche di cui vogliamo studiare le caratteristiche. Queste unità possono essere connotate da variabili numeriche o non numeriche. Nel caso dello studio della lingua, serve individuare un **campione** che sia **quanto più possibile rappresentativo della popolazione**, deve cioè presentare le medesime caratteristiche in scala. Altrimenti, è possibile concentrarsi su aspetti di statistica descrittiva.

Answer 15

È necessario tokenizzare il testo e classificare i token in tipi di token. Vengono poi definite le dimensioni rilevanti per la classificazione, come la lunghezza o il lemma, o ancora la forma normalizzata e la categoria grammaticale.

Answer 16

Il comportamento di un insieme di **unità** può essere analizzato guardando **come si distribuiscono in base ad un attributo**. Si ottiene il grafico (di una curva) di distribuzione che fotografa il comportamento dell’unità in base a un attributo.

Answer 17

la frequenza assoluta è il valore numerico di quante volte compare un certo elemento compare in un contesto; tuttavia le frequenze assolute di due distribuzioni non possono essere confrontate. Usando le frequenze relative si ‘normalizza’ la distribuzione, quindi si ovvia a questa distorsione. Quindi si calcola il rapporto tra la frequenza assoluta ni (rispetto al valore i di un attributo) e il numero totale |T| di unità (cioè parole) osservate nel testo T.

Answer 18

La media aritmetica viene usata per calcolare il valore medio associato agli elementi del testo per un dato attributo. Si calcola sommando tutti i valori e dividendoli per il numero di elementi presenti nel testo.

Answer 19

La **deviazione standard (o scarto quadratico medio)** è l'indice utilizzato per misurare la dispersione intorno ad un certo valore. La semplice media aritmentica infatti non ci dice come i caratteri si distribuiscono complessivamente. Si calcola facendo la radice quadrata della media dei quadrati degli scarti (ovvero la differenza tra un valore l1 e la sua media).

Answer 20

Il vocabolario di un testo (VT) è dato dall’**insieme delle parole tipo che occorrono in un testo**. È da intendersi come un sottoinsieme del lessico (L) di una lingua che è potenziale (dunque infinito). VT, invece, è ovviamente sempre un numero finito.

Answer 21

Chiamato anche **type/token ratio**, indica il rapporto tra types e tokens, quindi fra numero di parole singole e diverse che appaiono e numero di quante ne appaiono in generale. Il valore è compreso tra 0 e 1: se è vicino a 0, allora il vocabolario è meno vario, se è vicino a 1, allora il vocabolario è più vario. Se si ha un type per ogni token, sono tutti hapax.

Answer 22

Lo spettro di frequenza indica quante parole diverse sono usate nel testo quante volte. Nello spettro tendenzialmente la larghissima maggioranza delle parole ricorre poco frequentemente nel testo e si concentra verso l’origine dell’asse x; gli hapax e le parole con bassisisma occorrenza costituiscono la classe più numerosa.

Answer 23

Ordinando le parole di un testo per valore decrescente di frequenza, Zipf osservò una **relazione matematica costante tra la posizione che una parola occupa all’interno della lista (ovvero il suo rango) e la sua frequenza**. **f(z) = C/z^a** cioè: la frequenza f di una parola di rango z è uguale alla frequenza della parola di rango 1 (C) divisa per il rango della parola. Parole che appaiono molto in basso nella lista di Zipf tendono ad avere frequenze simili. La coda della curva conterrà tante parole con frequenza 1 (ovvero gli hapax). Bisogna tenere però conto del fatto che la legge di Zipf non prevede parole aventi la stessa frequenza, caratteristica invece molto diffusa in un testo.

Answer 24

Intuitivamente, possiamo dire che **all’inizio di un testo il vocabolario |VT| cresce rapidamente**: nella prima frase (quasi) tutte le parole sono nuove e via via ci saranno sempre meno parole nuove: le parole ripetute sono già presenti nel vocabolario e pertanto non vanno aggiunte. Notiamo come VT(i) (cioè il vocabolario di delle prime *i* parole) aumenta (con la punteggiatura, più lentamente) al crescere di i senza mai annullarsi completamente. L’andamento a curva è dato principalmente dalla presenza di parole grammaticali (che si ripetono) e dalla coerenza lessicale.

Answer 25

****La frequenza media è data dal **rapporto tra |T|** (numero di tokens) **e |VT|** (numero di types). Il risultato è un indice inverso di ricchezza lessicale: a parità di |T|, quanto più piccolo sarà il numero di parole diverse (ovvero |VT|), tanto maggiore sarà la loro frequenza media. **All’aumentare di T ci aspettiamo che: nelle prime i parole di T, la probabile mancanza di parole ripetute porta a i = |VT (i)|**. Dunque, essendo la frequenza media |T|/ VT , avremo un valore uguale a 1. Quando il testo cresce (e dunque presenta parole nuove), avremo invece un valore > 1 (la lunghezza del testo cresce e VT (i) rimane costante). **La crescita non è mai lineare**: il vocabolario continua ad espandersi lentamente e ci sono dei ‘gradini’ che coincidono con i capitoli in cui si ha qualche discontinuità tematica rispetto al passato (più alta densità di parole nuove).

Answer 26

**L’attendibilità della l media di un campione dipende dall’ampiezza della campana**, cioè da quanto le medie si disperdono intorno all’asse (maggiore la dispersione, minore l’attendibilità). Il TLC ci dice a che condizioni è legittimo fare inferenze statistiche sufficientemente corrette a partire da un campione.

Answer 27

Un evento che accade in maniera imprevedibile (o prevedibile con un margine di incertezza) è detto aleatorio. La probabilità di un evento aleatorio è **la misura del grado di incertezza del verificarsi dell’evento**, assegnandogli un numero reale compreso tra 0 e 1. Possiamo definire la probabilità descrivendo un esperimento (ovvero un processo aleatorio) e dell**’insieme di tutti i suoi esiti semplici mutuamente esclusivi**. Questi si definiscono come **spazio campionario (Ω) di un evento aleatorio**. La probabilità consente di prevedere il comportamento della lingua del testo a partire dai dati di frequenza, ricavando quindi **un modello della stessa lingua del testo**.

Answer 28

1) **Eventi aleatori semplici**: Sono definiti da un insieme che contiene un solo esito semplice dell’esperimento → Ottenere un 3 {3} al lancio del dado. Gli eventi semplici coincidono con gli esiti che definiscono lo spazio campionario, ovvero ci sono tanti eventi semplici quanti sono gli esiti che compongono Ω. 2) **Eventi aleatori complessi**: Sono definiti da un insieme che contiene più di un esito semplice dell’esperimento → *Ottenere un numero dispari {1, 3, 5}* oppure *Ottenere un numero minore di 5 {1, 2, 3, 4} al lancio del dado*.

Answer 29

**L’insieme delle probabilità di tutti gli eventi di Ω** definisce una distribuzione di probabilità sullo spazio di eventi di Ω.

Answer 30

La probabilità uniforme è l'uguale probabilità che gli esiti di Ω si verifichino, allora la probabilità p(A) che si verifichi un evento A è espressa dalla formula: p(A) = A/Ω, dove A è il numero di esiti che definiscono l'evento A e Ω rappresenta il numero totale degli eventi esclusivi

Answer 31

La probabilità di un evento complesso è ottenuta come somma di probabilità di eventi semplici, e non è altro che la probabilità che si verifichi un insieme di risultati (es. ottenere un numero pari al lancio di un dado)

Answer 32

La probabilità di un evento congiunto fa riferimento a uno spazio campionario Ω definito dall’insieme di tutte le coppie di esiti possibili. La probabilità sarà data dal prodotto delle due probabilità dei due eventi. Questo è vero solo nel caso in cui i due eventi combinati siano statisticamente indipendenti.

Answer 33

Usando la **frequenza relativa**, ovvero l'approssimazione della probailità di un evento con la frequenza relativa del suo verificarsi in un certo numero di esperimenti. Si esprime con la formula: p(A) = fA/n (dove pA è la probabilità che si verifichi A e fA è la frequenza con cui si è presentato A durante gli esperimenti). Approcciandosi a un'analisi statistica della lingua, i suoi fenomeni avranno proprio la tendenza a non essere equiprobabili, e quindi diventa necessario usare i dati raccolti per sviluppare un modello probabilistico.

Answer 34

Un modello stocastico (o probabilistico) è un modello idealmente in grado di descrivere il comportamento del sistema a cui è applicato e di predirne certe manifestazioni. È dunque un modello che **assegna una certa probabilità agli eventi prodotti da un sistema probabilistico**. Nel caso dell'analisi della lingua, un testo può essere concepito come una **sequenza di eventi aleatori semplici** (e1 , e2 , …), ciascuno dei quali rappresenta l’occorrenza di una parola specifica. Esiste una relazione tra il grado di ‘correttezza grammaticale’ di una frase e la probabilità che quella stessa frase sia effettivamente realizzata. Un buon modello deve permettere generalizzazioni, quindi, se è stato formato su un determinato testo, deve poter essere applicato anche ad altri mantenendo una certa correttezza.

Answer 35

I modelli markoviani stimano la **probabilità di una parola di comparire nel testo a partire da un certo numero di parole che la precedono direttamente nel testo**. Si ha un ordine che specifica il numero di parole che si prendono in considerazione: primo ordine (una parola), secondo ordine (due parole), … → l’ordine definisce anche il grado di complessità del modello.

Answer 36

Il modello più semplice si basa sull’ipotesi che **la probabilità di una frase sia uguale al prodotto della probabilità di generare ciascuna delle sue parole in modo indipendente**. In questo caso, un testo è una sequenza di singole parole statisticamente indipendenti l’una dall’altra. Questo modello tuttavia non è ottimale, perché le parole presenti in una lingua non si combinano casualmente.

Answer 37

Questo modello prevede che la scelta di una parola modifichi lo spazio di probabilità della scelta lessicale successiva (cosa che riflette il meccanismo linguistico). Si tratta di probabilità condizionate, ovvero la probabilità che si verifichi un evento B dato il verificarsi di un evento A. Permette dunque di calcolare l'occorrenza di **coppie tipo o bigrammi tipo**. Questo modello non è tuttavia sufficiente per l'applicazione alle varie lingue: quanto più lunghe sono le sequenze di parole, tanto più piccola è la probabilità di trovarle, perché i loro tipi tendono a moltiplicarsi. Il rischio è quello di sviluppare un modello ad hoc, che riflette solo le caratteristiche del corpus su cui è addestrato.

Answer 38

L’esplorazione può essere fatta in prospettiva: - **Qualitativa**: Ci interessa trovare un certo fenomeno nella lingua, non importa quante volte occorra. Ci avvaliamo quindi di **concordanze** ed **espressioni regolari** - **Quantitativa**: Ci interessa vedere quanto un certo fenomeno si trova nella lingua, quanto è frequente. Ci serviremo dunque di **indici di associazioni** N.B. si tratta di una bipartizione operativa, che non è da intendersi in maniera netta.

Answer 39

Le concordanze sono una **lista delle occorrenze di una parola nel testo**, ciascuna presentata **nel proprio contesto linguistico**. Tipicamente, si ha il formato **KWIC** (key word in context). I corpora accessibili on-line mettono a disposizione piattaforme per esplorare il testo, dove solitamente è possibile: definire la lunghezza del contesto; modificare l’ordine di presentazione delle occorrenze (ad es. randomico, alfabetico, …). Funzioni di ricerca avanzate sono poi permesse dall'utilizzo delle ER, soprattutto nei corpora non pos taggati e non lemmatizzati (es. cercare le forme flesse di un verbo o di un sostantivo).

Answer 40

Le collocazioni sono **sequenze di due o più parole caratterizzate da un forte legame di associazione reciproca**. Un esempio possono essere i termini tecnici formati da un'espressione di due o più parole (es. corte d'appello), nomi composti, costruzioni idiomatiche, complementi tipici associati a un verbo etc. Le collocazioni presentano delle proprietà (condivise ma in misura diversa): (1) **Elevata convenzionalità**: usi convenzionali, tipici di alcune varietà linguistiche (2) **Ridotta composizionalità semantica** (cioè per capire cosa significhino non basta fare la somma dei significati delle singole parole che compongono l'espressione) (3) **Forte rigidità strutturale**

Answer 41

La Mutua Informazione (MI) è il metodo statistico per **misurare la mutua associazione tra due parole**, ovvero la probabilità che ricorrano assieme rispetto all'occorrenza di una indipendentemente dall'altra. Date due parole v1 e v2 la MI confronta la probabilità di osservare bigrammi del tipo v1, v2 con la probabilità di osservare v1 e v2 l’una indipendentemente dall’altra. La MI è **estremamente sensibile a eventi rari**, come bigrammi hapax formati da parole hapax. Per attenuare questo aspetto, si può **stabilire una soglia di frequenza k**, in modo da escludere i bigrammi con frequenza inferiore a k.

Answer 42

Con bigrammi astratti si intende quelle coppie di parole che ricorrono spesso in associazione l'una con l'altra, ma che non si trovano strettamente adiacenti l'una all'altra, e che quindi necessitano di una finestra di contesto più ampia di due sole parole (es. ferro da stiro).

Answer 43

L’annotazione consiste nella **codifica di informazione linguistica associata al dato testuale** e può concentrarsi su diversi livelli. Si tratta di un processo aperto e incrementale che coinvolge il linguista in maniera attiva. L'annotazione è dunque in grado di rendere esplicita, interpretabile ed esplorabile la struttura linguistica implicita del testo.

Answer 44

**Annotazione morfosintattica**. Prevede l'assegnazione a ogni token di una i**nformazione relativa alla categoria grammaticale (PoS)** che ha la parola nel contesto specifico. Permette di risolvere i casi di omografie e si combina spesso con la lemmatizzazione. Sono due livelli distinti ma correlati poiché la lemmatizzazione presuppone la classificazione grammaticale della parola nel contesto. Si tratta di un livello indispensabile per altri livelli di annotazione. **Annotazione sintattica**. Prevede due approcci principali: - **Rappresentazione a costituenti**, che prevede che si identifichino costituenti sintattici (SN, SPrep, …) e si codificano le loro relazioni gerarchiche - **Rappresentazione a dipendenze**, che prevede di rappresentare le relazioni tra parole in termini di dipendenze (soggetto, oggetto diretto, modificatore, …)

Answer 45

**Annotazione semantica**. Vi sono due tipi principale di annotazione semantica: - Le parole lessicalmente piene vengono annotate rispetto a **categorie semantico-concettuali predefinite** (ad es. LUOGO, ASTRATTO, ANIMATO, EVENTO, …). - Vengono annotati i **ruoli semantici** (ad es. paziente, agente, esperiente, …) **Annotazione pragmatica**. Solitamente, viene annotata la **funzione illocutoria** di un certo segmento testuale. Possono essere anche codificate le **relazioni anaforiche** che, ad esempio, un pronome può avere col proprio antecedente.

Answer 46

La larga maggioranza dei corpora presenti on-line presenta livelli di annotazione linguistica. L’annotazione morfosintattica (PoS e lemmatizzazione) è quasi sempre presente. Esistono PoS-tagger automatici che hanno affidabilità molto alta. L’annotazione sintattica, invece, è più rara anche se ci sono le così dette tree-banks, ovvero banche di alberi sintattici. Ancora più rara, poi, è l’annotazione semantica e pragmatica.

Answer 47

Uno schema di annotazione prevede l'inserimento di diverse informazioni: 1. Gli **scopi** della ricerca; 2. La **teoria linguistic**a di riferimento; 3. La **modalità** (manuale, semi-automatica, …) in cui viene svolta l’annotazione; 4. La granularità dell’informazione che vogliamo codificare; 5. Le **caratteristiche della lingua** che vogliamo annotare. In generale veicola tre tipi di informazione: 1. **Informazione categoriale**: assegnazione di categorie alle unità identificate in un testo (ad es. verbo, SN, soggetto, …); 2. **Informazione strutturale**: identificazione di strutture che possono essere interne a un particolare token (ad es. la divisione in morfemi) o in più token (ad es. i costituenti dell’annotazione sintattica); 3. **Informazione relazionale**: definizione di relazioni tra le unità linguistiche (ad es. S e OD, anafore, ruoli semantici).

Answer 48

Questa è espressa attraverso etichette che associano **categorie o tratti linguistici alle unità identificate nel testo**. L’annotazione morfosintattica si basa primariamente su informazione categoriale. Il repertorio (e la granularità) delle categorie può variare tra i diversi schemi di annotazione. Possiamo aggiungere ad es. specifiche morfologiche (genere, numero, tempo, aspetto, …), possiamo aggiungere sottocategorie (pronomi personali, tonici, clitici, dimostrativi, …).

Answer 49

L’informazione strutturale identifica delle **unità strutturali nel testo e la loro organizzazione in strutture gerarchiche**. Le strutture identificate possono essere interne a un particolare token (ad es. la divisione in morfemi) o in più token (ad es. i costituenti dell’annotazione sintattica);

Answer 50

L’informazione relazionale **collega fra loro unità linguistiche previamente identificate**. Un esempio possono essere le relazioni di dipendenza e i ruoli semantici.

Answer 51

L’analisi del parlato permette di studiare come la grammatica emerga dal discorso. Lo studio del parlato gioca un ruolo cruciale per **osservare le prime fasi del mutamento linguistico** e l’identificazione di modelli d’uso (più astratti) che possiamo trovare in più lingue. È dunque presente una relazione tra parlato, studio del mutamento e della variazione interlinguistica (tipologica).

Answer 52

Con italiano regionale si intende una **varietà di italiano usata in una determinata area geografica**, che denota sistematicamente, ai diversi livelli di analisi linguistica, caratteristiche in grado di differenziarla sia dalle varietà usate in altre zone, sia anche dall’italiano standard. All’interno di un italiano regionale vi sono: a) **Tratti che variano in relazione alla diafasia ma non in relazione alla diastratia**. Ad esempio, la variabile *indossare* può essere realizzata da parlanti con diversa estrazione sociale come *mettere addosso/su*. b) **Tratti che hanno realizzazione in una sola varietà sociale**, ovvero compaiono in qualunque contesto ma solo presso parlanti con comune caratterizzazione sociale. Ad esempio, il doppio complementatore dove che in luogo di dove. Questo dunque si distingue in: - Varietà ‘alte’ → standard regionale - Varietà ’basse’ → italiano regionale popolare, italiano regionale colloquiale

Answer 53

La lingua cambia in base alla situazione comunicativa. È possibile ‘parametrizzare’ la situazione comunicativa tramite questi criteri: - **Tenore**: rapporto presente tra le persone coinvolte nell’interazione; - **Campo**: natura dell’attività svolta e argomento di cui si discute; - **Modo**: canale fisico selezionato per la comunicazione.

Answer 54

Normalmente, sono presi in considerazione **parametri che riguardano la caratterizzazione socioeconomica del parlante** (come, ad es., il titolo di studio, la professione, etc.) e **aspetti demografici** (l’età, il genere). Se la diastratia ha a che fare con lo strato sociale del parlante, è necessario chiarire cosa intendiamo con strato sociale.

Answer 55

a) **LIP** - De Mauro et al. (1993), più di 60 ore di registrazioni raccolte in 4 città (Milano, Firenze, Roma e Napoli) in diversi contesti comunicativi (scambio comunicativo bidirezionale libero con presa di parola libera faccia a faccia, scambio comunicativo bidirezionale libero con presa di parola libera non faccia a faccia, etc.). → Lavoro pioneristico! b) **LABLITA** - Dati bilanciati in base al contesto comunicativo (broadcasting, conversazione telefonica, etc.). Il corpus attualmente non è accessibile c) **CLIPS** - Oltre 100 ore di registrazione in 15 città italiane (parlato radiotelevisivo, parlato dialogico, parlato letto, parlato telefonico) → map task

Linguistica dei corpora Flashcards

Linguistica computazionale e dei corpora (79 cards)