Reconhecimento de palavras faladas Flashcards

(80 cards)

1
Q

O que é o léxico?

A

É o nosso dicionário mental, entrada para as milhares de palavras que temos e os diversos tipos de informação sobre as palavras. O falante médio conhece entre 50 000 e 75 000 palavras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que está armazenado no léxico mental?

A
  • Fonológico: sons das palavras – informação
  • Sintático: ordem das palavras num frase - lexical
  • Semântico: significado das palavras - armazenamento
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Durante o reconhecimento de palavras faladas, o léxico mental atua como mediador entre que domínios?

A
  • Análise fonético-acústica do sinal linguístico recebido
  • A interpretação sintática e semântica da mensagem
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qual é o continuum de compreensão de uma palavra?

A
  • Fonética: dividir a palavra nos seus fonemas (e.g. [g] [a] [t] [u])
  • Nível fonológico: representa a forma fonológica da palavra, ou seja, como deve ser pronunciada /gatʊ/
  • Nível de lema (lemma level): refere-se a características gramaticais da palavra como nome, singular, etc.. (e.g. gato é um nome singular)
  • Nível conceitual: representa o significado da palavra, e.g. o gato é um animal felino pequeno
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qual é a velocidade de compreensão de palavras faladas?

A
  • temos a capacidade de compreender o discurso a uma taxa de 20 fonemas por segundo
  • conseguimos identificar palavras faladas em contexto cerca de 200 ms após o seu onset (menos de um sílaba)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é o speech shadowing?

A

Os participantes ouvem uma fala e tentam repetir o mais rápido possível:
- fast shadowers: conseguem repetir as palavras quase instantaneamente (250 a 300 ms)
- distant shadowers: demoram cerca de 500 ms

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é a monitoração de palavra-fonema?

A
  • ouvem um discurso e têm de clicar num botão assim que ouvem uma palavra ou fonema alvo
  • numa frase normal, as pessoas geralmente demoram 300ms a reconhecer e reagir à palavra-alvo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais são as duas principais características do discurso?

A
  • transiente (porque o som desaparece assim que é produzido)
  • contínuo (porque não há pausas entre palavras)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais são os problemas do reconhecimento do discurso?

A
  • segmentação
  • invariância
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qual é o problema da segmentação?

A

Os sons misturam-se e não podem ser facilmente separados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais são as estratégias que utilizamos para fazer a segmentação?

A
  • fonotáticas
  • palavras possíveis
  • segmentação stress-based
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Em que consiste a estratégia de segmentação fonotática?

A
  • são regras sobre quais sequências de sons são permitidas numa língua
  • por exemplo, “lost ball” pode ser segmentado corretamente, mas [tb] não ocorre naturalmente no inglês
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Em que consiste a estratégia de segmentação “palavras possíveis”?

A
  • a segmentação depende de quais combinações formam palavras possíveis
  • por exemplo, “fill a green bucket” está correto, mas “filigree n bucket” está incorreto (não faz sentido em inglês)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Em que consiste a segmentação stress-based?

A
  • estratégia de segmentação da fala que se baseia nos padrões de acentuação (stress) da língua. O ouvinte usa a posição das sílabas tónicas (acentuadas) como pistas para identificar o início de palavras
  • no inglês (mas não no francês) as sílabas tónicas têm maior probabilidade de ocorrer no início de palavras de conteúdo (como substantivos e verbos) do que em palavras funcionais (preposições e artigos) que geralmente não são acentuados
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que é a invariância?

A

Ideia errada de que cada fonema tem uma forma acústica única e constante.
Na realidade, isso não acontece, um mesmo fonema pode soar diferente, surgindo a coarticulação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O que é a coarticulação?

A

Realização de fonemas pode variar dependendo da posição e dos fonemas que os rodeiam.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que fenómenos principais causam a coarticulação?

A
  • transmissão paralela
  • assimilação
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

O que é a transmissão paralela (coarticulação)?

A
  • as propriedades de um som espalham-se pelos sons ao seu redor
  • exemplo: o som [g] em gato e guerra não é exatamente o mesmo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que é a assimilação (coarticulação)?

A

Os fonemas assumem propriedades acústicas do que os rodeiam

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quais são os benefícios que a coarticulação traz?

A
  • para o falante: permite produção da fala mais rápida e fluente
  • para o ouvinte: a propagação da informação relacionada a um fonema por vários segmentos permite que os ouvintes prevejam os sons que vêm a seguir
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Qual é a questão que está envolvida na compreensão da modelação da linguagem falada?

A

Temos de identificar os fonemas antes de identificar a palavra?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Quais são as 2 rotas que Marslen-Wilson (1984) definiu para a identificação de fonemas?

A
  • rota acústica-fonética
  • rota lexical
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Em que consiste a rota acústica-fonética de Marslen-Wilson (1984)?

A

Não envolve reconhecimento da palavra. A resposta é puramente baseada na análise acústica-fonética (análise do som que nos chega)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Em que consiste a rota lexical de Marslen-Wilson (1984)?

A
  • determinamos que o fonema está presente ao utilizar conhecimento fonológico armazenado da palavra em questão.
  • o ouvinte reconhece a palavra primeiro (ou começa a reconhecê-la) e isso ajuda a identificar o fonema que está presente
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Como é que Marslen-Wilson realizou uma tarefa de monitoração de fonemas? - procedimento
- pede-se aos sujeitos que deem uma resposta temporizada quando detetam um fonema-alvo numa palavra falada (especificada com antecedência) - por exemplo, monitorizar o som /t/ - existe também um grupo de controlo com não-palavras para que se possa comparar se, de facto, as pessoas recorrem à rota lexical nas palavras reais (como não têm essas não-palavras gravadas na memória, utilizam apenas a rota acústica-fonética)
26
Quais são as conclusões da tarefa de monitoração de fonemas de Marslen-Wilson?
- as palavras reais são processadas mais rapidamente do que não-palavras (o tempo de reação para as palavras é menor do que para não-palavras - sugere que o reconhecimento de palavras facilita a deteção de fonemas) - quanto mais cedo o fonema-alvo aparece, mais tempo leva para ser detetado (o tempo de reação é maior quando o fonema aparece no início da palavra - indica que o contexto da palavra ajuda a prever o fonema) - evidência muito forte para a existência da rota lexical
27
O que diz a teoria do código dual?
O processamento da fala envolve 2 códigos: - código pré-lexical - código pós-lexical
28
O que é o código pré-lexical da teoria do código dual?
- código fonético que provém diretamente de informação acústica e permite processar os sons antes de serem reconhecidos como palavras (fonética)
29
O que é o código pós-lexical da teoria do código dual?
- código fonológico que deriva de informação de níveis mais elevados, como informações de palavras e depende do conhecimento prévio da língua (fonémica)
30
Quais são as duas evidências empíricas da teoria do código dual?
- tarefa de monitorização de fonemas - tarefa de decisão lexical auditiva
31
Explica a tarefa de monitorização de fonemas como evidência da teoria do código dual
- mede-se o tempo de deteção do som /b/ em palavras e não-palavras - se forem apresentadas a palavra “bill” e a não-palavra “bikk”, a resposta é baseada no código pré-lexical pois as não-palavras não têm códigos fonológicos - na frase "he sat reading a book/bill until it was time to go home", o som /b/ é detetado mais rapidamente em "book" porque é uma palavra esperado no contexto - isso demonstra o uso do código pós-lexical, pois o cérebro utiliza o significado para prever e processar melhor a informação
32
Qual a principal conclusão da tarefa de monitorização de fonemas como evidência da teoria do código dual
As pessoas utilizam tanto códigos pré-lexicais como códigos pós-lexicais
33
Segundo Foss e Blank (autores da teoria do código dual), quais são as etapas da identificação de fonemas?
- forma de onda acústica - código pré-lexical - acesso lexical - código pós-lexical
34
Em que consiste a tarefa de decisão lexical auditiva como evidência da teoria do código dual?
A tarefa investiga como as pessoas distinguem palavras reais de não-palavras ao ouvir sons da fala: - smog (palavra) - smod (não-palavra) - smob (pode ser derivada de smog ou smod, é uma não-palavra criada artificialmente, alterando um som) - quando a não-palavra "smob" é derivada de uma palavra real "smog", a coarticulação vocálica está consistente com a palavra original - quando a não-palavra "smob" é derivada de uma não-palavra "smod", a coarticulação está inconsistente com qualquer palavra real
35
Quais os resultados da tarefa de decisão lexical auditiva como evidência da teoria do código dual?
Verificaram que as não-palavras que derivam de palavras são mais difíceis de rejeitar do que as não-palavras que derivam de não-palavras. Se a representação fonética da vogal tivesse sido traduzida num fonema antes do acesso lexical (i.e., "isto é um fonema /o/"), então a informação da coarticulação teria sido perdida. A classificação de fonemas ocorre após a ativação lexical.
36
Qual a conclusão que se retira da tarefa de decisão lexical auditiva como evidência da teoria do código dual?
A ativação lexical ocorre com base nas características acústicas antes da conversão total dos sons – suporta a existência dos 2 tipos de códigos.
37
O contexto pode afetar a identificação de sons?
O reconhecimento da fala é um processo influenciado pelo contexto, levantando o debate sobre se ele ocorre de forma exclusivamente: - autónoma: baseado em estímulos auditivos (bottom-up) - interativa: baseado no conhecimento prévio (top-down)
38
Que 2 contextos foram estudados na identificação de sons?
- contexto lexical afeta a perceção categorial? - contexto frásico (restauração de fonemas)
39
Como foi estudada a forma como o contexto lexical afeta a perceção categórica por Ganong (1980)?
- Ganong (1980) demonstrou que um fonema ambíguo dentro de uma palavra conhecida tende a ser interpretado de forma a preservar a existência da palavra - o investigador variou um fonema ambíguo ao longo do continuum apropriado (por exemplo, /k/ para /g/), inseriu-o num contexto fornecido por uma terminação de palavra (por exemplo, “-iss”) e descobriu que o contexto afetava o ponto de uma mudança percetual - os participantes estão dispostos a colocar um som numa categoria que de outra forma não escolheriam se o resultado formasse uma palavra: “kiss” é uma palavra”, mas “giss” não é, e isso influencia a nossa perceção categórica do fonema ambíguo.
40
O que é o deslocamento da identificação como evidência da influência do contexto lexical na perceção categórica?
- sugere que a categorização de sons não depende apenas das suas propriedades acústicas, mas também do conhecimento lexical do ouvinte - Connine e Clifton (1987) reforçaram essa ideia ao mostrar que estímulos ambíguos são mais facilmente processados quando um contexto lexical está presente
41
O que é o efeito de restauração fonémica (Warren, 1970)?
Demonstra que o contexto influencia a perceção da fala, permitindo que os ouvintes preencham fonemas ausentes de forma automática.
42
Como foi realizada a experiência com o efeito de restauração fonémica para mostrar que o contexto frásico influencia a identificação dos sons?
- na experiência, os participantes ouviram frases onde um fonema foi substituído por um ruído, como uma tosse - os sujeitos, mesmo assim, continuaram a perceber a palavra completa, sem notar que um som havia sido removido - também tiveram dificuldade em localizar exatamente onde o ruído ocorreu
43
O que é que o efeito de restauração fonémica sugere?
- a perceção da fala não depende apenas dos estímulos auditivos diretos, mas também de informações semânticas e sintáticas, permitindo que o cérebro reconstrua partes ausentes do discurso
44
Qual a limitação do efeito de restauração fonémica?
Se o fonema for substituído por silêncio, a ausência torna-se evidente, indicando que há limites para esse processo de restauração
45
O que é um modelo autónomo?
O contexto não pode ter qualquer efeito antes do reconhecimento da palavra. O contexto só pode afetar a integração e a avaliação de uma palavra no contexto. Isto é, não pode afetar a seleção lexical.
46
O que é um modelo interativo?
O contexto pode influenciar diretamente o reconhecimento de palavras e o processo de seleção lexical.
47
O que é o modelo de cohort inicial?
Descreve como as palavras são reconhecidas à medida que ouvimos a fala. Sugere que o reconhecimento de palavras acontece em 3 fases principais: - ativação - seleção lexical - integração Existe um efeito pré-lexical do contexto antes do ponto de exclusividade.
48
O que é a fase da ativação no modelo de cohort inicial?
Quando ouvimos os primeiros sons da palavra (ha…), várias palavras possíveis são ativadas no léxico mental (hand, hard, ham, handel, hamper)
49
O que é a fase da seleção lexical no modelo de cohort inicial?
À medida que mais sons são ouvidos (ha…m…p), a lista de palavras possíveis vai reduzindo e apenas as palavras que ainda correspondem ao input auditivo permanecem como opções (hamper)
50
O que é a fase da integração no modelo de cohort inicial?
A palavra final é identificada e integrada no contexto da frase ou discurso – hamper
51
Quais são as conclusões do modelo cohort inicial?
- o reconhecimento de palavras não acontece apenas no final da palavra, começa logo nos primeiros sons e vai sendo refinado progressivamente - este modelo mostra como o cérebro processa a linguagem de forma mais rápida e eficiente, eliminando palavras irrelevantes à medida que mais informação é recebida
52
Que experiências são evidência para o cohort model?
- shadowing - gating - curso temporal do reconhecimento da palavra falada
53
Qual é o procedimento de uma experiência de shadowing?
Tarefa em que os ouvintes repetem aquilo que ouvem, sendo que algumas das palavras que ouvem são pronunciadas incorretamente. DV = número de restaurações de palavras pronunciadas incorretamente em relação à sua forma original.
54
Quais são as 2 condições utilizadas na experiência de shadowing?
- high constraing - low constraint
55
Em que consiste a condição high constraint nas experiências de shadowing?
- o contexto da frase torna a palavra-alvo altamente previsível - por exemplo, "he wanted to smoke a cigalette" - os ouvintes tendem a restaurar automaticamente a palavra correta, mesmo que o som esteja distorcido
56
Em que consiste a condição low constraint nas experiências de shadowing?
- o contexto da frase não ajuda muito a prever a palavra-alvo - por exemplo, "it was his mitfortune that they were stationary" - os ouvintes tendem a repetir o que ouviram, mesmo que esteja errado, porque não têm pistas contextuais para fazer correções
57
Quais são os resultados da experiência de shadowing como evidência do cohort model?
- os participantes corrigiram mais palavras incorretas quando o contexto da frase era altamente restritivo (HC) do que quando o contexto era pouco informativo (sugere que o contexto contribui significativamente para a identificação correta de palavras, mesmo quando há distorções) - palavras com distorções na 3ª sílaba foram mais restauradas corretamente do que palavras com distorções na primeira sílaba (sugere que, ao ouvir mais da palavra antes da distorção, os ouvintes têm mais pistas para fazer a correção correta)
58
Quais são as conclusões da experiência de shadowing como evidência do cohort model?
- a maioria das restaurações fluentes foram feitas quando a distorção era ligeira, estava na sílaba final e a palavra era altamente previsível no seu contexto - a maioria das reproduções exatas ocorre com maior distorção quando a palavra é relativamente não limitada pelo contexto - num contexto de restrição adequado, os ouvintes fazem restaurações fluentes, mesmo quando os desvios são muito proeminentes
59
O que é que mostra a experiência de shadowing de Marslen-Wilson & Welsh (1978)?
- tanto as análises sintáticas como as semânticas da fala começam a acontecer quase instantaneamente e não são adiadas até que uma cláusula (estrutura dentro da frase) tenha sido ouvida - demonstram que a perceção imediata é o produto tanto da entrada percetual bottom-up como de restrições contextuais top-down
60
Qual o procedimento da tarefa de gating (evidência do modelo cohort)?
- a tarefa de gating envolve a apresentação de um estímulo de linguagem falda repetidamente e aumentando o seu tempo de apresentação (duração desde o início) a cada passagem sucessiva - a tarefa do sujeito é adivinhar o estímulo apresentado após cada passagem e dar uma classificação de confiança baseada na adivinhação
61
Quais são as 3 condições experimentais na tarefa de gating?
- frequência - tamanho da palavra - contexto frásico
62
Em que consiste a condição da 'frequência' na tarefa de gating?
- palavras de alta frequência: ocorrem frequentemente na língua - palavras de baixa frequência: menos comuns na língua
63
Em que consiste a condição da 'tamanho da palavra' na tarefa de gating?
Palavras com 1, 2 e 3 sílabas (afeta a quantidade de informação acústica necessária para o reconhecimento)
64
Para que servem os pré-testes na tarefa de gating (tarefas de completação)?
- para determinar a restrição de frases - para determinar os pontos de isolamento das palavras
65
Em que consiste a condição da 'contexto frásico' na tarefa de gating?
- sem contexto: palavra isolada - baixa restrição contextual (LC): o contexto da frase não ajuda muito a prever a palavra - alta restrição contextual (HC): o contexto torna a palavra muito previsível
66
O que é o ponto de isolamento nas tarefas de gating?
- tempo médio que leva desde o início de uma palavra para que os ouvintes possam adivinhá-la corretamente - quantidade de informações acústicas-fonéticas necessárias desde o início da palavra até quando é isolada de outras, ou seja, adivinhada corretamente pelo ouvinte
67
Quais são as principais conclusões da tarefa de gating como evidência do modelo cohort?
- palavras com mais contexto (HC) são reconhecidas mais rapidamente do que palavras com pouco contexto (HC) - palavras que ocorrem com mais frequência na língua são reconhecidas mais rapidamente do que palavras raras - o efeito do contexto é mais forte quando a frequência da palavra é mais baixa, isto é, para palavras de baixa frequência, o contexto faz uma diferença maior: isso mostra uma interação entre frequência léxica e contexto frásico (quando o ouvinte conhece menos a palavra, depende mais do contexto para isolá-la)
68
Na tarefa de gating, qual o verdadeiro impacto do contexto frásico?
- os estudos com a tarefa de gating mostram que inicialmente, são gerados candidatos compatíveis com a representação percetiva até aquele momento, mas que não são compatíveis com o contexto - fortes restrições sintáticas e semânticas não impedem o acesso, pelo menos no início, de palavras compatíveis com o input, mas não com o contexto - assim, o contexto frásico não parece ter um efeito inicial
69
O que é que o estudo de Frauenfelder & Tyler (1987) mostrou e investigou sobre o reconhecimento de palavras faladas (evidência do modelo cohort)?
- mostrou que esse processo ocorre de maneira dinâmica e incremental - investigou como os ouvintes reconhecem palavras ao longo do tempo, medindo a ativação e eliminação de candidatos lexicais à medida que a palavra é ouvida
70
Segundo Frauenfelder & Tyler (1987), como ocorre o curso temporal do reconhecimento de palavras faladas?
- inicialmente, ao ouvir os primeiros fonemas de uma palavra, múltiplas candidatas compatíveis são ativadas no léxico mental (por exemplo, ao ouvir "ca-", palavras como "casa", "cachorro" e "cadeira" podem ser ativadas simultaneamente) - com o avanço da fala, palavras incompatíveis são descartadas, num processo de competição lexical, até que a palavra seja reconhecida - além disso, o contexto da frase pode influenciar esse reconhecimento, ajudando a restringir as palavras candidatas
71
Quais são as características do modelo de cohort tardio?
- prioridade de processamento bottom-up (o contexto não pode influenciar a seleção inicial da cohort de palavras, apenas a fase de integração) - a eliminação de palavras de cohort não ocorre de forma abrupta, permitindo que palavras parcialmente distorcidas ainda possam ser reconhecidas - candidatos lexicais inapropriados perdem ativação gradualmente - o contexto não propõe candidatos, apenas elimina opções inadequadas - a frequência de palavras afeta a ativação lexical, com palavras mais comuns sendo ativadas mais rapidamente - ênfase maior no acesso direto ao léxico
72
O estudo de Frauenfelder & Tyler (1987) acerca curso temporal do reconhecimento de palavras faladas foi fundamental para quê?
Para entender que o reconhecimento da fala não é imediato, mas sim um processo interativo, influenciado por fatores fonéticos, lexicais e contextuais
73
Quais são as fases do cohort later model?
- input - ativação paralela múltipla: processo de acesso direto - monitorização contínua: eventualmente apenas um único candidato permanece - contexto frásico: afeta o processamento após o ponto de exclusividade
74
O que motivou a criação do cohort later model?
Essa mudança foi motivada por estudos que mostraram que o contexto não pode diminuir palavras candidatas no início do reconhecimento.
75
O que é o modelo TRACE?
- é um modelo conexionista de reconhecimento de palavras faladas que destaca o papel do processamento top-down (contexto lexical) no reconhecimento de palavras. - é composto por nódulos organizados em 3 níveis: características fonológicas, fonemas e palavras - mesmo assim, permite tanto o processamento bottom-up quanto top-down, com conexões inibitórias entre unidades do mesmo nível
76
Quais são as etapas do modelo TRACE?
- quando os nódulos são consistentes com o input, ficam ativos. A ativação espalha-se entre camadas e os nódulos dentro do mesmo nível inibem-se entre si e, eventualmente, um deles é selecionado - ativação de unidades espalha-se ao longo das conexões, levando à identificação da palavra
77
Quando é que o modelo trace é eficaz?
É eficaz para lidar com: - variabilidade acústica - coarticulação - efeitos de contexto lexical - reconhecimento de palavras em ambientes ruidosos
77
Quais são as limitações do modelo TRACE?
- manipulação de parâmetros que permite simular qualquer dado de experiência e a representação do tempo de maneira implausível - falha em lidar com erros de pronúncia - não explica bem os efeitos de monitoramento de fonemas ou os efeitos de incompatibilidade subcategórica
78
Quais são as principais críticas ao modelo TRACE?
- não consegue explicar todos os dados experimentais - o feedback top-down pode, na verdade, prejudicar o reconhecimento da fala
79
Que modelos alternativos se podem usar em relação ao TRACE?
Modelos alternativos, como os baseados em lógica difusa ou processamento sequencial, são apontados como mais adequados para algumas das questões que o TRACE tenta resolver.