Case Study HIV Flashcards

(14 cards)

1
Q

Métodos de obtenção de dados bio

A
  • sequenciação de péptidos por degradação de Edman
  • PCR
  • sequenciação de Sanger para ácidos nucleicos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Pesquisa de sequências semelhantes

A

em bases de dados usando algoritmos de alinhamento! (NCBI-BLAST)

Sequência “query” (outra: sbjct) –> comparação e identificação de semelhanças (100% de identidade / tolerância à variação)

Algoritmos:
FASTA, BLAST, BLAT

Alinhamento global vs. local (com abertura de gaps (ou indels))

+Algoritmo tblastn: pesquisa de sequência proteica numa base de dados de núcleotidos traduzida

identidades: nº de posições exatamente iguais
positivos: inclui os + (não introduzem problemas –> matrizes de substituição)
gaps: interval incluidos para maximizar alinhamento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quantificação de semelhança num alinhamento de proteínas

A

matrizes de substituição (ex Blosum 62) –> trocas de AA não são todas iguais (conforme é do mesmo tipo ou não)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Raw score S

A

Soma dos scores de substituição, penalizado pelos gaps:
penalidades calculadas pela soma de G (abertura de um gap) e L (extensão de um gap)
–> Para um gap de comprimento n, penalidade é G + L n

(escolha dos valores de G and L é empírica, mas é costume escolher valor alto para G (10-15) e um valor menor para L (1-2))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Bit Score

A

normalização do raw score de maneira –> leva em conta propriedades estatísticas (parâmetros da distribuição) do sistema de pontuação usado –> permite comparar alinhamentos feitos com sistemas de pontuação distintos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

E-value

A

E-value (Expect value) = parâmetro que descreve o nº de resultados esperado obter ao acaso quando se procura por sequências semelhantes numa base de dados com det. dimensão!

Ex: E-value de 5–> numa base de dados com dimensão da usada na busca, espera-se obter 5 sequências com score igual ou melhor unicamente devido ao acaso!

E = mn 2^-S’
(m e n são os comprimentos das sequências comparadas, S’ o bit score)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Alinhamento de duas sequências

A
  • “bl2seq specialized BLAST” dá sumário gráfico com cores para alignment scores
  • método da matrix de pontos (reta a 45º–> alinhamento total; se outras retinhas: sequência com estruturas repetidas…)

(alinhamento de sequências usado em muitos outros contextos, como “montagem” de genomas e análise de dados de sequenciação massiva, definição da estrutura dos genes (mRNA vs genoma)…)

limitações dos algoritmos de alinhamento no tratamento de sequências repetidas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

“Translate”

A
Algoritmo de previsão de ORFs
do EXPASY (SIB) (permite tradução de seq. de nucleótidos (DNA/RNA) em seq. proteínas)

+ previsão de ORFs (a vermelho) em 6 quadros de leitura:
3 (quadros de leitura, reading frames) * 2 (5’3’ vs 3’5’)

Mas todas 3’5’ ridículas de ponto de vista bio!
Com + ORF + provável (> 30 AA provável ser prot pret)
E ! sem codão de iniciação, traduções fictícias não fazem sentido bio

Representação de seq nas bases de dados:

  • Sempre como DNA (A, T, C, G)
  • Sempre 5’->3’
  • Quando conhecido: cadeia codificante
  • Podem ser fragmentos das moléculas “reais”
  • Verdadeira origem (i.e, genoma, transcrito, +/-) só esclarecida pela anotação
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

“ProtParam”

A

previsão de características físico-químicas (massa molecular, pI…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

“Psort”

A

previsão de localização sub-celular! Baseado em características conhecidas de certas locs (ex muitos AA hidrófobos se prot membranar) –> pesquisa por padrões

(também possível: machine learning)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

“ScanProsite”

A

pesquisa de domínios proteicos e “assinaturas”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

“Prosite”

A

base de dados de anotação de domínios e motivos proteicos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

“UniProt”

A

base de dados de sequências anotadas de proteínas

pesquisa por palavra chave; restrição de resultados:

  • dourada anotada manualmente, revista!
  • prateada anotada manualmente, não revista

visualização taxonómica, recuperação de sequências, alinhamentos múltiplos e árvores filogenéticas.

Identificação de domínios estruturais e funcionais das proteínas: relevância prática: desenvolver medicamentos! etc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

PFAM – Protein Family Database

A

anotação sistemática de famílias proteicas baseada em alinhamentos múltiplos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly