Case Study HIV Flashcards
(14 cards)
Métodos de obtenção de dados bio
- sequenciação de péptidos por degradação de Edman
- PCR
- sequenciação de Sanger para ácidos nucleicos
Pesquisa de sequências semelhantes
em bases de dados usando algoritmos de alinhamento! (NCBI-BLAST)
Sequência “query” (outra: sbjct) –> comparação e identificação de semelhanças (100% de identidade / tolerância à variação)
Algoritmos:
FASTA, BLAST, BLAT
Alinhamento global vs. local (com abertura de gaps (ou indels))
+Algoritmo tblastn: pesquisa de sequência proteica numa base de dados de núcleotidos traduzida
identidades: nº de posições exatamente iguais
positivos: inclui os + (não introduzem problemas –> matrizes de substituição)
gaps: interval incluidos para maximizar alinhamento
Quantificação de semelhança num alinhamento de proteínas
matrizes de substituição (ex Blosum 62) –> trocas de AA não são todas iguais (conforme é do mesmo tipo ou não)
Raw score S
Soma dos scores de substituição, penalizado pelos gaps:
penalidades calculadas pela soma de G (abertura de um gap) e L (extensão de um gap)
–> Para um gap de comprimento n, penalidade é G + L n
(escolha dos valores de G and L é empírica, mas é costume escolher valor alto para G (10-15) e um valor menor para L (1-2))
Bit Score
normalização do raw score de maneira –> leva em conta propriedades estatísticas (parâmetros da distribuição) do sistema de pontuação usado –> permite comparar alinhamentos feitos com sistemas de pontuação distintos
E-value
E-value (Expect value) = parâmetro que descreve o nº de resultados esperado obter ao acaso quando se procura por sequências semelhantes numa base de dados com det. dimensão!
Ex: E-value de 5–> numa base de dados com dimensão da usada na busca, espera-se obter 5 sequências com score igual ou melhor unicamente devido ao acaso!
E = mn 2^-S’
(m e n são os comprimentos das sequências comparadas, S’ o bit score)
Alinhamento de duas sequências
- “bl2seq specialized BLAST” dá sumário gráfico com cores para alignment scores
- método da matrix de pontos (reta a 45º–> alinhamento total; se outras retinhas: sequência com estruturas repetidas…)
(alinhamento de sequências usado em muitos outros contextos, como “montagem” de genomas e análise de dados de sequenciação massiva, definição da estrutura dos genes (mRNA vs genoma)…)
limitações dos algoritmos de alinhamento no tratamento de sequências repetidas
“Translate”
Algoritmo de previsão de ORFs do EXPASY (SIB) (permite tradução de seq. de nucleótidos (DNA/RNA) em seq. proteínas)
+ previsão de ORFs (a vermelho) em 6 quadros de leitura:
3 (quadros de leitura, reading frames) * 2 (5’3’ vs 3’5’)
Mas todas 3’5’ ridículas de ponto de vista bio!
Com + ORF + provável (> 30 AA provável ser prot pret)
E ! sem codão de iniciação, traduções fictícias não fazem sentido bio
Representação de seq nas bases de dados:
- Sempre como DNA (A, T, C, G)
- Sempre 5’->3’
- Quando conhecido: cadeia codificante
- Podem ser fragmentos das moléculas “reais”
- Verdadeira origem (i.e, genoma, transcrito, +/-) só esclarecida pela anotação
“ProtParam”
previsão de características físico-químicas (massa molecular, pI…)
“Psort”
previsão de localização sub-celular! Baseado em características conhecidas de certas locs (ex muitos AA hidrófobos se prot membranar) –> pesquisa por padrões
(também possível: machine learning)
“ScanProsite”
pesquisa de domínios proteicos e “assinaturas”
“Prosite”
base de dados de anotação de domínios e motivos proteicos
“UniProt”
base de dados de sequências anotadas de proteínas
pesquisa por palavra chave; restrição de resultados:
- dourada anotada manualmente, revista!
- prateada anotada manualmente, não revista
visualização taxonómica, recuperação de sequências, alinhamentos múltiplos e árvores filogenéticas.
Identificação de domínios estruturais e funcionais das proteínas: relevância prática: desenvolver medicamentos! etc
PFAM – Protein Family Database
anotação sistemática de famílias proteicas baseada em alinhamentos múltiplos