Introduction aux bases de données biologiques Flashcards

(94 cards)

1
Q

Quels sont les défis de la bioinformatique ?

A

Entreposer, manipuler et rendre accessible ces séquences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

L’analyse de séquence ne joue pas un rôle important dans la bioinformatique

A

Faux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

L’analyse de séquence permet quoi spécifiquement ?

A

À mieux connaître un gène, un organisme, l’évolution, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nommez les 3 types de format de bases de données:

A
  • À fichiers plats
  • Relationnelles
  • Orientées objet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Décrire les bases de données à fichiers plats :

A
  • Généralement utilisée dans les gros serveurs
  • Existe depuis longtemps
  • Simple
  • Aucun instruction afin d’aider à la recherche d’informations spécifiques ou la création de support.
  • Doit lire le fichier entier pour chaque recherche, ce qui est inefficace.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Décrire les base de données relationnelles ?

A
  • Utilisé dans la plupart des bases de données
  • Les données sont enregistrées dans des tables à deux dimensions.
  • Les tables peuvent être triées par reliées entre elles selon des critères communs.
  • Évite la redondance, facilite la gestion et la mise à jour.
  • Pour communiquer avec le système de gestion de base de données, on utilise un langage de manipulation de données appelé SQL.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Base de données orientée objet :

A

‣ permet de représenter des structures de données complexes.
‣ les objets comportent deux parties: leur valeur, et les opérations, appelées méthodes, qui permettent de les manipuler.
‣ les données et les traitements ne sont plus séparés. La dynamique (les méthodes) fait partie de la déclaration des objets.
‣ compatible avec langages de programmation OO.
‣ performant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

En quoi consiste les bases de données primaires ?

A

Ce sont les données biologique originales. Principalement des séquences ( ex: GenBank ) et des structures (ex : PDB)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Décrivez les bases de données secondaires ?

A
  • Contient des données transformées (Manuellement ou par un logiciel), basée sur des bases de données primaires.
  • Exemple: Séquence protéique traduite avec annotation fonctionnelle (ex: Uniprot)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Décrivez les bases de données spécialisées :

A

spécifique à un sujet particulier (ex : Flybase, HIV sequence database)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Trois bases de données contiennent uniquement des données brutes :

A
  • Genbank
  • EMBL
  • DDBJ
  • Contribution directe des auteurs avec un minimum d’annotation
  • Soumission obligatoire pour publication dans des journaux scientifiques.
  • Collaboration et échange journalier
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Est-ce que les trois bases de données primaires communiquent entre-elles ?

A

Oui en effet, et ce, de manière journalière.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Il y a une seule base de données pour les structures tridimensionnelles, nommez et décrivez là ?

A
  • La PDB
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment sont déterminées les structures tridimensionnelles se trouvant dans la PDB ?

A

Par rayon X ou par RMN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

La PDB utilise le format de base de données suivant :

A
  • Fichier plat.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que retrouve-t-on de plus dans les bases de données secondaires par rapport aux bases de données primaires ?

A
  • Des annotations

- Élimination de la redondance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Il y a deux façons de traiter les données dans bases de données :

A
  • De manière automatisée, ( trEMBL provient de la traduction automatisée à partir des séquences d’ADN de EMBL )
  • De manière manuelle, ( SWISS-PROT contient (contenait…) des annotations sur la structure, la fonction, la famille de protéines, les sites catalytiques, les modifications post-traductionnelles, les maladies associées, .. )
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

La base de données secondaire uniprot combine quelles bases de données exactement ?

A
  • SWISS-PROT, TrEMBL et PIR-PSD
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Est-ce vrai de dire que la base uniprot a une bonne documentation et peu de redondance ?

A

Oui absolument.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Que signifie : Pfam

A

motifs dérivés d’alignement de séquences, permet la classification dans une famille de protéine et l’attribution de fonction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Que signifie : DALI

A

base de données de structure secondaire et de type de repliement, permet la classification fonctionnelle à partir de la structure et contribue à la prédiction de structures 3D

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Que signifie : SCOP

A

classification manuelle des domaines structuraux des protéines

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Que signifie : CATH

A

classification semi-automatique des domaines structuraux des protéines

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Quelle est la différence entre une base de données secondaire et une base de données spécialisée ?

A

Il y a souvent plus d’informations et d’annotations dans une base de données spécialisée. De plus, cette base est maintenue par quelques experts dans le domaine.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Vrai ou faux : Les BD primaires alimentent presques toutes les BD secondaires
Vrai
26
Est-il nécessaire parfois d'avoir des informations provenant de plusieurs bases de données ?
Oui
27
Si les bases de données ne peuvent pas être reliées entres elles en raison de leur format, quelle est la solution ?
CORBA Common Object Request Broker Architecture) Le format XML ( eXtensible Markup Language) aide à briser la barrière entre les bases de données -> facilite le transport et l'échange des données entre différents serveur
28
Est-ce que la fiabilité d'une base de données est une chose bien comprise ?
Non pas vraiment
29
Nommez les types d'erreurs fréquentes dans les bases de données :
- Erreurs de séquencage - Les annotations de gènes sont parfois inexactes. - La redondance est parfois un problème.
30
Un des buts importants lors de la création de bases de données est la rapiditié :
C'Est surtout de fournir un accès efficace aux bases de données.
31
Nommez les 3 systèmes de recherche de données les plus populaires :
- GQuery(NCBI) - SRS ( Sequence Retrieval System) - ExPASy
32
Nommez une base de données non-redondante ?
RefSeq
33
Vrai ou faux : Uniprot possède très peu de redondance.
Vrai
34
L'utilisation de système de recherche implique quoi de particulier ?
- Les opérateurs booléens : (AND - OR -NOT) | - Les parenthèses
35
Qu'est-ce que Entrez ?
- > Système de recherche principale du NCBI - > Contient 40 BD. moléculaires et de littérature - > Intègre l'information de plusieurs sources - > Références croisées
36
Décrivez ce qu'est GenBank ?
- > Données provenant du séquençage à haut débit ! | - > ADN génomique, ARNm, ADNc, EST
37
Il y a 2 manières de chercher dans GenBank :
- Entrez | - Blast
38
Genbank utilise un structure de base de données de type :
- Données relationnelles | - Résultats sous forme de fichiers plats
39
Qu'est-ce que GenPept ?
- C'est comme GenBank, mais pour les séquences de protéines
40
Quel est l'ordre de grandeur de GenBank?
150 000 000 séquences | 140 000 000 000 bases
41
Quel est l'ordre de grandeur de GenPept ?
10 000 000 séquences | 3 000 000
42
Nommez le format de séquence le plus populaire :
FASTA
43
Est-ce que FASTA est compatible avec la majorité des outils de recherche ?
Absolument
44
Comment début un fichier FASTA ?
> nom | blabla | blabla2
45
L'inconvénient majeur des fichiers FASTA ?
La plupart des notations sont perdus
46
Ordre de grandeur de UniProt ?
500 000 séquences annotées | 50 000 000 séquences non-annotées
47
UniProt peut aussi être accessible via :
ExPasy
48
Comment de caractères peut contenir une ligne FASTA ?
80
49
Où sont déposées la plupart des protéines depuis 1972?
Sur la BD PDB !
50
Comment de stuctures comprends la PDB ?
Environ 100 000
51
Qu'est-ce que la World Wide Proteins Bank ?
RCSB PDB (USA), PDBe (Europe), PDBj (Japan), and BMRB (USA)
52
Nommez des exemples d'utilisation de PDB :
- Statistique, redondance - Troponin C - Summary Tab, Sequence Tab, fichier PDB, Jmol
53
L'aspect fondamentale d'une comparaison de séquence est l'alignement de séquences
Vrai
54
L'objectif de l'alignement est de trouver les lieux de concordance
Vraiment
55
Ce n'est pas vrai de dire que de séquence avec beaucoup de sites correspondant ont une fonction similaire
C'est faux, on peut dire ca
56
Les divergeances entre les séquences sont interprétées comme :
Résultat de la mutation
57
L'alignement sert à prédire la fonction d'une protéine, à prédire la structure secondaire et à construire une phylogénie :
Oui
58
Les protéines homologues sont des protéines dont les gènes sont :
d'une origine commune
59
Souvent, les protéines avec un grand pourcentage de similarité ont des résidus avec des caractéristiques similaires, nommez-en quelques-uns
Grosseur, charge, hydrophobicité
60
Peut-on dire qu'une protéine est à 40% homologue ?
Non
61
Peut-on dire qu'une protéine est à 40% similaire ?
Absolument
62
Un outil utile afin de déterminer qu'une protéine est homologue avec un autre est la :
Similarité de séquence
63
Pour une séquence de 250 acides aminés, pour dire qu'une protéine est homologue il faut obtenir une similarité de :
D'un peu plus de 20%
64
Pour des nucléotides, similarité de séquence et identité de séquence sont-ils synonymes ?
Absolument
65
Pour des protéines, similarité de séquence et identité de séquence sont-ils synonymes ?
Non pas vraiment!
66
Chez une protéines, la similarité de séquences est représentée par quoi ?
*
67
Chez une protéines, la similarité de séquences est représentée par quoi ?
: ( propriétés physico-chimiques similaires)
68
Qu'est-ce que l'alignement global ?
Alignement de séquences sur la totalité de la longueur.
69
Qu'est-ce qu'un alignement local ?
Alignement dans une région où la similarité est assez forte !
70
À quoi sert la méthode par matrices de pixels
Méthode graphique afin de représenter des similarités entre deux séquences
71
Logiciel utile afin d'effectuer la méthode par matrices de pixels ?
Dotmatcher !
72
Qu'est-ce que la méthode de programmation dynamique ?
- Détermine l'alignement optimal - Plus quantitatif que la méthode par alignement de pixels - Génération d'une matrice avec score pour les matchs et les mismatchs entre les séquences
73
Faut-il remplir toutes les cellules d'une matrice dans la méthode de programmation dynamique ?
Oui
74
Comment fonctionne la méthode de programmation dynamique ?
- Trouve le chemin qui représente l'alignement optimal - Trace à partir de la dernière cellule - Mouvement diagonale : idéal - Mouvement horizontal ou vertical : insertion ou délétion (gap)
75
Qu'est-ce qu'un GAPS ?
Souvent impliqué dans l'alignement optimal 1
76
Dans les gaps les insertions et délétions sont rares ou assez fréquents ?
Rares,
77
D'ou vient le gap penality ?
Valeur arbitraire développée par l'étude des protéines globulaires
78
Nommez les deux algorithmes principales afin d'aligner des séquences de manière globale ?
Algorithmes de Needleman- Wunsch
79
Dans Emboss 2 protéines sont disponibles pour l'alignement globale :
needle et stretcher
80
Alignement local de séquences ont un score souvent plus élevé puisqu'on prend seulement en compte les régions qui ont été conservées
Vrai
81
Quelles sont les méthodes classiques d'alignement de séquences ?
Water, matcher supermatcher, le plus populaire étant water
82
Quel est l'algorithme d'alignement utilisé sur le site web NCBI-BLAST ?
C'est un algorithme d'alignement local
83
Le score d'alignement que cherche à obtenir les méthodes d'alignement prennent en compte à la fois le nombre d'acides aminés identique, mais aussi ceux qui sont similaires.
Vrai !
84
Nommez les matrices de similarité 20x20 les plus utilisées :
DAYHOFF, appelées PAM (probabilité of acceptable mutations ) HENIKOFF, appelée BLOSUM, basées sur le contenu en information des substitutions.
85
Que signifie un score plus grand que 0 dans une matrice ?
Fréquence de substitution plus élevée qu'aléatoire
86
Que signifie un score de 0 dans une matrice ?
Substitution = aléatoire
87
Que signifie un score négatif dans une matrice ?
C'est qu'il y a moins de substitution qu'il y en a de manière aléatoire
88
Que signifie l'indice dans BLOSUM62 ?
62% d'identité | plus l'indice est petit plus il est approprié pour des séquences divergentes
89
Afin de chercher la similarité entre deux séquences dans une base de données, la méthode de programmation dynamique est très performante ?
Pas vraiment
90
Afin de chercher des homologies dans de bases de données il faut utiliser des méthodes :
heuristiques
91
Méthodes heuristiques les plus utilisées ?
BLAST, FASTA, Sequence Similarity Searching
92
La plus rapide ?
Blast
93
La moins rapide et la plus précise ?
SSearching
94
Quelques paramètres de BLASTP ?
Choix de l'algorithme, choix de la base de données, choix de la matrice, LCR et autres paramètres