Introduction aux bases de données biologiques Flashcards by Shawn David Guay

Quels sont les défis de la bioinformatique ?

Entreposer, manipuler et rendre accessible ces séquences

How well did you know this?

Not at all

Perfectly

L’analyse de séquence ne joue pas un rôle important dans la bioinformatique

Faux

How well did you know this?

Not at all

Perfectly

L’analyse de séquence permet quoi spécifiquement ?

À mieux connaître un gène, un organisme, l’évolution, etc.

How well did you know this?

Not at all

Perfectly

Nommez les 3 types de format de bases de données:

À fichiers plats
Relationnelles
Orientées objet

How well did you know this?

Not at all

Perfectly

Décrire les bases de données à fichiers plats :

Généralement utilisée dans les gros serveurs
Existe depuis longtemps
Simple
Aucun instruction afin d’aider à la recherche d’informations spécifiques ou la création de support.
Doit lire le fichier entier pour chaque recherche, ce qui est inefficace.

How well did you know this?

Not at all

Perfectly

Décrire les base de données relationnelles ?

Utilisé dans la plupart des bases de données
Les données sont enregistrées dans des tables à deux dimensions.
Les tables peuvent être triées par reliées entre elles selon des critères communs.
Évite la redondance, facilite la gestion et la mise à jour.
Pour communiquer avec le système de gestion de base de données, on utilise un langage de manipulation de données appelé SQL.

How well did you know this?

Not at all

Perfectly

Base de données orientée objet :

‣ permet de représenter des structures de données complexes.
‣ les objets comportent deux parties: leur valeur, et les opérations, appelées méthodes, qui permettent de les manipuler.
‣ les données et les traitements ne sont plus séparés. La dynamique (les méthodes) fait partie de la déclaration des objets.
‣ compatible avec langages de programmation OO.
‣ performant.

How well did you know this?

Not at all

Perfectly

En quoi consiste les bases de données primaires ?

Ce sont les données biologique originales. Principalement des séquences ( ex: GenBank ) et des structures (ex : PDB)

How well did you know this?

Not at all

Perfectly

Décrivez les bases de données secondaires ?

Contient des données transformées (Manuellement ou par un logiciel), basée sur des bases de données primaires.
Exemple: Séquence protéique traduite avec annotation fonctionnelle (ex: Uniprot)

How well did you know this?

Not at all

Perfectly

Décrivez les bases de données spécialisées :

spécifique à un sujet particulier (ex : Flybase, HIV sequence database)

How well did you know this?

Not at all

Perfectly

Trois bases de données contiennent uniquement des données brutes :

Genbank
EMBL
DDBJ
Contribution directe des auteurs avec un minimum d’annotation
Soumission obligatoire pour publication dans des journaux scientifiques.
Collaboration et échange journalier

How well did you know this?

Not at all

Perfectly

Est-ce que les trois bases de données primaires communiquent entre-elles ?

Oui en effet, et ce, de manière journalière.

How well did you know this?

Not at all

Perfectly

Il y a une seule base de données pour les structures tridimensionnelles, nommez et décrivez là ?

La PDB

How well did you know this?

Not at all

Perfectly

Comment sont déterminées les structures tridimensionnelles se trouvant dans la PDB ?

Par rayon X ou par RMN

How well did you know this?

Not at all

Perfectly

La PDB utilise le format de base de données suivant :

Fichier plat.

How well did you know this?

Not at all

Perfectly

Que retrouve-t-on de plus dans les bases de données secondaires par rapport aux bases de données primaires ?

Des annotations

- Élimination de la redondance

How well did you know this?

Not at all

Perfectly

Il y a deux façons de traiter les données dans bases de données :

De manière automatisée, ( trEMBL provient de la traduction automatisée à partir des séquences d’ADN de EMBL )
De manière manuelle, ( SWISS-PROT contient (contenait…) des annotations sur la structure, la fonction, la famille de protéines, les sites catalytiques, les modifications post-traductionnelles, les maladies associées, .. )

How well did you know this?

Not at all

Perfectly

La base de données secondaire uniprot combine quelles bases de données exactement ?

SWISS-PROT, TrEMBL et PIR-PSD

How well did you know this?

Not at all

Perfectly

Est-ce vrai de dire que la base uniprot a une bonne documentation et peu de redondance ?

Oui absolument.

How well did you know this?

Not at all

Perfectly

Que signifie : Pfam

motifs dérivés d’alignement de séquences, permet la classification dans une famille de protéine et l’attribution de fonction

How well did you know this?

Not at all

Perfectly

Que signifie : DALI

base de données de structure secondaire et de type de repliement, permet la classification fonctionnelle à partir de la structure et contribue à la prédiction de structures 3D

How well did you know this?

Not at all

Perfectly

Que signifie : SCOP

classification manuelle des domaines structuraux des protéines

How well did you know this?

Not at all

Perfectly

Que signifie : CATH

classification semi-automatique des domaines structuraux des protéines

How well did you know this?

Not at all

Perfectly

Quelle est la différence entre une base de données secondaire et une base de données spécialisée ?

Il y a souvent plus d’informations et d’annotations dans une base de données spécialisée. De plus, cette base est maintenue par quelques experts dans le domaine.

How well did you know this?

Not at all

Perfectly

Vrai ou faux : Les BD primaires alimentent presques toutes les BD secondaires

Vrai

Est-il nécessaire parfois d'avoir des informations provenant de plusieurs bases de données ?

Oui

Si les bases de données ne peuvent pas être reliées entres elles en raison de leur format, quelle est la solution ?

CORBA Common Object Request Broker Architecture) Le format XML ( eXtensible Markup Language) aide à briser la barrière entre les bases de données -> facilite le transport et l'échange des données entre différents serveur

Est-ce que la fiabilité d'une base de données est une chose bien comprise ?

Non pas vraiment

Nommez les types d'erreurs fréquentes dans les bases de données :

- Erreurs de séquencage - Les annotations de gènes sont parfois inexactes. - La redondance est parfois un problème.

Un des buts importants lors de la création de bases de données est la rapiditié :

C'Est surtout de fournir un accès efficace aux bases de données.

Nommez les 3 systèmes de recherche de données les plus populaires :

- GQuery(NCBI) - SRS ( Sequence Retrieval System) - ExPASy

Nommez une base de données non-redondante ?

RefSeq

Vrai ou faux : Uniprot possède très peu de redondance.

Vrai

L'utilisation de système de recherche implique quoi de particulier ?

- Les opérateurs booléens : (AND - OR -NOT) | - Les parenthèses

Qu'est-ce que Entrez ?

- > Système de recherche principale du NCBI - > Contient 40 BD. moléculaires et de littérature - > Intègre l'information de plusieurs sources - > Références croisées

Décrivez ce qu'est GenBank ?

- > Données provenant du séquençage à haut débit ! | - > ADN génomique, ARNm, ADNc, EST

Il y a 2 manières de chercher dans GenBank :

- Entrez | - Blast

Genbank utilise un structure de base de données de type :

- Données relationnelles | - Résultats sous forme de fichiers plats

Qu'est-ce que GenPept ?

- C'est comme GenBank, mais pour les séquences de protéines

Quel est l'ordre de grandeur de GenBank?

150 000 000 séquences | 140 000 000 000 bases

Quel est l'ordre de grandeur de GenPept ?

10 000 000 séquences | 3 000 000

Nommez le format de séquence le plus populaire :

FASTA

Est-ce que FASTA est compatible avec la majorité des outils de recherche ?

Absolument

Comment début un fichier FASTA ?

> nom | blabla | blabla2

L'inconvénient majeur des fichiers FASTA ?

La plupart des notations sont perdus

Ordre de grandeur de UniProt ?

500 000 séquences annotées | 50 000 000 séquences non-annotées

UniProt peut aussi être accessible via :

ExPasy

Comment de caractères peut contenir une ligne FASTA ?

Où sont déposées la plupart des protéines depuis 1972?

Sur la BD PDB !

Comment de stuctures comprends la PDB ?

Environ 100 000

Qu'est-ce que la World Wide Proteins Bank ?

RCSB PDB (USA), PDBe (Europe), PDBj (Japan), and BMRB (USA)

Nommez des exemples d'utilisation de PDB :

- Statistique, redondance - Troponin C - Summary Tab, Sequence Tab, fichier PDB, Jmol

L'aspect fondamentale d'une comparaison de séquence est l'alignement de séquences

Vrai

L'objectif de l'alignement est de trouver les lieux de concordance

Vraiment

Ce n'est pas vrai de dire que de séquence avec beaucoup de sites correspondant ont une fonction similaire

C'est faux, on peut dire ca

Les divergeances entre les séquences sont interprétées comme :

Résultat de la mutation

L'alignement sert à prédire la fonction d'une protéine, à prédire la structure secondaire et à construire une phylogénie :

Oui

Les protéines homologues sont des protéines dont les gènes sont :

d'une origine commune

Souvent, les protéines avec un grand pourcentage de similarité ont des résidus avec des caractéristiques similaires, nommez-en quelques-uns

Grosseur, charge, hydrophobicité

Peut-on dire qu'une protéine est à 40% homologue ?

Non

Peut-on dire qu'une protéine est à 40% similaire ?

Absolument

Un outil utile afin de déterminer qu'une protéine est homologue avec un autre est la :

Similarité de séquence

Pour une séquence de 250 acides aminés, pour dire qu'une protéine est homologue il faut obtenir une similarité de :

D'un peu plus de 20%

Pour des nucléotides, similarité de séquence et identité de séquence sont-ils synonymes ?

Absolument

Pour des protéines, similarité de séquence et identité de séquence sont-ils synonymes ?

Non pas vraiment!

Chez une protéines, la similarité de séquences est représentée par quoi ?

: ( propriétés physico-chimiques similaires)

Qu'est-ce que l'alignement global ?

Alignement de séquences sur la totalité de la longueur.

Qu'est-ce qu'un alignement local ?

Alignement dans une région où la similarité est assez forte !

À quoi sert la méthode par matrices de pixels

Méthode graphique afin de représenter des similarités entre deux séquences

Logiciel utile afin d'effectuer la méthode par matrices de pixels ?

Dotmatcher !

Qu'est-ce que la méthode de programmation dynamique ?

- Détermine l'alignement optimal - Plus quantitatif que la méthode par alignement de pixels - Génération d'une matrice avec score pour les matchs et les mismatchs entre les séquences

Faut-il remplir toutes les cellules d'une matrice dans la méthode de programmation dynamique ?

Oui

Comment fonctionne la méthode de programmation dynamique ?

- Trouve le chemin qui représente l'alignement optimal - Trace à partir de la dernière cellule - Mouvement diagonale : idéal - Mouvement horizontal ou vertical : insertion ou délétion (gap)

Qu'est-ce qu'un GAPS ?

Souvent impliqué dans l'alignement optimal 1

Dans les gaps les insertions et délétions sont rares ou assez fréquents ?

Rares,

D'ou vient le gap penality ?

Valeur arbitraire développée par l'étude des protéines globulaires

Nommez les deux algorithmes principales afin d'aligner des séquences de manière globale ?

Algorithmes de Needleman- Wunsch

Dans Emboss 2 protéines sont disponibles pour l'alignement globale :

needle et stretcher

Alignement local de séquences ont un score souvent plus élevé puisqu'on prend seulement en compte les régions qui ont été conservées

Vrai

Quelles sont les méthodes classiques d'alignement de séquences ?

Water, matcher supermatcher, le plus populaire étant water

Quel est l'algorithme d'alignement utilisé sur le site web NCBI-BLAST ?

C'est un algorithme d'alignement local

Le score d'alignement que cherche à obtenir les méthodes d'alignement prennent en compte à la fois le nombre d'acides aminés identique, mais aussi ceux qui sont similaires.

Vrai !

Nommez les matrices de similarité 20x20 les plus utilisées :

DAYHOFF, appelées PAM (probabilité of acceptable mutations ) HENIKOFF, appelée BLOSUM, basées sur le contenu en information des substitutions.

Que signifie un score plus grand que 0 dans une matrice ?

Fréquence de substitution plus élevée qu'aléatoire

Que signifie un score de 0 dans une matrice ?

Substitution = aléatoire

Que signifie un score négatif dans une matrice ?

C'est qu'il y a moins de substitution qu'il y en a de manière aléatoire

Que signifie l'indice dans BLOSUM62 ?

62% d'identité | plus l'indice est petit plus il est approprié pour des séquences divergentes

Afin de chercher la similarité entre deux séquences dans une base de données, la méthode de programmation dynamique est très performante ?

Pas vraiment

Afin de chercher des homologies dans de bases de données il faut utiliser des méthodes :

heuristiques

Méthodes heuristiques les plus utilisées ?

BLAST, FASTA, Sequence Similarity Searching

La plus rapide ?

Blast

La moins rapide et la plus précise ?

SSearching

Quelques paramètres de BLASTP ?

Choix de l'algorithme, choix de la base de données, choix de la matrice, LCR et autres paramètres

Introduction aux bases de données biologiques Flashcards

(94 cards)