Banques de données - CC2 Flashcards by Gauthier Lieber

Quand ets ce que sont nées les principales banques de données actuelles ?

Dans les années 1980

How well did you know this?

Not at all

Perfectly

Définir une banque de données

C’est une collection de données structurées, interconnectées et mises à jour régulièrement.

How well did you know this?

Not at all

Perfectly

Pourquoi est-ce nécessaire de construire de telles banques M

Beaucoup de données

Doivent etre publiquement accessibles a tout moment

How well did you know this?

Not at all

Perfectly

Est-ce que on peut toujours se fier aux données des banques ?

Non . risques d’erreurs humaines ou informatiques. De plus les données ne sont pas toujours a jour.

How well did you know this?

Not at all

Perfectly

Quelles sont les trois banques majeures de séquences nucléiques ?

EMBL
GEnbank
et DDBJ

How well did you know this?

Not at all

Perfectly

Qu’est-ce que l’INSDC ?

Il s’agit d’unebanque unifiant les trois grandes avec des échanges continuels d’infos.

How well did you know this?

Not at all

Perfectly

D’ou proviennent les données des banques ?

Elles sont soumises directement par les chercheurs, gros risque d’erreurs du coup.

How well did you know this?

Not at all

Perfectly

Quelles sont les banques majeures de séquences protéiques ?

Uniprot

Refseq

How well did you know this?

Not at all

Perfectly

Quelles caracs de Swissprot ?

Très bien annotés, vérifiée
Non redondante ou exhaustive
Références croisées

How well did you know this?

Not at all

Perfectly

Qu’est-ce que TrEMBL ?

C’est une banque de séquences protéines directement obtenue par traduction des séquences codantes contenues dans EMBL. C’est de la que sont tirées les séquences de Swissprot après vérification

How well did you know this?

Not at all

Perfectly

Qu’est ce que refseq

C’est une banque de données qui a pour but d’éviter la redondance (avec le choix d’une seq représentative) et qui cherche a devenir la banque de référence. Les erreurs z sont corrigées.

How well did you know this?

Not at all

Perfectly

Quel est le format général de banques de séquences nucléiques

Un format plat : un série d’infos sur la séquence puis la séquence.

How well did you know this?

Not at all

Perfectly

Dans le format plat quels infos générales sont affichées concernant la molécule des séquences nucléiques

Longueur
Type de molécule
Division
Date 
Définition
Identification

How well did you know this?

Not at all

Perfectly

Dans le format plat quels infos spécifiques sont affichées concernant la molécule des séquences nucléique

Organisme
Tissu
Gene et chromosome
CDS
Proteine codée

How well did you know this?

Not at all

Perfectly

Est-ce que le nombre d’infossur la molécule est constant ?

Non il varie car ces infos proviennent du chercheur qui les a rentrées.

How well did you know this?

Not at all

Perfectly

Comment peut on interroger les banques ?

Study These Flashcards

Par mots clés (ENA,entrez)

Par similarité de séquences

Que permet GQuery ?

Study These Flashcards

Permet l’interrogation de l’esnemble des banques de données stockées au NCBI.

Qu’est-ce que OMIM ?

Study These Flashcards

C’est une banque contenant les gènes et les troubles génétiqueshumains.

Quelles possibilités ont GQuery en utilisatn la synthaxe ?

Study These Flashcards

Booléens : and, or ou not
Association de termes avec parenthèses
Restriction de la requête sur certains champs.

Donner trois exemples de sujet traités par les banques spécialisées.

Study These Flashcards

Domaines protéiques
Motifs protéiques(séquences consensus, alignements)
Familles protéiques(liens évolutifs etc)

Sur quel principe est basé le stockage de données dans une banque de domaines protéiques ?

Study These Flashcards

La conservation desdonnées est associée àune signification biologique . site actif d’une enzyme, site de fixations, cystéines de ponts disulfures…

Quelles sont les trois étapes utilisées par prosite pour construire un motif ?

Study These Flashcards

Alignement d’une famille de protéines
Identifications des résidus conservés
Définition du motif.

Quand est-ce qu’on considère un motifcomme un “bon” motif ?

Study These Flashcards

Si il permet de retrouver toutes les protéines apparenant a la famille et uniquement ces protéines.

Pour prosite, qu’est-ce que un faux positif ? Un faux négatif ?

Study These Flashcards

« Faux positif » :
protéine prédite comme ayant le motif mais qui n’appartient pas à la
famille
« Faux négatif » :
protéine prédite comme n’ayant pas le motif mais qui appartient à la
famille

Pourquoi est-ce que gene ontology a été crée ?

Permet la standardisation des annotations utilisées dans les banques pour homogéniser les termes et définitions utilisés par les biologistes.

Par quels deux relations sont reliés chaque terme de gene oncology `?

Par "Is a" et "part of" permettant de tout lier.

Banques de données - CC2 Flashcards

(26 cards)