Banques de données - CC2 Flashcards

1
Q

Quand ets ce que sont nées les principales banques de données actuelles ?

A

Dans les années 1980

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Définir une banque de données

A

C’est une collection de données structurées, interconnectées et mises à jour régulièrement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Pourquoi est-ce nécessaire de construire de telles banques M

A

Beaucoup de données

Doivent etre publiquement accessibles a tout moment

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Est-ce que on peut toujours se fier aux données des banques ?

A

Non . risques d’erreurs humaines ou informatiques. De plus les données ne sont pas toujours a jour.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quelles sont les trois banques majeures de séquences nucléiques ?

A

EMBL
GEnbank
et DDBJ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que l’INSDC ?

A

Il s’agit d’unebanque unifiant les trois grandes avec des échanges continuels d’infos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

D’ou proviennent les données des banques ?

A

Elles sont soumises directement par les chercheurs, gros risque d’erreurs du coup.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quelles sont les banques majeures de séquences protéiques ?

A

Uniprot

Refseq

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelles caracs de Swissprot ?

A

Très bien annotés, vérifiée
Non redondante ou exhaustive
Références croisées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que TrEMBL ?

A

C’est une banque de séquences protéines directement obtenue par traduction des séquences codantes contenues dans EMBL. C’est de la que sont tirées les séquences de Swissprot après vérification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est ce que refseq

A

C’est une banque de données qui a pour but d’éviter la redondance (avec le choix d’une seq représentative) et qui cherche a devenir la banque de référence. Les erreurs z sont corrigées.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quel est le format général de banques de séquences nucléiques

A

Un format plat : un série d’infos sur la séquence puis la séquence.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Dans le format plat quels infos générales sont affichées concernant la molécule des séquences nucléiques

A
Longueur
Type de molécule
Division
Date 
Définition
Identification
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Dans le format plat quels infos spécifiques sont affichées concernant la molécule des séquences nucléique

A
Organisme
Tissu
Gene et chromosome
CDS
Proteine codée
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Est-ce que le nombre d’infossur la molécule est constant ?

A

Non il varie car ces infos proviennent du chercheur qui les a rentrées.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment peut on interroger les banques ?

A

Par mots clés (ENA,entrez)

Par similarité de séquences

17
Q

Que permet GQuery ?

A

Permet l’interrogation de l’esnemble des banques de données stockées au NCBI.

18
Q

Qu’est-ce que OMIM ?

A

C’est une banque contenant les gènes et les troubles génétiqueshumains.

19
Q

Quelles possibilités ont GQuery en utilisatn la synthaxe ?

A

Booléens : and, or ou not
Association de termes avec parenthèses
Restriction de la requête sur certains champs.

20
Q

Donner trois exemples de sujet traités par les banques spécialisées.

A

Domaines protéiques
Motifs protéiques(séquences consensus, alignements)
Familles protéiques(liens évolutifs etc)

21
Q

Sur quel principe est basé le stockage de données dans une banque de domaines protéiques ?

A

La conservation desdonnées est associée àune signification biologique . site actif d’une enzyme, site de fixations, cystéines de ponts disulfures…

22
Q

Quelles sont les trois étapes utilisées par prosite pour construire un motif ?

A

Alignement d’une famille de protéines
Identifications des résidus conservés
Définition du motif.

23
Q

Quand est-ce qu’on considère un motifcomme un “bon” motif ?

A

Si il permet de retrouver toutes les protéines apparenant a la famille et uniquement ces protéines.

24
Q

Pour prosite, qu’est-ce que un faux positif ? Un faux négatif ?

A

« Faux positif » :
protéine prédite comme ayant le motif mais qui n’appartient pas à la
famille
« Faux négatif » :
protéine prédite comme n’ayant pas le motif mais qui appartient à la
famille

25
Q

Pourquoi est-ce que gene ontology a été crée ?

A

Permet la standardisation des annotations utilisées dans les banques pour homogéniser les termes et définitions utilisés par les biologistes.

26
Q

Par quels deux relations sont reliés chaque terme de gene oncology `?

A

Par “Is a” et “part of” permettant de tout lier.