Concepts et définitions

BIGSdb

BIGSdb est une plate-forme logicielle - pas une base de données spécifique. Il y a de nombreuses instances de bases de données BIGSdb, donc la référence à “le BIGSdb” ou “BIGSdb” pour parler d’une base spécifique n’a pas de sens.

Loci

Les loci (ou locus au singulier) sont des régions du génome qui sont identifiées par similitude avec une séquence connue. Ils peuvent être définis par la séquence nucléotidique ou peptidique. Ce sont souvent des séquences codantes complètes (gènes), mais ils peuvent représenter des fragments de gènes (comme ceux utilisés dans la méthode MLST), des boucles de peptides antigéniques, ou même n’importe quelle portion de séquence.

Dans les versions de BIGSdb antérieures à 1.8.0, une entrée isolat ne pouvait avoir qu’un seul allele actif pour un locus (des allèles inactifs/en attente pouvaient être stockés dans la base de données mais n’étaient pas disponibles à des fins de requête ou d’analyse). Étant donné que la biologie est rarement aussi propre et que certains génomes peuvent contenir plus d’une copie d’un gène, les versions ultérieures permettent la désignation de plusieurs allèles pour un locus, qui peuvent tous être interrogés et analysés.

Les loci paralogues peuvent être difficiles à différencier par la seule similarité de séquence. Pour cette raison, les loci peuvent être définis aussi par leur contexte : une PCR in-silico ou des réactions d’hybridation peuvent être effectuées pour filtrer le génome pour des régions spécifiques basées sur une séquence externe au locus.

Allèles

Les allèles sont des séquences particulières d’un locus. Chaque séquence unique, nucléotidique ou peptidique selon le locus, est définie comme un nouvel allèle et définie dans une base de données de définitions de séquences (sequence definition database), où on leur donne un identifiant d’allèle. Ces identifiants sont généralement des nombres entiers, mais peuvent être des chaînes de texte. Les numéros d’allèles au format texte peuvent être limités par la longueur et le formatage.

Lorsqu’un allèle spécifique d’un locus est identifié dans les données de séquence d’une entrée isolat, la désignation de l’allèle, c’est-à-dire le numéro d’allèle (ou identifiant), est associée à l’isolat. Ceci répertorie efficacement la variation de séquence trouvée dans un isolat. Deux isolats ayant la même désignation d’allèle pour un locus ont des séquences identiques à ce locus. Une fois que la variation de séquence à l’intérieur d’un génome a été réduite à une série de désignations d’allèles, les génomes peuvent être comparés efficacement en identifiant quels loci varient entre eux.

Il est important de noter que les identifiants d’allèles sont généralement arbitraires et sont attribués séquentiellement dans l’ordre de leur découverte. Les allèles avec des identifiants adjacents peuvent varier d’un seul nucléotide ou de plusieurs, et des identifiants non adjacents peuvent varier d’un seul nucléotide.

Schémas

Les schémas sont des collections de loci qui peuvent être associées à des valeurs de champs supplémentaires. Dans le cas le plus simple, ils ne font que regrouper les loci. Voici des exemples d’utilisations de schémas simples :

Gènes de résistance aux antibiotiques
Gènes impliqués dans des voies biochimiques spécifiques
Antigènes
Composantes de vaccin
Whole genome MLST (wgMLST)

Lorsque des schémas sont associés à des champs supplémentaires, l’un de ces champs doit être la clé primaire, c’est-à-dire que sa valeur définit une combinaison unique d’allèles à ses loci membres. L’exemple le plus important est le MLST - où un séquençotype (ou sequence type, ST) est la clé principale qui définit une combinaison d’allèles unique aux loci qui composent le profil MLST. D’autres champs peuvent également être inclus. Ces valeurs ne doivent pas nécessairement être uniques. Dans l’exemple MLST, un champ pour complexe clonal peut être inclus, et la même valeur de complexe clonal peut être définie pour plusieurs ST.

Profils

Les profils sont des instances de schémas. Un profil se compose d’un ensemble d’identifiants allele pour les loci qui composent le schéma. Si le schéma a un champ clé primaire, par exemple sequence type (ST) dans les schémas MLST, alors la combinaison unique d’allèles dans un profil complet peut être définie par la valeur de ce champ.

Groupes de classification

Les groupes de classification sont un moyen de regrouper les profils en utilisant un seuil précis de différence allélique paire à paire. À l’heure actuelle, le regroupement single linkage est disponible, selon lequel chaque membre d’un groupe ne doit pas avoir plus que le nombre spécifié de différences alléliques avec au moins un autre membre du groupe.

Balises (Sequence tags)

Les sequence tags enregistrent la position du locus dans le sequence bin (l’ensemble des séquences d’un isolat). Le processus de création de ces tags (ou balises) est connu sous le nom de tag-scanning. Un tag consiste en :

sequence bin id - ceci identifie un contig particulier
nom du locus
Position de début
position de fin
flag (ou drapeau) pour indiquer si la séquence est inversée
flag pour indiquer si la séquence est complète et ne se poursuit pas au delà de la fin du contig

Sous-ensembles (sets)

Les sous-ensembles (sets en anglais) fournissent un moyen, à partir d’une grande base de données avec de nombreux loci et/ou schémas, de présenter un sous-ensemble de ceux-ci comme s’il s’agissait d’une base de données complète. Les loci et les schémas choisis pour appartenir à un sous-ensemble peuvent être renommés lorsqu’ils sont utilisés avec ce sous-ensemble. L’intérêt est que, dans une base de données comportant des isolats de plusieurs espèces et un grand nombre de loci, le nom de ces loci peut être long afin de spécifier un nom d’espèce. Par exemple, vous pouvez avoir une base de données qui contient plusieurs schémas MLST pour différentes espèces, mais comme ces schémas peuvent utiliser différents fragments des mêmes gènes, ils peuvent devoir être appelés quelque chose comme “Streptococcus_pneumoniae_MLST_aroE’Si nous définissons un sous-ensemble pour “Streptococcus pneumoniae” nous pouvons alors choisir d’inclure uniquement les loci pour S. pneumoniae et donc raccourcir leurs noms, par exemple en “aroE”.