L’équipe de bio-informatique supporte les activités et services fournis par le Centre de Pharmacogénomique. L’équipe assure la gestion de la production des pipelines d’analyse, des rapports des banques de données, du suivi des processus de développement et des outils web. Les pipelines bio-informatiques déjà établis permettent l’analyse de génome entier, de séquençage des captures d’exome, l’analyse de génotypage, de CNV via séquençage et génotypage et, enfin, les études de génotypage d’associations pangénomiques (GWAS).
Le stockage est maintenu par un SAN (Storage Area Network) IBM pour les répertoires d’utilisateurs, alors que les données génétiques sont stockées sur un Isilon EMC à noeuds multiples ayant une capacité de stockage de 76 TB. Le Centre PGx possède un système de sauvegarde des données contrôlé avec duplication et sauvegarde externe des données. Les processus d’analyse fonctionnent sur un système distinct incluant une grappe de calcul de 160 CPU avec Grid Engine ainsi que des systèmes informatiques à haute performance de Calcul Québec/Calcul Canada.
Le système de gestion de l’information des activités de laboratoire est régi par un plan structuré de sécurité. Toutes les procédures sont documentées et les activités de production et celles de développement s’effectuent dans des environnements distincts. Des mécanismes stricts de sécurité et un plan fiable de sauvegarde sont également en place.
L’équipe de bio-informatique supporte également le LIMS, qui est conforme aux GLP et au FDA 21 CFR part 11, et est utilisé par le laboratoire afin de supporter la collecte, la gestion et le suivi des échantillons. Le LIMS inclut des contrôles de qualité, un système de validation exhaustif et une piste d’audit complète.
Statistiques génétiques
L’équipe de bio-informatique déploie des efforts visant à uniformiser les analyses statistiques et la communication de données issues de génotypage à haut débit. Des outils Python ont été développés afin d’automatiser certains processus, dont des scripts de nettoyage des données génétiques, la création de plans d’analyse statistique et la génération automatique de rapports d’analyses statistiques. Une liste non exhaustive de tels outils créés par l’équipe est disponible sur les sites web de GitHub et de StatGen.
L’analyse du séquençage de nouvelle génération (NGS)
L’analyse de données de séquençage d’ADN à haut débit présente un défi bio-informatique important. L’équipe de bio-informatique fournit des données de séquençage de la plus haute qualité qui soit. Nous nous fions à des procédures d’analyse comparative et de validation afin de mettre en oeuvre les meilleures stratégies de pipelines pour nos projets NGS. Nous avons développé un pipeline Python basé sur le modèle Rufus qui est flexible, facile à configurer et adapté à notre environnement informatique ainsi qu’à celui des serveurs de Calcul Québec. Ce nouveau pipeline est en opération depuis juin 2014 et est continuellement mis à jour avec de nouvelles versions des outils et de nouvelles capacités de communication des données.
Développement de logiciels
Notre équipe de développement de logiciels produit des applications de qualité qui adhèrent à des standards élevés de sécurité et de validation. L’équipe a conçu des applications Web utilisant des techniques de back-end les plus modernes, y compris Scala.
LIMS
L’équipe de développement de logiciels supporte le LIMS enregistrant les activités du laboratoire GLP. L’équipe a développé un système de communication des données intégré à l’intranet du laboratoire, permettant le suivi et les mises à jour des statuts en temps réel. Ces activités reposent sur le LIMS Exemplar (Sapio Sciences), qui est supporté par une suite extensive de flux de tâches personnalisés et de plug-ins Java.
Pipeline Agena intégré
Nous avons développé un pipeline d’analyse intégré pour le système MassArray d’Agena comprenant des processus de contrôle de qualité, des outils d’aide à la décision, des services d’haplotypage et de phénotypage pour les variations pharmacogénomiques, ainsi que des outils automatisés de communication des données.