Este trabajo consiste en el desarrollo y validación de un pipeline bioinformático de alta resolución diseñado para resolver la complejidad genética de la región KIR y su asociación con la Leucemia Mieloide Crónica. El núcleo del proyecto es un algoritmo optimizado que utiliza Kallisto para realizar un pseudo-alineamiento basado en k-mers, permitiendo identificar variantes alélicas específicas de forma rápida y eficiente en recursos, superando así los retos de alta homología y polimorfismo de estos genes.
Mediante el procesamiento de datos de secuenciación masiva (FASTQ) y el uso de la base de datos oficial IPD-KIR, se ha implementado una lógica de decisión en Python que filtra el ruido técnico y determina la cigocidad (estado homocigoto o heterocigoto) de cada gen mediante el análisis del balance alélico con un ratio crítico de 0.25.
Finalmente, la robustez del sistema se ha validado científicamente a través de una matriz de confusión, comparando las predicciones automáticas con un estándar de oro de 30 controles conocidos, lo que garantiza la precisión necesaria para escalar el análisis a la cohorte clínica de 190 pacientes y 400 controles sanos con el fin de generar modelos predictivos de valor diagnóstico
Log in or sign up for Devpost to join the conversation.