Día 2 · Bloque A · 45 min
IA para cariotipo · práctica
YOLO11s entrenado por nosotros sobre el dataset de Kuo et al.
Jueves 4 de junio
Dra. Yalbi I. Balderas-Martínez
LABBIC · INER

Tras la panorámica, ahora ejecutamos un modelo concreto.
Nota
Los pesos se descargan de un GitHub Release público con verificación SHA-256 (huella única del archivo: si cambia un solo byte, la huella cambia) antes de cargarlos. Seguridad por diseño.
Modelo entrenado para mapear imágenes a etiquetas.
Tres ideas a retener:
| Término | Qué es |
|---|---|
| YOLO (You Only Look Once) | Detector que en una sola pasada encuentra cada cromosoma y lo clasifica |
| Arquitectura | El “diseño” de la red: cuántas capas y cómo se conectan (YOLO11s = versión pequeña y rápida) |
| Bounding box | El rectángulo que marca dónde está cada cromosoma |
| Pre-entrenamiento | Entrenar primero con muchas imágenes generales para “aprender a ver” |
| COCO | Banco enorme de imágenes cotidianas etiquetadas, usado para pre-entrenar |
| Fine-tuning (ajuste fino) | Re-entrenar ese modelo con nuestras imágenes (cromosomas) para especializarlo |
| Época | Una pasada completa por todos los datos de entrenamiento (hicimos 30) |
| GPU (T4) | Procesador que acelera el entrenamiento (Google Colab lo presta gratis) |
Nota
mAP (mean Average Precision): precisión promedio de detección sobre las 24 clases. IoU (Intersection over Union): cuánto se solapan la caja predicha y la real. (El detalle de mAP@50 vs 50-95, en “Resultados”.)
1 — An Open Dataset of Annotated Metaphase Cell Images
Para esta clase no descargamos las 5 000 imágenes: el modelo ya está entrenado. Usamos una sola metafase de muestra del dataset de Kuo (en el repo del curso) y corremos inferencia — tarda segundos.
Nota
Set de validación: imágenes que el modelo no vio al entrenar. Inferencia: usar el modelo ya entrenado para predecir.
Nota
Pesos descargados de un GitHub Release público y verificados con SHA-256 antes de cargar — buena práctica de seguridad.
| Sección | Qué hace |
|---|---|
| 1. Setup | Verificar GPU + instalar Ultralytics |
| 2. Descargar + SHA | Bajar pesos del Release + verificar integridad |
| 3. Cargar modelo | YOLO(...) + listar las 24 clases |
| 4. Imagen | Descargar muestra del repo o subir propia |
| 5. Detección + clasificación | Una pasada → bounding boxes con etiqueta |
| 5.5. Recorte detallado | Top-1 + top-3 alternativas |
| 6. Discusión | Cuatro preguntas guiadas |
| 8. Estadísticas + glosario | Tabla por clase + definiciones |
Tip
Mirar siempre la segunda y tercera predicción más probable — si la diferencia entre top-1 y top-2 es pequeña, hay duda real que conviene escalar a un humano.
Advertencia
Estas métricas vienen del split de validación del mismo dataset de Kuo. En un laboratorio mexicano con otra cámara y tinción, los números seguramente bajan — es el problema del domain shift.
El modelo aprende del “dominio” en que se entrenó. Si lo usas en otro dominio con características distintas, falla más — aunque la tarea sea la misma.
| Dominio de entrenamiento (Kuo 2023) | Dominio de tu laboratorio | |
|---|---|---|
| Equipo | Hospital de Taichung, Taiwán | INER u otro hospital mexicano |
| Cámara/microscopio | Modelo y resolución específicos | Otro fabricante, otra resolución |
| Tinción | Wright stain G-banding | Quizá Giemsa o variante local |
| Preparación celular | Protocolo del paper | Protocolo del laboratorio local |
Advertencia
Cada diferencia desplaza la distribución estadística de los píxeles. El modelo “entiende menos” los cromosomas aunque siga viendo bandeo G.
Ejemplos:
Tip
Cómo se mitiga:
Después del receso (a las 11:40), el bloque B: R y Bioconductor.
Del cariotipo completo que acaba de clasificar la IA, bajamos a los genes de una región concreta — con biomaRt, GenomicRanges y karyoploteR.

Curso pre-congreso CNG 2026 · Bioinformática · LABBIC-INER