INTELIGENCIA artificial en el tercer mundo...
¿Quién decide qué datos valen? El riesgo de invisibilizar a los más vulnerables
Este artículo explora cómo las decisiones sobre qué datos se recolectan, cómo se etiquetan y a quién representan, pueden reforzar —o desafiar— las desigualdades estructurales. Analizaremos por qué los sistemas de IA pueden terminar invisibilizando a comunidades pobres, mujeres, pueblos indígenas, migrantes o personas con discapacidades. Y lo más importante: qué se puede hacer para cambiar este rumbo.
INTELIGENCIA ARTIFICIAL IA, SALUD Y EQUIDAD
Dr Enrique Angarita
6/17/20253 min leer
La inteligencia artificial en salud se alimenta de datos: miles, millones, incluso billones de puntos de información que ayudan a construir modelos predictivos, diagnósticos automatizados y recomendaciones clínicas. Pero, ¿qué ocurre cuando los datos más importantes —los de las personas más vulnerables— están ausentes o mal representados?
En el mundo de la IA, la ausencia no es neutral. No aparecer en los datos puede significar no aparecer en las decisiones clínicas, no ser contemplado por las políticas sanitarias, no tener acceso a intervenciones eficaces.
Los datos no son neutrales
Desde su recolección hasta su análisis, los datos en salud están impregnados de decisiones humanas: qué indicadores medir, en qué poblaciones, con qué instrumentos, bajo qué supuestos. Cuando estas decisiones no consideran a las poblaciones históricamente excluidas, los algoritmos resultantes también las marginan.
Algunos ejemplos comunes:
Datos clínicos provenientes de grandes hospitales urbanos, sin representación de centros rurales o periféricos.
Estudios biomédicos realizados mayoritariamente en hombres blancos, con escasa inclusión de mujeres, personas racializadas o de diversas edades.
Sistemas de salud que no registran adecuadamente los determinantes sociales, como vivienda, empleo, violencia o desplazamiento forzado.
Los algoritmos que se nutren de estos datos sesgados pueden terminar haciendo lo siguiente:
Recomendando tratamientos inadecuados para ciertas poblaciones.
Ignorando síntomas o variantes clínicas más comunes en grupos subrepresentados.
No identificando factores de riesgo presentes en contextos de pobreza o exclusión.
Casos emblemáticos de invisibilización algorítmica
1. Predictores de salud que subestiman a personas afrodescendientes
Un estudio publicado en Science (Obermeyer et al., 2019) reveló que un algoritmo ampliamente usado en EE.UU. para asignar recursos sanitarios priorizaba menos a pacientes afroamericanos con las mismas condiciones clínicas que pacientes blancos, porque se basaba en costos históricos de atención (más bajos para los afrodescendientes por acceso desigual al sistema).
Conclusión: El sesgo no estaba en los genes, sino en los datos económicos que reflejaban desigualdad estructural.
2. Diagnóstico dermatológico con IA que falla en pieles oscuras
Muchas aplicaciones de diagnóstico de enfermedades de la piel están entrenadas con imágenes de personas de piel clara, lo que reduce su precisión en poblaciones negras, indígenas o mestizas. Esto puede llevar a errores de diagnóstico, subestimación de enfermedades o falta de tratamiento oportuno.
3. Fallas en el reconocimiento de voz en pacientes con acento o dialectos regionales
En regiones multilingües o con fuertes variaciones dialectales, los sistemas de voz para historia clínica electrónica o triage automatizado pueden fallar al entender al paciente o al personal de salud, reduciendo su utilidad y aumentando el error clínico.
¿Quién está fuera de los datasets?
Entre las poblaciones más comúnmente invisibilizadas en los datos de salud y, por ende, en la IA médica, se encuentran:
Pueblos indígenas y comunidades rurales.
Mujeres, especialmente embarazadas o en edad reproductiva.
Población LGTBIQ+, que enfrenta falta de registro o estigmatización.
Personas con discapacidad, cuyas condiciones muchas veces no se codifican adecuadamente.
Migrantes, desplazados y refugiados, que a menudo quedan fuera de sistemas formales de salud.
La falta de datos sobre estas poblaciones no significa que no existan problemas de salud en ellas, sino que no son visibles para quienes diseñan las herramientas tecnológicas.
¿Por qué importa la representación de datos?
Porque la IA no crea realidad, la amplifica. Si los datos de entrenamiento reflejan desigualdades, el sistema resultante no solo las replicará, sino que puede exacerbarlas al automatizar decisiones injustas.
Además, los sistemas entrenados con datos incompletos tienden a tener menor precisión, confiabilidad y validez externa. Esto pone en riesgo la calidad clínica y la seguridad del paciente.
Principios para mejorar la representación de datos
Recolección intencional de datos de poblaciones marginadas
Esto incluye salir del hospital y recolectar datos comunitarios, rurales, interculturales.
Desagregación de datos
No basta con registrar, hay que clasificar: por género, raza, ubicación, discapacidad, orientación sexual, etc.
Validación cruzada de algoritmos
Todo modelo debe probarse en contextos diversos, no solo donde fue entrenado.
Participación comunitaria en el proceso
Las comunidades deben ser parte del diseño de lo que se mide, cómo se mide y para qué se mide.
Acceso ético a datos
La obtención de datos en poblaciones vulnerables debe hacerse con consentimiento informado, respeto cultural y retorno de beneficios.
Conclusión
La calidad de una inteligencia artificial en salud no se mide solo por su precisión técnica, sino por su capacidad de servir a todas las personas, no solo a las más visibles. Cuando los datos excluyen, la tecnología discrimina.
Construir una IA más equitativa implica revalorizar los datos de quienes han sido sistemáticamente ignorados. Implica preguntar: ¿quién está dentro del modelo… y quién quedó fuera?
¿Trabajas con comunidades invisibilizadas en salud? ¿Qué datos crees que estamos dejando fuera?
Escríbenos o deja tu opinión en iamedica.org y ayudemos a construir tecnologías que no excluyan.