FAIR-R: nuevos horizontes para los datos abiertos 'preparados para la IA'
El marco amplía los principios FAIR para garantizar que los datos estén listos para alimentar sistemas de inteligencia artificial de forma responsable y con valor social
En línea con lo expuesto en el artículo ‘La cuarta ola del Open Data en la era de la Inteligencia Artificial’ días atrás, el informe de Stefaan G. Verhulst propone un salto cualitativo en la forma de publicar datos abiertos: no basta con que sean accesibles, también deben estar preparados para su uso en inteligencia artificial (IA). Esta visión se concreta en el marco FAIR-R, que amplía los principios FAIR (Findability, Accessibility, Interoperability, Reusability) con una quinta dimensión: Readiness for AI (preparados para la IA).
Un paso más allá de los principios FAIR
Los principios FAIR, formulados en 2016, establecen que los datos deben ser fáciles de encontrar, accesibles, interoperables y reutilizables tanto por humanos como por máquinas. FAIR-R conserva esta base, pero añade requisitos específicos para que los datasets puedan integrarse en entornos de IA de forma eficiente, segura y alineada con el interés público.
Entre estos requisitos destacan:
- Etiquetado, anotado y enriquecimiento exhaustivo.
- Documentación completa de procedencia y linaje de datos.
- Uso de estándares, formatos y metadatos homogéneos.
- Cobertura y calidad suficientes para evitar sesgos o falta de representatividad.
- Licencias claras que regulen el uso de datos en entrenamientos y prevengan usos indebidos.
En el contexto de los datos abiertos, esta adaptación es clave para que gobiernos, universidades y otras instituciones puedan liberar datos que sirvan de base a aplicaciones de IA de alto interés público, desde la optimización de rutas de transporte hasta la prevención de la deforestación.
Beneficios potenciales del FAIR-R
La preparación de datos abiertos para IA ofrece beneficios claros:
- Mejora del rendimiento de los modelos: datos AI-Ready aumentan precisión y eficiencia.
- Generación de insights accionables para retos como salud pública, cambio climático o gestión de emergencias.
- Aplicaciones más responsables y transparentes, que fortalecen la confianza ciudadana.
- Mayor representatividad de los sistemas, reduciendo exclusiones y sesgos.
- Aceleración de la investigación y la innovación, facilitando descubrimientos y soluciones en múltiples sectores.
Estos beneficios se apoyan en un principio fundamental: la calidad y preparación de los datos es tan importante como la potencia de los algoritmos. Según Gartner, más del 40% de los proyectos emergentes de IA fracasan por falta de datos adecuados o por problemas de calidad.
Retos para su implementación
FAIR-R plantea también desafíos: desarrollar metodologías y estándares para evaluar si un dataset es realmente AI-Ready; asegurar interoperabilidad con metadatos y ontologías sectoriales; cumplir con requisitos éticos y legales, incluyendo anonimización y licencias sociales; y garantizar gobernanza y acceso equitativo mediante data commons.
El riesgo de no actuar es entrar en un 'invierno de los datos', con aplicaciones de IA limitadas por conjuntos de datos pobres, inaccesibles o sesgados, mientras las iniciativas privadas con intereses propios siguen avanzando y aumentando la brecha en el acceso a los beneficios de la tecnología.
FAIR-R no sustituye a FAIR, sino que lo complementa para responder a las necesidades de la IA. Adoptarlo significa asegurar que los datos públicos estén listos para impulsar innovaciones tecnológicas con verdadero valor social, reforzando la transparencia, reduciendo sesgos y ampliando el acceso a sus beneficios. En la “cuarta ola” del open data, es una oportunidad para construir una IA más inclusiva, ética y al servicio de las personas.