¿Por qué los metadatos son esenciales para que los datos abiertos funcionen en inteligencia artificial?
Una descripción más rica y estandarizada facilita que los datos públicos sean útiles para entrenar y evaluar sistemas de IA
La reutilización de datos abiertos ha demostrado ser un habilitador fundamental de la innovación digital, especialmente en ámbitos como la inteligencia artificial. Sin embargo, el salto entre simplemente disponer de un conjunto de datos y tener recursos listos para emplear en flujos de aprendizaje automático no es trivial.
Un factor determinante en este proceso son los metadatos: la información que describe y contextualiza a los datos. Este enfoque ha sido objeto de atención reciente en foros especializados, que han analizado cómo los metadatos pueden incrementar la reutilización de conjuntos de datos abiertos para técnicas avanzadas de IA, contribuyendo a que la información pública sea no solo accesible, sino también inteligible y útil para automatización, evaluación y gobernanza.
La importancia de la descripción de los datos
En muchos portales de datos abiertos, la información disponible suele limitarse a atributos básicos como título, descripción general y licencia. Aunque estos elementos son útiles para localizar y descargar conjuntos de datos, no proporcionan suficiente contexto para integrarlos directamente en modelos de aprendizaje automático, que requieren información adicional sobre estructura, calidad, usos previos y vínculos con trabajos o métricas.
Los metadatos actúan como un puente entre los datos y las máquinas, permitiendo que los conjuntos de datos cumplan con los principios FAIR, ampliamente promovidos en la comunidad internacional de datos. Gracias a ello, los usuarios y los sistemas pueden localizarlos con mayor facilidad, conocer las condiciones de acceso y reutilización, interpretarlos mediante vocabularios estandarizados y disponer del contexto necesario para emplearlos en nuevos desarrollos.
Estandarización de metadatos: DCAT-AP y MLDCAT-AP
Un primer nivel de descripción se basa en DCAT (Data Catalog Vocabulary), un vocabulario de metadatos desarrollado por el W3C para facilitar la interoperabilidad entre catálogos de datos en la red. En Europa, este modelo se concreta en el perfil DCAT-AP, que permite describir catálogos y conjuntos de datos con criterios comunes y facilita su descubrimiento entre distintos portales públicos, como sucede en iniciativas de datos abiertos en España.
Para hacer estos metadatos más relevantes en el contexto de aprendizaje automático, se ha desarrollado MLDCAT-AP (Machine Learning DCAT-AP), un perfil de aplicación que incorpora elementos específicos sobre la relación entre conjuntos de datos y modelos de IA. Este perfil extendido permite, por ejemplo, registrar qué modelos se han entrenado utilizando un conjunto de datos, qué métricas de rendimiento se han obtenido, o dónde están documentados estos trabajos.
Con esta extensión, los catálogos no solo indican qué datos existen, sino cómo han sido utilizados en aplicaciones de aprendizaje automático, aportando trazabilidad y gobernanza.
Más allá del catálogo: estructura interna y metadatos específicos
Aunque los perfiles como DCAT-AP y MLDCAT-AP son útiles para describir un conjunto de datos en términos de catálogo y uso, no detallan la estructura interna de los recursos (por ejemplo, nombres de campos, tipos de variables, restricciones o relaciones internas), lo que también es esencial para integrarlos en pipelines o flujos de trabajo de inteligencia artificial.
En este nivel adquieren relevancia iniciativas como Data Package, del ecosistema Frictionless Data, que permiten describir no solo los datos en su conjunto, sino también la estructura interna de cada recurso. A través de un archivo en formato JSON, un Data Package especifica elementos como los campos y sus nombres, los tipos de datos utilizados (por ejemplo, numéricos, textuales o de fecha), y las restricciones o reglas de validación aplicables, como rangos de valores o claves primarias, facilitando así la integración y validación automática de los datos.
Este tipo de metadatos permite realizar validaciones automáticas previas al entrenamiento, reduciendo la fricción en los procesos de preparación de datos.
Croissant: conectando metadatos y aprendizaje automático
Para dotar de aún más utilidad a los metadatos desde la perspectiva del aprendizaje automático, ha surgido el formato Croissant, desarrollado en el marco de MLCommons con participación de industria y academia. Croissant está diseñado para describir datasets en un formato JSON-LD basado en schema.org/Dataset, y combina metadatos generales del conjunto, descripción de recursos individuales (tablas, archivos), estructura y semántica de los datos y elementos específicos de IA (por ejemplo, separación de conjuntos de entrenamiento/validación/test o campos objetivo).
Este formato tiene como objetivo facilitar que distintos repositorios, desde portales públicos hasta plataformas como Kaggle o HuggingFace, publiquen conjuntos de datos de manera que las bibliotecas de IA puedan consumirlos de forma homogénea y sin pasos adicionales de ingeniería.
Iniciativas complementarias y prácticas de documentación
Además de los estándares ya consolidados, han surgido prácticas complementarias que contribuyen a enriquecer la reutilización de datos en contextos de aprendizaje automático. Entre ellas destaca CSV on the Web (CSVW), una iniciativa que permite acompañar los archivos CSV con metadatos estructurados en formato JSON, aportando contexto detallado sobre las tablas de datos, su estructura y su significado, lo que facilita su interpretación y uso automatizado.
Junto a ello, enfoques como los Datasheets for Datasets o las Dataset Cards promueven una documentación más narrativa de los conjuntos de datos, en la que se describe su origen, sus posibles limitaciones, los usos recomendados y los riesgos asociados. Estas prácticas, combinadas con esquemas de metadatos estandarizados, permiten que los datos abiertos no se limiten a ser simplemente descargables, sino que estén preparados para un uso avanzado, reduciendo la fricción en tareas de ingeniería y contribuyendo a resultados más confiables en el desarrollo de modelos de inteligencia artificial.
Más información