Los metadatos (del griego μετα, meta, 'después de, más allá de'[1] y latín datum, 'lo que se da', «dato»[2]), literalmente «sobre datos», son datos que describen otros datos. En general, un grupo de metadatos se refiere a un grupo de datos que describen el contenido informativo de un objeto al que se denomina recurso.[3] El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos.[4]
Para varios campos de la informática, como la recuperación de información o la web semántica, los metadatos en etiquetas son un enfoque importante para construir un puente sobre el intervalo semántico, ya que cualquier recurso tiene, cuando está almacenado conjuntamente con otros, la necesidad de ser descrito para facilitar las búsquedas que pudieran tratar de encontrarlo a partir de sus características distintivas. Esto es cierto para cualquier tipo de recurso, tanto para un vídeo como para un libro en una biblioteca o para un hueso en el armario de un paleontólogo.
El concepto de metadatos es anterior a Internet y a la web, si bien es cierto que las nuevas necesidades de búsqueda de información han suscitado un interés por las normas y prácticas de metadatos hasta entonces desconocido.
El término «metadatos» no tiene una definición única. Según la definición más difundida de metadatos es que son «datos sobre datos». También hay muchas declaraciones como «informaciones sobre datos»,[5] «datos sobre informaciones»[6] e «informaciones sobre informaciones».[7]
Otra clase de definiciones trata de precisar el término como «descripciones estructuradas y opcionales que están disponibles de forma pública para ayudar a localizar objetos»[8] o «datos estructurados y codificados que describen características de instancias conteniendo informaciones para ayudar a identificar, descubrir, valorar y administrar las instancias descritas».[9] Esta clase surgió de la crítica de que las declaraciones más simples son tan difusas y generales que dificultarán la tarea de acordar estándares, pero estas definiciones no son muy comunes.
Podemos también considerar los metadatos, en las áreas de telecomunicaciones e informática, como información no relevante para el usuario final pero sí de suma importancia para el sistema que maneja los datos. Los metadatos son enviados junto a la información cuando se realiza alguna petición o actualización de la misma.
En el campo biológico los metadatos se han convertido en una herramienta fundamental para el descubrimiento de datos e información. En este contexto se pueden definir los metadatos como «una descripción estandarizada de las características de un conjunto de datos» con esto se incluye la descripción del contexto en el cual los datos fueron coleccionados y además se refiere al uso de estándares para describirlos.[10]
La mayoría de las veces no es posible diferenciar entre datos y metadatos. Por ejemplo, un poema es un grupo de datos, pero también puede ser un grupo de metadatos si está adjuntado a una canción que lo usa como texto.
Muchas veces, los datos son tanto "datos" como "metadatos". Por ejemplo, el título de un texto es parte del texto como a la vez es un dato referente al texto (dato como metadato).
Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos. Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cuál es el origen de cada grupo de metadatos, registrando ello en metadatos sobre los metadatos.
Descriptivos: Para encontrar o entender una fuente de información.
Administrativos: - Metadatos técnicos: Para decodificar y representar archivos. - Metadatos de preservación: Gestión a largo plazo de archivos. - Metadatos de derechos: Derechos de propiedad intelectual adjuntos al contenido.
Estructurales: Relaciones de partes de recursos entre sí.
Lenguajes de marcado: Integra metadatos y marcas para otras características estructurales o semánticas dentro del contenido
El uso de los metadatos mencionado más frecuentemente es la refinación de consultas a buscadores. Usando información adicional los resultados son más precisos, y el usuario se ahorra filtraciones manuales complementarias.
El intervalo semántico plantea el problema de que el usuario y el ordenador no se entiendan porque este último no comprenda el significado de los datos. Es posible que los metadatos posibiliten la comunicación declarando cómo están relacionados los datos. Por eso la representación del conocimiento usa metadatos para categorizar informaciones. La misma idea facilita la inteligencia artificial al deducir conclusiones automáticamente.
Los metadatos facilitan el flujo de trabajo convirtiendo datos automáticamente de un formato a otro. Para eso es necesario que los metadatos describan contenido y estructura de los datos.[12]
Algunos metadatos hacen posible una compresión de datos más eficaz. Por ejemplo, si en un vídeo el software sabe distinguir el primer plano del fondo puede usar algoritmos de compresión diferentes y así mejorar la cuota de compresión.[13]
Otra idea de aplicación es la presentación variable de datos. Si hay metadatos señalando los detalles más importantes, un programa puede seleccionar la forma de presentación más adecuada. Por ejemplo, si un teléfono móvil sabe dónde está localizada una persona en una imagen, tiene la posibilidad de reducirlo a las dimensiones de su pantalla. Del mismo modo un navegador puede decidir presentar un diagrama a su usuario ciego en forma táctil o leída.[14]
Los metadatos se clasifican usando tres criterios:
El ciclo de vida de los metadatos comprende las fases creación, manipulación y destrucción. El análisis minucioso de cada una de las etapas saca a la luz asuntos significativos.
Se pueden crear metadatos manualmente, semiautomáticamente o automáticamente. El proceso manual puede ser muy laborioso, dependiente del formato usado y del volumen deseado, hasta un grado en el que los seres humanos no puedan superarlo. Por eso, el desarrollo de utillaje semiautomático o automático es más que deseable.
En la producción automática el software adquiere las informaciones que necesita sin ayuda externa. Aunque el desarrollo de algoritmos tan avanzados está siendo objeto de investigación actualmente, no es probable que la computadora vaya a ser capaz de extraer todos los metadatos automáticamente. En vez de ello, se considera la producción semiautomática más realista; aquí un servidor humano sostiene algoritmos autónomos con la aclaración de inseguridades o la proposición de informaciones que el software no puede extraer sin ayuda.
Hay muchos expertos que se encargan del diseño de herramientas para la creación de metadatos pero que ignoran cuestionar este proceso. Según los que no evitan el asunto, la generación no debe comenzar después de la terminación de un recurso sino que debe hacerse durante la fabricación: hay que archivar los metadatos tan pronto como se originan, con los conocimientos especiales del productor, para evitar una laboriosa reconstrucción posterior. Por eso, se tiene que integrar la producción de metadatos en el procedimiento de fabricación del recurso.[15]
Si los datos cambian, los metadatos tienen que cambiar también. Aquí se hace la pregunta: ¿quién va a adaptar los metadatos? Existen modificaciones que pueden ser manejadas de forma sencilla y automática, pero hay otras donde la intervención de un servidor humano es indispensable.
La metaproducción, el reciclaje de partes de recursos para crear otros recursos, demanda atención particular. La fusión de los metadatos afiliados no es trivial, especialmente si se trata de información con relevancia jurídica, como por ejemplo la gestión digital de derechos.[17]
Además hay que investigar la destrucción de metadatos. En algunos casos es conveniente eliminar los metadatos junto con sus recursos, en otros es razonable conservar los metadatos, por ejemplo para supervisar cambios en un documento de texto.[18]
Los metadatos han cobrado gran relevancia en el mundo de Internet, por la necesidad de utilizar los metadatos para la clasificación de la enorme cantidad de datos. Además de la clasificación los metadatos pueden ayudar en las búsquedas. Por ejemplo, si buscamos un artículo sobre vehículos, este dato tendrá sus correspondiente metadatos clave adjuntos, como 4 ruedas, motor, etc.
Otros ejemplos de usos de metadatos en la informática:
Hay dos posibilidades para almacenar metadatos: depositarlos internamente, en el mismo documento que los datos, o depositarlos externamente, en su mismo recurso. Inicialmente, los metadatos se almacenaban internamente para facilitar la administración.
Hoy, por lo general, se considera mejor opción la localización externa porque hace posible la concentración de metadatos para optimizar operaciones de búsqueda. Por el contrario, existe el problema de cómo se liga un recurso con sus metadatos. La mayoría de los estándares usa URIs, la técnica de localizar documentos en la World Wide Web, pero este método propone otras preguntas, por ejemplo qué hacer con documentos que no tienen URI.[19]
Los primeros y más simples formatos de los metadatos usaron texto no cifrado o la codificación binaria para almacenar metadatos en ficheros.
Hoy, es común codificar metadatos usando XML. Así, son legibles tanto por seres humanos como por computadoras. Además este lenguaje tiene muchas características a su favor, por ejemplo es muy simple integrarlo en la World Wide Web. Pero también hay inconvenientes: los datos necesitan más espacio de memoria que en formato binario y no está claro cómo convertir la estructura de árbol en una corriente de datos.
Por eso, muchos estándares incluyen utilidades para convertir XML en codificación binaria y viceversa, de forma que se unen las ventajas de los dos.
Para garantizar la uniformidad y la compatibilidad de los metadatos, muchos sugieren el uso de un vocabulario controlado fijando los términos de un campo. Por ejemplo, en caso de sinónimos o interlenguaje hay que acordarse qué palabras se usan para evitar que el buscador localice «español» pero no «española».
Una ontología además define las relaciones de los términos del vocabulario para que la computadora puede evaluarlas automáticamente. Así es posible presentar una página web sobre «Vincent Van Gogh» aunque el usuario tecleó «pintores neerlandeses»; usando una ontología adecuada el buscador comprende que Van Gogh fue un pintor neerlandés.
Un concepto muy similar a las ontologías son las folksonomías. Las ontologías son definidas por expertos del campo que ordenan los términos, pero las folksonomías son definidas por los mismos usuarios.
En el e-learning los metadatos se emplean para describir los objetos y recursos de aprendizaje con el objetivo de facilitar las búsquedas en los repositorios. A menudo la información de metadatos de los repositorios de objetos de aprendizaje cumple el estándar IEEE LOM, el cual define un conjunto de nueve categorías de información, que permiten describir los recursos tanto desde el punto de vista didáctico como técnico, lo que permite hacer búsquedas mucho más ajustadas que permitirán a los usuarios (profesores que componen un nuevo curso con materiales existentes, o alumnos interesados en aprender sobre un cierto tema) obtener resultados más ajustados a los criterios de búsqueda introducidos.
Los metadatos son una parte esencial del paradigma de los objetos de aprendizaje, puesto que:
Los metadatos son por tanto un elemento de valor fundamental. Un recurso digital con un diseño pedagógico excelente no es per se un buen objeto de aprendizaje, sino que lo será en la medida en que los metadatos que lo describan sean también de calidad.
Se conoce como paradatos al conjunto de datos que se genera durante la interacción entre un usuario y un recurso o servicio de un escenario educativo (un entorno virtual de aprendizaje, repositorio, red social, etcétera). En función del recurso o servicio accedido y las operaciones realizadas con el mismo, los paradatos generados contendrán más o menos información. Esta información se puede almacenar para ser posteriormente analizada, con el objetivo de comprender mejor cómo los usuarios interactúan en dicho escenario educativo, detectando posibles problemas, así como oportunidades de mejora tanto del propio escenario educativo y de las herramientas utilizadas como del entendimiento del proceso que siguen los usuarios en el mismo. A partir del análisis realizado, es posible entonces construir, entre otros, sistemas de recomendación, esquemas de reputación, visualizaciones de la interacción, etc.
Por ejemplo, si un usuario se descarga un documento de un repositorio de objetos de aprendizaje, será posible saber que el usuario U ha descargado el documento D en el momento T. Esta información puede usarse para detectar aquellos recursos más descargados o, por el contrario, aquellos que nunca son accedidos por los usuarios, pero también conocer en qué épocas del semestre académico se produce una mayor utilización del repositorio. Otra posibilidad es si un usuario U evalúa un recurso R con una valoración X en el momento T, por ejemplo, un comentario en un grupo de Facebook. Esto permite conocer los comentarios mejor o peor valorados por los usuarios, así como los usuarios más activos.
En general, el objetivo es guardar la interacción de los usuarios con el sistema en forma de tuplas (U, T, S, R, X): un usuario U en el momento T utiliza un servicio S sobre un recurso R con un resultado X. Esta es la mínima información que debe ser almacenada para su posterior análisis.
Dado que la interacción en un entorno virtual de aprendizaje suele realizarse mediante el uso de un navegador web, un usuario que visita los espacios ofrecidos por el mismo deja un rastro en forma de accesos a páginas web que quedan recogidos en los ficheros de registro (en inglés, log files) de los servidores web que soportan el sistema. Por lo tanto, parece factible analizar los ficheros de registro para extraer la información relativa a la interacción. El problema, no obstante, es que estos ficheros contienen muchas más entradas relativas a la disposición de los elementos que forman una página web, que realmente relacionadas con el propio resultado de la interacción de los usuarios, la cual debe ser calculada a partir de la secuencia de saltos capturada en los ficheros de registro. El coste computacional de analizar ficheros de registro es muy elevado (contienen millones de líneas de registro) y no es sencillo cuando se trata de sistemas complejos con múltiples servidores donde el rastro dejado por un usuario puede estar fragmentado en diferentes ficheros.
Por lo tanto, si es necesario recoger paradatos para su análisis posterior, es mejor que el sistema sea diseñado específicamente con un servicio de recogida enfocado a almacenar solamente la información requerida para el análisis, reduciendo el tamaño necesario así como el tiempo de proceso. En función del objetivo del análisis, los paradatos pueden almacenarse dentro de los metadatos de un recurso, dentro del perfil del usuario o bien, lo más habitual, en una tabla (o base de datos, en función de su complejidad) separada.
Algunos expertos critican fuertemente el uso de metadatos. Sus argumentos más sustanciosos son:
Algunos estándares de metadatos están disponibles pero no se aplican: los críticos lo consideran una prueba de las carencias del concepto de metadatos. Hay que notar que este efecto también puede ser causado por insuficiente compatibilidad de los formatos o por la enorme diversidad que amedrenta a las empresas. Fuera de eso hay formatos de metadatos muy populares.[8]
Si bien la inclusión de metadatos es necesaria, para facilitar y potenciar un buen número de tareas importantes, también existen problemas asociados al uso de los mismos. Algunos de los problemas más citados en la literatura científica se resumen en los siguientes puntos:
El desarrollo de formatos y estándares de metadatos suele estar asociado a comunidades de prácticas que requieren de reglas comunes para crear metadatos que puedan interoperar entre sí.
El destino de la técnica multimedia es describir un singular recurso de multimedia, el de la web semántica la descripción de recursos de cada tipo y además el encadenamiento de los conocimientos. Los formatos más populares y grandes son: