El arte de la curación científica

Blog

HogarHogar / Blog / El arte de la curación científica

Aug 01, 2023

El arte de la curación científica

Al final de En busca del arca perdida, la misteriosa Arca de la Alianza,

Al final de Raiders of the Lost Ark, la misteriosa Arca de la Alianza, recuperada recientemente por Indiana Jones, se empaqueta en una simple caja de madera y se transporta a un enorme almacén lleno de innumerables pilas de cajas similares. A medida que el carro desaparece en una esquina del almacén, los espectadores se preguntan qué se necesitaría para encontrar el arca nuevamente.

La premisa de esta escena ofrece una analogía adecuada de lo que puede suceder con los datos, incluso los datos valiosos y difíciles de obtener, almacenados en bases de datos sin una organización adecuada. Tanto para los científicos experimentados como para los novatos, navegar por el panorama de la información para encontrar esos datos "ocultos" que son relevantes para su investigación puede requerir esfuerzos extraordinarios.

Cuando se hace bien, la curación acelera el progreso de la investigación y genera una mayor transparencia en el proceso científico y confianza en el conocimiento científico.

En el entorno de ciencia abierta de hoy en día, la selección cuidadosa de datos, software, documentos y otros elementos del ecosistema de conocimiento científico es esencial para ayudar a los investigadores a filtrar de manera eficiente el vasto y cada vez mayor volumen de información. La curación proporciona contexto y claridad en torno a la información, haciéndola más localizable y útil. La guía seleccionada también mejora la accesibilidad a los datos y la información. Cuando se hace bien, la curación acelera el progreso de la investigación y genera una mayor transparencia en el proceso científico y confianza en el conocimiento científico.

Aquí exploramos el concepto de curación de contenido científico y su valor para mejorar el descubrimiento y uso de datos e información científica, centrándonos en dos casos de uso dentro de la NASA.

En el mundo del arte, la curaduría se refiere a la selección, organización y presentación de obras de arte en una colección o exhibición. La curación puede referirse de manera similar a la organización de contenido o información en línea. En este contexto, la curación de contenido se ha descrito como "el acto de descubrir, recopilar y presentar contenido digital que rodea un tema específico". Nos basamos en esta y otras definiciones para definir la curación de contenido científico como la participación de expertos autorizados que identifican, recopilan, validan, sintetizan, organizan y presentan detalles contextuales necesarios para descubrir, comprender y utilizar datos y conocimientos científicos de manera eficaz [p. ej., Rotman et al. ., 2012].

Esencialmente, la curación de contenido científico es un esfuerzo de valor agregado. Incluye cualquier actividad o proceso que acelere el progreso hacia la ciencia procesable o facilite a diversas audiencias digerir la información científica. El alcance de esta selección no se limita a datos y publicaciones, sino que también incluye información contextual detallada que aparece en fuentes que a menudo no se conservan bien a lo largo del tiempo. Dichas fuentes pueden incluir literatura gris que está disponible fuera de los canales tradicionales (p. ej., revistas académicas), así como tablas, figuras, diagramas de información vital, listas de personal, blogs de fuentes confiables y otro contenido no revisado.

La curación efectiva de contenido científico está guiada por expertos en la materia que validan y sintetizan información relevante y confiable sobre temas determinados. Estos expertos utilizan una metodología estructurada para agilizar las actividades de investigación para los buscadores de datos e información. Este proceso fomenta la confianza entre los usuarios del contenido curado porque entienden que las personas o los equipos de confianza son los responsables.

La gran cantidad de información puede confundir y confundir a cualquiera, especialmente a aquellos que son nuevos en la investigación o que profundizan en una nueva disciplina.

Con la continua expansión del contenido científico, los avances tecnológicos y las políticas que favorecen cada vez más la ciencia abierta, hay más datos e información disponibles para los investigadores que nunca. La gran cantidad de información puede confundir y confundir a cualquiera, especialmente a aquellos que son nuevos en la investigación o que profundizan en una nueva disciplina. Desafortunadamente, la proliferación de editores depredadores, sociedades ficticias y conferencias falsas complica el panorama de la información al facilitar la difusión de material que parece autorizado pero, en última instancia, poco confiable.

Recibe las noticias científicas más fascinantes de la semana en tu bandeja de entrada todos los viernes.

Se requiere mucha habilidad para buscar en la masa de contenido para extraer datos e información autorizados, auténticos y confiables, un primer paso fundamental para abordar cualquier pregunta científica. Este esfuerzo puede ser largo y arduo. Los investigadores a menudo repiten los esfuerzos de recopilación de información que otros han hecho antes que ellos, desviando el tiempo y la atención de otras tareas de investigación importantes. A través del proceso de identificar y proporcionar contexto relevante sobre datos e información, la curación de contenido científico ayuda a los usuarios a navegar este vasto panorama, facilitando un descubrimiento científico más eficiente al agilizar los pasos iniciales de investigación.

Los modelos de curación exitosa de contenido científico se encuentran en todas las ciencias. El Sistema de Datos Astrofísicos del Observatorio Astrofísico Smithsonian y la Enciclopedia de la Vida del Museo Nacional de Historia Natural son buenos ejemplos. Mientras tanto, dos proyectos en curso de la NASA, el Catálogo de Investigaciones Suborbitales de Ciencias de la Tierra Archivadas (CASEI) y el Science Discovery Engine (SDE), ofrecen casos de uso modelo para la curación de contenido científico en las ciencias de la Tierra y el espacio. Cada uno de estos esfuerzos se desarrolló para satisfacer las necesidades de comunidades particulares y, en la práctica, promueven el descubrimiento de datos e información de la NASA en una variedad de disciplinas.

Desde septiembre de 2018, el Grupo de gestión de datos aerotransportados (ADMG) de la NASA ha estado construyendo CASEI, un inventario científicamente seleccionado que contiene más de medio siglo de observaciones científicas de la Tierra de la NASA recopiladas de campañas aéreas y de campo (es decir, suborbitales) para mejorar las capacidades de búsqueda de información existentes. . Estas observaciones tienen el potencial de respaldar nuevas investigaciones científicas más allá de las preguntas para las que se recopilaron originalmente los datos. Sin embargo, los usuarios de datos han informado que estas observaciones son difíciles de descubrir, acceder y usar debido a que los datos de investigación de campo y aerotransportados se registran en una amplia variedad de formatos, sistemas de coordenadas y resoluciones espaciotemporales, utilizando varios procesos de archivo de datos, metadatos y complejos. detalles motivadores y situacionales [Earth Science Data Systems, 2018; Smith et al., 2020]. Además, los datos aéreos y de campo se almacenan en una red distribuida de centros de datos, cada uno enfocado en diferentes temas temáticos de estudio y utilizando diferentes enfoques para la administración de datos. Estos factores se combinan para crear un proceso de descubrimiento inconsistente y engorroso.

CASEI tiene una interfaz de programación de aplicaciones fácil de usar que permite a los usuarios navegar, buscar y filtrar el contenido de la base de datos fácilmente y se basa en un modelo de metadatos informado por las necesidades de la comunidad de usuarios. El modelo CASEI incluye sustancialmente más contenido de metadatos que el que normalmente se recopila para los productos de datos agregados al registro de metadatos detrás de Earthdata Search de la NASA, la herramienta principal para buscar datos de ciencias de la Tierra de la NASA. El contenido adicional de metadatos de CASEI incluye regiones de estudio, descripciones de eventos significativos, región vertical de observación, tipos de superficie y otros detalles que permiten a los usuarios enfocarse rápidamente en subconjuntos del registro de datos completo o relacionar información y datos en múltiples campañas. Por ejemplo, imagine que los investigadores están interesados ​​en investigar los efectos de las especies químicas y de aerosoles en el desarrollo de las nubes específicamente en las regiones costeras. Los metadatos en CASEI facilitan la identificación de campañas existentes que recolectaron observaciones de aerosoles, química y nubes en geografías costeras.

CASEI no aloja ni archiva productos de datos, sino que sirve como un servicio de conservación al dirigir a los usuarios directamente a los datos almacenados en varios centros de datos de la NASA (llamados Centros de Archivo Activo Distribuido, o DAAC). La selección de CASEI es realizada por miembros del equipo de ADMG que están capacitados en los aspectos técnicos de la selección de CASEI y comprenden la heterogeneidad y complejidad de los datos aéreos y de campo. El proceso de curación comienza con un examen de datos autorizados y fuentes de información, como literatura científica revisada por pares, informes de campo, resúmenes de eventos de campaña y tablas de operación de instrumentos. Esta revisión ayuda a los miembros del equipo a recopilar, validar y sintetizar metadatos contextuales críticos asociados con conjuntos de datos que pueden ampliar la utilidad de las observaciones y respaldar la comprensión científica futura a través del uso apropiado de datos en nuevos análisis.

Los términos utilizados para organizar y referirse a campañas aéreas y de campo varían según las disciplinas y con el tiempo. Para crear el inventario CASEI, los curadores deben identificar cómo encajar la información de la campaña existente en el modelo de metadatos del catálogo. Los curadores usan árboles de decisión objetivos para asegurarse de que toman decisiones consistentes al traducir la información existente en uso al modelo de metadatos y definiciones de CASEI [Wingo y Smith, 2023]. Luego, tres curadores revisan completamente todos los metadatos antes de que el contenido se publique en la base de datos de CASEI.

Para mantener la precisión del contenido a lo largo del tiempo, los curadores completan actualizaciones trimestrales de la base de datos. Estas actualizaciones incluyen mantener el cumplimiento de las palabras clave científicas estandarizadas, agregar nuevos productos de datos para campañas activas e incluir URL para nuevas publicaciones revisadas por pares. Las actualizaciones de la interfaz de usuario de CASEI y las funciones y capacidades adicionales también se desarrollan sobre la base de los comentarios de los usuarios. Por ejemplo, los desarrolladores están trabajando actualmente para agregar mapas que contengan ubicaciones de plataformas estacionarias y pistas de plataformas móviles.

Hasta la fecha, usuarios de todo el mundo han utilizado la interfaz beta de CASEI; el catálogo se lanzará oficialmente en julio de 2023.

La Dirección de Misiones Científicas (SMD) de la NASA abarca estudios en cinco amplias áreas temáticas: astrofísica, ciencias biológicas y físicas, ciencias de la Tierra, heliofísica y ciencias planetarias. Existe una gran variedad de datos, documentos, imágenes, modelos, herramientas, software y código en estos temas bajo el paraguas de SMD, pero está disperso en numerosos archivos, repositorios y sitios web, lo que hace que el descubrimiento de datos e información sea un desafío.

A principios de 2022, la Iniciativa científica de código abierto de la NASA desarrolló SDE para respaldar los objetivos de la agencia de aumentar la disponibilidad, la capacidad de descubrimiento y la accesibilidad de la información abierta e interdisciplinaria. SDE proporciona un punto de acceso único para datos y recursos seleccionados de las cinco áreas temáticas de SMD. Las opciones de filtrado flexibles, que actualmente incluyen plataformas, instrumentos y misiones y se ampliarán para incluir otros conceptos clave, brindan una capa de organización y guían a los usuarios para explorar el contenido de SDE de manera más efectiva. Con SDE, un usuario que busque información sobre galaxias podría, por ejemplo, filtrar recursos por plataformas específicas, como los telescopios espaciales Hubble y James Webb.

La curación para Science Discovery Engine implica la colaboración con expertos en la materia para identificar y agregar conocimiento contextual.

El proceso de curación para SDE implica la colaboración con expertos en la materia para identificar y agregar conocimiento contextual a herramientas, documentos, archivos de metadatos de datos e imágenes, repositorios de código y software relevantes disponibles en ubicaciones existentes, pero dispersas. Esta tarea es desafiante y lleva mucho tiempo debido al gran volumen de información y porque los datos y la información a veces se duplican en varios sitios, los sitios web no reciben mantenimiento y los enlaces web se rompen.

La curación de contenido en SDE continúa a medida que se identifican e incorporan más datos y recursos. Además, el equipo de SDE selecciona las listas de términos de búsqueda dentro de cada opción de filtrado. Se requiere un esfuerzo significativo para crear y mantener la lista de términos para cada filtro, que sintetiza los términos existentes en las áreas temáticas científicas de SMD, pero el contexto que brindan estos filtros es invaluable para los nuevos usuarios.

El SDE beta, que crece regularmente a medida que se agrega más contenido, se lanzó en AGU Fall Meeting 2022 en Chicago y actualmente contiene más de 700 000 documentos de búsqueda, incluidos 84 000 registros de metadatos sobre datos.

La curación de contenido científico funciona mejor como una actividad viva que se repite con el tiempo (Figura 1). El ciclo comienza con la identificación de una necesidad o caso de uso de la comunidad. El caso de uso destaca tendencias, temas de discusión o lagunas en el conocimiento y es esencial para definir el alcance de un esfuerzo de curación. Por ejemplo, la creación de SDE fue impulsada por una necesidad identificada de facilitar el descubrimiento de datos e información de ciencia abierta de la NASA y permitir la ciencia interdisciplinaria.

Una vez que se define el caso de uso, se aplican expertos humanos en la materia y/o técnicas de inteligencia artificial (IA) para identificar datos e información relacionados y agregar valor para los usuarios seleccionando solo el contenido más relevante. Se agrega más valor y conocimiento a este contenido a través de una organización, anotación, visualización y destilación efectivas de la información en formatos más comprensibles [Dale, 2014].

Luego, una colección seleccionada se comparte con la comunidad de usuarios, a través de plataformas de búsqueda integradas, páginas web, entornos de aprendizaje en línea o portales científicos colaborativos, para mejorar la comprensión y el acceso a la información. Los comentarios de la comunidad impulsan la creación de contenido adicional, comenzando nuevamente el ciclo de curación.

Existe un delicado equilibrio entre el valor científico obtenido al mantener el contenido curado y los costos de hacerlo.

El mantenimiento es esencial para garantizar que una colección se mantenga actualizada y siga aportando valor a la comunidad. Sin embargo, existe un delicado equilibrio entre el valor científico obtenido al mantener el contenido curado y los costos de hacerlo. Por un lado, una colección curada representa una fuente enfocada de conocimiento confiable y una importante inversión de tiempo y esfuerzo que debe reconocerse, valorarse e incentivarse. Garantizar la longevidad de las colecciones, junto con la capacidad de citarlas, ayuda a reconocer las contribuciones de los curadores y brinda transparencia y confianza a los usuarios.

Por otro lado, los costos asociados con el mantenimiento indefinido de una colección curada, que incluyen los de la infraestructura necesaria y el esfuerzo adicional para mantener una colección fresca y relevante, pueden volverse potencialmente insostenibles. Por ejemplo, desde 2016, los administradores de la Iniciativa de datos climáticos (CDI) [Ramachandran et al., 2016], una colección seleccionada de datos del gobierno federal relevantes para las cuestiones del cambio climático, se han esforzado por mantener la colección con el apoyo mínimo que reciben. CDI originalmente seleccionó más de 700 conjuntos de datos, pero ahora solo mantiene 570.

Muchas preguntas entran en las consideraciones de si y por cuánto tiempo mantener los recursos curados. ¿Qué compromisos hay que asumir para preservarlos? ¿Las decisiones están impulsadas solo por métricas, y si es así, qué métricas, o hay otros factores que sopesar? ¿Y cómo se pueden satisfacer las necesidades de información de la comunidad de la manera más eficiente y con un apoyo potencialmente limitado?

La curación de contenido científico toma muchas formas, incluidas las siguientes:

Dado el crecimiento exponencial en la disponibilidad de información, así como los crecientes esfuerzos para mejorar la transparencia y el acceso equitativo a los resultados científicos, la curación de contenido científico en todas sus formas se está volviendo cada vez más vital. Ya no es factible que un solo humano busque y evalúe de manera efectiva la gran cantidad de información disponible sobre un tema. Se están identificando y aprovechando nuevos enfoques de curación a medida que se desarrollan tecnologías de punta y más comunidades, a veces desatendidas, se unen a los esfuerzos científicos. Estos nuevos enfoques están ayudando a ampliar los esfuerzos de curación para mantenerse al día con el crecimiento del contenido y las demandas de acceso abierto rápido a datos e información.

Recientemente, la IA, el aprendizaje automático y el procesamiento del lenguaje natural (NLP) se han mostrado prometedores; los ejemplos incluyen el uso de NLP para mejorar las anotaciones de genes y las técnicas de minería de texto para curar la investigación biomédica [Ohyanagi et al., 2015; Álex et al., 2008]. Sin embargo, para que la IA sea efectiva, debe usarse junto con la experiencia humana para entrenar algoritmos de IA y validar sus resultados.

Las comunidades científicas y de gestión de datos deben priorizar la curación de contenido científico, lo que significa reconocer y recompensar los esfuerzos de los contribuyentes, valorar el proceso y preservar los resultados.

Garantizar que esta experiencia humana esté disponible es un desafío. Los científicos ya se enfrentan a demandas cada vez mayores de su tiempo, incluida la competencia por un apoyo financiero cada vez más competitivo y limitado, y el cumplimiento de las expectativas de resultados científicos más rápidos y abiertos. Participar en la curación como experto en la materia solo aumenta las responsabilidades existentes. Entonces, ¿cómo podemos seguir involucrando a los científicos en este trabajo?

Para empezar, las comunidades científicas y de gestión de datos deben priorizar la curación de contenido científico, lo que significa reconocer y recompensar los esfuerzos de los contribuyentes, valorar el proceso y preservar los resultados. Para hacer esto, la comunidad de gestión de datos debe ir más allá del simple archivo de datos y, en su lugar, centrarse en proporcionar servicios mejorados a las comunidades de usuarios. Esto implica cambiar fundamentalmente la forma en que operamos y administramos los repositorios, con tecnólogos y científicos trabajando juntos. Además, las instituciones deben esperar solicitudes de financiamiento en propuestas científicas para permitir actividades esenciales de curación de contenido científico. Finalmente, se necesita un método para acreditar el trabajo de los curadores de contenido científico, tal vez uno similar a los enfoques para acreditar el trabajo que se dedica a producir conjuntos de datos.

A través de tales esfuerzos, podemos mejorar la sostenibilidad a largo plazo de repositorios científicos bien organizados y seleccionados que ayuden a dar sentido al vasto panorama de la información, abran un acceso más equitativo a la información y fomenten el trabajo interdisciplinario necesario para abordar muchos desafíos que enfrenta el mundo. hoy. También podemos asegurarnos de que la información y los datos valiosos y obtenidos con tanto esfuerzo no terminen como el arca en Raiders, acumulando polvo en la oscuridad y perdidos en el tiempo.

Alex, B., et al. (2008), Automatización de la curación mediante una tubería de procesamiento de lenguaje natural, Genome Biol., 9, supl. 2, S10, https://doi.org/10.1186/gb-2008-9-s2-s10.

Dale, S. (2014), Curación de contenidos: El futuro de la relevancia, Bus. información Rev., 31(4), 199–205, https://doi.org/10.1177/0266382114564267.

Earth Science Data Systems (2018), Gestión de productos de datos aerotransportados: Desafíos y recomendaciones, versión: 27 de febrero de 2018, NASA, Washington, DC

Ohyanagi, H., et al. (2015), Plant Omics Data Center: un repositorio web integrado para redes de expresión génica entre especies con curación basada en NLP, Plant Cell Physiol., 56(1), e9, https://doi.org/10.1093/pcp/pcu188.

Ramachandran, R., et al. (2016), Iniciativa de datos climáticos: un esfuerzo de geocuración para apoyar la resiliencia climática, Comput. Geosci., 88, 22–29, https://doi.org/10.1016/j.cageo.2015.12.002.

Ramasubramanian, M., et al. (2020), ES2Vec: Asignación de palabras clave de metadatos de ciencias de la tierra usando incrustaciones de palabras específicas del dominio, en 2020 SoutheastCon, págs. 1–6, Inst. de Electr. y electrón. Ing., Piscataway, NJ, https://doi.org/10.1109/SoutheastCon44009.2020.9249743.

Rotman, D., et al. (2012), Apoyando a las comunidades de curación de contenido: El caso de la Enciclopedia de la Vida, J. Am. Soc. información ciencia Technol., 63, 1092–1107, https://doi.org/10.1002/asi.22633.

Smith, DK, et al. (2020), Construcción de un inventario de datos aerotransportados para mejorar el acceso y la detección de datos, documento presentado en la Reunión Anual de AMS 2020, virtual, Am. Meteorol. Soc., ntrs.nasa.gov/citations/20200000477.

Wingo, SM y D. Smith (2023), ADMG CASEI Inventory Terms Definitions, NASA Earth Sci. Datos e Inf. sist. Pararse. Coord. Off., https://doi.org/10.5067/DOC/ESCO/ESDS-RFC-047v1.

Kaylin Bugbee ([email protected]), Centro Marshall de Vuelos Espaciales de la NASA, Huntsville, Ala.; y Deborah Smith, Stephanie Wingo y Emily Foshee, Universidad de Alabama en Huntsville

Citación: 2022. Los autores. CC POR 3.0