Quality of metadata describing research data and the influence of repository characteristics (Young Information Scientist 7, 2022)

Dorothea Strecker: Quality of metadata describing research data and the influence of repository characteristics

Objective — This article captures the status quo of metadata for research data, and identifies factors at the repository level that influence metadata quality.

Methods — Based on a joint analysis of DataCite metadata records and re3data repository descriptions, this paper evaluates the quality of metadata records describing research data and analyzes differences in metadata quality between repositories of different types and between repositories with or without formal certification to determine if these factors correlate with high metadata quality.

Results — Of individual metadata elements, mandatory elements are used most frequently, followed by recommended and optional elements. More than half of all metadata elements are used in less than 5 % of metadata records. With the exception of related identifiers, persistent identifiers are rarely used. The average descriptions has 487.3 characters. On average, 18.7 elements are used in metadata records, which corresponds to 24.7 % of the elements available. The homogeneity of  metadata records varies considerably between repositories, on average, 50.9 % of metadata records use the same common set of metadata elements. The analysis revealed statistically significant differences across repositories of varying type and
certification status in the use of individual metadata elements, the comprehensiveness of descriptions, and the completeness of metadata records.

Conclusion — This paper presents a first systematic analysis of metadata quality for research data and the influence of repository characteristics on metadata quality. It discusses difficulties of using a generic metadata schema for describing diverse research data. The results show that some repositories appear to have established successful metadata practices and workflows, but some metadata elements remain underused. There is evidence of repository type and certification status affecting metadata quality, but more research is needed to identify specific factors.

Keywords research data, research data repository, metadata qualit

 

Dorothea Strecker: Qualität von Metadaten zur Beschreibung von Forschungsdaten und Einflussfaktoren auf der Ebene von Repositorien

Zielsetzung — In diesem Beitrag werden der Status quo von Metadaten für Forschungsdaten erfasst und Faktoren auf der Ebene der Repositorien ermittelt, die die Qualität der Metadaten beeinflussen.

Forschungsmethoden — Auf der Grundlage einer gemeinsamen Auswertung von DataCite-Metadatensätzen und re3data-Einträgen wird die Qualität von Metadatensätzen bewertet, die Forschungsdaten beschreiben, und Unterschiede in der Metadatenqualität zwischen Repositorien verschiedener Typen und zwischen Repositorien mit oder ohne formale Zertifizierung analysiert, um festzustellen, ob diese Faktoren mit einerhohen Metadatenqualität korrelieren.

Ergebnisse — Von den einzelnen Metadatenelementen werden obligatorische Elemente am häufigsten verwendet, gefolgt von empfohlenen und optionalen Elementen. Mehr als die Hälfte aller Metadatenelemente wird in weniger als 5 % der Metadatensätze verwendet. Mit Ausnahme von related Identifiern werden persistente Identifier nur selten verwendet. Beschreibungen umfassen durchschnittlich 487,3 Zeichen. Im Durchschnitt werden 18,7 Elemente pro Metadatensatz verwendet, was 24,7 % aller verfügbaren Elemente entspricht. Die Homogenität der Metadatensätze variiert beträchtlich zwischen den Repositorien, im Durchschnitt verwenden 50,9 % der Metadatensätze dieselbe gemeinsame Menge von Metadatenelementen. Die Analyse ergab statistisch signifikante Unterschiede zwischen Repositorien verschiedener Art und verschiedenem Zertifizierungsstatus hinsichtlich der Verwendung einzelner Metadatenelemente, des Umfangs der Beschreibungen und der Vollständigkeit der Metadatensätze.

Schlussfolgerungen — In diesem Beitrag wird eine erste systematische Analyse der Qualität von Metadaten für Forschungsdaten und des Einflusses von Repositoriumseigenschaften auf die Metadatenqualität vorgestellt. Schwierigkeiten, die aus der Verwendung eines generischen Metadatenschemas für die Beschreibung diverser Forschungsdaten resultieren, werden diskutiert. Die Ergebnisse zeigen, dass einige Repositorien offenbar erfolgreiche Metadatenpraktiken und Workflows etabliert haben, dass aber einige Metadatenelemente nach wie vor nicht ausreichend genutzt werden. Es gibt Hinweise darauf, dass die Art des Repositoriums und der Zertifizierungsstatus die Qualität der Metadaten beeinflussen können, aber es sind weitere Untersuchungen erforderlich, um spezifische Einflussfaktoren zu ermitteln.

Schlagwörter — Forschungsdaten, Forschungsdatenrepositorien, Metadatenqualität

 

Veröffentlicht in: Young Information Scientist, Jg. 7 (2022), S. 13-27.
Online: https://doi.org/10.25365/yis-2022-7-2

Young Information Scientist (YIS) wird vom Verein zur Förderung der Informationswissenschaft (VFI), Wien, herausgegeben. Alle Beiträge unterliegen einem Peer Review. ISSN 2518-6892.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert