Scripts e metadados para auditoria de perda semântica em crosswalk de Metadados

Este conjunto de dados reúne os scripts de coleta, os metadados brutos e os resultados tabulares que fundamentam o artigo "A armadilha da validade artificial: auditoria da perda semântica no crosswalk de metadados". O estudo propõe um framework para avaliação de interoperabilidade semântica em crosswalks de metadados, operacionalizado pela tupla ⟨S, T, C, V⟩ (Semântica, Tipo, Cardinalidade, Valor) e pela Métrica de Lossiness Ponderada (Lw), que quantifica a degradação informacional entre esquemas de origem e destino de forma independente da conformidade estrutural. Foram coletados 150 registros de metadados de três repositórios brasileiros: Repositório Institucional da UFSCar (Dublin Core, via OAI-PMH), GBIF (Darwin Core/EML, via API REST) e Redape/Embrapa (DataCite, via OAI-PMH), por meio de scripts Python, e avaliados em três cenários de crosswalk: UFSCar > DataCite (Cenário A, Lw médio = 22,75%), GBIF > Dublin Core (Cenário B, Lw médio = 51,15%) e GBIF >DataCite (Cenário C, Lw médio = 7,93%). Os resultados evidenciam que validade estrutural e fidelidade informacional são propriedades independentes: no Cenário B, todos os 50 registros foram validados com sucesso (Val = 100%) enquanto apresentaram perda semântica de até 73,24%, fenômeno denominado Validade Artificial. O conjunto inclui os scripts de coleta e auditoria, os metadados brutos em JSON e as tabelas de resultados em CSV, permitindo a reprodução integral dos experimentos.

DOI: http://dx.doi.org/10.5380/bdc/108

Collections

Dados [76]