DOCUMENTAÇÃO REFERENTE AOS CONJUNTOS DE DADOS “SCRIPTS E METADADOS PARA AUDITORIA DE PERDA SEMÂNTICA EM CROSSWALK DE METADADOS” por Karolayne Costa Rodrigues de Lima e Marcos Sfair Sunye referente ao artigo “A armadilha da validade artificial: auditoria da perda semântica no crosswalk de metadados” apresentado e publicado no evento Simpósio Brasileiro de Banco de Dados (SBBD 2026), São Carlos, SP, 8-11 de setembro de 2026. Resumo da Pesquisa Este conjunto de dados apoia uma pesquisa sobre a qualidade de metadados em repositórios de dados de pesquisa brasileiros. Foram coletados 150 registros de metadados de três fontes (UFSCar, GBIF e Redape/Embrapa) via protocolos OAI-PMH e API REST, convertidos para JSON e avaliados por meio de um algoritmo de mensuração de perda semântica ponderada (Lw). Os resultados fundamentam uma análise comparativa de cenários de crosswalk entre os padrões Dublin Core, Darwin Core e DataCite. Estrutura dos arquivos O repositório é composto por três módulos, depositados como três conjuntos de arquivos relacionados: Módulo Arquivo(s) Formato Descrição scripts_python ufscar_full_metadata.py Python 3 (.py) Coleta de 50 registros do Repositório Institucional UFSCar via OAI-PMH (Dublin Core) scripts_python gbif_collection.py Python 3 (.py) Coleta de 50 registros do GBIF via API REST (Darwin Core / EML) scripts_python redape_embrapa_coleta.py Python 3 (.py) Coleta de 50 registros do Dataverse Redape/Embrapa via OAI-PMH (DataCite) metadados_json ufscar_50_full_metadata.json JSON Metadados brutos dos 50 datasets UFSCar (Dublin Core) metadados_json gbif_50_full_metadata.json JSON Metadados brutos dos 50 datasets GBIF (Darwin Core/EML) metadados_json redape_embrapa_50_datacite.json JSON Metadados brutos dos 50 datasets Redape/Embrapa (DataCite) codigos_auditoria auditor_tuplas.py Python 3 (.py) Implementação do modelo de auditoria por tuplas (S,T,C,V) codigos_auditoria algoritmo_perda_semantica.py Python 3 (.py) Algoritmo principal de cálculo do índice Lw (perda semântica ponderada) codigos_auditoria analise_sensibilidade.py Python 3 (.py) Análise de sensibilidade dos pesos sob três perfis codigos_auditoria auditoria_3_repositorios.csv CSV (sep=;) Resultado da auditoria simplificada — IDs, fontes, cenários e Lw (%) codigos_auditoria analise_sensibilidade.csv CSV (sep=;) Resultados da análise de sensibilidade para os 150 registros METODOLOGIA DE COLETA E PROCESSAMENTO Coleta de metadados: Os scripts de coleta (scripts_python/) acessam três repositórios de dados de pesquisa brasileiros utilizando protocolos abertos: UFSCar (DSpace 7): protocolo OAI-PMH com prefixo oai_dc; paginação por resumptionToken; filtragem por tipo 'dataset'. GBIF: API REST (https://api.gbif.org/v1/dataset); retorno em JSON com metadados Darwin Core / EML. Redape/Embrapa (Dataverse): protocolo OAI-PMH com prefixo oai_datacite; paginação por resumptionToken. Cada script coleta 50 registros e salva o resultado em arquivo JSON com metadados completos (campo full_metadata ou equivalente). Algoritmo de Avaliação (Lw) O índice de perda semântica ponderada (Lw) é calculado por: Lw = (1 − Σ(fi × wi) / Σwi) × 100 onde fi ∈ {0,0 ; 0,2 ; 0,5 ; 0,7 ; 1,0} é o coeficiente de fidelidade da unidade de metadados ui no destino, e wi é o peso da categoria a que ui pertence, conforme Tabela 1 do manuscrito. Cenários de Crosswalk Avaliados: Cenário Fonte Padrão de Origem Padrão de Destino Cenário A UFSCar Dublin Core DataCite Cenário B GBIF Darwin Core (flat) DataCite Cenário C GBIF Darwin Core (estruturado) DataCite Padrão Interno Embrapa/Redape DataCite DataCite (referência) Requisitos de software e reprodutibilidade: Dependência Versão testada Finalidade Python 3.10+ Execução de todos os scripts requests 2.31+ Requisições HTTP (coleta OAI/API) pandas 2.0+ Manipulação de DataFrames e exportação CSV numpy 1.24+ Cálculos numéricos (análise de sensibilidade) json (stdlib) — Serialização/deserialização JSON xml.etree.ElementTree (stdlib) — Parse de respostas OAI-PMH Instalação dos pacotes Python: pip install requests pandas numpy Ordem de execução sugerida para reprodução da pesquisa: 1. python scripts_python/ufscar_full_metadata.py 2. python scripts_python/gbif_collection.py 3. python scripts_python/redape_embrapa_coleta.py 4. python codigos_auditoria/algoritmo_perda_semantica.py 5. python codigos_auditoria/auditor_tuplas.py 6. python codigos_auditoria/analise_sensibilidade.py Os scripts de coleta (etapas 1–3) fazem requisições em tempo real às APIs dos repositórios. Os metadados já coletados estão disponíveis na pasta metadados_json/ para execução direta das etapas 4–6. Dicionário de variáveis – arquivos CSV auditoria_3_repositorios.csv Variável Tipo Descrição ID string Identificador único do registro (OAI identifier ou UUID GBIF) Fonte categórico Repositório de origem: UFSCar | Embrapa | GBIF Cenário categórico Cenário de crosswalk avaliado: Cenário A | Cenário B | Cenário C | Padrão Interno Lw (%) numérico (float) Índice de perda semântica ponderada, em percentual (0–100) analise_sensibilidade.csv Variável Tipo Descrição ID inteiro Sequencial do registro (1–150) Fonte categórico Repositório de origem Cenário categórico Cenário de crosswalk avaliado Lw_Original (%) numérico (float) Lw com perfil de pesos originais do manuscrito (id=3, tax=2, str=1.5, des=1) Lw_Flat (%) numérico (float) Lw com perfil igualitário (todos os pesos = 1) Lw_Taxonomy-Heavy (%) numérico (float) Lw com perfil orientado a taxonomia (tax=5, demais=1) Licença e direitos de uso Este conjunto de dados é disponibilizado sob a licença Creative Commons Atribuição 4.0 Internacional (CC BY 4.0). Os metadados coletados (pasta metadados_json/) são derivados de repositórios públicos e estão sujeitos às políticas de uso de cada fonte (UFSCar, GBIF, Embrapa/Redape). O código-fonte (scripts Python) e os dados tabulares derivados (CSVs) são de autoria dos pesquisadores e cobertos pela CC BY 4.0. Contato: kcrlima@inf.ufpr.br