Scripts e metadados para auditoria de perda semântica em crosswalk de Metadados

Lima, Karolayne Costa Rodrigues de; Sunye, Marcos Sfair

dc.contributor.author	Lima, Karolayne Costa Rodrigues de
dc.contributor.author	Sunye, Marcos Sfair
dc.coverage.temporal	janeiro de 2026.	pt_BR
dc.date.accessioned	2026-05-14T12:05:38Z
dc.date.available	2026-05-14T12:05:38Z
dc.date.issued	2026-05-13
dc.identifier.uri	http://dx.doi.org/10.5380/bdc/108
dc.description.abstract	Este conjunto de dados reúne os scripts de coleta, os metadados brutos e os resultados tabulares que fundamentam o artigo "A armadilha da validade artificial: auditoria da perda semântica no crosswalk de metadados". O estudo propõe um framework para avaliação de interoperabilidade semântica em crosswalks de metadados, operacionalizado pela tupla ⟨S, T, C, V⟩ (Semântica, Tipo, Cardinalidade, Valor) e pela Métrica de Lossiness Ponderada (Lw), que quantifica a degradação informacional entre esquemas de origem e destino de forma independente da conformidade estrutural. Foram coletados 150 registros de metadados de três repositórios brasileiros: Repositório Institucional da UFSCar (Dublin Core, via OAI-PMH), GBIF (Darwin Core/EML, via API REST) e Redape/Embrapa (DataCite, via OAI-PMH), por meio de scripts Python, e avaliados em três cenários de crosswalk: UFSCar > DataCite (Cenário A, Lw médio = 22,75%), GBIF > Dublin Core (Cenário B, Lw médio = 51,15%) e GBIF >DataCite (Cenário C, Lw médio = 7,93%). Os resultados evidenciam que validade estrutural e fidelidade informacional são propriedades independentes: no Cenário B, todos os 50 registros foram validados com sucesso (Val = 100%) enquanto apresentaram perda semântica de até 73,24%, fenômeno denominado Validade Artificial. O conjunto inclui os scripts de coleta e auditoria, os metadados brutos em JSON e as tabelas de resultados em CSV, permitindo a reprodução integral dos experimentos.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Metadados	pt_BR
dc.subject	Perda semântica	pt_BR
dc.subject	Crosswalk metadados	pt_BR
dc.subject	Dados científicos	pt_BR
dc.subject	Validade semântica	pt_BR
dc.title	Scripts e metadados para auditoria de perda semântica em crosswalk de Metadados	pt_BR
dc.type	Dataset	pt_BR
dcterms.bibliographicCitation	Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS). Bibliotecas Python: requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor. xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces. json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria. pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula. numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso). Protocolos de acesso aos dados: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente. API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset. Padrões de metadados processados: Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar. DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C. Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF. Armazenamento: Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json).	pt_BR
dcterms.bibliographicCitation	Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS). Bibliotecas Python: requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor. xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces. json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria. pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula. numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso). Protocolos de acesso aos dados: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente. API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset. Padrões de metadados processados: Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar. DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C. Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF. Armazenamento: Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json).	pt_BR
dcterms.bibliographicCitation	Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS). Bibliotecas Python: requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor. xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces. json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria. pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula. numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso). Protocolos de acesso aos dados: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente. API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset. Padrões de metadados processados: Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar. DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C. Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF. Armazenamento: Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json).	pt_BR
dcterms.bibliographicCitation	Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS). Bibliotecas Python: requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor. xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces. json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria. pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula. numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso). Protocolos de acesso aos dados: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente. API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset. Padrões de metadados processados: Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar. DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C. Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF. Armazenamento: Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json).	pt_BR