| dc.contributor.author | Lima, Karolayne Costa Rodrigues de | |
| dc.contributor.author | Sunye, Marcos Sfair | |
| dc.coverage.temporal | janeiro de 2026. | pt_BR |
| dc.date.accessioned | 2026-05-14T12:05:38Z | |
| dc.date.available | 2026-05-14T12:05:38Z | |
| dc.date.issued | 2026-05-13 | |
| dc.identifier.uri | http://dx.doi.org/10.5380/bdc/108 | |
| dc.description.abstract | Este conjunto de dados reúne os scripts de coleta, os metadados brutos e os resultados tabulares que fundamentam o artigo "A armadilha da validade artificial: auditoria da perda semântica no crosswalk de metadados". O estudo propõe um framework para avaliação de interoperabilidade semântica em crosswalks de metadados, operacionalizado pela tupla ⟨S, T, C, V⟩ (Semântica, Tipo, Cardinalidade, Valor) e pela Métrica de Lossiness Ponderada (Lw), que quantifica a degradação informacional entre esquemas de origem e destino de forma independente da conformidade estrutural. Foram coletados 150 registros de metadados de três repositórios brasileiros: Repositório Institucional da UFSCar (Dublin Core, via OAI-PMH), GBIF (Darwin Core/EML, via API REST) e Redape/Embrapa (DataCite, via OAI-PMH), por meio de scripts Python, e avaliados em três cenários de crosswalk: UFSCar > DataCite (Cenário A, Lw médio = 22,75%), GBIF > Dublin Core (Cenário B, Lw médio = 51,15%) e GBIF >DataCite (Cenário C, Lw médio = 7,93%). Os resultados evidenciam que validade estrutural e fidelidade informacional são propriedades independentes: no Cenário B, todos os 50 registros foram validados com sucesso (Val = 100%) enquanto apresentaram perda semântica de até 73,24%, fenômeno denominado Validade Artificial. O conjunto inclui os scripts de coleta e auditoria, os metadados brutos em JSON e as tabelas de resultados em CSV, permitindo a reprodução integral dos experimentos. | pt_BR |
| dc.language.iso | pt_BR | pt_BR |
| dc.subject | Metadados | pt_BR |
| dc.subject | Perda semântica | pt_BR |
| dc.subject | Crosswalk metadados | pt_BR |
| dc.subject | Dados científicos | pt_BR |
| dc.subject | Validade semântica | pt_BR |
| dc.title | Scripts e metadados para auditoria de perda semântica em crosswalk de Metadados | pt_BR |
| dc.type | Dataset | pt_BR |
| dcterms.bibliographicCitation | Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS).
Bibliotecas Python:
requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor.
xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces.
json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria.
pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula.
numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso).
Protocolos de acesso aos dados:
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente.
API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset.
Padrões de metadados processados:
Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar.
DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C.
Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF.
Armazenamento:
Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json). | pt_BR |
| dcterms.bibliographicCitation | Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS).
Bibliotecas Python:
requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor.
xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces.
json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria.
pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula.
numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso).
Protocolos de acesso aos dados:
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente.
API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset.
Padrões de metadados processados:
Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar.
DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C.
Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF.
Armazenamento:
Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json). | pt_BR |
| dcterms.bibliographicCitation | Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS).
Bibliotecas Python:
requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor.
xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces.
json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria.
pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula.
numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso).
Protocolos de acesso aos dados:
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente.
API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset.
Padrões de metadados processados:
Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar.
DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C.
Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF.
Armazenamento:
Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json). | pt_BR |
| dcterms.bibliographicCitation | Todos os scripts foram desenvolvidos em Python 3.10, executados em ambiente local (macOS).
Bibliotecas Python:
requests (2.31+): realização de requisições HTTP às APIs OAI-PMH e REST dos três repositórios, com configuração de timeout, headers de identificação e tratamento de erros de servidor.
xml.etree.ElementTree (biblioteca padrão): parsing das respostas XML retornadas pelo protocolo OAI-PMH (UFSCar e Redape/Embrapa), com extração recursiva de elementos, atributos e namespaces.
json (biblioteca padrão): serialização dos metadados convertidos para JSON e leitura dos arquivos nas etapas de auditoria.
pandas (2.0): construção dos DataFrames de resultados e exportação dos arquivos CSV com separador ponto e vírgula.
numpy (1.24): cálculos estatísticos na análise de sensibilidade (médias por grupo de cenário e perfil de peso).
Protocolos de acesso aos dados:
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting): utilizado para coleta nos repositórios UFSCar (DSpace 7) e Redape/Embrapa (Dataverse), com prefixos oai_dc e oai_datacite, respectivamente.
API REST (JSON): utilizado para coleta no GBIF via endpoint oficial https://api.gbif.org/v1/dataset.
Padrões de metadados processados:
Dublin Core (DC): esquema plano de 15 elementos, coletado da UFSCar.
DataCite Schema 4.x: esquema híbrido com suporte a objetos aninhados, coletado da Redape/Embrapa e utilizado como esquema de destino nos Cenários A e C.
Darwin Core / EML (Ecological Metadata Language): esquema hierárquico de alta complexidade, coletado do GBIF.
Armazenamento:
Os dados foram gravados diretamente em disco local no formato JSON (metadados brutos) e CSV (resultados da auditoria), sem uso de banco de dados relacional ou sistema de gerenciamento de arquivos externo. Os nomes de arquivo seguem convenção descritiva com indicação da fonte e do padrão de metadados (ufscar_50_full_metadata.json, redape_embrapa_50_datacite.json, gbif_50_full_metadata.json). | pt_BR |