# Repositórios Institucionais da Rede Brasileira de Repositórios Digitais (RBRD) com DSpace: corpus de metadados de Teses e Dissertações de 2025 e mapeamento dos Objetivos de Desenvolvimento Sustentável (ODS)

## Descrição

Este conjunto de dados reúne um corpus de metadados de Teses e Dissertações publicadas em 2025 e coletadas via OAI-PMH a partir de Repositórios Institucionais da Rede Brasileira de Repositórios Digitais (RBRD) que utilizam o software DSpace.

O dataset inclui registros extraídos em formato XOAI, scripts utilizados na coleta automatizada dos dados e arquivos relacionados ao mapeamento automatizado de referências aos Objetivos de Desenvolvimento Sustentável (ODS/SDG) presentes nos metadados dos repositórios.

Os dados foram coletados e analisados em maio de 2026.

## Conteúdo do dataset

### coleta_registros_dcTypes2025.ipynb

Notebook responsável pela coleta massiva de registros OAI-PMH em formato XOAI, filtrando Teses e Dissertações publicadas em 2025 a partir dos valores encontrados no metadado dc.type de cada repositório.

Os registros foram exportados individualmente em arquivos JSON para posterior análise de metadados.

O script foi executado utilizando duas estratégias distintas de cabeçalhos HTTP (User-Agent) com o objetivo de avaliar possíveis diferenças nas taxas de bloqueio realizadas pelos servidores dos repositórios institucionais.

Estratégias utilizadas:

1. Cabeçalho institucional identificado

User-Agent:
UFPR (contato: alessandra.belezia@ufpr.br)

2. Cabeçalho simulando navegador comum

User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36

---

### amostra_dcTypes.zip

Arquivo compactado contendo os registros coletados via interface XOAI.

Cada repositório é representado por um diretório identificado como:

- repo_01
- repo_02
- ...
- repo_54

Cada diretório contém até 300 registros JSON de Teses e Dissertações publicados em 2025.

Exemplo:

repo_01

- 01-001.json
- 01-002.json
- ...
- 01-152.json

repo_02

- 02-001.json
- 02-002.json
- ...
- 02-062.json

---

### descricao_da_amostra_coletada.ods

Planilha contendo informações sobre a amostra coletada.

Colunas:

- Rede
- Instituição
- endpoint_oai
- headers Alessandra
- headers Navegadores
- Amostra final (diretórios)
- Amostra final (quantidade)

A coluna “headers Alessandra” representa a quantidade de registros coletados utilizando o cabeçalho institucional identificado.

A coluna “headers Navegadores” representa a quantidade de registros coletados utilizando o cabeçalho simulando navegador comum.

A amostra final priorizou a inclusão de registros coletados com o cabeçalho simulando navegador comum, em razão do melhor desempenho observado durante as coletas.

---

### localiza_ODS.ipynb

Notebook utilizado para identificação automatizada de referências aos Objetivos de Desenvolvimento Sustentável (ODS/SDG) nos registros JSON extraídos via XOAI.

O script identifica ocorrências tanto:

- nos nomes dos campos de metadados;
- quanto nos valores armazenados nesses campos.

---

### localiza_ODS-RESULTADO.csv

Planilha contendo as ocorrências relacionadas aos ODS encontradas nos registros JSON da amostra.

Colunas:

- repositorio
- arquivo
- termo_encontrado
- tipo_match
- campo_xoai
- campo_limpo
- valor

A coluna “tipo_match” indica se a ocorrência foi identificada:

- no campo;
- no valor;
- ou simultaneamente em ambos.

A coluna “campo_limpo” contém versões normalizadas dos nomes dos campos de metadados.

---

### consolidacao_dos_resultados.ods

Planilha contendo consolidações e análises derivadas dos resultados obtidos.

#### Aba “coleta-automXmanual”

Contém dados sobre a coleta automatizada e verificações manuais realizadas nos repositórios onde a coleta automática não obteve sucesso.

#### Aba “resultado-coleta-automatica”

Apresenta:

- repositório;
- quantidade de ocorrências;
- local dos termos encontrados;
- metadados relacionados.

#### Aba “termoODS-no-campo-do-metadado”

Apresenta repositórios com metadados estruturados relacionados aos ODS.

#### Aba “termoODS-no-valor-do-metadado”

Apresenta frequências de termos relacionados aos ODS encontrados nos valores dos metadados.

#### Aba “termoODS-no-valor-do-metadado-NORMALIZ”

Apresenta categorias normalizadas e agrupamentos dos campos identificados.

#### Aba “ocorrencias-termoODS”

Apresenta a frequência dos termos relacionados aos ODS encontrados na amostra.

#### Aba “ocorrencias-termoODS-NORMALIZ”

Apresenta consolidação dos termos relacionados aos ODS normalizados por Objetivo de Desenvolvimento Sustentável.

## Metodologia

Os registros foram coletados via interface OAI-PMH utilizando o formato XOAI disponibilizado pelos Repositórios Institucionais da RBRD identificados com utilização do software DSpace.

As análises consideraram exclusivamente registros de Teses e Dissertações publicados em 2025, identificados a partir dos valores encontrados no metadado dc.type.

A identificação de referências aos Objetivos de Desenvolvimento Sustentável foi realizada por meio de busca textual automatizada em nomes de campos e valores de metadados.

## Data da coleta

Maio de 2026.

## Licença

Sugere-se atribuição da licença Creative Commons Attribution 4.0 International (CC BY 4.0).

## Observações

Os dados representam um recorte temporal referente ao período de coleta e podem sofrer alterações posteriores em decorrência de mudanças institucionais, tecnológicas ou de configuração dos repositórios analisados.

O conjunto disponibilizado corresponde à totalidade dos registros efetivamente coletados durante o processo de pesquisa por meio das rotinas automatizadas e verificações complementares realizadas.

Embora a amostra obtida apresente ampla cobertura e elevada representatividade dos Repositórios Institucionais analisados, os resultados podem não refletir integralmente o universo de registros disponíveis nos repositórios da RBRD, em razão de limitações técnicas associadas à disponibilidade dos endpoints OAI-PMH, políticas de acesso, bloqueios automatizados, instabilidades de infraestrutura e diferenças de configuração entre os repositórios.