Projeto R com pipeline targets e ETL robusto para o IP-CP. Inclui:
- C1 com contagem fracionada por coautoria (OpenAlex).
- C2 com SciELO + DOAJ e Scopus opcional (não quebra se faltar a chave).
- C3 com percentil de citação por campo/ano (normalização interna).
- D2 padrão = estoque RAIS; alternativa CAGED (admissões) via
config.yml. - D3 = mediana deflacionada pelo IPCA (deflator via cache/API).
- A5/A6 (ABCP): série com detrend + meio peso; A6 pode ser mineração automática (scrape) ou cache CSV.
- Z-score robusto opcional (mediana/MAD); winsorização opcional.
- Escala ancorada opcional (baseline fixo para média/sd).
- QA com relatório
data/out/qa_report.mde hard checks.
- Instale R 4.2+ e o pacote
targets. - Ajuste
config.yml(anos, opções de robustez, baseline, etc.). - (Opcional): coloque caches em
data/cache/(vide lista abaixo). - No R, rode:
source("bootstrap.R")Saídas principais: data/out/indicators_raw.parquet, data/out/ipcp_scores_eq.parquet, data/out/ipcp_scores_sens.parquet e data/out/qa_report.md.
openalex_sample.parquet— snapshot/extração local.scielo_issn.csv,doaj_issn.csv(colunaissn).scopus_issn.csv(opcional; requer licença Scopus).capes_sample.parquet,dgp_sample.parquet.rais_sample.parquet,caged_sample.parquet.ipca.csv(colunas:ano,ipcaoudeflatornormalizado com base=1.0).abcp_congress_years.csv(colunaanocom os anos de congresso realizados).
Se não houver caches, o pipeline continua com stubs seguros (NA ou séries derivadas) e gera avisos, não erros.