Datasets
Datasets canônicos (quatro)
Os quatro datasets abaixo são os artefatos canônicos do catálogo. Cada um preserva a semântica e a proveniência da fonte original. Não devem ser colapsados silenciosamente.
spi_participants
Dataset derivado da publicação oficial pública do SPI. Contém ISPB, CNPJ, nome da instituição, nome reduzido, tipo de participação no SPI e modalidade Pix publicada na origem SPI.
Campos específicos: spi_participation_type, pix_participation_mode, spi_started_at, raw_tipo_participante_spi_code.
pix_active_participants
Dataset derivado da publicação oficial de participantes ativos do Pix. Preserva tipo de instituição, autorização pelo BCB, tipo de participação no SPI e no Pix, modalidade de participação, e as marcações initiation_of_payment e facilitator_of_withdrawal_and_change.
Uma instituição neste dataset está ativa no Pix. Não confundir com adesão.
pix_in_adhesion
Dataset derivado da publicação oficial de instituições em processo de adesão ao Pix. Existe de forma separada para impedir que a camada derivada trate adesão como participação ativa.
Campo específico: adhesion_status.
catalog_crosswalk
Camada derivada conservadora de ligação entre os três datasets de origem. Cada linha aponta para um registro de origem e informa o método de matching:
match_method |
Significado |
|---|---|
exact_ispb |
Unificação por ISPB exato — match seguro |
unique_cnpj |
Unificação por CNPJ único entre registros sem ISPB, sem conflito |
no_auto_match |
Sem unificação automática — CNPJ ambíguo ou ausente |
O crosswalk é útil para navegação e auditoria, mas não deve ser usado para colapsar as três fontes em uma lista comercial única.
INSTITUTIONS — índice derivado oficial para lookup por ISPB
INSTITUTIONS (export do pacote npm) é o índice agregado oficial para lookup por ISPB, derivado dos três datasets canônicos de origem. Não é um dataset canônico.
Se um ISPB aparece explicitamente em spi_participants, pix_active_participants ou pix_in_adhesion, ele deve aparecer em INSTITUTIONS.
Cada entrada em INSTITUTIONS preserva os marcadores explícitos de origem:
| Campo | Tipo | Significado |
|---|---|---|
inSpi |
boolean |
A instituição está em spi_participants |
inPixActive |
boolean |
A instituição está em pix_active_participants |
inPixAdhesion |
boolean |
A instituição está em pix_in_adhesion |
matchConfidence |
MatchConfidence |
Confiança do matching no crosswalk |
sourceDatasets |
SourceDatasetName[] |
Datasets de origem que contribuíram |
canonicalSource |
string |
URL da pasta current/ do catálogo |
Esses marcadores nunca devem ser ocultados. Se inPixActive é false e inPixAdhesion é true, a instituição está em processo de adesão — não é participante ativo.
Artefatos disponíveis
Os datasets canônicos estão disponíveis em dois formatos em current/:
| Dataset | CSV | JSON |
|---|---|---|
spi_participants |
current/spi_participants.csv |
current/spi_participants.json |
pix_active_participants |
current/pix_active_participants.csv |
current/pix_active_participants.json |
pix_in_adhesion |
current/pix_in_adhesion.csv |
current/pix_in_adhesion.json |
catalog_crosswalk |
current/catalog_crosswalk.csv |
current/catalog_crosswalk.json |
Cada dataset tem um JSON Schema correspondente em schemas/.