Metodologia · síntese

Cada número tem uma origem.

Como dados públicos da Câmara dos Deputados viram presença, gasto, emenda, voto e discurso — com método explícito, fonte aberta e tudo auditável.

Um princípio antes de qualquer número

Cada número que aparece neste site — uma taxa de presença, um valor redondo num gasto, um score de anomalia, um tema de discurso — vem de uma regra explícita aplicada sobre dado público. Nenhum é opinião. Você pode auditar qualquer um: a fonte é a API de Dados Abertos da Câmara e o Portal da Transparência, e a regra que transforma o dado bruto no número exibido está descrita nestas páginas.

Prioridade de auditoria, não acusação

Quando o site destaca um gasto atípico, uma concentração suspeita ou um score alto de anomalia, ele está dizendo onde olhar primeiro — não quem é culpado. Anomalia não é irregularidade; é desvio de padrão que merece um olhar humano. Damos o dado, a evidência (o link para a nota fiscal ou o documento oficial) e a ressalva honesta. A conclusão é sua.

Isso vale para a metodologia toda. O detector de anomalia ordena uma fila de auditoria; ele não emite veredito. A cadeira vazia registra um fato — a ausência —; a interpretação de cada ausência fica com quem lê.

De uma pergunta a um ecossistema

O Cadeira Vazia não nasceu pronto. Começou com uma pergunta simples — quem não está no plenário? — e cresceu cruzando essa ausência com tudo o que um mandato deixa de rastro público.

  1. 01
    Presença

    O ponto de partida: cruzar a presença oficial de cada deputado com o que o Regimento exige. O ranking das cadeiras vazias.

  2. 02
    Gastos

    Quem falta, mas gasta. A cota parlamentar (CEAP) documento a documento, e um detector que prioriza os padrões de fachada para auditoria.

  3. 03
    Emendas e transferências

    Para onde vai o dinheiro carimbado por cada deputado — e quanto dele de fato sai do papel.

  4. 04
    Votações

    Estar na cadeira não é votar. Quem comparece e cala, quem rompe com o próprio partido, quem segue a bancada sem desviar.

  5. 05
    Discursos

    O microfone, auditável: os discursos do plenário, buscáveis por sentido e classificados por tema — com uma IA que lê e cita as fontes.

A fundação: como o dado chega até aqui

O que dá credibilidade a um número não é a afirmação — é o caminho reconstruível do dado bruto até a tela. Por baixo de tudo, há um data lakehouse em camadas, atualizado automaticamente todos os dias.

As fontes — todas oficiais e públicas

As camadas — padrão Medallion

O dado bruto não é consumido direto. Ele atravessa quatro camadas, cada uma com uma responsabilidade:

  1. raw

    o dado como a fonte entrega, sem transformação

    ex. bulk de presenças da API, JSON cru

  2. bronze

    consolidado, tipado, limpo — as flags factuais nascem aqui

    ex. eh_redondo (gasto múltiplo de R$ 100), eh_estorno

  3. silver

    regra de negócio aplicada, enriquecido com dimensões

    ex. presença cruzada com partido/UF na data da sessão

  4. gold

    pronto para consumo — é o que os painéis e rankings leem

    ex. taxa de presença por deputado, score de anomalia

Fato e julgamento, separados por construção

As flags factuais (é redondo? é estorno?) nascem neutras no bronze, antes de qualquer análise — não foram inventadas para sustentar uma conclusão. E os scores de modelo vivem numa camada à parte, nunca poluindo o dado descritivo do gold.

A atualização — diária, automática, versionada

Todo dia de manhã, um processo automatizado lê as fontes, reconstrói as camadas, recalcula cada agregação e cada painel, e publica. Não há intervenção manual editando números: o pipeline é código versionado, e qualquer número exibido hoje pode ser rastreado à transformação que o gerou. Quando nada muda na fonte, nada muda no site.

O que cada aba detalha

Esta página é a síntese. Cada eixo tem sua própria página, com o método no detalhe — a regra, o filtro, o caso de borda, a limitação assumida.