Metodologia · síntese
Cada número tem uma origem.
Como dados públicos da Câmara dos Deputados viram presença, gasto, emenda, voto e discurso — com método explícito, fonte aberta e tudo auditável.
Um princípio antes de qualquer número
Cada número que aparece neste site — uma taxa de presença, um valor redondo num gasto, um score de anomalia, um tema de discurso — vem de uma regra explícita aplicada sobre dado público. Nenhum é opinião. Você pode auditar qualquer um: a fonte é a API de Dados Abertos da Câmara e o Portal da Transparência, e a regra que transforma o dado bruto no número exibido está descrita nestas páginas.
Prioridade de auditoria, não acusação
Quando o site destaca um gasto atípico, uma concentração suspeita ou um score alto de anomalia, ele está dizendo onde olhar primeiro — não quem é culpado. Anomalia não é irregularidade; é desvio de padrão que merece um olhar humano. Damos o dado, a evidência (o link para a nota fiscal ou o documento oficial) e a ressalva honesta. A conclusão é sua.
Isso vale para a metodologia toda. O detector de anomalia ordena uma fila de auditoria; ele não emite veredito. A cadeira vazia registra um fato — a ausência —; a interpretação de cada ausência fica com quem lê.
De uma pergunta a um ecossistema
O Cadeira Vazia não nasceu pronto. Começou com uma pergunta simples — quem não está no plenário? — e cresceu cruzando essa ausência com tudo o que um mandato deixa de rastro público.
- 01 Presença
O ponto de partida: cruzar a presença oficial de cada deputado com o que o Regimento exige. O ranking das cadeiras vazias.
- 02 Gastos
Quem falta, mas gasta. A cota parlamentar (CEAP) documento a documento, e um detector que prioriza os padrões de fachada para auditoria.
- 03 Emendas e transferências
Para onde vai o dinheiro carimbado por cada deputado — e quanto dele de fato sai do papel.
- 04 Votações
Estar na cadeira não é votar. Quem comparece e cala, quem rompe com o próprio partido, quem segue a bancada sem desviar.
- 05 Discursos
O microfone, auditável: os discursos do plenário, buscáveis por sentido e classificados por tema — com uma IA que lê e cita as fontes.
Cada eixo abre o próximo. Quando os dados conversam entre si, aparecem padrões que nenhuma dimensão isolada mostra — são os quase 20 painéis interativos.
A fundação: como o dado chega até aqui
O que dá credibilidade a um número não é a afirmação — é o caminho reconstruível do dado bruto até a tela. Por baixo de tudo, há um data lakehouse em camadas, atualizado automaticamente todos os dias.
As fontes — todas oficiais e públicas
- API de Dados Abertos da Câmara presença, votações nominais, proposições, deputados, despesas da cota (CEAP), discursos
- Portal da Transparência (CGU) emendas parlamentares individuais — autor, localidade, valores
- Transferegov execução das emendas Pix (transferência especial), da alocação ao pagamento
- CEDI — Centro de Documentação e Informação da Câmara taxonomia oficial de temas das proposições
As camadas — padrão Medallion
O dado bruto não é consumido direto. Ele atravessa quatro camadas, cada uma com uma responsabilidade:
- raw
o dado como a fonte entrega, sem transformação
ex. bulk de presenças da API, JSON cru
- bronze
consolidado, tipado, limpo — as flags factuais nascem aqui
ex. eh_redondo (gasto múltiplo de R$ 100), eh_estorno
- silver
regra de negócio aplicada, enriquecido com dimensões
ex. presença cruzada com partido/UF na data da sessão
- gold
pronto para consumo — é o que os painéis e rankings leem
ex. taxa de presença por deputado, score de anomalia
Fato e julgamento, separados por construção
As flags factuais (é redondo? é estorno?) nascem neutras no bronze, antes de qualquer análise — não foram inventadas para sustentar uma conclusão. E os scores de modelo vivem numa camada à parte, nunca poluindo o dado descritivo do gold.
A atualização — diária, automática, versionada
Todo dia de manhã, um processo automatizado lê as fontes, reconstrói as camadas, recalcula cada agregação e cada painel, e publica. Não há intervenção manual editando números: o pipeline é código versionado, e qualquer número exibido hoje pode ser rastreado à transformação que o gerou. Quando nada muda na fonte, nada muda no site.
O que cada aba detalha
Esta página é a síntese. Cada eixo tem sua própria página, com o método no detalhe — a regra, o filtro, o caso de borda, a limitação assumida.
- Presença
A base regimental (RICD), o denominador 513, a regra dos 2/3, por que não filtramos justificativas, o piso amostral.
- Votações
Os seis estados de um voto, infidelidade partidária, polarização, alinhamento com o resultado, tagging temático CEDI + IA.
- Bordas & calendário
O efeito quinta-feira, pontes e feriados, como a presença escorrega nas bordas da semana.
- Gastos & CEAP
A cota parlamentar, por que valores redondos são sinal, e o detector de anomalia com validação adversarial.
- Emendas & transferências
Para onde vai a emenda, o funil de execução das emendas Pix, e por que a fraude de emenda é relacional (não estatística).
- Discursos & IA
O corpus de discursos substantivos, a busca semântica, a classificação temática e o assistente de IA.
- Engenharia & stack
Como tudo é construído — lakehouse Medallion, detecção de ML, pipelines automatizados, versionamento e o site estático.
- Operação & agentes
Como o projeto é operado — um sistema multi-agente sobre o Claude Code, com Kanban, hooks de qualidade e revisão obrigatória.