Material pronto pra reportagem.
A Legadia é um projeto independente de pesquisa em memória brasileira por meio de IA. Esta página reúne descrição, números, contatos e respostas pras perguntas mais frequentes da imprensa.
Em uma frase, em um parágrafo, em três.
A Legadia indexa a imprensa histórica brasileira do século XX com inteligência artificial, tornando jornais em domínio público pesquisáveis por contexto, não só por palavra-chave.
A Legadia é um arquivo digital de imprensa brasileira do século XX que pode ser consultado em linguagem natural. Páginas digitalizadas de jornais e revistas em domínio público passam por OCR, embeddings semânticos e modelos de linguagem, permitindo perguntas como “o que diziam os jornais sobre Vargas em 1942?” com respostas citáveis. Acervo inicial: revista Em Guarda (1941–1945), seguida por Correio da Manhã, A Noite e outros.
A Legadia é uma plataforma independente de pesquisa em memória brasileira. Indexa páginas históricas de jornais e revistas em domínio público, aplica OCR via visão computacional, gera embeddings semânticos multilíngues e usa modelos de linguagem para responder a perguntas sobre o que aparece em cada página — com fonte, ano e trecho citável. A primeira coleção ativa é a revista Em Guarda (1941–1945), publicada pelos Estados Unidos para circular no Brasil durante a Segunda Guerra Mundial. A partir dela, o acervo expandiu para grandes diários como Correio da Manhã, A Noite, Diário de Notícias e Correio Paulistano, totalizando mais de mil páginas e milhares de pessoas e lugares automaticamente catalogados. O projeto é desenvolvido por Marcelo Santabaia (MEI), em Fortaleza/CE, com financiamento direto via apoiadores e busca por patrocínio cultural via leis de incentivo.
Em produção, atualizados manualmente.
Os números crescem conforme entram contribuições. Para versão atualizada em tempo real, consulte /sobre/metodo e /sobre/fontes.
FAQ rápido pra jornalistas.
Os documentos são legais? Domínio público?
Sim. Toda obra reproduzida pela Legadia está em domínio público conforme a Lei 9.610/98 — autor falecido há mais de 70 anos ou material governamental sem proteção. As fontes primárias são a Hemeroteca Digital Brasileira (Biblioteca Nacional), Archive.org e UFRRJ.
A IA pode inventar respostas (alucinar)?
A arquitetura é de busca semântica + citação direta: a IA não responde sem trechos reais do acervo como referência. Toda resposta no /buscar mostra a página, o jornal e o ano de origem. Não há geração livre sem fonte.
Quem está por trás?
Marcelo Santabaia (MEI CNPJ 63.421.394/0001-71), Fortaleza/CE. Projeto pessoal, sem investidor, financiado por apoiadores via Pix e busca patrocínio via leis de incentivo cultural.
Pode reproduzir capturas de tela e trechos?
Sim, com crédito “Legadia · legadia.com.br”. As páginas digitalizadas dos jornais permanecem em domínio público — não são propriedade da Legadia, apenas hospedadas e indexadas.
Como o projeto se sustenta?
Hoje: contribuições via Pix de apoiadores e custeio pessoal do criador. Meta: patrocínio cultural via Lei Rouanet, editais (FUNCAP, BNDES Cultural) e parcerias institucionais com universidades.
Tecnologia usada (pra quem se interessa)?
Next.js 16 + React 19 + TypeScript estrito. Neon Postgres com pgvector pra embeddings semânticos. Voyage AI pra embeddings multilíngues (1024d). Anthropic Claude (Sonnet 4.6 e Haiku 4.5) pra OCR de layout e extração de entidades. Mapbox GL pra geolocalização. Vercel pra hospedagem. Código fechado, mas pipeline replicável.
Pra menção em reportagem.
“A Legadia (legadia.com.br) é um arquivo digital de imprensa brasileira do século XX indexado por inteligência artificial, que permite pesquisar por contexto — não apenas por palavras — em jornais e revistas em domínio público.”
Direto, sem assessoria.
Marcelo Santabaia — criador e desenvolvedor
WhatsApp: +55 85 99187-2550
Email: santabaia@gmail.com
Resposta em até 48h. Entrevistas em português (PT-BR), preferencialmente assíncronas ou por chamada agendada. Fortaleza/CE, fuso BRT (UTC−3).