Normadata · Data Quality API

Normadata vs. scrapers da Receita Federal: contratos estáveis vs. dependência do HTML

Os scrapers da Receita Federal trazem dados oficiais — quando o site responde. O Normadata valida estrutura sem depender do HTML.

TL;DR

Os scrapers da Receita Federal — próprios ou de terceiros como ReceitaWS e similares — consultam os sistemas oficiais do Brasil e devolvem dados do contribuinte: nome, razão social, situação cadastral, atividade econômica. Quando funcionam são a fonte mais próxima da verdade. O problema: a Receita muda o site, adiciona CAPTCHAs, suspende o WS, mete manutenções. O Normadata não consulta a Receita: valida estrutura do CPF/CNPJ com Mod-11 duplo. Cobre uma camada distinta — a pergunta certa é qual cobre sua necessidade real.

Comparação rápida

AspectoReceita Federal scraperNormadata
Etapa do pipelineLookup de cadastro oficialValidação de estrutura do identificador
O que faz principalmenteDevolve nome, razão social, situação cadastral, atividade econômicaConfirma que CPF/CNPJ passa Mod-11 duplo e formato correto
Modelo de pricingVariável: grátis se DIY, freemium ou pago se usar vendor (ReceitaWS, etc.)Acesso antecipado — sem pricing público
SDKsDepende do vendor; DIY = vocêREST + JSON, sem SDK
Estilo da APIScraping HTML / WS não oficial / proxy de comprovanteREST + JSON, contrato estável
Cobertura LATAMSó Brasil (Receita Federal)Cobertura multi-país LATAM
EstabilidadeFrágil: depende do HTML/WS da Receita, manutenções, rate limitsEstável: o contrato não depende de um site externo
Persistência de dadosVariável; alguns vendors fazem cache de razões sociaisNão persiste PII
Dados do contribuinte realSim — vem da ReceitaNão — só confirma estrutura do número
Buyer típicoTimes BR que precisam de dados do contribuinte realTimes que precisam validar formato sem depender da Receita

Quando usar cada um?

Quando você precisa de um scraper da Receita Federal
  • Você precisa da razão social real do CNPJ, não só a confirmação de que o número está bem formado.
  • Você precisa verificar situação cadastral (ATIVA, BAIXADA, INAPTA, SUSPENSA).
  • Você precisa da atividade econômica registrada (CNAE) e sócios.
  • Você aceita a fragilidade do scraping e vai lidar com retries, fallbacks e outages quando a Receita muda o sistema.
Quando o Normadata é suficiente
  • Você só precisa confirmar que o CPF ou CNPJ é estruturalmente válido (Mod-11 duplo, tamanho, dígitos verificadores).
  • Você não quer depender da disponibilidade do site da Receita no seu hot path.
  • Você precisa validar tax IDs de vários países LATAM num único endpoint, não só Brasil.
  • Você quer um contrato JSON estável que não quebra quando a Receita redesenha o sistema ou introduz CAPTCHAs.

O problema de scrapear a Receita Federal

A Receita não tem API pública estável e livre de fricção para consulta massiva de CPF/CNPJ. Os scrapers leem HTML do sistema, mantêm sessões, contornam CAPTCHAs e rate limits. Quando a Receita muda o frontend ou suspende o web service, todos os scrapers quebram ao mesmo tempo. Vendors como ReceitaWS absorvem parte desse custo, mas a fragilidade do fundamento não desaparece — só se transfere para o vendor. O Normadata não tem esse problema porque não toca a Receita: o algoritmo Mod-11 duplo é matemática pura.

Quando o scraper ganha sem discussão

Se seu requisito é regulatório, financeiro ou KYC — você precisa confirmar que um CNPJ existe na Receita, conhecer a situação cadastral, validar a razão social, listar os sócios — o Normadata não basta. O Mod-11 duplo diz se o número está bem formado, não se pertence a uma empresa real nem a qual. Para essa pergunta você precisa da fonte oficial. Você aceita a fragilidade porque não há alternativa.

O padrão saudável: pré-validar com Normadata, depois scrapear

Toda chamada ao scraper da Receita que recebe um CPF/CNPJ mal formado é tempo perdido e risco extra de bater rate limit. O Normadata filtra esses inputs no frontend em < 50 ms — o scraper da Receita só é invocado quando o dado passou o Mod-11 duplo. Resultado: menos chamadas à Receita, menos pressão sobre sua cota, melhor UX.

Limitações

O Normadata não consulta a Receita Federal. Não devolve nome, razão social, situação cadastral, atividade econômica nem sócios. Se você precisa desses dados, precisa de um Receita scraper ou de um vendor como ReceitaWS. O Normadata cobre a camada estrutural — confirmar que o número está bem formado antes de gastar a consulta cara.

Perguntas frequentes

O Normadata pode substituir um scraper da Receita?

Não para o caso onde você precisa de dados do contribuinte real (razão social, situação cadastral). Sim para o caso onde você só precisa confirmar que o CPF ou CNPJ está estruturalmente bem formado.

Quando faz sentido usar ambos?

Quando você quer filtrar formato malformado antes de gastar o scraper. O Normadata pré-valida no frontend; o scraper só roda quando CPF/CNPJ passa Mod-11 duplo. Reduz chamadas à Receita e pressão de cota.

Qual é mais barato?

Depende. Um scraper DIY é grátis em pricing mas caro em manutenção; um vendor como ReceitaWS cobra por consulta. O Normadata ainda não tem pricing público. A pergunta certa é o custo total quando a Receita muda o HTML ou suspende o WS.

Onde o scraper da Receita ganha do Normadata?

Em tudo que requer fonte oficial: razão social, situação cadastral, atividade econômica, sócios. O Normadata não compete aí.