Normadata vs. scrapers da Receita Federal: contratos estáveis vs. dependência do HTML
Os scrapers da Receita Federal trazem dados oficiais — quando o site responde. O Normadata valida estrutura sem depender do HTML.
Os scrapers da Receita Federal — próprios ou de terceiros como ReceitaWS e similares — consultam os sistemas oficiais do Brasil e devolvem dados do contribuinte: nome, razão social, situação cadastral, atividade econômica. Quando funcionam são a fonte mais próxima da verdade. O problema: a Receita muda o site, adiciona CAPTCHAs, suspende o WS, mete manutenções. O Normadata não consulta a Receita: valida estrutura do CPF/CNPJ com Mod-11 duplo. Cobre uma camada distinta — a pergunta certa é qual cobre sua necessidade real.
Comparação rápida
| Aspecto | Receita Federal scraper | Normadata |
|---|---|---|
| Etapa do pipeline | Lookup de cadastro oficial | Validação de estrutura do identificador |
| O que faz principalmente | Devolve nome, razão social, situação cadastral, atividade econômica | Confirma que CPF/CNPJ passa Mod-11 duplo e formato correto |
| Modelo de pricing | Variável: grátis se DIY, freemium ou pago se usar vendor (ReceitaWS, etc.) | Acesso antecipado — sem pricing público |
| SDKs | Depende do vendor; DIY = você | REST + JSON, sem SDK |
| Estilo da API | Scraping HTML / WS não oficial / proxy de comprovante | REST + JSON, contrato estável |
| Cobertura LATAM | Só Brasil (Receita Federal) | Cobertura multi-país LATAM |
| Estabilidade | Frágil: depende do HTML/WS da Receita, manutenções, rate limits | Estável: o contrato não depende de um site externo |
| Persistência de dados | Variável; alguns vendors fazem cache de razões sociais | Não persiste PII |
| Dados do contribuinte real | Sim — vem da Receita | Não — só confirma estrutura do número |
| Buyer típico | Times BR que precisam de dados do contribuinte real | Times que precisam validar formato sem depender da Receita |
Quando usar cada um?
- Você precisa da razão social real do CNPJ, não só a confirmação de que o número está bem formado.
- Você precisa verificar situação cadastral (ATIVA, BAIXADA, INAPTA, SUSPENSA).
- Você precisa da atividade econômica registrada (CNAE) e sócios.
- Você aceita a fragilidade do scraping e vai lidar com retries, fallbacks e outages quando a Receita muda o sistema.
- Você só precisa confirmar que o CPF ou CNPJ é estruturalmente válido (Mod-11 duplo, tamanho, dígitos verificadores).
- Você não quer depender da disponibilidade do site da Receita no seu hot path.
- Você precisa validar tax IDs de vários países LATAM num único endpoint, não só Brasil.
- Você quer um contrato JSON estável que não quebra quando a Receita redesenha o sistema ou introduz CAPTCHAs.
O problema de scrapear a Receita Federal
A Receita não tem API pública estável e livre de fricção para consulta massiva de CPF/CNPJ. Os scrapers leem HTML do sistema, mantêm sessões, contornam CAPTCHAs e rate limits. Quando a Receita muda o frontend ou suspende o web service, todos os scrapers quebram ao mesmo tempo. Vendors como ReceitaWS absorvem parte desse custo, mas a fragilidade do fundamento não desaparece — só se transfere para o vendor. O Normadata não tem esse problema porque não toca a Receita: o algoritmo Mod-11 duplo é matemática pura.
Quando o scraper ganha sem discussão
Se seu requisito é regulatório, financeiro ou KYC — você precisa confirmar que um CNPJ existe na Receita, conhecer a situação cadastral, validar a razão social, listar os sócios — o Normadata não basta. O Mod-11 duplo diz se o número está bem formado, não se pertence a uma empresa real nem a qual. Para essa pergunta você precisa da fonte oficial. Você aceita a fragilidade porque não há alternativa.
O padrão saudável: pré-validar com Normadata, depois scrapear
Toda chamada ao scraper da Receita que recebe um CPF/CNPJ mal formado é tempo perdido e risco extra de bater rate limit. O Normadata filtra esses inputs no frontend em < 50 ms — o scraper da Receita só é invocado quando o dado passou o Mod-11 duplo. Resultado: menos chamadas à Receita, menos pressão sobre sua cota, melhor UX.
O Normadata não consulta a Receita Federal. Não devolve nome, razão social, situação cadastral, atividade econômica nem sócios. Se você precisa desses dados, precisa de um Receita scraper ou de um vendor como ReceitaWS. O Normadata cobre a camada estrutural — confirmar que o número está bem formado antes de gastar a consulta cara.
Perguntas frequentes
O Normadata pode substituir um scraper da Receita?
Não para o caso onde você precisa de dados do contribuinte real (razão social, situação cadastral). Sim para o caso onde você só precisa confirmar que o CPF ou CNPJ está estruturalmente bem formado.
Quando faz sentido usar ambos?
Quando você quer filtrar formato malformado antes de gastar o scraper. O Normadata pré-valida no frontend; o scraper só roda quando CPF/CNPJ passa Mod-11 duplo. Reduz chamadas à Receita e pressão de cota.
Qual é mais barato?
Depende. Um scraper DIY é grátis em pricing mas caro em manutenção; um vendor como ReceitaWS cobra por consulta. O Normadata ainda não tem pricing público. A pergunta certa é o custo total quando a Receita muda o HTML ou suspende o WS.
Onde o scraper da Receita ganha do Normadata?
Em tudo que requer fonte oficial: razão social, situação cadastral, atividade econômica, sócios. O Normadata não compete aí.