Normadata · Data Quality API

Normadata vs. Receita Federal scrapers: contratos estables vs. dependencia del HTML

Los scrapers de Receita Federal traen datos oficiales — cuando el sitio responde. Normadata valida estructura sin depender del HTML.

TL;DR

Los scrapers de Receita Federal — propios o de terceros como ReceitaWS y similares — consultan los sistemas oficiales de Brasil y devuelven datos del contribuyente: nombre, razón social, situación cadastral, atividade econômica. Cuando funcionan son la fuente más cercana a la verdad. El problema: Receita cambia el sitio, agrega CAPTCHAs, suspende el WS, mete mantenimientos. Normadata no consulta Receita: valida estructura del CPF/CNPJ con doble Mod-11. Cubre una capa distinta — la pregunta correcta es cuál cubre tu necesidad real.

Comparación rápida

AspectoReceita Federal scraperNormadata
Etapa del pipelineLookup de registro oficialValidación de estructura del identificador
Qué hace principalmenteDevuelve nombre, razão social, situação cadastral, atividade económicaConfirma que CPF/CNPJ pasa doble Mod-11 y formato correcto
Modelo de pricingVariable: gratis si lo hacés vos, freemium o pago si usás vendor (ReceitaWS, etc.)Acceso anticipado — sin pricing público
SDKsVariable según vendor; DIY = vosREST + JSON, sin SDK
Estilo de APIScraping HTML / WS no oficial / proxy de comprovanteREST + JSON, contrato estable
Cobertura LATAMSolo Brasil (Receita Federal)Cobertura multi-país LATAM
EstabilidadFrágil: depende del HTML/WS de Receita, mantenimientos, rate limitsEstable: el contrato no depende de un sitio externo
Persistencia de datosVariable; algunos vendors cachean razões sociaisNo persiste PII
Datos del contribuyente realSí — viene de ReceitaNo — solo confirma estructura del número
Buyer típicoEquipos BR que necesitan dados do contribuinte realEquipos que necesitan validar formato sin depender de Receita

¿Cuándo usar cada uno?

Cuándo necesitás un Receita Federal scraper
  • Necesitás la razão social real del CNPJ, no solo confirmar que el número está bien formado.
  • Tenés que verificar situação cadastral (ATIVA, BAIXADA, INAPTA, SUSPENSA).
  • Necesitás la atividade econômica registrada (CNAE) y socios.
  • Aceptás la fragilidad del scraping y vas a manejar reintentos, fallbacks y outages cuando Receita cambia el sistema.
Cuándo Normadata es suficiente
  • Solo necesitás confirmar que el CPF o CNPJ es estructuralmente válido (doble Mod-11, longitud, dígitos verificadores).
  • No querés depender de la disponibilidad del sitio de Receita en tu hot path.
  • Necesitás validar tax IDs de varios países LATAM en un solo endpoint, no solo Brasil.
  • Querés un contrato JSON estable que no se rompa cuando Receita rediseña el sistema o introduce CAPTCHAs.

El problema con scrapear Receita Federal

Receita no tiene API pública estable libre de fricción para consulta masiva de CPF/CNPJ. Los scrapers leen HTML del sistema, mantienen sesiones, sortean CAPTCHAs y rate limits. Cuando Receita cambia el frontend o suspende el web service, todos los scrapers se rompen al mismo tiempo. Vendors como ReceitaWS absorben parte de ese costo, pero la fragilidad del fundamento no desaparece — solo se traslada al vendor. Normadata no tiene este problema porque no toca Receita: el algoritmo de doble Mod-11 es matemática pura.

Cuándo el scraper gana sin discusión

Si tu requerimiento es regulatorio, financiero o KYC — tenés que confirmar que un CNPJ existe en Receita, conocer la situação cadastral, validar la razão social, listar los sócios — Normadata no alcanza. El doble Mod-11 dice si el número está bien armado, no si pertenece a una empresa real ni a cuál. Para esa pregunta necesitás la fuente oficial. Aceptás la fragilidad porque no hay alternativa.

El patrón sano: pre-validar con Normadata, después scrapear

Cualquier llamada al scraper de Receita que recibe un CPF/CNPJ mal armado es tiempo perdido y un riesgo extra de hit a rate limit. Normadata filtra esos inputs en el frontend en < 50 ms — el scraper de Receita solo se invoca cuando el dato pasó el doble Mod-11. Resultado: menos llamadas a Receita, menos pressure sobre tu cuota, mejor UX.

Limitaciones

Normadata no consulta Receita Federal. No devuelve nombre, razão social, situação cadastral, atividade econômica ni sócios. Si necesitás esos datos, necesitás un Receita scraper o un vendor como ReceitaWS. Normadata cubre la capa estructural — confirmar que el número está bien armado antes de gastar la consulta cara.

Preguntas frecuentes

¿Normadata puede reemplazar un Receita scraper?

No para el caso donde necesitás dados do contribuinte real (razão social, situação cadastral). Sí para el caso donde solo necesitás confirmar que el CPF o CNPJ está estructuralmente bien armado.

¿Cuándo conviene usar ambos?

Cuando querés filtrar formato malformado antes de gastar el scraper. Normadata pre-valida en el frontend; el scraper solo corre cuando CPF/CNPJ pasa doble Mod-11. Reduce llamadas a Receita y presión de cuota.

¿Cuál es más barato?

Depende. Un scraper DIY es gratis en pricing pero caro en mantenimiento; un vendor como ReceitaWS cobra por consulta. Normadata todavía no tiene pricing público. La pregunta correcta es el costo total cuando Receita cambia el HTML o suspende el WS.

¿Dónde el Receita scraper gana sobre Normadata?

En todo lo que requiere fuente oficial: razão social, situação cadastral, atividade econômica, sócios. Normadata no compite ahí.