¿Cómo la analítica de datos puede mejorar el sistema tributario en América Latina?
En los últimos años, las administraciones tributarias (AT) de América Latina y el Caribe (ALC) han realizado avances muy encomiables hacia la transformación digital de la función tributaria, especialmente visibles en la extensión del uso de la factura electrónica (FE) en varios países de la región. Sin embargo, la adopción de técnicas de análisis avanzado de los datos generados por estos procesos de digitalización, comunes en organizaciones privadas y administraciones tributarias de países desarrollados, parece no haber progresado en la misma medida.
Los niveles de evasión tributaria en los países latinoamericanos y caribeños siguen siendo altos. De acuerdo con la CEPAL, ALC enfrentó pérdidas tributarias por 325.000 millones de dólares debido a la evasión tributaria en 2018. Esta cifra, que incluye la evasión del impuesto sobre la renta y del impuesto al valor agregado, equivaldría al 6.1% del PIB regional. La CEPAL también señala que en algunos países “se recauda menos de la mitad de los ingresos que sus sistemas deberían generar en teoría”.
En este contexto, existen grandes beneficios potenciales de la incorporación de la analítica de datos en ALC, debido a su capacidad de contribuir a una mejora significativa en los procesos de control tributario y de facilitar el cumplimiento voluntario.
¿Qué es la analítica de datos?
El concepto de analítica de datos o analítica de negocios (Business Analytics) ha ido ganando popularidad en años recientes, primero en el ámbito de la empresa privada, luego en la academia y finalmente en la administración pública.
El vocabulario creado en torno de la analítica de datos también se ha ido expandiendo con términos como Deep Learning, Big Data, Aprendizaje automático (Machine Learning) o Analítica Avanzada (Advanced Analytics). Entre las definiciones de analítica de datos más aceptadas y ampliamente utilizadas se encuentra la de la Escuela de Negocios de la Universidad de Harvard, que lo concibe como el proceso de recolección, transformación y organización de datos para responder preguntas, extraer conocimientos, hacer predicciones, e informar decisiones[2]. Este proceso se realiza utilizando una variedad de herramientas, técnicas y métodos con el objetivo de transformar datos en información útil para la toma de decisiones.
Frecuentemente, se distinguen tres categorías de analítica de datos, que al mismo tiempo definen tres etapas de desarrollo de capacidades de la analítica dentro de una organización:
- La analítica descriptiva es la forma más simple y común de analítica de datos. Busca responder a las preguntas de “¿Qué sucedió?” y “¿Qué está sucediendo?”. En ella se utilizan técnicas de agregación y visualizaciones de datos simples, como tablas de resumen, figuras, gráficas de barras. Un ejemplo de uso de analítica descriptiva en una AT sería la producción de reportes.
- La analítica predictiva permite a las organizaciones ir más allá y tratar de responder a la pregunta de “¿Qué pasará en el futuro?”. Utilizando modelos estadísticos y algoritmos de aprendizaje automático detecta patrones y tendencias e informa sobre lo que podría suceder en el futuro. Un ejemplo de uso de analítica predictiva en una AT sería la predicción de la probabilidad de que un contribuyente incumpla con sus obligaciones tributarias.
- La analítica prescriptiva es la versión más avanzada de la analítica, y busca responder a la pregunta de “¿Qué debería hacer la organización?”, para lo cual usa métodos y técnicas que determinan la mejor alternativa entre varias posibles. En una AT analítica prescriptiva se usaría, por ejemplo, para estimar el efecto de diferentes medidas de cumplimiento tributario y elegir la más efectiva.
La mayoría de las organizaciones empiezan con técnicas de analítica descriptiva (también denominada Business Intelligence), luego pasan a la etapa de analítica predictiva, y finalmente la llevan al nivel superior, la analítica prescriptiva. Estas últimas dos etapas forman parte de lo que se conoce como Analítica Avanzada.
Figura 1: Categorías y etapas de madurez de analítica en una organización
¿Cómo se benefician las AT de la analítica de datos?
La crisis del COVID ha acelerado la que ya era una tendencia para las AT: hacer más con menos. En tal sentido, la analítica avanzada y la inteligencia artificial abren un nuevo horizonte para que las AT desarrollen enfoques estratégicos de gestión y recolección de datos y mejoren su eficacia y eficiencia, haciendo frente al desafío de una gobernanza adecuada con recursos limitados, en particular los humanos (OCDE, 2019, p. 173).
En ALC, ciertas AT ya utilizan la analítica de datos de manera incipiente, incluyendo modelos de segmentación de contribuyentes, selección de casos para auditorías, gestión de riesgos y cobranza, y comunicación con los contribuyentes, entre otros. Sin embargo, la implementación ha sido muy desigual en la región. Por ejemplo, mientras que países pioneros como Brasil y Chile iniciaron la incorporación de distintos elementos de la analítica de datos en sus procesos de administración tributaria y aduanera hace años, muchos países, principalmente los pequeños, aún no han progresado significativamente en el uso de estas técnicas.
La expansión del uso de la FE en ALC representa una importante oportunidad, ya que la región está generando un caudal significativo de información digital que puede ser explotado mediante técnicas de analítica avanzada. Según datos del CIAT, a mayo de 2018 se contaba con más de 84.000 millones de facturas electrónicas emitidas en los países latinoamericanos. Brasil (31.000 millones) y México (28.0000 millones) lideraban a la región, generando el 70% de los documentos electrónicos emitidos.
No obstante este enorme potencial, la generación de documentos electrónicos es solamente el primer paso. La digitalización de documentos, en sí misma, no implica de manera automática una mejora en la inteligencia tributaria y los mecanismos de fiscalización. Es como estar sentado en un cofre y no tener la llave. Hacer uso efectivo de la información de la FE requiere desarrollar capacidades analíticas que aprovechen ese generoso caudal de información. No es inusual encontrar comentarios sobre el poco grado de utilización de las bases de datos alimentadas por la FE, principalmente debido a limitaciones técnicas y tecnológicas en la capacidad de análisis de las AT.
¿Qué experiencias existen en la región?
A pesar de que no existe una encuesta específica de las AT que permita dibujar la imagen fiel del grado de avance de esta tecnología en ALC, se pueden citar algunos ejemplos:
- En Brasil, la Receita Federal desarrolló, tan tempranamente como en 2006, el Proyecto HARPIA (Análisis de Riesgo e Inteligencia Artificial Aplicada) en conjunto con la Universidad Estatal de Campinas y el Instituto Tecnológico de Aeronáutica.
El objetivo del proyecto era la detección y reducción del fraude aduanero. Dos de las principales aplicaciones desarrolladas por HARPIA comprendieron, por un lado, un sistema de detección de datos atípicos (denominado Carancho) para identificar transacciones aduaneras sospechosas, y por el otro, un sistema de información de productos y exportadores extranjeros para facilitar a los importadores el registro y clasificación de bienes y contrapartes comerciales. El sistema Carancho se enfocó en la detección de subvaluación de mercancías mediante la utilización de registros históricos de operaciones de importación, combinando también la experiencia empírica de los auditores aduaneros.
Por su parte, el sistema de información de productos y exportadores extranjeros se orientó a atenuar el problema de los registros incorrectos. Para ello, el sistema se apoyó en cadenas de Markov y n-gramas para evitar duplicidades en el registro y mejorar la consistencia de la información.
- En el caso de Chile, el Servicio de Impuestos Internos (SII) introdujo técnicas de analítica de datos desde el año 2007, con el objetivo de utilizar la segmentación de contribuyentes en los procesos de fiscalización de IVA.
Para este propósito, se desarrollaron herramientas de caracterización e identificación de patrones utilizando técnicas de Self-Organizing Maps (SOM) y K-means, que luego fueron complementadas con la construcción de modelos de riesgos mediante técnicas de redes neuronales, árboles de decisión y otros, abarcando distintas etapas del ciclo de vida del contribuyente.
Una aplicación donde Chile ha sido pionero en la región es el prellenado de las declaraciones de impuestos. Desde 2001 se implementó este proceso para las declaraciones del impuesto a la renta, aprovechando la información generada por la FE. A partir de 2017, también se incorporó el prellenado en las declaraciones del IVA, siendo Chile el primer país de ALC, y, hasta donde nos consta, del mundo, en lograrlo.
- En México, después de varios años de convivencia entre facturas electrónicas y facturas físicas, en 2014 se estableció la obligatoriedad del uso de comprobantes fiscales digitales por internet (CFDI). Esto ha permitido al Servicio de Administración Tributaria (SAT) fortalecer sus procesos de inspección electrónica. En particular, se han incorporado diferentes procesos que van desde revisiones simples de cálculos hasta pruebas cruzadas. También se han utilizado grafos para detección de los contribuyentes más significativos de una red, detección de comunidades de evasión y predicción de relaciones comerciales futuras.
- Otra experiencia interesante viene del Perú, donde la Superintendencia Nacional de Aduanas y de Administración Tributaria (SUNAT), en colaboración con el BID, creó en 2017 el primer equipo de ciencia de datos en esta administración.
La misión del equipo consiste en desarrollar algoritmos para detectar la evasión y, así, focalizar los esfuerzos de fiscalización de la administración tributaria. Entre otros proyectos, creó modelos de detección de evasión en el sector de restaurantes. Usando técnicas de aprendizaje de máquina no supervisado como K-means, se detectaron cinco categorías de restaurantes que presentaban un perfil elevado de resigo de evasión, lo cual permitió a la SUNAT concentrar sus esfuerzos fiscalizadores en este grupo de restaurantes.
En otro proyecto, la oficina de científicos de la SUNAT abordó la detección de gastos no deducibles en empresas. Usando técnicas de minería de texto, se analizaron facturas emitidas para identificar gastos no relacionados con la actividad empresarial (por ejemplo, visitas al cine, restaurantes, o facturas emitidas en el fin de semana). Este ejercicio permitió identificar gastos no deducibles por el monto equivalente a US$60 millones únicamente para mayo de 2018.
¿Cómo podemos fomentar el uso de la analítica de datos en las AT?
A pesar de que el uso de herramientas digitales ha ido aumentando entre los países de ALC, la literatura sobre el uso de analítica de datos en las AT de la región muestra que su estado es aún incipiente.
Diversos reportes, como Seco y Muñoz (2018) y CIAT (2020), han trazado una visión general del proceso de digitalización de las AT de la región. Asimismo, la División de Gestión Fiscal del BID acaba de desarrollar el Índice de Madurez Digital con el propósito de contar con una metodología que permita evaluar los avances de las AT en su proceso de transformación digital. Dichas iniciativas se enfocan principalmente en aspectos de infraestructura tecnológica y proveen ejemplos interesantes de aplicaciones en ALC, pero no examinan el progreso en el uso de la analítica avanzada. En este blog abogamos que es preciso acometer una evaluación específica sobre este tema.
Figura 2 – Aplicabilidad de técnicas de big data y data analytics en el área tributaria
Desde 2018, la OCDE se encuentra trabajando en una herramienta de autoevaluación del nivel de madurez (Capability Maturity Model – CMM) en la implementación de la analítica de datos (OCDE 2019, p.9), pero a la fecha aún no se encuentra disponible. Una vez se publique esta herramienta y las AT comiencen a realizar sus autoevaluaciones, podremos construir un panorama más completo sobre el estado de la analítica de datos tanto en ALC como en el resto del mundo.
Sin embargo, es importante señalar que, por su diseño, los CMM son instrumentos con un enfoque principalmente descriptivo y, en general, no incorporan indicadores cuantitativos de desempeño, lo cual los hace útiles para tener una visión agregada y estratégica de las capacidades institucionales, pero no permite un análisis específico de los elementos que deben atenderse en las AT, ni su grado de desempeño y evolución en el tiempo.
Con idénticas preocupaciones, el CIAT está construyendo el Centro de Analítica Avanzada, con el objetivo de compartir experiencias y acortar brechas entre sus países miembros, que inicialmente incluyen a Argentina, Brasil, Chile, Costa Rica, Guatemala, España y México. Igualmente, bajo el modelo de colaboración público-privada, tienen planificado el desarrollo de un Centro de Innovación de Inteligencia Artificial.
Respecto de otras regiones en el mundo, en ALC contamos con una ventaja comparativa que no estamos explotando: tenemos la FE implementada, o muy avanzada, en la mayoría de los países. Digamos que hemos dado el primer paso, pero nos falta el segundo: explotar dicha información de manera efectiva.
Desde la División Fiscal del BID estamos trabajando en la elaboración de una encuesta que nos brinde una visión global del progreso en la implementación de las técnicas de analítica avanzada, en general para la región y en particular para conocer detalles específicos de cada AT de ALC.
Estamos aplicando la Visión 2025 del BID, que anticipa AT modernas y apoyadas en tecnología para reducir la evasión fiscal, reducir la informalidad y fomentar el crecimiento. También seguimos el documento Marco del Sector de Política Fiscal del BID, que nos instruye para apoyar la transformación tecnológica de las AT de ALC y lograr implementar la analítica predictiva y prescriptiva.