Procesamiento de Lenguaje Natural en la Detección de Fraudes en Facturas del Municipio de São Paulo (parte 2)
1. Metodología
Los estudios para resolver el problema de este estudio comenzaron en 2019. En esa ocasión, la unidad de Inteligencia Fiscal disponía de una máquina y una herramienta visual con 2 GB de memoria RAM. El tiempo de procesamiento fue de una semana.
La solución actual representa una evolución. Se desarrolló en un entorno configurable adecuado para problemas de Big Data. Se utilizó la plataforma de desarrollo Jupyter (Jupyter, 2015) y se hizo uso del sistema Hadoop. Se desarrollaron rutinas de programación en los lenguajes de programación Sqoop y Python para almacenar, preparar datos y modelar textos con PLN. Se ha configurado el entorno con 20 GB de memoria RAM. Entre las ventajas, se encuentra la capacidad de distribuir el procesamiento y el almacenamiento de datos y desarrollar un código flexible.
Las bases de datos utilizadas fueron tablas de las NFS-e de la Secretaría de Finanzas Municipal de São Paulo de 2019 a 2022. Los pasos de la solución siguen el diagrama de flujo de la Figura 1. Se han efectuado los siguientes pasos:
- Importar las facturas del código de mayor alícuota al sistema de ADO Hadoop.
- Aplicar Spark para procesar textos de servicios de notas:
- -Normalizar los términos en minúsculas.
- -Eliminar espacios en blanco.
- -Eliminar caracteres especiales, signos de puntuación, acentuación y palabras clave.
- -Radicalización y lematización.
- Crear una tabla con las palabras obtenidas y su TF-IDF.
- Seleccionar notas del código de menor alícuota que contengan los términos más frecuentes del código de mayor alícuota obtenidos en el ítem 4. Como términos más frecuentes se consideraron los 100 términos con mayor valor de TF-IDF.
Figura 1: Diagrama de flujo de los pasos de la solución
- -Importar NFS-e desde el código de mayor alícuota al sistema de archivos Hadoop
- -Preprocesar los textos de descripción de servicios de NFS-e con el uso del Spark
- -Clasificar las palabras según el número de ocurrencias utilizando el Spark
- -Seleccionar las NFS-e válidas tributadas en São Paulo y con tributación normal del código de menor alícuota que tengan los términos más frecuentes del código de mayor alícuota
2. Resultados y Discusión
Se han analizado las operaciones tributarias emitidas resultantes de la aplicación de la metodología de este trabajo. Se verificó una evolución creciente de 2019 a 2022, período en que se aplicó la metodología. Hubo un total de 27 operaciones efectuadas, estando 23 cerradas y 4 en curso, abarcando 27 empresas, conforme el Gráfico 1.
Gráfico 1 – Operaciones de control emitidas
Fuente: Elaborado por los autores (2024).
Las cifras correspondientes a las notificaciones de infracción se muestran en el Gráfico 2, con un 72% del importe total de las notificaciones pagadas. Según el Gráfico 3, se emitieron 249 notificaciones. Cuando se evalúa la parte porcentual de las liquidaciones fiscales en el volumen de negocios de las empresas, el porcentaje alcanza el 65%.
Gráfico 2 – Valores de los avisos de infracción
Fuente: Elaborado por los autores (2024).
Gráfico 3 – Cantidad de avisos de infracción
Fuente: Elaborado por los autores (2024).
En cuanto al volumen de notas analizadas, se totalizaron 38,727,247 notas. Se desglosó este análisis en 2 grupos: un grupo de las notas de alícuota mayor y otro de las notas de alícuota menor. El gráfico 4 muestra la evolución anual de estas cifras.
Gráfico 4 – Cantidad de facturas analizadas
Fuente: Elaborado por los autores (2024).
Se analizó la evolución del ISS (NT: impuesto municipal sobre servicios) pagado por los contribuyentes remontándose a 2015 para medir el efecto de la metodología. Se observaron valores crecientes con un pico en 2019, año de inicio de la utilización de la metodología, conforme el Gráfico 5. Analizando el período de 2015 a 2018 antes de aplicar la metodología, resultó un ISS medio pagado de 7.732.552,89 reales. En el período de 2019 a 2022, el valor medio fue de 11.422.897,19 reales, representando un aumento del 48% en la recaudación.
Gráfico 5 – ISS pagado
Fuente: Elaborado por los autores (2024).
3. Conclusiones
En el área de la Administración Pública, la IA puede perfeccionar las auditorías. Existe un gran volumen de contribuyentes y facturas cuyo análisis manual requiere un trabajo exhaustivo. Algunos contribuyentes se benefician de esta dificultad para defraudar la NFS-e. Como resultado, existe una demanda de soluciones que automaticen los análisis de grandes volúmenes de datos, acelerando las decisiones y haciendo que las acciones fiscales sean más asertivas, lo que aumenta los ingresos tributarios.
Los trabajos relacionados se basan en soluciones dependientes del trabajo manual, basadas en conjuntos de datos poco representativos. No se encontraron trabajos con el fin de detectar fraudes por uso indebido de alícuota y basados en el estudio de la frecuencia de los términos de las NFS-e.
En este trabajo, se aplicaron técnicas de PLN a textos de descripciones de 38.727.247 NFS-e de la Prefectura de São Paulo en el período 2019 a 2022. Se descubrieron los términos más frecuentes utilizados para detallar servicios gravados a tipos más altos, pero se están aplicando a NFS-e con un código de servicio de tipo más bajo.
El descubrimiento de estos términos posibilitó la selección de contribuyentes emisores de NFS-e fraudulentas, permitiendo programar acciones de auditoría eficientemente. Esto resultó en una mayor asertividad de las acciones de control, alcanzando el 72% de pago en los avisos de infracción. Un gran volumen de NFS-e fue analizado y se verificó un creciente pago de ISS en el período bajo análisis. La adopción de PLN y una infraestructura de Big Data han acelerado el descubrimiento de fraudes e impulsado los ingresos.
En futuros trabajos, nos proponemos aplicar técnicas de Aprendizaje Automático (Mitchell, 1997) a los datos obtenidos con PLN con vistas a clasificar NFS-e. Así, las acciones de control pueden generar resultados más prometedores que los de este trabajo en términos de eficacia de las operaciones de verificación, asertividad de los avisos de infracción y aumento de la recaudación tributaria.
Referencias
- Jupyter. Project Jupyter Documentation. Página de Internet. Disponible en https://docs.jupyter.org/en/latest/. Acceso el 09/02/2024. Elaborado en 2015.
- Mitchell, T. M. Machine Learning. Nueva York, 1997.
6,709 total views, 1 views today