Procesamiento de lenguaje natural en la detección de fraudes en facturas del municipio de Sao Paulo (parte 1)

17 junio, 2024
Escrito por: André Ippolito y Augusto Cezar Garcia Lozano
3 Respuestas

0 Compartir

1. Introducción

La Inteligencia Artificial (IA) se ha explorado para resolver problemas en diversas áreas del conocimiento. En el ámbito de la Administración Pública, la IA puede proporcionar automatización y eficiencia en tareas rutinarias en la planificación y en el ahorro de recursos (Souza et al. 2022). Las administraciones tributarias se enfrentan a desafíos. Para cumplir con sus misiones institucionales, la AT puede aplicar IA para mejorar las auditorías fiscales (Nunes; Delgado 2023).

La motivación del uso de la IA es perceptible en el cotidiano de trabajo de la Administración Tributaria de la prefectura de Sao Paulo. En el sector de fiscalización, el análisis de facturas de servicios electrónicos (NFS-e) permite constatar comportamientos de ciertos contribuyentes. Al cumplimentar el desglose de servicios en la NFS-e, utilizan textos que describen servicios gravados al 5%, pero aplican códigos de servicios que tienen un tipo inferior, lo que da lugar a un pago insuficiente.

Tenga en cuenta también el gran volumen de facturas y contribuyentes. Analizando el territorio brasileño, las estadísticas apuntan a la emisión de 40.394 mil millones de facturas desde 2006 para un total de 226.5 millones de contribuyentes (Receita Federal do Brasil 2024). En el municipio de Sao Paulo, datos de la Secretaría de Finanzas Municipales registran para el año 2023, 664.215.745 facturas emitidas por un total de 825.013 contribuyentes. El análisis manual de ese volumen es costoso, y la tendencia es que los contribuyentes se valgan de esa dificultad para defraudar las NFS-e de la forma anteriormente explicada. Los conjuntos de datos como el descrito son difíciles de procesar y se consideran un problema de Big Data (SAS 2024a). Este contexto demanda análisis automatizados que posibilitan decisiones más rápidas y programaciones fiscales asertivas, apalancando ingresos tributarios.

De esta forma, se utiliza la técnica de la IA y de Big Data. El procesamiento del lenguaje natural (PLN) proporciona un marco de técnicas para el análisis de textos (Jurafsky; Martin 2008). Así, el objetivo de este trabajo es aplicar el PLN buscando descubrir cuáles son los términos más frecuentes usados en discriminaciones de servicios de alícuotas mayores pero que están siendo utilizados en notas con código de servicio de alícuota menor.

Se han desarrollado trabajos relacionados con la aplicación del PLN en la detección de fraudes en facturas. Marinho (2023) hizo un estudio con 10.000 facturas del Distrito Federal. Se han calculado similitudes entre el texto descriptivo del producto en la nota y la nomenclatura oficial de la mercancía por el Mercosur. Las facturas fiscales se consideraron inconsistentes para las similitudes bajas, lo que ayudó al análisis de los auditores. Darrazon et al. (2023) basaron su estudio en un conjunto de facturas de do Piauí. En el trabajo, partiendo de un rol de 1.000.506 notas, fueron seleccionadas aleatoriamente 200 que fueron categorizadas manualmente. Se aplicaron algoritmos de clasificación y se evaluaron los resultados. Santos (2022) desarrolló un trabajo para clasificar textos descriptivos de facturas. La base de datos utilizada de 30.000 facturas fue proporcionada por el Ministerio Público de Paraíba. Una muestra de los datos se clasificó manualmente. Se aplicaron técnicas de PLN para clasificar las notas.

Las soluciones del estado del arte dependen del trabajo manual y usan conjuntos de datos de representatividad reducida en relación con el volumen de facturas contemporáneamente existente. Además, no se han encontrado estudios cuyo objetivo sea detectar el fraude en el uso indebido de los tipos impositivos y que contemplen el análisis de los términos más frecuentes en los desgloses de los servicios.

2. Referencial teórico

En esta sección se explican los conceptos relacionados con Hadoop y PLN

2.1 Hadoop

Hadoop (Apache Hadoop 2006) es un sistema que extrae, almacena y analiza grandes volúmenes de datos (SAS 2024b). Según la Figura 1, la arquitectura de Hadoop está formada por una red de computadoras que distribuye el almacenamiento y el procesamiento de datos (Machado 2017).

Figura 1 – Arquitectura de Hadoop

Fuente: Machado (2017).

Es posible acoplar al sistema Hadoop el componente Spark según la Figura 2, que complementa el sistema con funciones de streaming y de IA (Techvidvan 2024).

Figura 2 – integración entre Hadoop y Spark

Fuente: Techvidvan (2024).

2.2 Procesamiento del lenguaje natural

El PLN (Jurafsky; Martin 2008) permite a las computadoras realizar tareas que involucran el lenguaje humano y se aplica a áreas como el reconocimiento de voz y el análisis semántico (Steedman 1996).

2.2.1 Preprocesamiento de texto

La primera técnica que se utiliza en PLN es la tokenización, que divide un texto en unidades, pudiendo estas ser palabras o números (Manning; Schütze 1999). Una vez que el texto está tokenizado, se aplican técnicas de reducción de palabras como la radicalización y lematización. En la primera se eliminan prefijos y sufijos. En la segunda se reduce una palabra a su lema: por ejemplo, la palabra ‘amigos’ se convierte en ‘amigo’. Se eliminan palabras que no tengan utilidad, como artículos y preposiciones, denominadas palabras clave.

2.2.2 Representación vectorial

Se utiliza el modelo bag of words, que crea un vector con una dimensión dada por la cantidad de palabras diferentes, almacenando en cada espacio del vector la frecuencia de la palabra respectiva (Feldman; Sanger 2006). Algunos modelos se basan en la concurrencia de palabras, utilizando una matriz donde cada fila es una palabra y las columnas los documentos, siendo la celda de la matriz la frecuencia de la palabra por documento (Jurafsky; Martin 2008).

El modelo de la frecuencia del término-inverso de la frecuencia en documentos, en inglés Term Frequency-Inverse Document Frequency (TF-IDF), se basa en la co-ocurrencia de palabras. TF calcula la frecuencia con la que aparece un término t dado en un documento d y las IDF ponderan la cantidad total de documentos y la cantidad de documentos en los que aparece el término. El IDF está dado por:

Referencias

Darrazão, E., Amorim, V., Oliveira, K., & Gomes-Jr, L. (2023). Ingeniería y Evaluación de Características para la Extracción de Información en Notas Fiscales. En Anais da XVIII Escola Regional de Banco de Dados (pp. 80-89). SBC.

Feldman, R., & Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.

Jurafsky, D., & Martin, J. H. (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2a ed.). Prentice Hall PTR.

Machado, A. (2017). Guía Paso a Paso para Crear un Cluster Hadoop con 3 Nodes. Artículo disponible en https://blog.4linux.com.br/hadoop-cluster/. Acceso el 15/02/2024.

Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press.

Marinho, M. C. (2023). Estrategias Computacionales basadas en Similaridad de Textos y Visualización Exploratoria para la Identificación de Inconsistencias en Notas Fiscales Electrónicas. Monografía. Departamento de Ciencia de la Computación de la Universidad de Brasília.

Nunes, F. de H. P., & Delgado, J. de S. (2023). El uso de la Inteligencia Artificial por las Administraciones Tributarias. Revista Tributaria y de Finanzas Públicas, 155(30), 73-86.

Receita Federal do Brasil. (2024). Portal de la Nota Fiscal Electrónica. Disponible en https://www.nfe.fazenda.gov.br/portal/sobreNFe.aspx?tipoConteudo=PEhYdxncZBE=&AspxAutoDetectCookieSupport=1. Acceso el 07/02/2024.

Santos, M. T. M. (2022). Clasificación de Productos en Notas Fiscales Electrónicas usando Descripciones Textuales no Estructuradas. Monografía. Instituto de Computación de la Universidad Federal de Alagoas.

SAS. (2024a). Big Data: What is and Why it Matters. Disponible en https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html. Acceso el 15/02/2024.

SAS. (2024b). Hadoop: What is and Why it Matters. Disponible en https://www.sas.com/en_us/insights/big-data/hadoop.html. Acceso el 15/02/2024.

Souza, A. M. A., Saddy, A., Seyller, A. D. M., Berardinelli, A. L., Araújo, C. M., Souza, D. A. V. G., Pessanha, D. P., Coimbra, E. M., Lôbo, F. L. A., Teixeira, G., Sousa, H. A. M., Torres, I. M., Campos, A., Silva, J. E., Pereira, J. S. S. S., Galil, J. V. T., Argento, J. R. O., Pinto, J. O., Freire, K. A., Silva, L. F. B., Silva, L. C. Jr., Daher, L. E. S. L. T., Silva, M. A. M., Temer, M. C., Teixeira, R. L. C. J., & Strauch, T. S. R. (2022). Inteligencia Artificial y Derecho Administrativo. Centro para Estudios Empírico-Jurídicos (CEEJ).

Steedman, M. (1996). Natural Language Processing. San Diego: Academic Press.

Techvidvan. (2024). Hadoop Spark Integration: Quick Guide. Artículo disponible en https://techvidvan.com/tutorials/hadoop-spark-integration/. Acceso el 15/02/2024.

11,716 total views, 1 views today

Twittear

0 Compartir

Aclaración. Se informa a los lectores que los puntos de vista, pensamientos y opiniones expresados en el texto pertenecen únicamente al autor, y no necesariamente a su empleador ni a ninguna organización, comité u otro grupo al que el autor pertenezca, ni a la Secretaría Ejecutiva del CIAT. De igual manera, el autor es responsable por la precisión y veracidad de los datos y fuentes.

3 comentarios

jorge cosulich ayala17 junio, 2024 en 7:24 pm Respuesta

Excelente artículo, muy completo y actualizado , mis felicitaciones.
Patricia López18 junio, 2024 en 11:11 am Respuesta

Desde México nuestro reconocimiento a este gran trabajo.
Las prácticas de facturación no son ajenas a ninguna Administración Tributaria del que sea.
Samir Benites19 junio, 2024 en 9:41 am Respuesta

Muy interesante los avances de la fiscalización con la ayuda de las TI, muy buen artículo.

Reuniones Internacionales

Reuniones Institucionales

Programas de Formación

Seminarios, Talleres y Foros

Redes

Acerca del CIAT

Organización Institucional

Lineamientos Estratégicos

Países Miembros

Procesamiento de lenguaje natural en la detección de fraudes en facturas del municipio de Sao Paulo (parte 1)

3 comentarios

Deja un comentario Cancelar respuesta

Sumario de Legislación Tributaria de América Latina 2025 [Versión actualizada]

Latindadd y CIAT celebran 15 años de colaboración para fortalecer…

CIAT publica la Revista de la 60.ª Asamblea General celebrada…

El CIAT participó en la 30.ª Asamblea General de la…

CIAT participa en la 39.ª Conferencia Anual del CREDAF en…

3ª Visita de la X Promoción de la Maestría en…

CIAT participó en las VI Jornadas de Precios de Transferencia…

CIAT, IGF, GIZ y la OCDE cooperan para fortalecer las…

Los países de América Latina avanzan en materia de transparencia fiscal

DT-04-2026: Reporte de Recaudación CIAT (RRC) Año 2025

El CIAT realizó el Segundo Encuentro de Tecnología 2026 en…

ARCA de Argentina fomenta el debate internacional sobre ciencias del…

Reuniones Internacionales

Reuniones Institucionales

Programas de Formación

Seminarios, Talleres y Foros

Redes

Acerca del CIAT

Organización Institucional

Lineamientos Estratégicos

Países Miembros

3 comentarios

Deja un comentario Cancelar respuesta

Suscripciones CIAT

Miembros CIAT