Gobernanza de Datos para la Administración Tributaria. Una publicación del CIAT
A final de los 80, y por unos años más, la necesidad de especializar a la gente de tecnología en organizaciones grandes, como las administraciones tributarias, era evidente. Los grandes centros de datos requerían operadores de los computadores para correr JOBs escritos en JCL, los que sabían de CICS, los de las controladoras de terminales, y los que lidiaban con la data. En algunos casos, los manejadores relacionales de bases de datos empezaban a usarse y, con ellos, claro, llegaron los especialistas en SQL.
En una ocasión, una petición particular llegó al centro de cómputo. Se requería una estadística a partir de comparar las declaraciones de impuestos del último período con las del período actual, y ver el total de variación de los ingresos brutos para unos contribuyentes de una determinada región y actividad económica. Un voluntarioso recién llegado que dominaba el SQL y había participado en la migración de los datos a la base de datos relacional armó el query en muy poco tiempo, lo corrió y envió a imprimir el resultado, entregándolo con orgullo muy rápidamente. Todo en menos de cinco minutos.
Un piso más arriba, el responsable de trasladar la información al despacho del ministerio recibió la hoja con los datos. Al ver el resultado, se sorprendió por dos razones, la primera, porque algo que usualmente tomaba un par de días en ejecutar se completó en pocos minutos, un incremento enorme de la eficiencia. La segunda razón, es que se enteraba que el PIB de un sector económico se había triplicado en un año sin inflación considerable. El jefe del departamento bajó al centro de cómputo y buscó al profesional recién llegado. Lo regañó. “¿Cómo puede entregar esto sin validar?” le dijo con un tono de voz más bien alto. “El query, está correcto”, le respondió valiente el desarrollador. “Se lo aseguro. Lo que está mal es la data.”. Y era verdad.
Con la misma destreza que antes, el desarrollador buscó de las declaraciones seleccionadas, las de mayor valor. El problema venía de una sola declaración, donde un campo de ingresos en una declaración tenía el número de contribuyente. De manera muy rápida, básicamente añadiendo una línea más en la parte del where, se obtuvo un resultado que ahora se veía razonable. Una chica que había presenciado en voz baja todo el incidente preguntó con seriedad: “¿Ese error lo habrán incorporado en el centro de transcripción, o vendría así del contribuyente?” y continuó “¿Cómo sabemos que no hay más errores?”. Nadie respondió. No lo sabían.
Para fines exclusivamente estadísticos, el remover de la muestra esa declaración era seguramente suficiente, pero en un escenario en que los datos se usan para tomar decisiones específicas, los temas de calidad de datos no se concentran exclusivamente en identificar los grandes errores que pueden distorsionar una estadística, se trata de decisiones con consecuencias individuales. Además, se vuelve más importante cuando la toma de esas decisiones incorpora procesos de inteligencia artificial como, por ejemplo, aprendizaje de máquinas, que se soportan totalmente en los datos disponibles.
La necesidad de cuidar de la calidad de datos hoy es más compleja. Verificar visualmente si una declaración jurada traía un error de origen o fue incorporado por las dos transcriptoras que capturaron y validaron el proceso de captura podía ser razonable hace 40 años, validar visualmente los miles de documentos electrónicos que llegan a una administración en un minuto no se puede hacer. A eso debemos sumar las preocupaciones sobre la privacidad, el tratamiento ético de los datos, la demanda de mayor transparencia, el intercambio de información, el derecho a ser olvidado, la certeza que los datos no van a ser alterados o destruidos de manera accidental o deliberada. Todo este análisis se da sobre los datos estructurados claro, pero se extiende a datos no estructurados, por citar un ejemplo, grabaciones de audio o video sobre interacciones de la administración con contribuyentes.
Las administraciones tributarias, como cualquier organización que hace uso intensivo de datos, ejecutan una gobernanza sobre estos procesos y sobre los datos que tiene o quiere tener y su ciclo de vida, pero no necesariamente esta gestión está formalizada ni suficientemente madura. La paulatina absorción de enormes cantidades de datos de fuentes distintas potencializa el problema. Vale la pena preguntarse, si es siempre posible identificar, por ejemplo, quién es responsable por la calidad de un dominio particular de datos, es alguien del área de tecnología, o de las áreas usuarias, y en ese caso de cuál, y cómo. Cómo ejercicio, pregúntese quien es responsable de que la calidad del dato del número telefónico de los contribuyentes sea razonable. Seguramente hay validaciones inmersas en la captura de datos al momento de inscribir al contribuyente, y eso garantiza que un número de teléfono se parezca a un número de teléfono, pero no dice nada sobre si ese número de teléfono realmente le correspondía al contribuyente al momento de su inscripción, pero mucho menos si sigue siendo válido unos años después. Tampoco es fácil determinar si alguien en la organización sabe qué porcentaje de números de teléfonos pueden ser inválidos para seguir considerando esa información útil, y cómo se comprueba, y quién y cuando puede consultarla, o si puede ser compartida con otros organismos, o publicada en una página web, o si ya no es útil, desecharla.
Hoy, varias organizaciones que hacen uso intensivo de datos se preocupan por establecer, formalizar, mejorar y madurar la gobernanza de sus datos y, además, ampliar las capacidades de los empleados para comprender, compartir conocimientos y tener conversaciones significativas sobre los datos. Existen técnicas, metodologías, modelos de madurez y mucha literatura al respecto. Algunas administraciones tributarias han iniciado o evalúan iniciar ese proceso. Sin embargo surgen las dudas sobre qué y cómo hacer, o por dónde empezar, pero también de cómo desarrollar estas prácticas sin necesariamente establecer mecanismos demasiado rígidos y burocráticos.
Precisamente por eso preparamos la guía sobre gobernanza de datos que ponemos a su disposición. Un esfuerzo que contó con el apoyo de la GIZ y que busca responder algunas de estas cuestiones: ¿qué prácticas y competencias deben crearse? ¿qué estructuras de gobernanza se deben implementar? ¿cómo evaluar la madurez que tenemos y la que queremos alcanzar? ¿qué camino u hoja de ruta puedo tomar? ¿cómo empezar con un mecanismo simplificado que no se extienda de manera burocrática?
Esta publicación puede ser descargada en inglés desde la biblioteca del CIAT.
Saludos y suerte.
6,564 total views, 2 views today
4 comentarios
Excelente publicacion Raúl, felicidades.
Saludos
Da gusto leer una y otra vez este artículo, felicitaciones Raúl
Muy buen articulo, hay mucho por mejorar en este aspecto de los datos. Así como la manera que obtenemos y utilizamos la información. Queda la idea de proporcionar a cada AT profesionales de Datos, de ambas partes los usuarios funcionales y los de tecnologia.
Felicitaciones, Raúl. El tema es muy importante para las administraciones tributarias.