Competencia AlixPartners ECI 2023

ParaiSUR: (Des)Control de gastos en servicios profesionales

-Extracción de datos de facturas en formato digital-

¡Prepárense para sumergirse en el fascinante mundo de la ciencia de datos y enfrentar el desafío de extraer información valiosa de las facturas de proveedores de «ParaiSUR»! Esperamos ver sus habilidades y soluciones innovadoras mientras trabajan en esta competencia única de procesamiento de documentos. ¡Buena suerte a todos los participantes!

Datos: [link]

Foro: https://paraisur.slack.com

Link invitación: https://join.slack.com/t/paraisur/shared_invite/zt-1yfmv556d-_pnRwtWS04wI2EmdRhG8Iw

Sesión de Q&A: Jueves 06/07/2023 17:30 – 18:30 – Microsoft Teams [link]

Competencia en Kaggle: https://www.kaggle.com/competitions/paraisur

Introducción

Bienvenidos a la nueva competencia de ciencia de datos de AlixPartners: «ParaiSUR: (Des)Control de gastos en servicios profesionales». En esta desafiante competencia, quienes participen tendrán la oportunidad de demostrar sus habilidades en el campo de la ciencia de datos al enfrentarse a un problema empresarial del mundo real.

El objetivo de esta competencia es extraer los detalles de los gastos de servicios profesionales enumerados en las facturas de proveedores de la compañía ficticia «ParaiSUR». Estas facturas contienen información valiosa, pero están guardadas en formato digital, no estructurado, lo que dificulta su análisis. Los participantes podrán utilizar técnicas de reconocimiento óptico de caracteres, procesamiento de lenguaje natural y aprendizaje automático para extraer los datos relevantes y transformarlos en un formato estructurado.

Cada participante recibirá el mismo conjunto de archivos en formato PDF, que corresponden a las facturas con el detalle de gastos de cada proveedor de “ParaiSUR” recibidas durante el año 2022. La empresa contrata diversos proveedores de servicios, provocando variabilidad de formato en los documentos recibidos. Éstos contienen el detalle de los gastos que cada proveedor facturó a ParaiSUR en los distintos proyectos en que están/estuvieron involucrados (incluyendo servicios profesionales, gastos operativos, gastos de viajes, gastos de equipamiento, entre otros).

El desafío consiste en extraer de cada factura el total de servicios profesionales asociados al trabajo realizado en los proyectos, sin contar los gastos adyacentes.

El sector de compras no tiene la capacidad de revisar todas las facturas que llegan manualmente. Por esto, la empresa está interesada en armar una solución escalable, por lo cual mientras mayor sea el nivel de detalle que se extraiga de cada factura, mejores son las posibilidades de auditar los gastos en servicios profesionales.

El éxito en esta competencia requerirá un enfoque multidisciplinario. Los participantes deberán aplicar técnicas variadas de extracción de información y clasificación de datos. Se valorará además la capacidad para generar una solución reutilizable, que pueda usarse para nuevas facturas como, por ejemplo, las de 2023 😊.

El conjunto de datos se disponibilizará en etapas desde el comienzo de la competencia. Con una duración aproximada de 4 semanas, el objetivo es desarrollar y ajustar sus algoritmos y modelos para ponerlos a prueba y elaborar un informe de negocio para presentar resultados y la lógica detrás de la solución planteada. Además, se espera que en dicho informe se discutan posibles alternativas – incluso superadoras al objetivo actual que plantea la empresa. Por ejemplo:

  • ¿Qué recomendaciones le harías al CEO de la empresa?
  • ¿Al CFO?
  • ¿Qué te parece debería hacer el gerente de compras?
  • Desde tu punto de vista como consultor, ¿cuál sería la solución ideal?

La solución ganadora será aquella que logre extraer los detalles de gastos de servicios profesionales con la mayor precisión y presentar resultados de manera eficiente a los ejecutivos de la empresa junto con sus recomendaciones. Por supuesto, y además del reconocimiento y la satisfacción personal, los primeros 3 puestos recibirán un premio junto con la oportunidad de colaborar con «ParaiSUR» en futuros proyectos relacionados con la ciencia de datos.

Predicción

La solución deberá ser subida a la plataforma Kaggle [link] como un archivo .csv con la estimación del gasto de servicios profesionales para cada factura

Su estructura es la siguiente:

Invoice Number Total Charged
X15688941 1700.10
813728138 7481.05
G42174195 9099.51
27307572 1137.7
E37309831 1208.4
[…] […]

Donde:

  • Invoice Number: Es el numero de la factura presente en el encabezado de cada documento.
  • Total Charged: Es la suma de los gastos de servicios profesionales de cada factura

Premios

Los premios se harán efectivos mediante una gift-card de los siguientes valores:

  • 1er puesto: AR$ 300.000
  • 2do puesto: AR$ 200.000
  • 3er puesto: AR$ 100.000

Evaluación

La métrica que se usará para evaluar será el mean absolute error (MAE) sobre las predicciones realizadas.

Formula de MAE

Es una métrica habitualmente utilizado por su sencillez conceptual.

Para la presentación final, además de la subida de la solución a la plataforma, deberá presentarse un informe técnico pero orientado al negocio (formato libre), que contenga claramente la identificación del usuario. Adjunto a este informe, debe también presentarse el código / Jupyter Notebook / formato elegido que se haya utilizado, debidamente documentado y conteniendo comentarios sobre el enfoque y el procedimiento. Se deben explicar claramente:

  • Tratamiento de los datos
  • Decisiones sobre el enfoque de la solución presentada, justificando su aplicabilidad
  • Decisiones sobre el modelado, si lo hubiere
  • Datos y gráficas que considere relevantes para soportar el enfoque elegido

La calificación final de la competencia está dada en un 65% por el resultado obtenido en la plataforma Kaggle y en un 35% por la presentación y detalle de la notebook. Se leerán todos los informes presentados, incluso aquellos con bajo puntaje en la clasificación. ¡A no desalentarse!

Fechas

  • Inicio competencia: 26/06/2023
  • Workshop: 06/07/2023 – 17:30 a 18:30 [link]
  • Cierre: 21/07/2023 11:59 PM (fecha límite de subida de soluciones)
  • Presentación de ganadores: 28/07/2023 (presencial, en el marco de la ECI)

Diccionario de datos:

Existen un total de 8411 facturas, en formato PDF. Algunas de ellas son “machine readable” (pueden leerse desde un código programado en algún lenguaje) y otras son imágenes escaneadas, por lo que deberá utilizarse alguna técnica de OCR (Optical Character Recognition) para leerlas. Se provee junto con el conjunto de documentos, una lista de los números de factura para los cuales es necesario proveer el total de servicios profesionales.

Descripción de los datos

factura_template

Los datos deben usarse sólo en el marco de esta competencia.
Soluciones tramposas serán detectadas y quedarán descalificadas.