Competencia AlixPartners ECI 2024

SierraVolt Energética Limitada: estimación de daño en patrimonio producido por incendios 

Análisis de imágenes satelitales y estimación de costo por demandas y reclamos de daño a propiedades en incendios accidentales de parcelas rurales / suburbanas.  

¡Bienvenidos a una nueva competencia de análisis de datos de AlixPartners! En esta ocasión, los participantes analizarán imágenes satelitales de zonas rurales antes y después de incendios, para evaluar el daño causado y determinar la validez de los reclamos presentados por propietarios o vecinos. 

Fechas 

  • Inicio competencia: Semana del 24/06/2024 
  • Workshop: 03/07/2024 – 17:30 a 18:30 [link
  • Cierre: 26/07/2024 11:59 PM (fecha límite de subida de soluciones) 
  • Demo AlixPartners: 31/07/2024 a las 17:00, Pabellón 0+Inf, Aula a determinar
  • Presentación Ganadores:  Presencial en el cierre de ECI, el 02/08/2024 

Datos: https://www.mapascordoba.gob.ar/#/descargas [Ver instrucciones debajo

Foro: Workspace en Slack [link

Link a competencia: [link

Link a datos sobre reclamos: [link]

Sesión de Q&A: Miércoles 03/07/2024 17:30 – 18:30 – Microsoft Teams [link]  

Premios 

Los premios se harán efectivos mediante una gift-card de los siguientes valores:  

  • 1er puesto: AR$ 1.000.000 
  • 2do puesto: AR$ 700.000 
  • 3er puesto: AR$ 500.000 

Introducción 

La competencia y todos los materiales generados para ella (este caso, el nombre de la empresa, los nombres de propietarios, etc. son un trabajo de ficción. Referencias a nombres de personas, valores monetarios, datos de reclamos y procesos son también ficticios. Cualquier parecido con la realidad es pura coincidencia). 

El escenario de esta competencia presenta un desafío único, donde los participantes trabajarán con datos inspirados en sucesos reales, ocurridos durante el año 2023. La empresa SierraVolt Energética Limitada debe realizar un estudio de impacto por reclamos por daños a propiedades y parcelas rurales debidos a incendios forestales en la provincia de Córdoba, Argentina. Para ello, los participantes tendrán acceso a estas imágenes, que serán la base para evaluar el impacto del incendio en la zona y en las parcelas identificadas. La idea es determinar: 

  • La validez de los reclamos recibidos. 
  • El presupuesto de la empresa para enfrentar el desembolso monetario que corresponde a los acuerdos y pólizas de seguro asociadas a este evento. 

 Descripción: 

Energética SierraVolt Limitada necesita analistas y modeladores expertos para conformar un análisis de costos por resolución judicial de reclamos de daños por incendios a propiedades privadas. La empresa cuenta con un presupuesto para dichas contingencias, pero debido a la cantidad de reclamos entrantes en el presente período, los ejecutivos a cargo necesitan entender si el presupuesto asignado será suficiente o si deberá ajustarse debido al incendio forestal en el Valle de Punilla, en la cercanía de la ciudad de Villa Carlos Paz, Córdoba, durante octubre 2023.  

No todos los reclamos se refieren a daños provocados por el fuego en forma directa. En algunos casos, el humo o el calor puede causar daño a la propiedad o a las personas. Se sospecha que algunos reclamos no tienen justificación, considerando que las viviendas de los demandantes están lejos de los principales focos de incendio. 

 Desafío Específico: 

Los participantes recibirán el conjunto de reclamos actuales y un pequeño subconjunto de resultados de referencia. Los datos los obtuvo un consultor que, lamentablemente, no documentó su procedimiento y dejó de trabajar para la empresa. El resultado de este flujo de trabajo previo fue evaluado y aprobado por los directivos de la empresa, por lo que la tarea de los participantes será entender, automatizar y expandir este proceso, utilizando su experiencia, para llegar a un resultado compatible con los datos de referencia. Los resultados de su flujo de trabajo serán validados contra la evaluación independiente de un grupo de contratistas especializados. De esta manera, la empresa espera contar con una evaluación adicional de sus resultados para la aplicación de un modelo/flujo de trabajo similar en un futuro, dado que este tipo de episodios son (lamentablemente) periódicos en la zona.  

Objetivos: 

  • Analizar imágenes satelitales antes y después del incendio forestal. 
  • Evaluar el daño causado por el fuego en las parcelas identificadas. 
  • Determinar la justificación de los reclamos presentados por los propietarios de campos o vecinos. 
  • Desarrollar un conjunto de datos de salida que incluya un identificador de parcela y un valor monetario asociado, utilizando métodos de análisis de datos. 

 Criterios de Evaluación: 

  • Precisión en la evaluación del daño causado por el incendio. 
  • Coherencia en la determinación de la justificación de los reclamos presentados. 
  • Rigor en el desarrollo del conjunto de datos de salida. 
  • Creatividad y originalidad en el enfoque metodológico. 
  • Claridad y presentación efectiva de los resultados. 

Para esta competencia, se requiere un enfoque multidisciplinario. Los participantes deben aplicar diversas técnicas de análisis de datos y procesamiento de imágenes satelitales. Se valorará especialmente la capacidad para desarrollar una solución escalable y reutilizable, que pueda aplicarse a futuros reclamos de manera efectiva. 

Los conjuntos de datos estarán disponibles en etapas a lo largo de la competencia, que tendrá una duración aproximada de 4 semanas. El objetivo es que los participantes desarrollen y ajusten algoritmos y modelos para su evaluación y presenten un informe detallado que explique la lógica detrás de su solución. Se espera que este informe incluya discusiones sobre posibles alternativas y recomendaciones para los diferentes actores dentro del contexto del problema. 

Por ejemplo: 

¿Qué recomendaciones harías al propietario de las parcelas afectadas? 

¿Cómo podría utilizar esta información el departamento de gestión de riesgos? 

… 

La solución ganadora será aquella que logre evaluar con mayor precisión el daño causado por el fuego y presente resultados de manera clara y eficiente. Además del reconocimiento y la satisfacción personal, los tres primeros puestos recibirán un premio monetario y tendrán la oportunidad de colaborar con futuros proyectos relacionados con la ciencia de datos en el ámbito de la gestión de desastres naturales. 

Condiciones:

La solución deberá ser subida a la plataforma Kaggle [LINK] como un archivo .csv con la estimación del daño provocado por los incendios en cada parcela 

Su estructura es la siguiente: 

ID Parcela Valuación Daño ($)
XXXX 50000
YYYY 1500000
ZZZZ 30000000
[…] […]

 

Donde: 

  • ID Parcela: Es el código de identificación de la parcela de terreno. 
  • Valuación Daño: Es un valor monetario que representa la suma de daños (directos o colaterales) por incendios en la parcela.  

Evaluación 

La métrica que se usará para evaluar será el mean absolute error (MAE) sobre las predicciones realizadas. 

Para la presentación final, además de la subida de la solución a la plataforma, deberá presentarse un informe técnico pero orientado al negocio (formato libre), que contenga claramente la identificación del usuario. Adjunto a este informe, debe también presentarse el código / Jupyter Notebook / formato elegido que se haya utilizado, debidamente documentado y conteniendo comentarios sobre el enfoque y el procedimiento. Se deben explicar claramente: 

  • Tratamiento de los datos 
  • Decisiones sobre el enfoque de la solución presentada, justificando su aplicabilidad 
  • Decisiones sobre el modelado, si lo hubiere 
  • Datos y gráficas que considere relevantes para soportar el enfoque elegido 

La calificación final de la competencia está dada en un 65% por el resultado obtenido en la plataforma Kaggle y en un 35% por la presentación y detalle de la notebook. Se leerán todos los informes presentados, incluso aquellos con bajo puntaje en la clasificación. ¡A no desalentarse! 

Los datos deben usarse sólo en el marco de esta competencia. 

Soluciones tramposas serán detectadas y quedarán descalificadas. 

Anexo: breve descripción de un posible enfoque metodológico 

Los incendios forestales están estrechamente asociados con las actividades humanas y el cambio climático global, pero también afectan la salud humana, la seguridad y el eco-ambiente. La capacidad de entender la dinámica de los incendios forestales es importante para gestionar los efectos de los incendios en las infraestructuras y los entornos naturales.  

Las tecnologías geoespaciales proporcionan un medio para estudiar los incendios forestales en múltiples escalas temporales y espaciales utilizando un método eficiente y cuantitativo. Son tecnologías que se utilizan para recoger, almacenar, procesar y entregar datos geográficos o información espacial. Incluyen la teledetección (la adquisición de información sobre un objeto o fenómeno sin hacer contacto físico con el objeto) y los Sistemas de Información Geográfica (SIG o GIS, por sus iniciales en inglés) que son sistemas diseñados para capturar, almacenar, manipular, analizar, gestionar y presentar todos los tipos de datos geográficos. Se acepta ampliamente que estas tecnologías proporcionan un medio de bajo costo y multitemporal para realizar investigaciones y evaluaciones de incendios forestales a escala local, regional y global.  

En la zona de interés, los participantes podrán acceder a datos satelitales multiespectrales, con información de múltiples bandas del espectro electromagnético.  Estos datos permiten el mapeo de áreas quemadas, para identificar las áreas que han sido afectadas por el incendio. La gravedad de la quemadura se refiere a la intensidad del daño causado por el fuego. 

Las imágenes satelitales presentan un conjunto de archivos, uno por banda registrada durante el proceso de adquisición del satélite en la fecha dada. Estas bandas son captadas por sensores específicos que captan tanto dentro del espectro visible (azul, verde, rojo) como en el infrarrojo, etc. (ver diccionario de datos). A partir de estas bandas, se pueden generar diversos índices que nos permiten analizar la densidad de vegetación en un área, así como también el daño vinculado a un incendio. Un enfoque posible para el estudio del fenómeno ocurrido es trabajar con índices establecidos como el índice de vegetación de diferencia normalizada (NDVI, por su nombre en inglés Normalized Difference Vegetation Index), y la Diferencia de relación de quemado normalizada  (dNBR, por su nombre en inglés Difference Normalized Burn Ratio). 

 

Figura: Esquematización de índices correspondientes a la zona de estudio como función de las bandas de las imágenes de Landsat-9 para la diferencia entre una fecha previa y una posterior al incendio forestal ocurrido en octubre 2023 en los alrededores de Villa Carlos Paz, Córdoba. (Izquierda) Índice NDVI, donde los colores más claros denotan la presencia de vegetación menos densa y saludable que los colores más oscuros. (Derecha) dNBR, donde la intensidad de rojo denota áreas mayormente afectadas por el incendio. 

 

El NDVI es una forma de medir la salud y la densidad de la vegetación usando datos satelitales, comparando la cantidad de luz visible que las plantas absorben con la cantidad de luz infrarroja que reflejan. Cuando las plantas están saludables y densas, absorben mucha luz visible y reflejan poca luz infrarroja, lo que da un valor alto de NDVI. Cuando están secas o escasas, la situación es inversa (NDVI bajo).  

El NBR es una herramienta utilizada para analizar incendios forestales y los efectos generados en la vegetación. Mide la gravedad de los daños que causa un incendio al comparar la reflectividad de la luz infrarroja de las áreas quemadas con las áreas no afectadas. Cuanto más daño haya sufrido la vegetación, más bajo será el valor del NBR. Es una forma útil de evaluar la extensión y la intensidad de un incendio forestal. 

El dNBR es una versión mejorada del NBR que se utiliza específicamente para evaluar los cambios en la vegetación después de un incendio forestal. En lugar de simplemente medir la severidad del daño, el dNBR compara el NBR de la zona quemada con el NBR de la misma zona antes del incendio. Esto proporciona una medida más precisa de cómo ha cambiado la vegetación debido al fuego. En resumen, el dNBR nos ayuda a entender cómo los incendios afectan específicamente a la vegetación en un área determinada. 

Diccionario de datos  

Registro catastral (polígonos correspondientes a parcelas de propiedad) 

Se utilizarán los datos correspondientes a dos pedanías de la provincia de Córdoba: San Roque y Santiago. Los datos pueden ser descargados desde el siguiente link, accediendo a Descargas -> Catastro -> Parcelas -> Seleccionar la pedanía correspondiente. Los encontrarán en diversos formatos, como KML, SHP, junto con la metadata y los diccionarios de datos correspondientes.  

Imágenes satelitales 

Las imágenes con las cuales se trabajará en esta competencia corresponden al incendio ocurrido en las proximidades de Villa Carlos Paz, Córdoba, en octubre del año 2023. Particularmente, las imágenes pertenecen a Landsat, correspondiente a una imagen Landsat-9 anterior al incendio (fecha de adquisición: 27/09/2023) y otra Landsat-8 posterior al mismo (fecha de adquisición: 22/11/2023). Estas imágenes contienen algunas o todas las bandas descriptas a continuación. 

Convención de nombre de archivos de Landsat: 

LXSS_LLLL_PPPRRR_YYYYMMDD_yyyymmdd_CC_TX_SR_BX 

con: 

  • L = Landsat 
  • X = Sensor (“C”=OLI/TIRS combined, “O”=OLI-only, “T”=TIRS-only, “E”=ETM+, “T”=“TM, “M”=MSS) 
  • SS = Satellite (”07”=Landsat 7, “08”=Landsat 8) 
  • LLL = Processing correction level (L1TP/L1GT/L1GS) 
  • PPP = WRS path 
  • RRR = WRS row 
  • YYYYMMDD = Acquisition year, month, day <- Año, mes, día de adquisición de imágenes. 
  • yyyymmdd – Processing year, month, day 
  • CC = Collection number (01, 02, …) 
  • TX = Collection category (“RT”=Real-Time, “T1”=Tier 1, “T2”=Tier 2) 
  • SR = surface reflectance 
  • BX = Band #X, con X una de las bandas descriptas debajo 

 

Bandas disponibles en las imágenes de Landsat-8 y Landsat-9: 

Banda  Descripción  Longitud de onda  Resolución 
Visible aerosol costero  0.43 – 0.45 µm  30 metros 
Azul  0.450 – 0.51 µm  30 metros 
Verde  0.53 – 0.59 µm  30 metros 
Rojo  0.64 – 0.67 µm  30 metros 
Infrarrojo cercano  0.85 – 0.88 µm  30 metros 
SWIR 1  1.57 – 1.65 µm  30 metros 
SWIR 2  2.11 – 2.29 µm  30 metros 
Pancromático  0.50 – 0.68 µm  15 metros 
Cirro  1.36 – 1.38 µm  30 metros 

Datos de reclamos 

Se proporciona un archivo con la compilación de datos correspondiente a los reclamos realizados por habitantes de la zona. Estos datos, asimismo, fueron extraídos y compilados por otro equipo de la empresa que estaba trabajando en el caso:

 

  • Claims-WorkingFile_v2: Todos los reclamos hasta la fecha 
  • Propietario: Nombre del propietario 
  • direccion: dirección de la parcela de la persona propietaria, extraída del texto de reclamo
  • TextoReclamo: contenido del reclamo en formato texto libre. 
  • ValorReclamo: resarcimiento pretendido por la persona propietaria de la parcela
  • Valuacion_Danios: trabajo en progreso, valores disponibles sólo para un pequeño subconjunto de reclamos.
  • Validado: anotaciones y/o confirmación de los valores Valuacion_Danios 

Referencias y Links útiles

Datos 

  • IDECOR (Infraestructura de Datos Espaciales de la Provincia de Córdoba) – Link datos 
  • Diccionario de datos – Registro catastral IDECOR – Link 
  • Metadatos parcelas – Registro catastral IDECOR – Link 

 

Imágenes Satelitales y análisis