Capítulo 3 Metodología
3.1 Área de estudio
El municipio de Santiago de Cali se encuentra ubicado al suroccidente colombiano, latitud 3.4372200°, longitud -76.5225000° en grados decimales del sistema de coordenadas WGS84 (ver figura 3.1). Es la capital del departamento del Valle del Cauca y es la tercera ciudad más poblada del país, después de Bogotá y Medellín, con 2,420,114 habitantes según la proyección de población para 2017 de Cali en Cifras 2015 (Escobar Morales, 2015). El municipio tiene un área 561.7 Km2, un área del perímetro urbano 120.4 Km2 (21.4 %). La división administrativa de la zona urbana son comunas y las comunas se componen de barrios.
Santiago de Cali presenta dos zonas topográficas: el valle del río Cauca hacia el oriente, el terreno más plano donde se ubica el casco urbano, y la zona de piedemonte hacia el occidente sobre la margen derecha de la cordillera Occidental. El área urbana limita al oeste y sur con el área rural del municipio, al este con el río Cauca y los municipios de Palmira y Candelaria, y al norte con el municipio de Yumbo.
El clima del municipio varía en relación al rango altitudinal que abarca entre 916 msnm en la zona geográfica del río Cauca y hasta los 4,070 msnm en el Parque Nacional Natural Los Farallones (CIAT, CVC, y DAGMA, 2015b). En la zona plana, se presenta un clima cálido con características semihúmedas hacia el sur y semiáridas hacia el norte mientras el piedemonte presenta condiciones de clima templado (CIAT, CVC, y DAGMA, 2015a). La precipitación anual promedio es de 1,500 mm y la temperatura promedio anual es de 24 °C aproximadamente (CIAT et al., 2015b). La ciudad de Cali es de clima caliente, donde la sombra y la brisa son bien valoradas por sus habitantes.

Figura 3.1: Área de estudio. Perímetro urbano de Santiango de Cali
3.2 Datos
Se hizo uso de datos del Censo Arbóreo de 2015 (CA2015) (Alcaldía de Cali, 2015), el Censo de Población de 2005 (CP2005) (DANE, 2005, 2017) y aspectos estructurales del espacio público y privado de las unidades espaciales de análisis tomados de la Infraestructura de Datos Espaciales de Santiago de Cali (IDESC) (Alcaldía de Cali, 2009) y las bases de datos del Plan de Ordenamiento Territorial (POT) del 2014 (Alcaldía de Cali, 2014).
3.2.1 Datos de registros oficiales del municipio
La cartografía disponible en la IDESC (Alcaldía de Cali, 2009), incluye información sobre los objetos geográficos naturales, de infraestructura urbana, límites y divisiones político administrativas y la clasificación de predios en cuanto a espacio público disponibles en coordenadas planas del sistema MAGNA-SIRGAS-CALI (IGAG, 2005). Además está la base de datos geográfica del POT (Alcaldía de Cali, 2014). Se seleccionaron conjuntos de datos de equipamientos y espacio público contenido en la estructura ecológica complementaria (EEC) que incluye cementerios, universidades, EV de acceso no restringido aunque algunos sea predios privados contenidos en EEC. De la IDESC se seleccionaron las capas de manzanas, barrios, espacio público, humedales, ríos y corredores ambientales, todas disponibles vía Web Feature Service (WFS). En la figura 3.2 se muestra un mapa con las capas seleccionadas para el realizar el procesamiento y los análisis.

Figura 3.2: Capas usadas para el procesamiento de los espacios verdes y las características de las manzanas
3.2.2 El censo arbóreo
En el año 2015 la ciudad de Santiago de Cali concretó la realización del censo arbóreo (CA2015) que dejó como resultado una base de datos de 296,467 individuos censados (Alcaldía de Cali, 2015). Los datos dan cuenta de la identificación de especies, georeferenciación de los individuos, sus características dasométricas, de emplazamiento y estado fitosanitario. Las variables contenidas en ese estudio se resumen en la tabla 3.1.
variable | {valores}[unidades] |
---|---|
id_arbol | número entero único |
diametro copa | [m2] |
altura arbol | [m] |
vitalidad | {Regular, Sano, Seco, Muerto} |
edad | {Juvenil, Maduro, Longevo} |
emplazamiento | {Anden, Bahias de estacionamiento, Bulevares, Corredor Ferreo, Escenario deportivo y/o Cultural, Glorieta, Parque Urbano, Paseos, Plaza, Plazoleta, Ronda de rios, Rondas de canales, Separador Vial} |
vegetación | {Arbol, Arbusto, Bambu, Muerto, Palma, Planta arbustiva, Seco} |
Este | [m] MAGNA - SIRGAS-CALI |
Norte | [m] MAGNA - SIRGAS-CALI |
Existe una diferencia de 10 años entre censo de población de 2005 y el censo arbóreo de la ciudad de Cali. Aunque esto pueda parecer una situación que reduce la legitimidad de los resultados que se hallen en este estudio, autores como C. G. Boone, Cadenasso, Grove, Schwarz, y Buckley (2010) y Schwarz et al. (2015) reconocen que los paisajes que vemos hoy son legados de patrones de consumo pasados, y que en el caso de la vegetación urbana tratamos con organismos de larga vida que pueden tardar mucho tiempo en establecerse y crecer. En contraste, la estructura social de las ciudades puede cambiar más rápidamente.
Atendiendo a estos argumentos se excluyó de la base de datos del CA2015 árboles jóvenes del inventario, que no estaban ahí en 2005. Aunque toda la vegetación aporta beneficios ambientales a los habitantes, en este estudio se descartó la vegetación arbustiva y los árboles, palmas y bambú de menos de 1.9 m de altura para circunscribirse a los individuos más desarrollados.
Una vez aplicado este filtro se cuenta con 203,112 individuos.
3.2.3 El censo de población
Los datos del CP2005 están disponibles en las unidades censales (sector, sección, manzana) a través del sistema de consulta web (DANE, 2005). Estos datos sirven para caracterizar la población con base en indicadores sobre rasgos de las personas, aspectos sobre el uso del suelo y los tipos de vivienda. Las variables disponibles para el análisis están resumidas en las tablas 3.2 y 3.3.
El otro componente de los datos es la cartografía censal del DANE (DANE, 2017) disponible para las diferentes unidades espaciales de agregación en el sistema de coordenadas WGS84. Para el análisis se tiene en cuenta todos las unidades censales que se interceptan con el perímetro urbano disponible en la IDESC, pues el censo arbóreo se limitó a este perímetro.(ver figura 3.3)
variable | {valores}[unidades] |
---|---|
Pertenencia Étnica | [personas]{indígenas, ROM, gitanos, raizales del Archipiélago de San Andrés, Providencia y Santa Catalina, palenqueros de San Basilio, afrocolombianos} |
Con alguna limitación | [personas]{sí,no} |
Con estudios superior o postgrado | [personas] |
Ningún estudio | [personas] |
variable | {valores}[unidades] |
---|---|
tipo vivienda | {Casa,Casa indígena,Apartamento,Tipo cuarto,Otro tipo de vivienda}[viviendas] |
uso vivienda | {Uso Vivienda.Uso Unidad Económica,Uso LEA}[predios] |
cantidad predios | [predios] |
cantidad viviendas | [viviendas] |
La unidad espacial de análisis sobre la cual se harán todas las agregaciones es el sector urbano (SU) de la cartografía censal 2005.

Figura 3.3: Sectores urbanos y périmetro urbano de Santiago de Cali
3.3 Métodos y técnicas
Este trabajo se concentró en indagar en particular sobre la justicia ambiental distributiva por medio de modelos estadísticos de regresión y geoestadísticos usados ampliamente en la literatura revisada (Gibbons y Overman, 2012; Heynen et al., 2006; Landry y Chakraborty, 2009; LeSage y Pace, 2014; Pacheco, 2013; Schwarz et al., 2015; Shanahan et al., 2014; Vásquez Fuentes y Romero Aravena, 2008; X. Zhou y Kim, 2013). Se busca probar que existe un sesgo en la distribución de un beneficio ambiental (AU y EV) explicado por alguna variable socioeconómica o estructural. Desde la modelación estadística esto se logra encontrando predictores con coeficientes significativos en la regresión lineal. Si exsite un patrón espacial que puede ser includo en la modelación para mejorar la estimación de los coeficiente de la regresión, su inclusión debe mejorar las condiciones de normalidad y homocedasticidad de los residuos de la regresión.
Para detectar agrupaciones de unidades geográficas con características homogéneas donde intervenir y disminuir las inequidades en el acceso a servicios ambientales se complementan los análisis con el uso de mapas de LISA (Talen y Anselin, 1998).
El diagrama de la figura 3.4 sintetiza el análisis propuesto, compuesto de las siguientes actividades:
- Preparación de los datos: construcción de tablas, estandarización de las variables categóricas, sistemas de coordenadas y la identificación de valores atípicos o inconsistentes en los datos.
- Procesamiento y análisis estadístico: cálculo de indicadores de cobertura, acceso y variables socioeconómicas. Cálculo de estadísticos para probar normalidad, normalización de las variables e indicadores, cálculos de coeficientes de correlación Pearson y de Spearman entre todos los pares de variables.
- Análisis exploratorio: hacer uso de gráficas estadísticas, mapeos y mapas para evaluar y seleccionar los indicadores a usar en un modelo de regresión lineal.
- Seleccionar los mejores predictores con base en coeficientes de correlación.
- Seleccionar los SU a incluir con base la coincidencia con las capas de AU y EV.
- Construir y evaluar los modelos de regresión lineal.
- Contruir matrices de vencidad \(W\) para incluir restricciones espaciales al modelo.
- Probar autocorrelación espacial usando Moran’I en los residuos de los modelos de regresión lineal con dos diseños de matriz \(W\). Si la prueba muestra una correlación y un valor de significancia alta, se prueban modelos tipo SAR, SEM o SD para comparar su desempeño.
- Selección del modelo que mejor se ajusta usando métricas de error y de ajuste como R2 y el criterio de Akaike.
- Graficar mapas de LISA para caraterizar los patrones de agrupación de las variables del los modelos mejor ajustados.

Figura 3.4: Diagrama de flujo de la metodología
3.3.1 Procesamiento de datos
El procesamiento de los datos se realizó principalmente en R (R Core Team, 2017). Se usó QGIS para conectarse a los servicios WFS del IDESC y previsualizar las capas de información geográfica recolectada y la realización de algunos de los mapas detallados. Para cargar y manipular los datos espaciales se hizo uso de las librerías rgdal
(Bivand, Keitt, y Rowlingson, 2017), rgeos
(Bivand y Rundel, 2018) y sp
(Pebesma y Bivand, 2018). En el apéndice A se encuentra la información completa de la sesión de R.
El código que implementa los análisis está dividido en archivos para facilitar su lectura, cada uno de los cuales se encargan de transformar los datos de las fuentes y construir estructuras de datos necesarias para realizar las regresiones, las gráficas y los análisis de tipo estadístico y geoestadístico.
El código y los datos están disponibles en el repositorio de GitHub en https://github.com/correajfc/R-CP2005-CA2015.
3.3.2 Cálculo de métricas de acceso a servicios ambientales
3.3.2.1 Indicadores de beneficios del arbolado urbano

Figura 3.5: Sectores urbanos de las variables dependientes sobre cobertura de copa
Entre los distintos indicadores desarrollados para capturar la extensión y distribución de los servicios ambientales, la cobertura de copas ha probado ser sensible y eficaz para cuantificar hasta qué punto los árboles y bosques están proporcionando servicios críticos a los residentes (Nowak et al., 2010).
En este trabajo se usaron dos variantes de la cobertura de copa, una de orden global y otra local respectivamente: el área de copa en metros2 (area_copa
) y la cobertura de copa como porcentaje del área pública total (cobertura_copa.ap
), conformada por la vías y calles más el área de espacio públicos (ver figura 3.5).
3.3.2.2 Índices de acceso a espacios verdes
En este estudio se usaron dos métricas de acceso a espacios verdes. El primero es el índice contenedor porcentual (ecuación (3.1)), catalogado como una medida de acceso local a la unidad espacial de análisis, ampliamente usado en la literatutra (Talen y Anselin, 1998).
índice contenedor porcentual (area_ep.porcentaje) \[\begin{equation} A^{C_p}_i =1/a_i\sum_j{s_j} \; \; \forall j \in I \tag{3.1} \end{equation}\]donde \(s_j\) es el área de cada espacio verde \(j\) que pertenece al conjunto \(I\) de EV dentro del sector \(i\) y \(a_i\) es el área del sector \(i\).
El segundo índice (ecuación (3.2)) es una propuesta de este estudio basada en el trabajo de Nesbitt y Meitner (2016) en el que se calcula la distancia euclide a los EV desde el centroide de la unidad de análisis, incorporando recomendaciones de la Organización Mundial de la Salud sobre establacer la relación entre distancia y calidad del acceso usando el área del EV (WHO, 2016) y los índice propuestos por X. Zhou y Kim (2013) de un radio de búsqueda de EVs accesibles, sin importar si este está dentro de la unidad espacial a caraterizar.
Este índice define el acceso como una relación entre la distancia y la cantidad de espacio disponible en el radio de búsqueda definido desde el centroide del SU. La figura 3.6 muestra gráficamente como existen EVs que caen la intersección de los radios de búsqueda de multiples sectores urbanos, lo que implica que benefician a varios de ellos a la vez, y es por esa razón que el índice expresa una dimensión del acceso no confinada a la unidad espacial.
razón área disponible distancia (ia.areas.dist) \[\begin{equation} \bar{A}^{AD}_i= \frac{\sum_{\int R_b }{s_j}}{\sum_{\int R_b }{d_{ij}}} \; \; \forall j \in I_{R_b} \; \tag{3.2} \end{equation}\]donde \(R_b\) es el radio de búsqueda, \(s_j\) es el área de cada espacio verde \(j\), \(d_{ij}\) es la distancia del centriode del sector \(i\) al espacio \(j\) que pertenecen al conjunto \(I_{R_b}\) de EVs en el radio de búsqueda.

Figura 3.6: Espacios verdes y radio de búsqueda de 1 km desde los centriodes del SU
3.3.3 Cálculo de métricas sobre la población
3.3.3.1 Características de la población
La tabla 3.2 muestra los valores de la variable de etnicidad. Al hacer los conteos por pertencia a un grupo etnico para toda la ciudad (ver tabla 3.4), se observa el bajo número de personas que pertenecen al pueblo Rom (gitanos), Palenqueros de San Basilio (departamento de Bolívar) y de Raizales del Archipiélago de San Andrés, Providencia y Santa Catalina (SAI) y a la población indígena, por lo que son descartados del análisis.
Tipo | Cantidad |
---|---|
Población Total | 2,027,024 |
Población afrodescendiente, negros o mulatos | 530,990 |
Población indígena | 9,195 |
Población Rom | 690 |
Población Palenqueros | 1 |
Población raizales de SAI | 851 |
Las variables del CP2005 seleccionadas para el análisis se muestran en la figura 3.7.

Figura 3.7: Mapas de las variables de población seleccionadas (en deciles).
Además de las variables seleccionadas se calculó la densidad de población dado que los árboles compiten por el espacio con los seres humanos y es de esperar que a mayor cantidad de personas haya menos lugar para los árboles. Se calcularon indicadores porcentuales respecto de la población total de cada unidad geográfica para facilitar la comparaciones y acentuar las diferencias entre los SU (figura 3.8).

Figura 3.8: Mapas de las variables de población seleccionadas como porcentajes (en deciles)
3.3.3.2 Características de las viviendas
Además de las rasgos étnicos, condiciones de escolaridad y limitaciones de la población, el CP2005 tiene disponibles datos sobre el tipo de viviendas (casa, apartamento, tipo cuarto, casa indígena, otros), y el uso habitacional, comercial y la cantidad de lugares especiales de alojamiento4 (LEA) dado a los predios. La vocación comercial o residencial de un barrio puede ser un factor en el desarrollo del arbolado urbano o de las disposiciones urbanísticas de la ciudad en relación a EVs, ya sea por las condiciones físicas como por la intervención de sus habitantes. Estas variables pueden también expresarse como porcentaje de la cantidad de predios de vivienda según los tipos o como porcentaje de la cantidad de predios según su uso: vivienda, unidad económica o LEA. La variable LEA presenta una distribución uniforme, por lo que se descarta para los análisis de regresión (ver los gráficos por sector urbano en la figura 3.9).

Figura 3.9: Mapas de las variables sobre el tipo de uso de los predios como porcentaje de la cantidad de predios (escala contínua)
3.3.4 Criterios y selección de sectores censales
Se establecieron criterios para la exclusión de datos para el análisis de regresión que evitan incluir SUs atípicos:
- sectores sin personas
- sectores sin viviendas
- sectores con área de espacio público mayor que el 80 % del área del sector
- sectores con área de calle mayor que el 80 % del área del sector
- sectores área privada mayor que el 90 % del área del sector
- sectores con una porción mayor al 60% por fuera del perímetro urbano
Los sectores excluidos del análisis se muestran en la figura 3.10.

Figura 3.10: Sectores excluidos
3.3.5 Selección de variables dependientes para las regresiones lineales
Las variables incluidas en los modelos lineales deben cumplir una serie de condiciones deseables para ser elegidas como candidatas:
- Mostrar una correlación moderada o fuerte5
- Las variables independientes o predictoras no deben estar fuertemente correlacionadas entre ellas.
- Las observaciones deben ser independientes6
Para garantizar que las variables no están correlacionadas entre sí, se usó el coeficiente de correlación de Pearson para detectar relaciones lineales, y el coeficiente de Spearman para detectar relaciones en que exhiben relaciones no lineales.
Para seleccionar las variables que mejor predicen la variable dependiente se tuvo en cuenta las restricciones de colinealidad entre las variables dependientes.
Para los modelos de regresión se usaron transformaciones logarítmicas o de raíz cuadra para eliminar no linealidades entre las variables dependientes y las independientes, y reducir posibles fenómenos de heterocedasticidad debido a estas no-linealidades.
Dividir o multiplicar por alguna constante no tiene ningún efecto en la calidad de las estimaciones , pero sí sobre los coeficientes de la regresión. Esto suele ser sensible a la hora de interpretar los cambios marginales de cada una de las variables independientes y su efecto sobre la variable dependiente. Sin embargo, lo que interesa para este estudio no es la interpretación de esos cambio sino la importancia relativa de cada variable y comparar los cambios de los coeficientes de regresión para el ajuste de cada modelo y/o las mejoras que pueda operar un modelos autorregresivo en caso de encontrase autocorrelación en los residuos de la regresión lineal. Por esta razón, normalizar los valores puede ser una ventaja pues mantiene los coeficiente mejor acotados. La normalización se aplicó posterior a las transformaciones propuestas y se realizó dividiendo por el máximo valor de los datos de cada variable para mantener valores en el intervalo [0,1], dado que los valores son todos iguales o mayores que 0.
Los test aplicados para verificar las condiciones de un buen ajuste (no hay sesgos en el estimador o una mala especificación del modelo) de un modelo lineal son:
- La media de los residuos es 0 o muy cercana.
- La distribución de los residuos es normal.
- Los residuos muestran homocedasticidad (la varianza es constante)
Para verificar la normalidad de los residuos se hace uso del test de Shapiro–Wilk (Shapiro y Wilk, 1965 ) y para la verificar si existe homocedasticidad el test de Breusch–Pagan (Breusch y Pagan, 1979).
3.3.6 Análisis geoestadísticos
Para los análisis geoestadísticos, se hizo uso de modelos autoregresivos para obtener mejoras en la estimación de los coeficientes y en el ajuste de los modelos lineales, cuando existío algún tipo de autocorrelación espacial en los residuos. Todas estas aproximaciones introducen una matriz de \(W_{n \times n}\), donde \(n\) es el número de sitios, que captura la influencia de las variables en relación con su proximidad. Esta matriz \(W\) es una estructura que restringe la influencia a priori en los modelos. Para observar el efecto que tiene esta matriz sobre los resultados del modelo se usaron 2 matrices distintas, y se escogió la que produjo el mejor ajuste.
Para los análisis espaciales se usó la librería spdep
(Bivand, 2017)
3.3.6.1 Matrices de vecindad

Figura 3.11: Grafo de vecindad entre todos los SU de la ciudad de Cali
La matriz \(W\) representa la topología de vecindad entre las unidades geográficas. Existen en la literatura diferentes tipos de vecindad: rook, bishop y queen son las más referenciadas. Esta vecindad está representada en la matriz con 1 cuando existe vecindad y 0 cuando no. Otra forma de cuantificar la interacción de esa vecindad es usando una matriz de inversos de la distancia entre los centroides de las unidades geográficas (\(W_d\)), con el fin de atenuar la interacción entre sectores muy alejados y tener una variable continua que representa esa influencia. En la figura 3.11 se muestra la representación de grafo de la matriz \(W_q\) de SUs vecinos que comparten un lado del polígono (vecindad queen) en la ciudad de Cali.
Las regresiones se realizan sobre un subconjunto de los SUs, y por tanto la estructura de esta matriz tuvo esto en cuenta.
3.3.6.2 Autocorrelación espacial
Para indagar sobre la información o patrones espaciales de los residuos de los modelos de regresión se usó el índice de Moran’I (ecuación (3.3)). El índice de Moran’I es el coeficiente de correlación para la relación entre una variable y sus valores circundantes. Cuando se encuentra una correlación espacial significativa en los residuos, esto sugiere que agregando esa estructura de vecindad al modelo es posible obtener una estimación más eficiente de los coeficientes, y en consecuencia una estimación más confiable de los coeficientes. En este estudio no se hace inferencia de una población por una muestra, se calcularon coeficientes sobre el total de la población, y por tanto los coeficientes pueden interpretarse como la fuerza de esa relación.
\[\begin{equation} I=\frac {N}{\sum _{i}\sum _{j}w_{ij}} \frac {\sum _{i}\sum _{j}w_{ij}(X_{i}-{\bar {X}})(X_{j}-{\bar {X}})}{\sum _{i}(X_{i}- \bar{X})^{2}} \tag{3.3} \end{equation}\]donde \(N\) es el número de unidades espaciales indexados por \(i\) y \(j\); \(X\) es la variable de interés; \(\bar {X}\) es la media de \(X\); y \(w_{ij}\) es un elemento de una matriz de pesos espaciales \(W\). Un valor de 0 de Moran’I indica un patrón espacial aleatorio. Si existe autocorrelación los valores son positivos y el máximo es 1. Si los valores son negativos se dice que existe dispersión, siendo -1 el mínimo valor posible representando la dispersión perfecta. El valor \(p\) del test expresa el grado de certeza sobre el valor del estadístico, si el valor límite de significancia es menor que \(\alpha = 0.05\)
3.3.6.3 Indicadores Locales de Asociación Espacial (LISA)
Dado que Morán’I es una suma de productos cruzados individuales es explotado para formular los indicadores locales de asociación espacial (LISA). Estos permiten evaluar la agrupación de las unidades individuales mediante el cálculo de la Moran local para cada unidad espacial y la evaluación de la significación estadística de este indicador (Anselin, 1995).
Estos mapas en conjunto con el resultado numérico de los LISA z-normalizado y el \(p\)-valor permiten identificar agrupaciones espaciales. Las regiones resaltadas en rojo tienen valores altos de la variable y tienen vecinos con valores altos también (high-high). El área azul (low-low) son los grupos que presentan valores bajos al igual que sus vecinos. Mientras que las regiones azul pálido son low-high y las áreas rosadas son high-low muestran correlación negativa, es decir valores muy diferentes a los de sus vecinos. Las regiones fuertemente coloreadas son aquellas que contribuyen significativamente a un resultado positivo de autocorrelación espacial global, mientras que los colores más claros contribuyen significativamente a un resultado de autocorrelación negativo.
Corresponden a las diferentes unidades que desempeña una función de interés público, que puede ser benéfico o docente↩
En este trabajo se considera moderado a valores superiores y al rededor de 0.6 en los coeficientes de correlación. Aunque definir cualitativamente rangos de un coeficiente de correlación es arbitrario, es posible definirlos y usarlos con criterio. Se puede estar acuerdo que correlaciones menores a 0.1 indica una relación insignificante y que mayores 0.9 una muy fuerte, pero los valores intermedios son discutibles.↩
Significa que no debe existir relación espacial o temporal entre los diferentes sectores. Justamente esto se pone a prueba con los test estadísticos y los gráficos de diagnóstico sobre la distribución de los residuos de la regresión: se espera que dicha dependencia esté motivada por la vecindad de los sectores.↩