La geocodificación es el proceso de asignar un par de coordenadas XY, ya sea en sistema de coordenadas plana o geográfica de la descripción de referencia de un sitio localizado en un entorno espacial. En general la geocodificación es el proceso que inicia con la entrada de una descripción (ej. Dirección), se identifica la semántica de la descripción para descomponerla por componentes definidos en el algoritmo de normalización, se estandariza estos componentes para unificar y homologar las estructura de los componentes y posteriormente se realiza la búsqueda en una fuente de datos para realizar la comparación por componentes y entrega el mejor candidato de la búsqueda para mostrarlo sobre un mapa.

Componentes en el Proceso de Geocodificación

1.png

El proceso de geocodificación se basa en el concepto de relacionamiento o vinculación de registros. Existen dos principales métodos de relacionamiento de datos, el determinístico y el probabilístico.

  1. El modelo de relacionamiento determinístico utiliza un identificador único que permite distinguir inequívocamente a la entidad, ordenando los registros y comparándolos con sus pares o no pares. Este modelo es simple de comprender e implementar, aunque en algunos casos, la solución de decisiones subjetivas, puede ser compleja en su solución. Es útil para comparar distintas bases de datos
  2. El relacionamiento probabilístico se basa en la teoría estadística desarrollada por Fellegi y Sunter, y es apropiado cuando las bases de datos a relacionar no tiene ningún identificador único en común. El método probabilístico de vinculación de registros es un proceso de encontrar la similitud de dos datos bajo condiciones de incertidumbre. El objetivo es identificar y relacionar registros de entidades como personas, familias, eventos, instituciones o direcciones. En este proceso a diferencia del método determinístico, el registro que participa en la vinculación está sujeto a un error de comparación, el cual es determinado por la probabilidad de coincidencia del registro versus las posibles variantes del valor de este registro. La asignación de tales probabilidades tiene la intención de imitar al ser humano en la toma de decisiones.

Normalización y Estandarización

La normalización corresponde al procesamiento de una cadena de texto, la cual es separada dentro de variables individuales, de esta manera cada variable es reconocida de acuerdo a las reglas de transformación indicadas manualmente al sistema, las cuales dependen de la semántica de las palabras a normalizar. El proceso descrito anteriormente, obedece a un enfoque determinista, esto quiere decir que cada uno de los componentes de una dirección es conocido y normalizado, por ejemplo, tipo de vía principal, número de la vía, número de la casa, entre otros.

La estandarización es el proceso posterior a la normalización, el cual determina la estructura fonética de las palabras y las estandariza en textos simples según las equivalencias determinadas para asignación de variables, por ejemplo, la palabra “calle” se estandariza en “CL”, la palabra “carrera” se estandariza en “CR” para posterior asignación a las variables definidas.

Calidad En La Geocodificación

La calidad de los resultados de la geocodificación pueden ser caracterizados en los siguientes componentes: completitud y exactitud posicional.

  1. La completitud o match rate es el porcentaje de registros localizados. Es la medida de la calidad de la geocodificación en cuanto acierto de direcciones ubicadas, también se define como el porcentaje de direcciones ubicadas. Uno de los pocos estudios que habla sobre el tema, fue realizado en Monte Carlo, el cual consistía en simular los incidentes delictivos ubicados a nivel de bloques censales para determinar la tasa de coincidencia y así obtener un patrón fiable de delincuencia. El resultado indicó que el porcentaje necesario para aceptar estadísticamente un resultado de geocodificación debe ser mayor del 85%.
  2. Exactitud posicional indica cual es la cercanía de la ubicación en comparación con la realidad. Mide el absoluto de la distancia del punto localizado por medio de la geocodificación respecto a la ubicación real del mismo, varios estudios han determinado una estimación cuantitativa sobre la exactitud posicional en la geocodificación. Una estimación dentro de los umbrales normales, determina que para un área residencial el rango de error posicional aceptable está entre 25-168 metros estudiados basados en los valores medios de la distribución del error.

VARGAS, J.A. y HORFAN, D. Proceso De Geocodificación De Direcciones En La Ciudad De Medellín, Una Técnica Determinística De Georreferenciación De Direcciones. USBMed [en línea]. Enero-Junio 2013, Vol. 4, No. 1. [fecha de consulta: 21 de diciembre de 2016]. Disponible en: <http://web.usbmed.edu.co/usbmed/fing/v4n1/v4n1a1.pdf >.

Anuncios