적어도 일주일에 한번은 에세이에 관련한 글을 올리겠다는 다짐을 했었는데 바쁘다는 핑게로...^^

오늘 얘기할 내용은 GIS와 통계입니다.
주변에 GIS를 전공한 사람이 적지 않게 있습니다.
또한 통계 분석하는 사람도 적지 않게 있습니다.
하지만 GIS와 통계를 잘 결함하여 분석하는 사람은 거의 없습니다.

그렇다면 GIS와 통계는 무슨 관련이 있을까요?

자연과학 분야 GIS에서는 통계가 요구되는 경우가 많지 않습니다.
비가 내리면 물은 위에서 아래로 흘러갑니다. 이건 자연의 이치입니다.
때문에 수리수문 분석하는 사람들 입장에서는 물은 위에서 아래로 흐르는 것을 전제로 여러가지 알고리즘을 반영합니다.

하지만 인문사회분야 GIS에서는 사정이 좀 다릅니다.

예를들어 생각하면..
자신의 집에서 가까운 할인점이 2곳이 있습니다.
1km 떨어진 곳에 홈에버가 있고 1.5km 떨어진 곳에 이마트가 있습니다.

이 경우 모든 사람이 거리가 가깝다고 홈에버로 가지는 않을 것입니다.
이마트를 아주 좋아하는 사람의 경우 500미터의 거리차이는 중요하지가 않습니다.
하지만 이마트를 살짝 좋아하는 사람의 경우 500미터는 고민하게 만들 수 있는 거리입니다.
별 생각 없는 사람들은 홈에버로 갈 것이구요...

바로 이러한 인문사회학적인 요소들이 있기 때문에 "고객들은 반드시 가까운 곳에 있는 할인점을 이용한다"는 것을 전제로 분석을 할 수 없습니다.
아마도 "고객들이 할인점을 선택할 때 접근성을 어느 정도 고려한다"라는 전제를 이용하는 것이 무난할 것입니다.

그렇다면 "이 어느 정도"라는 것이 문제입니다. "할인점을 선택하는 결정 - 거리"간 의미있는 관계를 파악한다면 정량화된 매출액 수치 등을 추정해 볼 수 있습니다.
바로 이 역할이 통계의 역할입니다.




그렇다면 실제 GIS와 통계를 이용하여 의미있는 분석결과를 도출한 야쿠르트 사례를 살펴보도록 하겠습니다.
야쿠르트 사례는 (주)GIS United의 GIS 분석가들이 참여하여 수행한 프로젝트입니다.


야쿠르트가 판매하는 제품은 아래와 같습니다. 아래는 대표적인 제품만 나타낸 것입니다.

 sample  sample  sample  sample  sample  sample sample 
 

전세계에세 유일한 야쿠르트만의 판매방식(야쿠르트 아줌마들에 의한 방판 판매)이 있습니다.
아실지 모르겠지만 야쿠르트 제품은 수퍼나 마트에서는 판매하지 않고 오로지 친숙한 야쿠르트 아줌마에의해서만 판매됩니다.
이를 방판판매라고 하는데 이러한 판매방식은 전 세계적으로 사례를 찾아보기 어렵습니다.

그리고 재밌는건 야쿠르트 아줌마들은 자신들만의 고유영역이 존재합니다.
이 고유 영역을 야쿠르트 아줌마들끼리 침범하지 않고 판매를 하고 있는 것이죠...

이 영역은 야쿠르트 본사가 아줌마들에게 일정 수익을 보장하는 차원에서 할당해준 영역이라 생각하시면 됩니다.

가령 어떤 야쿠르트 아줌마가 아직은 영업이 서툴러서 수익을 많이 내지 못한다면 돈이 잘벌리는 영역을 조금더 떼내서 그 아줌마 영역으로 편입시켜주고 일정 수준의 매출을 보장해줍니다.
국내 대형 편의점 본사가 편의점 점주의 판매권을 전혀 보장해주지 않고 동일 지역에 여러 개의 편의점을 오픈시켜주는 것에 비하면 야쿠르트는 참 인간적입니다. ^^

야쿠르트는 야쿠르트 아줌마들이 모두 동일한 급여를 받을 수 있게 배려를 해주는 방식으로 영역을 관리하고 있습니다.
달리 말하면 매출 평준화 정책을 사용하고 있다는 것이죠...

그런데 야쿠르트 본사에서는 궁금한게 있습니다.

매출과 해당지역 내 특징(아파트, 인구, 직장인수, 상가 등)간 상관관계가 있지 않을까?


위 질문에 대한 답을 찾기 위해 "GIS + 통계분석" 작업을 수행한 것입니다.


그렇다면 실제 분석 단계별로 살펴보도록 하겠습니다. 지역은 영등포 지역을 위주로 살펴보겠습니다.




1 단계 : 야쿠르트 영역을 구축하고 해당 영역내 인문사회정보(인구, 아파트, 상가수, 직장인수 등)를 매핑하여 통계분석

1) 종이지도에 그려져 있는 야쿠르트 영역을 디지타이징 작업을 통하여 GIS데이터화 한 그림입니다. (여의도, 영등포 지역)
bizgis.gif|C

2) 상가, 인구, 아파트 등의 데이터를 위 영역에 공간연산과정을 통하여 붙였습니다. 아래는 특정 영역 내 정보를 조회한 화면이구요... 아래와 같은 정보가 야쿠르트 영역에 새롭게 추가됐다고 보시면 됩니다.
   apt_hous: 아파트 새대수
   hous_20u: 20평 미만 아파트 세대수
   hous_20: 20평 미만 아파트 세대수
   ...
  
  이런식의 데이터 입니다.
bizgis.gif|C

3) 운이 좋은 경우 기존의 영역에다가 GIS 정보를 붙이는 것만으로 통계적으로 의미있는 결과가 나오기도 합니다.
    이 경우 GIS분석은 그다지 중요하지가 않습니다. 오히려 통계분석능력이 중요합니다. ^^

 아래 그림은 SPSS라는 툴을 이용하여 데이터를 로드한 화면입니다. 매출액과의 상관관계를 살펴보기 위해 상가개수, 학생수, 교직원수, 버스정류장수 등의 데이터를 로드한 걸 알수 있습니다.

bizgis.gif|C


4) 분석을 수행하고 상관관계를 살펴봤습니다. 아래 그림이 결과화면입니다.

Pearson Correlation(피어슨 상관계수) 값이 최소한 0.6 이상은 되어야 상관관계가 있다고 할 수 있습니다.
하지만 위 경우 0.1보다 높은 값이 하나도 없습니다.
다시 말하면 상관관계가 없다고 나타난 것입니다.

보통의 경우 이 과정까지만 진행하는 것도 쉽지 않습니다. 데이터 구축작업 등이 상당하니까요...
때문에 이 정도의 분석과정을 거친 후 상관관계가 나오지 않으면 "상관관계 없음"이라는 결론을 내려버립니다.


그렇다면 여기서 끝이냐? 아닙니다. 이제 GIS가 본격적으로 결합되어야 합니다. 이제부터가 진정 "GIS+통계"가 위력을 발휘할 때인것이죠... ^^
그럼 2단계 과정으로 넘어가 보겠습니다.


2 단계 : GIS를 이용한 현황파악과 새로운 변수 생성, 그리고 이를 이용한 GIS + 통계분석

1) '분명히 지리적인 연관성이 있을 텐데...'하는 생각으로 가지고 GIS를 이용하여 다르게 접근해봤습니다. 영역별 매출액을 가지고 밀도를 그려보는 것입니다. 밀도를 그리기 위해서는 영역을 포인트로 바꿔야 합니다. 이거 간단하죠... ^^ 폴리곤의 중심점을 포인트로 생성하는 것입니다. 아래 그림입니다.

bizgis.gif|C

그리고 매출액 밀도를 그렸습니다. 아래 그림입니다.
bizgis.gif|C



매출액 밀도와 상관없이 인구, 상가, 직장인 밀도를 그렸습니다. (아래 그림들)

<아래 그림은 인구밀도>
bizgis.gif|C 

<아래 그림은 상가밀도>
bizgis.gif|C 

<아래 그림은 직장밀도>
bizgis.gif|C


이렇게 그려보고 나니 직장인 밀도에 가중값을 많이 주고 상가밀도에 가장값을 좀주고 인구밀도에는 가중값을 안주면 매출 밀도와 유사해지겠다는 느낌이 들어 래스터 연산을 했습니다.

"직장인밀도*3 + 상가밀도*2 + 인구밀도*1" <- 이런 식을 사용하여

<아래그림 보세요. 그 결과 입니다.>

bizgis.gif|C

매출밀도와 상당히 유사하게 나옵니다.
다른 밀도와도 이리저리 돌려봤는데 이 조합이 가장 좋군요

두 개를 나란히 비교하면 아래와 같습니다. (왼쪽 "매출밀도", 오른쪽 "직장인밀도*3 + 상가밀도*2 + 인구밀도*1")

bizgis.gif|C     bizgis.gif|C

지도를 이용하여 이 정도의 유사성을 확인하였습니다.
그렇다면 통계적으로도 의미있는 결과가 나와야 하는 건 당연합니다.
하지만 이게 잘 안됩니다 ^^

이제 통계분석에 필요한 형태로... 단 지리적인 인접성을 최대한 반영하는 방식으로 변수를 추출하여 통계분석을 실시해보겠습니다.


매출액 대신 매출밀도를 목표변수로 사용했습니다.
이유를 설명 드리기는 좀 복잡한데...
야쿠르트 영역은 평준화 정책으로 이뤄진 영역입니다. 때문에 이러한 조건에서 통계적인 방법만으로 의미 있는 결과를 찾기는 힘들 것입니다.
목표변수의 수치가 진폭이 있어야 할 텐데 평준화 정책을 이용했기 때문에 그 진폭이 미미합니다.

때문에 영역의 매출액을 목표변수로하여서는 의미있는 결과가 나올 수 없습니다.
그렇다면 생각해 볼 수 있는 건...

이러한 평준화 정책을 뛰어넘을 수 있는 목표변수를 만드는 것이 중요합니다.
그에 대한 방안으로 매출액 밀도를 그리고 이 밀도 값을 지수화하여 목표변수로 활용하는 것입니다.

특정지역의 야쿠르트 판매량이 많을 수록 매출은 늘어날 것이며, 이 경우 평준화 정책을 쓰는 야쿠르트에서는 이 지역을 분할할 것입니다.
이 경우 하나의 폴리곤이 분할됐기 때문에 각 폴리곤의 중심점의 거리는 가까울 것입니다.
이러한 점데이터를 이용하여 밀도를 그리면 매출액이 동일하더라도 영역이 밀집한 지역의 경우 밀도가 높게 나타날 것입니다.

바로 이러한 밀도의 특징을 이용하여 새로운 목표변수를 생성하는 것입니다.

그럼 새로운 목표변수를 이용하여 통계분석한 결과를 보겠습니다.

Correlations
  매출총계
KT 상가 개수 Pearson Correlation 0.015
Sig. (2-tailed) 0.846
N 161
학생수 Pearson Correlation -.165(**)
Sig. (2-tailed) 0.000
N 451
교직원수 Pearson Correlation -.144(**)
Sig. (2-tailed) 0.002
N 451
버스정류장 Pearson Correlation 0.007
Sig. (2-tailed) 0.875
N 451
버스노선 Pearson Correlation 0.045
Sig. (2-tailed) 0.343
N 451
H종업원수 Pearson Correlation .199(**)
Sig. (2-tailed) 0.000
N 451
apt_hous Pearson Correlation -.163(**)
Sig. (2-tailed) 0.001
N 451
hous_20u Pearson Correlation -.243(**)
Sig. (2-tailed) 0.000
N 451
hous_20 Pearson Correlation -.106(*)
Sig. (2-tailed) 0.024
N 451
hous_30 Pearson Correlation -0.024
Sig. (2-tailed) 0.616
N 451
hous_40 Pearson Correlation 0.059
Sig. (2-tailed) 0.210
N 451
hous_50 Pearson Correlation .163(**)
Sig. (2-tailed) 0.001
N 451
인구 Pearson Correlation -.229(**)
Sig. (2-tailed) 0.000
N 451
매출총계 Pearson Correlation 1
Sig. (2-tailed)  
N 451
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).


상당히 높게 나타났습니다. ^^
그럼 필 받은 김에 다른 형태로 분석을 해보도록하겠습니다.


3 단계 : GIS를 클러스터 기법을 이용한 GIS + 통계분석

1) 2단계 과정에서 통계적으로 의미있게 나온 방법을 가만히 들어다 보면 평준화 정책을 쓰고 있는 야쿠르트 영역의 한계를 뛰어넘어야 한다는 것을 알수 있습니다.

디테일하게 드려다 보지 말고 조금 멀리서 바라봤습니다.

야쿠르트가 나눈 영역에 매몰되지 않고 영역을 나누기 전으로 생각을 돌렸습니다.

여의도만 보면 현재는 영역이 45개이지만 최초 야쿠르트가 방판 사업을 처음 시작했을 때는 아마도 3개나 5개 정도의 영역으로 시작하지 않았을까요?
현재 영업이 잘돼서 이 3개나 5개 정도의 영역이 45개로 나눠져 있지만 이 영역을 다시 3~5개로 병합한다면 뭔가 통계적인 의미가 있지 않을까요?


이런 생각이 들어 야쿠르트 영역을 클러스터(?)링 해봤습니다. 쉽게 얘기하면 가까이 접해있으면서 성질이 비슷한 녀석끼리는 동일한 특성을 가질 확률이 높으니 하나로 합치는 작업입니다.

그래서 기존 451개 영역을 161개로 만들었습니다.
그 방법은 가깝다고 무조건 합치는 방식이 아니고 "경계를 공유하면서 세부입지분류가 동일한 경우" 하나의 영역으로 묶었습니다.

그림으로 보면 다음과 같구요...  영역이 합쳐진걸 알 수 있겠죠?
bizgis.gif|C

이 영역을 기반으로 다시 통계분석 작업을 수행했습니다.
결과는 아래표입니다. 상관관계가 잘 나옵니다.
bizgis.gif|C


2단계 과정은 매출액이 아닌 매출액 지수를 이용하여 의미있는 통계 분석 결과를 도출한 것이고 3단계 과정은 실제 매출액을 가지고 의미있는 통계 분석결과를 도출한 것입니다.
이 결과를 도출하기 위해서는 GIS만으로도 불가능하고 통계만으로도 불가능합니다.
반드시 GIS + 통계가 유기적으로 결합하여야 가능합니다.

위 분석에서 좀더 발전하면 회귀분석이 가능합니다.
회귀분석을 통하여 회귀식이 나온다면 야쿠르트는 전국에 임의의 영역을 그리는 것만으로 그 지역의 추정 매출액을 파악할 수가 있습니다.

이러한 GIS와 통계를 통한 예측은 정량적이기 때문에 야쿠르트의 향후 비젼을 수립할 때 구체적인 근거로 활용이 가능할 것입니다.

GIS라는 녀석 참 매력있습니다. 그리고 통계도 매력있구요.... ^^

Correlations
  매출액지수
세대수지수 Pearson Correlation .710(**)
Sig. (2-tailed) 0.000
N 307
상가지수 Pearson Correlation .889(**)
Sig. (2-tailed) 0.000
N 307
직장인지수 Pearson Correlation .789(**)
Sig. (2-tailed) 0.000
N 307
토탈지수 Pearson Correlation .970(**)
Sig. (2-tailed) 0.000
N 307
매출액지수 Pearson Correlation 1
Sig. (2-tailed)  
N 307
**. Correlation is significant at the 0.01 level (2-tailed).
profile

안녕하세요.

biz-gis.com 운영자입니다.

즐거운 커뮤니티 형성을 위해 노력하겠습니다.