06

2008-Apr

공간통계 1 - 공간자기상관의 해석

작성자: 김한국 IP ADRESS: *.129.59.223 조회 수: 32518

이형민님이 올려주신 글과 주신 자료를 읽으면서 제가 생각하는 방향으로 정리를 해봤습니다.

내용이 맞는지는 모르겠습니다.
우선 공간통계의 시작부분에 대한 내용입니다.
시간이 날때 나머지 부분도 정리를 해볼 생각입니다. 내용이 틀린 부분이 있으면 바로 지적해 주시기 바랍니다.

작년 7월부터 외부 프로젝트에 연달아 투입이 되어 4월초에 회사로 돌아 왔습니다.
5월부터는 다시 외부 프로젝트 일정이 있습니다.
저에게 4월이 정말 소중한(?) 시간입니다. ^^

10개월을 외부에 있다가 사무실로 돌아오니 논문 읽을 시간도 있고 좋더군요...
그러던 와중에 이형민님이 목요일 저녁에 논문하나를 줬습니다. 집으로 가는 버스 안에서 시원하게 읽었습니다.
해당 논문을 새벽 4시까지 계속 읽었습니다.(그 다음날 피곤해거 혼났습니다.)
오랬만에 공부한다는 느낌도 들고 좋더군요... ^^

대학원시절 지금 다니는 회사 이사님의 특강을 들었습니다. 오픈메이트의 GIS분석에 대한 내용이 대부분이었구요...
지금까지도 GIS 때문에 그렇게까지 가슴 뛰는 느낌은 없었습니다.

목요일날 읽은 논문은 그 때의 1/3 정도인 것 같습니다. 개인적으로는 간만에 정말 좋은 논문하나 읽은 느낌입니다.
이 자리를 빌어 다시금 이형민님께 감사드립니다. ^^

금요일, 토요일, 일요일... 이 기간동안 해당 논문을 가지고 즐거운 고민을 하였고 이제 어느정도 정리가 되어가는 느낌이 듭니다.

하여 정리를 하나씩 해볼까합니다.

우선 첨부한 논문의 첫번째 문제제기입니다.(제가 간단하게 정리해본 내용입니다.)

전통적인 일반 통계학의 회귀분석과 지리통계의 회귀분석은 분명한 차이가 있다.
가장 핵심적인 차이는 일반 통계추정은 "변수가 무작위적(독립적)이다"는 가정을 반드시 전제한다.
하지만 지리통계의 경우 공간적인 특징이 반영될 수 밖에 없기 때문에 "무작위적(독립적)이다"는 가정 자체가 성립하지를 않는다. 공간적인 특징을 무시하고 일반적인 통계추정을 실시할 경우 공간적인 특징을 미반영하여 잘못된 통계추정이 발생할 수 있다.
지금까지 이루어진 많은 통계추정연구는 이러한 공간적인 특징을 고려하지 않았다. 때문에 선행연구들의 타당성에 문제를 제기해볼 필요가 있다.


여기까지가 문제제기입니다.

그렇다면 도대체 공간적인 특징을 어떻게 확인하고 어떻게 수치화 할 수 있느냐?

바로 공간자기상관(spatial autocorrelation)이라는 특징을 정의하고 이를 계수화함으로서 가능합니다.

 

공간자기상관이라는 말뜻을 가만히 뜯어 보면...
"공간" + "자기" + "상관"으로 구분할 수 있습니다.

 

지형의 고도데이터를 예로 들면 특정지점의 고도 값은 바로 옆의 고도 값과 관련이 있습니다.
100, 101, 103, 104, 103, 102, 104.... 이렇게 말이죠...
이 현상은 고도라는 변수가 공간상에서 스스로(자기)에게 관련(상관)되어 있다라고 얘기할 수 있습니다.

너무나 당연한 얘기인지라 뭔가 대단한 해석을 원했던 제 입장에서는 조금은 힘이 빠집니다. ^^
바로 이게 공간자기상관입니다.

보통 일반통계에서는 변수들간의 관련있음을 "상관"이라고 하지만 공간자기상관은 하나의 변수가 공간적을 특징을 가지고 있을 때를 지칭하는 것으로 차이가 있습니다.


논문에서는 이 말을 이렇게 표현했습니다.

일반적인 상관계수(correlation coefficient)는 두 변수 사이에 존재하는 관계의 성격과 정도에 대한 정보를 제공한다. 그러나 공간자기상관은 두 변수간의 관계가 아닌 하나의 변수가 갖는 여러 관측개체 (observations) 또는 관측값(observation values)들 사이에서 존재하는 관계를 지칭한다는 점에서 일반적인 상관계수와는 다르다. 즉, 공간자기상관이란 "공간단위(areal units)들이 지표상에 배열되는 방식에서 기인하는 하나의 변수가 갖는 여러 값들 간의 관계"로 정의할 수 있다(Griffith 1987).

어렵군요. 전 이해하는데 시간이 많이 걸렸습니다. ^^

그러면 인문사회분야에서 공간자기상관은 왜 일어나게 될까요?

논문의 내용은 다음과 같습니다.

공간자기상관의 하나의 원인으로 언급되는 것이 바로 공간단위와 연구대상인 공간현상과의 불일치(spatial mismatch)이다. 시· 군·구 등과 같은 정치·행정구역은 주민들의 생활권 및 일상적인 경제활동권과 일치하지 않을 수 있다. 이러한 정치·행정구역을 기반으로 해서 조사·발표되는 정부의 공식 자료는 노동시장 및 주택시장 등 실제 벌어지고 있는 지역경제활동 공간과 종종 일치하지 않는다. 공간자기상관은 공간을 준거로 수집되는 데이터들이 진정한 공간정보(true spatial information)를 반영하지 못하는 경우에 발생할 수 있다

위 내용을 조금 풀어쓰면...

영역을 구분할 때 공간적인 특성을 잘 반영하는 형태로 구분하지 못한 결과로 공간자기상관이 일어납니다.
아래 그림은 거주자 밀도와 분석에 사용될 영역(검은색선) 그림입니다.

각각의 밀도 덩어리는 일종의 경제활동권역입니다. 그림의 영역은 이 경제활동권을 포함하지 못하고 분할하고 있습니다. 이 경우 하나의 경제활동권의 특성이 하나의 영역에만 반영되지 못하고 인근의 영역에 반영이 되어 공간적인 종속성을 가지게 됩니다.
논문에 이에 대한 언급도 있습니다. 아래입니다.

이러한 공간단위와 공간현상 간의 불일치(spatial mismatch)로 인해 발생하는 현상에는 관측개체가 갖는 정보가 자신의 공간단위를 넘어 누출(spillover)되는 것이다. 즉, 인접해 있는 공간단위들은 서로 유사한 관측치를 갖게 되어 중복적인(redundant) 정보를 제공하게 된다. 이러한 정보의 중복은 관측개체(observations)들의 상대적인 공간위치에 의해서 발생하며, 위치의 의존성이 높을수록 정보중복의 경향은 강해진다.


이 경우 아래 그림과 같이(밀도 덩어리는 포함하는 방식으로) 영역을 구분한다면 공간자기상관이 발생하지 않거나 덜 발생할 수 있을 것입니다.




여기서...
그렇다면 이러한 영역조정방식으로 공간자기상관이 발생하는 것을 방지하고 이 영역의 통계값을 이용하여 일반적인 통계방법으로 분석이 가능하지 않을까?

저도 먼저 이 생각을 해봤습니다.

그리고 야쿠르트 영역을 재조정하는 방식(4차선 도로를 이용하여 클러스터링 했던 방법)도 이러한 방법입니다. 아래 URL 참조.
http://www.biz-gis.com/bbs/zboard.php?id=GISessay&no=44 (3 단계 : GIS를 클러스터 기법을 이용한 GIS + 통계분석)

하지만 여기에는 많은 제한점이 따르게 됩니다.

밀도는 거주인구 밀도입니다. 그렇다면 직장인 밀도는 위 영역으로 공간자기상관이 발생하지 않을 수 있을까요? 그렇지 못할 것입니다.
때문에 분석영역을 조정하는 방식으로 회귀오차는 줄일 수 있을지 모르지만 근본적인 해결방법은 아닙니다.

그럼 이제 공간자기상관의 의미를 알았으니 이를 계수화하는 방법에 대해 알아보겠습니다.

GIS에서는 위상관계라는 말이 있습니다.
점데이터가 있는 경우 이 점데이터가 어느 폴리곤에 포함이 되어 있는지..
특정 폴리곤은 어떤 폴리곤과 접해있는지..
라인의 경우 우측에 어떤 폴리곤이 있는지, 그럼 좌측에는 어떤 폴리곤이 있는지..

이런 정보를 기본적으로 가지게 됩니다.

아래 그림을 보면 선택된 라인(하늘색)의 속성이 LeftPolygon과 RightPolygon에 인근한 폴리곤의 값들이 세팅되어 있습니다.


 이러한 기본적인 위상에 대한 특성을 GIS 툴에서는 제공합니다.

유사한 방식으로 공간자기상관의 정도를 계수화할 수 있습니다.



위 그림과 같이 인접정도에 따른 매트릭스를 이용하여 공간자기상관계수를 구합니다.

그렇다면 GIS 툴에는 그러한 기능이 어떻게 들어가 있는지 살펴 보도록 하겠습니다.
Spatial Statistics Tools -> Analyzing Patterns -> Spatial Autocorrelation (Morans I)

실행하면 다음과 같은 세팅화면이 나타나고...




여기에 원하는 공간자기상관여부를 확인하고 싶은 변수를 선택하고 실행합니다.(여기서는 매출)

참고로 Weights Matrix File을 입력하는 란이 있습니다.
확인하지는 않았지만 아마도 폴리곤의 경우 Weights Matrix를 자동으로 계산하는 것으로 판단됩니다.
위에서 설명한 매트릭스를 계산하는 것이 어려운 것도 아니고 기초적인 연산이기 때문에 툴 기능에 자동으로 연산이 되도록 기능 구현이 되어 있을 것으로 생각합니다.(이 부분은 제가 확인하고 코멘트 남기겠습니다.)
다만 포인트 데이터의 경우 인접한 정보가 없기 때문에 이런 경우에 만들어 놓은 매트릭스 정보가 있다면 입력할 수 있게 한 것으로 보입니다.


결과는 다음과 같습니다.



공간자기상관계수가 높은 편입니다.

위 방법은 전체적인 공간자기상관계수를 확인하는 방법입니다.
지역적으로 공간적인 종속성의 특징도 다를 수 있기 때문에 국지적인 특징을 봐보도록하겠습니다.

Spatial Statistics Tools -> Mapping Clusters -> Cluster and Outlier Analysis (Anselin Local Morans I)

동일하게 세팅하고 실행합니다.


결과는 다음과 같습니다. (붉은 색일수록 공간자기상관계수가 높습니다.)

위 그림이 무엇을 의미하느냐?

아래에 위 결과와 야쿠르트 영역의 매출밀도 지도를 비교해 보도록하겠습니다.
아래 우측 그림이 야쿠르트 영역의 매출밀도 지도입니다.

    

검은색원의 경우 매출액밀도는 높지만 공간자기상관계수가 낮습니다.
밀도는 높게 나타났지만 이 지역의 매출액은 전체적으로 높다고 얘기할 수 없습니다.
해석을 하자면 검은색 지역 몇개 지역의 매출액이 월등히 높아서 해당 지역의 매출밀도가 높게 나타났을 뿐이지 검은색 지역에 속하는 모든 영역이 매출액이 높은 것은 아니라는 얘기입니다.
평균 소득은 높지만 빈부격차가 많이나는 지역이라 볼 수 있습니다.

반면 붉은색원의 경우 매출액밀도도 높고 공간자기상관계수도 높습니다.
"이 지역의 높은 매출액은 이 지역의 일반적인 특징이다"~라고 해석할 수 있습니다.
평균소득도 높고 빈부격차도 없는 지역이라는 것이죠...

정리를 하면 검은색은 미국이고 붉은색은 핀란드(노르웨이)인 셈이죠... ^^

실제 분석에 밀도 분석이 가장 많이 활용됩니다. 하지만 밀도 분석이 가지는 한계도 있습니다.
(인구밀도가 높은지역은 범죄밀도도 높게 나타나고 아파트 밀도도 높게 나타나며, 교통사고 밀도도 높게 나타나는 등의 한계. 물론 이를 극복하기 위한 노하우는 분명 있지만...)

간단한 공간자기상관계수를 구하는 방식으로 밀도분석으로는 찾지 못한 결과를 한두가지 더 발견할 수 있다는 것이 뿌듯합니다.
여기까지가 오늘 우선 제가 정리해 본 내용입니다. 여기까지 제가 이해한 것을 정리한 부분이라 잘못된 부분이 있을 수 있습니다.
이 경우 반드시 코멘트를 남겨주시기 바랍니다. 통계를 정식으로 배워본적이 없는 초짜이기 때문에 반드시 반드시... 남겨주세요...
그리고 의심이 가는 부분도 올려주시구요...

공부하는 마음으로 정리하고 있으니 부족한 부분 조금씩 개선하면서 정리해보도록하겠습니다.

주중에 시간이 좀더 나면 공간회귀(Spatial regression)부분을 정리 마저해보겠습니다.
간단하게 말씀을 드리면 공간회귀나 일반통계회귀나 동일합니다.

다만 위에서 계속 얘기했던 공간자기상관이라는 특징을 어떨게 잘 반영하는지만 다를 뿐입니다.
공간자기상관이라는 특징은 통계식에 Weights Matrix를 활용하는 방법으로 간단하게 정리됩니다. (아직 안해봐서 모르겠지만... ^^)

profile

Map for your Life ~~~~~~ !

biz-gis.com 운영진입니다.

첨부
profile

김한국

2008.04.06 22:19
*.129.59.223
첨부한 파일은 이형민님이 제게 준 파일입니다. 잠 못들게 한 파일인 셈이죠... ^^
profile

이형민

2008.04.07 00:48
*.132.241.213
저와 비슷하게 생각하고 있는것 같아서 기쁨반 아님 둘다 헛다리 짚고 있을수 있다는 생각에 두려움 반입니다. ^^

1. http://www.biz-gis.com/bbs/zboard.php?id=GISessay&no=44 글에서
- 1 단계 : 야쿠르트 영역을 구축하고 해당 영역내 인문사회정보(인구, 아파트, 상가수, 직장인수 등)를 매핑하여 통계분석 단계에서 자료에 0값이 많은 것 같은데요. 이 경우, 스피어만 상관계수로 상관계수를 구해야 된다고 생각이 되는데요. 피어슨 상관계수를 사용한 이유를 알고 싶습니다.
(저도 부족한게 많아서.. ^^')

2. Global Morans'I에서 Z-score가 1.74로 90 ~ 95% 정도 우연이 아닐 수 있다고 할 수 있습니다.. 즉 Cluster 되어있으면서 비슷한 속성값을 가질 확률이 90 ~ 95% 라고 말 할 수 있겠네요.

profile

김상우.

2010.03.12 12:58
*.230.88.242

Cluster라는 것 자체가 비슷한 속성값을 가진 것 아닌가요? Cluster라는 게 유사한 기능, 속성을 가진 공간 객체들이 서로 가까운 거리에 군집되어 있는 것을 말하는 것 아닙니까.

profile

김한국

2008.04.07 14:41
*.129.59.223
아 0이 많은 경우 스피어만 상관계수로 해야 되나요? ^^
제가 잘 모릅니다. ^^
profile

이형민

2008.04.09 02:26
*.132.241.109
아닙니다. 스피어만이 맞습니다. ^^;
profile

곽한빈

2009.08.25 11:22
*.152.49.21
LEFT Polygon RIGHT Polygon 이러한 위상관계를 속성으로 입력하려면 어떻게 해야하나요? Spatial Weight를 주는 툴이 따로 있는 것인지 궁금합니다...
profile

gis러브

2010.06.24 14:46
*.233.119.1

폴리곤의 경우 Weights Matrix를 자동으로 계산되나요?

 

Weights Matrix를 생성하는 방법은요?

 

profile

hwayoung

2012.08.13 19:55
*.91.220.68

"비밀글입니다."

:
List of Articles
번호 제목 글쓴이 날짜 조회 수
28 SOM을 이용한 환경분석결과 - 아래 GeoSOM과의 연계성을 검토할 수 있겠네요. file + 4 정광석 2008-11-06 25234
27 GeoSOM과 Geo3DSOM - 공간자료의 비선형적 처리와 그룹화 file 정광석 2008-11-06 21574
26 공간자기상관 이해를 위한 참고문헌 file + 3 aienkien 2008-04-23 26980
» 공간통계 1 - 공간자기상관의 해석 file + 8 김한국 2008-04-06 32518
24 GIS 공간패턴(통계 분석) 논문~ file + 1 김한국 2008-04-03 28489
23 Spatial Statistics part2.공간적자기상관의 가시화(ArcGIS Tools toolbox이용) + 2 이형민 2008-04-02 28649
22 Spatial Statistics part1.공간적자기상관이란.. + 6 이형민 2008-04-02 27921
21 [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 24690
20 [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 22916
19 래스터 파일 value 값의 형태(실수, 정수)에 따른 의미 + 3 김한국 2008-01-04 15646
18 Tin 제작시 hard and soft breaklines 차이... 김한국 2007-12-21 15913
17 [환경]환경기초시설의 설치시 GIS의 활용 + 1 이형민 2007-10-15 12828
16 DEM을 활용한 유역 생성(홍수, 수리수문 관련 분석에 기초적으로 활용되는 알고리즘) + 17 김한국 2007-10-14 30748
15 지하철 노선을 이용한 지하철 이동영역 추출하기(차량이동거리 알고리즘 응용) + 4 김한국 2007-01-03 16716
14 교통량 파악을 어떻게 정량적으로 할 수 있을까?.. file + 4 김한국 2006-12-13 14735
13 GIS 보간방법 (IDW(Inverse Distance Weighted), Kriging) file + 2 김한국 2006-12-08 40363
12 아파트 상승률 분석결과 비교 IDW(Inverse Distance Weighted) Kriging + 2 김한국 2007-11-21 14650
11 그림파일을 ArcGIS에 shp파일에 겹쳐 보기 김한국 2006-07-27 20052
10 <좌표변환> TM -> 경위도 김한국 2006-07-27 24718
9 DXF 파일에서 특정 레이터를 추출하여 shp로 저장하기..... file + 2 김한국 2006-07-27 16299