02

2008-Apr

Spatial Statistics part1.공간적자기상관이란..

작성자: 이형민 IP ADRESS: *.132.241.41 조회 수: 27921

   
공간데이터(Spatial data)들은 순수한 자신만의 정보를 가지고 있을 뿐만 아니라, 지리적(geographical space)에 관한 정보를 함께 포함하고 있다.
이러한 공간데이터를 분석하기 위하여 기존의 많은 선형모델들을 적용하여 해석하려고 했으나, ‘공간’이라는 요인을 고려하지 못하여 의미있는 분석결과를 도출하지 못하였다.

Doreian(1981)에 따르면 “변수들이 무작위적이고 오류항이 독립적이며 동일한 분포를 갖는 다는 가정을 하는 전통적인 선형분석 방법들로 공간준거 데이터(spatially-referenced data)를 분석할 경우 많은 사회경제현상, 인구현상 및 자연현상(natural phenomena)이 공간상에서 나타나는 특성인 의존성(spatial dependence) 및 상호작용(spatial interaction)을 통제하지 못한다.”고 하였다.

Tober의 지리의 제1법칙(the first law of geography) - Everything is realted everything else, but near things are more related than distant things. 에서와 같이 공간상의 객체들은 공간상에 무작위(random)하게 있지 않고 서로간에 영향을 주고받으며 존재한다고 할 수 있다.

이와 같이 지리적 공간상에서 공간객체간의 상호의존성과 상호작용을 공간적자기상관(spatial autocorrelation)이라고 할 수 있다.

Anselin and Bera(1998)는 “공간상에 분포하는 공간객체들은 위치의 유사성이 높아짐에 따라 객체들이 갖는 값의 유사성도 높아가는 현상”이라고 정의하기도 하였다.

공간적자기상관에는 '정적 공간자기상관(positive spatial autocorrelation)'과 '부적 공간자기상관(negative spatial autocorrelation)'이 있다. 정적 공간자기상관은 공간실체들이 서로 유사한 값을 갖으며 군집적으로 분포하는 경우이며, 반대로 부적 공간자기상관은 공간실체들이 서로 상이한 값들을 갖으며 군집적으로 분포하는 경우이다(Lee and Wong, 2001).

공간자기상관의 원인은 공간실체들의 상호작용(spatial interaction)이다. 공간상의 상호작용은 정보 및 기술의 확산 (information or technology diffusion) 등으로 나타나기도 하며, 공간 간의 위계구조(spatial hierarchies)도 낳기도 한다. 결과적으로 이러한 공간과정(spatial processes)을 통해 공간 위의 한 장소에서 발생하는 현상이 다른 장소에서의 현상을 결정하게 된다.

공간객체들은 상호의존성을 갖기도 하지만 이질성(spatial heterogeneity)을 갖기도 한다. 이는 중심지와 배후지의 존재, 선도 및 낙후지역(leading and lagging regions)의 존재 등이 공간의 이질성의 그 대표적인 사례이다.

※ 위의 내용은 경희대학교 행정학과 김광구님의 글에서 일부분을 발췌 하였습니다.
※ 글 작성자에 의하여 편집 및 내용을 첨가 하였습니다.
 

* 김한국님에 의해서 게시물 이동되었습니다 (2008-04-03 23:20)
profile

김한국

2008.04.02 16:19
*.129.59.223
저도 며칠 전에 인터넷에서 찾아서 읽은 내용인데...
통계에 대한 지식이 많지 않으니 이해하는데 어려움이 많습니다.
시간이 좀 있으시면 아래 부분에 대한 내용도 속시원히 정리 부탁해도 될런지요?

1. 통계하는 사람들은 글을 너무 어렵게 기술하는 경향이 많음. 쉽게 정리해주시면...^^
2. 공간통계의 경우 지리적으로 인접한 지역의 변수들은 선형관계가 있을 수 밖에 없기 때문에 기존의 선형적인 방법론으론 한계가 있다고 했는데... 구체적으로 어떠한 한계인지를...(저 같은 경우 기존 통계 분석 방법론으로 분석을 하되 지리적인 특성이 반영 될 수 있는 지리적인 변수를 만들어서 분석을 합니다. 이 경우 글에서 지적하는 한계를 극복하고 있는 것인지요?)

좀 알면 더 많은 내용을 질문하겠지만... ^^
우선은 당장 궁금한 것만 젂어 봤습니다.
GIS+통계의 연결고리를 찾아야 하는데 아직까진 갈길이 멀군요...
요사이 한가하실터이니 정리 부탁합니다. ^^
profile

이형민

2008.04.02 17:05
*.132.241.41
^^;
profile

정광석

2008.04.03 10:28
*.125.94.87
좋은 글 정리해 주셨네요. 공간자기상관이라는 것을 논문에서 몇 번 봤는데, 이제야 조금씩 정리가 되는 듯 합니다. 두가지 질문이 있어서, 제가 이해하는 것이 맞는지, 그리고 제 상황에서 이런 것을 어떻게 적용할 수 있는지 여쭙고자 적어봅니다.

첫번째 질문입니다. 일반적으로 통계에서는 자기상관 (autocorrelation)이라고 하면 하나의 변수가 시간적으로 연속되게 조사되었을 때, 각 시간대별 자료간에 상관성이 있는지를 보는 것입니다. 예를 들어, 주가 예측의 경우 오늘의 코스피 지수는 어제 혹은 그 이전 날자 코스피 지수에 영향을 받을 수 있다 (대립 가설의 내용입니다) 형식으로 평가할 때 사용하는 방법이죠. 그래서 AR 혹은 MA 등의 방법을 연합하여 평가하거나 (ARIMA 혹은 S-ARIMA 등) exponential smoothing과 같은 방법을 사용하기도 합니다.
질문은 여기서부터입니다. 조금 전에 잠깐 검색해 보니 Moran's I나 Geary's C값의 식을 보면 모두 하나의 변수 (x)에 대해서 정리되어 있더군요. 즉, 하나의 공간객체 (영역이라고 생각됩니다) 안에 있는 특정 정보간의 관계를 보는 것이라고 생각되네요. 다음 예가 정확한지 모르겠지만, 상계1동 부지 (하나의 공간객체) 내에 있는 중학생 수의 분포는 서로간에 관계가 있다 없다를 평가할 때 이런 방법을 쓰는 것 같은데… 과연 맞는지요?
이 질문을 드리는 이유는, 형민님께서 정리해 놓으신 윗글에서 '공간객체간의 상호의존성'아라는 용어가 있는데, 말 그대로 해석하면 두 개 이상의 변수간의 상관성을 의미한다고 보입니다. 일반적인 자기상관의 의미는 위에서 언급하였고, 보통 두 변수간의 시간적 관계는 통계에서는 교차상관 (cross correlation)을 보거나 웨이블릿의 coherence를 이용하기도 하거든요. 하지만 Moran’s I 값에서는 하나의 변수만을 취하고 있기에, 아마도 하나의 객체 안에 존재하고 있는 특정 요소의 값들 간의 상관성을 보는 데에 공간자기상관이라는 용어를 사용하는 듯 하네요. 지리정보 역시 시계열적으로 구축할 수는 있겠지만 실상 시계열 자료를 매년 반복적으로 구축하는 것도 매우 어려운 일이라고 생각됩니다. 그래서 공간자기상관에서는 시계열 관계가 아닌 특정 공간내의 동일요소간의 관계라고 이해하면 되는지요.

두번째 질문은, 제 전공이 생태학이다 보니 여기저기 서로 다른 조사지점에서 측정된 다양한 값들간의 관계를 파악하는 작업을 많이 합니다. 우선, 지리지형적 관계에 의한 것은 아니지만 조사영역을 여러 개의 소구역으로 나누어 두었습니다. 그리고 거의 동일 시점에 고니의 개체수가 조사되었다고 가정합니다. 개제수간 관계는 제 경우에는 특정 소구역에 개체수가 많이 모이고 다른 곳에는 적게 모이는, 즉 clustered된 형태의 분포를 보이는 것을 통계적으로 평가하고, 왜 이렇게 군집화되어서 나타나는지를 파악하는 것이 최종 목적입니다. 그렇다면 각 소구역 내에 존재하는 고니의 개체수간의 관계를 공간자기상관으로 평가할 수 있는지요? 개체군의 분포가 군집화되었는가 랜덤하게 분포하는가는 생태학 쪽에서도 통계적인 접근 방법이 몇 가지 구축되어 있습니다만, GIS를 활용한 방법에 상당히 관심이 있어서 여쭙습니다.

글이 너무 길어졌네요. 사실 이런 내용을 질문방에 올릴까 하고 있었는데 마침 형민님께서 좋은 글을 올려주셨기에 몇자 적어 여쭙습니다.

감사합니다.
profile

김한국

2008.04.03 12:09
*.181.253.30
정광석님이 제가 하고 싶은 질문을 해주셨군요...
질문도 알아야 하는 거지요... ^^
우선 전 정광석님께서 질문하신 첫번째 것...

저는 GIS 기반에서 이해를 해서 공간적자기상관이라는 말을 이렇게 이해했습니다.
일반통계: 시계열자료의 처럼 연속적인 측정값이 있을 때...
지리통계: 점데이터의 경우 연속적인 특성을 가지는 경우가 많습니다. 예를 들어 강남구의 특정지역에 거주하는 사람의 소득수준은 바로 옆에 있는 사람과 유사한 소득수준을 가질 확율이 높은 것이죠. 그렇다면 이마트에서 A라는 물건을 구매한 사람들이 많이 거주하는 지역의 거주자 중 A라는 물건을 구매하지 않은 사람에게 구매를 하게 만드는 것이 GIS 마케팅의 기본입니다.

지금까지 제가 이해한 공간적자기상관은 이런 의미인데 맞는지요? ^^

그리고 정광석님께서 질문하신 두번째 질문으로 똑같이 넘어갑니다.
저 또한 한 사람 단위로 분석하지 않고 지역적인 클러스터형태로 사람들의 특성을 취합하여(합하거나 평균내거나) 분석을 실시합니다. 이 경우 지리통계적인 방법이 당연히 있을 거라 생각됩니다.

하지만 실제 통계분석을 실시하면 잘 안나옵니다.
문제는 대부분의 지역에서는 공간적자기상관의 특징이 잘 나타나지만 특정지역에서는 전혀 엉뚱하게 특징이 관찰됩니다. 여기에는 해당 지역만의 지리적인 특징이 존재하기 때문에 변수화하여 반영하기도 난감합니다.

(지금까지 이곳저곳에서 문서를 읽고 이해한바로는...)이 경우 Moran’s I와 같은 값을 이용하여 구분을 할 수 있는데...

이 구분을 통하여 공간적으로 튀는 지역을 제외하고 통계적인 분석을 한다고 하면 문제가 있을까요?


많은 논문들을 뒤져봐도 통계를 모르는 사람입장에서는 답답함이 해소가 되질 않습니다.(대학원 공간통계 수업 때 잘 들을 것 그랬습니다. ㅜㅜ)

논문이나 기타 웹문서에는 Moran’s I의 의미는 설명하는데 이 것을 어떻게 응용하여 분석하는지에 대한 이야기가 없습니다.

글 젂어 놓고 보니까 이게 질문인지... ^^

다니는 회사에서도 이 부분에 대해서 정리를 하고 있는 중입니다.
저도 좋은 자료(실질적으로 분석에 도움이 되는 방식의 자료) 만들어지면 공유하도록 하겠습니다.
정광석님도 좋은 자료 있으면 공유 부탁합니다.^^
profile

정광석

2008.04.03 12:40
*.125.94.87
공간정보를 활용한 것은 아니지만 다지점에서 측정된 자료를 정량적으로 평가하는 방법이 많이 있습니다. 그 중에서 제가 가장 즐겨쓰는 것은 SOM (Self-Organizing Map)이라는 것인데... 우리가 생각하는 지도가 아니라 바둑판 위에 바둑돌을 뿌려두면 돌들이 저희들끼리 뭉쳐져서 그룹화되는 것과 같은 알고리즘입니다. 다지점에 대해 적용한 결과를 투고한 논문이 아직 in press 상태라서 결과를 지금 보여드리긴 힘들구요. 다지점 적용 결과는 Ecological Modelling이라는 저널 (Elsevier에서 출간됩니다)에 들어가셔서 Tae-Soo Chon (부산대학교) 혹은 Sovan Lek (프랑스 Universite Paul Sabatier)이라는 이름으로 검색해보시면 많이 보실 수 있을 겁니다. 그리고 아직까지 GIS와 SOM의 연동은 본 적이 없지만, 충분히 가능성은 있다고 여겨집니다. 혹시 이 방법에 대해서 궁금하시다면 연락 주시기 바랍니다.
profile

정광석

2008.04.03 12:42
*.125.94.87
빠뜨린 것이 있네요.. 위 저널은 www.sciencedirect.com에 접속하셔서 저널 검색으로 ecological modelling을 치시면 나옵니다. 단, 계시는 회사 혹은 김한국님께서 위 저널을 구독하시는 중이어야 원문을 보실 수 있구요. 아니면 scholar.google.com에서 위에 적어둔 교수님들의 성함을 적으시면 그분들의 연구 업적이 검색되어 나옵니다. 거기서 보셔도 되겠습니다. 이쪽도 구독 여부를 따질 수 있습니다.
List of Articles
번호 제목 글쓴이 날짜 조회 수
28 SOM을 이용한 환경분석결과 - 아래 GeoSOM과의 연계성을 검토할 수 있겠네요. file + 4 정광석 2008-11-06 25234
27 GeoSOM과 Geo3DSOM - 공간자료의 비선형적 처리와 그룹화 file 정광석 2008-11-06 21574
26 공간자기상관 이해를 위한 참고문헌 file + 3 aienkien 2008-04-23 26980
25 공간통계 1 - 공간자기상관의 해석 file + 8 김한국 2008-04-06 32518
24 GIS 공간패턴(통계 분석) 논문~ file + 1 김한국 2008-04-03 28489
23 Spatial Statistics part2.공간적자기상관의 가시화(ArcGIS Tools toolbox이용) + 2 이형민 2008-04-02 28649
» Spatial Statistics part1.공간적자기상관이란.. + 6 이형민 2008-04-02 27921
21 [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 24690
20 [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 22916
19 래스터 파일 value 값의 형태(실수, 정수)에 따른 의미 + 3 김한국 2008-01-04 15646
18 Tin 제작시 hard and soft breaklines 차이... 김한국 2007-12-21 15913
17 [환경]환경기초시설의 설치시 GIS의 활용 + 1 이형민 2007-10-15 12828
16 DEM을 활용한 유역 생성(홍수, 수리수문 관련 분석에 기초적으로 활용되는 알고리즘) + 17 김한국 2007-10-14 30748
15 지하철 노선을 이용한 지하철 이동영역 추출하기(차량이동거리 알고리즘 응용) + 4 김한국 2007-01-03 16716
14 교통량 파악을 어떻게 정량적으로 할 수 있을까?.. file + 4 김한국 2006-12-13 14735
13 GIS 보간방법 (IDW(Inverse Distance Weighted), Kriging) file + 2 김한국 2006-12-08 40363
12 아파트 상승률 분석결과 비교 IDW(Inverse Distance Weighted) Kriging + 2 김한국 2007-11-21 14650
11 그림파일을 ArcGIS에 shp파일에 겹쳐 보기 김한국 2006-07-27 20052
10 <좌표변환> TM -> 경위도 김한국 2006-07-27 24718
9 DXF 파일에서 특정 레이터를 추출하여 shp로 저장하기..... file + 2 김한국 2006-07-27 16299