03

2008-Apr

[re] Spatial Statistics part1.공간적자기상관이란..

작성자: 이형민 IP ADRESS: *.132.241.41 조회 수: 22916

2. 공간통계의 경우 지리적으로 인접한 지역의 변수들은 선형관계가 있을 수 밖에 없기 때문에 기존의 선형적인 방법론으론 한계가 있다고 했는데... 구체적으로 어떠한 한계인지를...(저 같은 경우 기존 통계 분석 방법론으로 분석을 하되 지리적인 특성이 반영 될 수 있는 지리적인 변수를 만들어서 분석을 합니다. 이 경우 글에서 지적하는 한계를 극복하고 있는 것인지요?)

전통적인 OLS 분석은 공간상관성(spatial correlation), 공간의존성 (spatial dependence), 또는 공간이질성(spatial heterogeneity) 등 공간영향의 존재에 관한 가정은 갖고 있지 못하다. 이처럼 공간에 의한 영향을 통제하지 못하는 모델은 오지정(misspecification)의 문제를 갖게 되고, 추정량은 더 이상 최적선형불편 추정량(BLUE)이 되지 못하며, 잘못된 통계적 추정(statistical inference)에 도달할 위험성이 있다(Griffith and Layne, 1999).

공간의 영향이 존재하는 경우 평균과 표준편차는 충분성을 갖는 통계량(sufficient statistics)이 아니다. 비록 공간준거 데이터(geo-referenced data)의 회귀분석에서 얻은 회귀계수는 비편향적(unbiased)일 수 있지만, 분산과 상관계수는 편향적이다.  Cordy와 Griffith(1993)에 의하면, 회귀오차가 공간상에서 자기상관을 갖는 경우 OLS 회귀계수의 추정량은 비편향적이지만 분산은 심각한 편향성을 갖는다.

OLS의 가장 커다란 문제점은 공간자기상관의 존재하는 경우 표준오차 추정량(standard error estimator)이 과소추정(underestimation)되는 경향이다(Griffith, 1996: 6).  결국 관측개체 (observations)의 지리적 배열구조(geographic arrangement)나 공간의존성의 정보가 모델에 반영되지 못하면 회귀계수는 비록 비편향적이지만 더 이상 효율적이지 못한(inefficient) 추정량이 된다. 따라서 회귀계수의 통계적 유의성 검증(significance test) 및 예측오차(prediction error) 등의 정확성을 신뢰할 수 없게 된다.
공간계량분석에서 일치성(consistency)에 관한 논의는 상대적으로 미약하다.  Mardia와 Marshall (1984)은 하나의 지도에서 얻어진 공간준거 데이터들의 추정량에 대한 일치성은 상대적으로 취약함을 보여주고 있다. 전통적인 추정량은 지리적 공간의 크기를 무제한으로 증가시킨다면 통계적인 일치성을 보인다.  그러나 고정된 공간단위를 준거로 하는 즉, 하나의 지도에서 반복하여 추출된 공간준거 데이터에 대한 일반적인 추정량은 비일치성을 갖는 경향이 있다(Griffith, 1996: 7).

요약한다면, 최소제곱법은 관측개체나 오류항의 독립성을 가정하고 있지만, 공간을 준거로 하는 데이터들은 공간의존성을 갖고 있어, 전통적 선형분석을 통해 얻은 추정들은 최적선형불편 추정량이 되지 못한다. 특히 표준오차가 과소추정 되어 변수들의 유의성 검증을 신뢰할 수 없게 된다. 따라서 공간준거 데이터들의 이러한 속성을 고려하지 못하고 선형분석을 통해 얻은  많은 실증연구의 타당성에 의문을 제기해 볼 필요가 있다.

위와 같은 한계점이 있다고 합니다.

일반적인 OLS의 기본 가정들은 다음과 같다:
1) 회귀모델의 회귀계수(coefficient)와 오차항(error term)은 선형이어야 한다.
2) 오차항의 기대값은 0이어야 한다.
3) 독립변수는 오차항과 선형독립(linearly independent)여야 한다.
4) 오차항은 자기상관(serial autocorrelation)이 없어야 하고 동분산성 (homoskedasticity)을 지녀야 한다.
5) 독립변수간의 다중공선성(multicollinearity)을 갖지 말아야 한다.

여기서 회귀분석이란..

"소득이 증가하면 저축도 증가할 것이다."라는 가설에서 소득의 증가는 경제전체적으로 볼 때, 보편적인 사항이지 어떤 특정 집단의 소득 증가가 아닙니다.
그런데 보편적인 사항의 자료를 수집하는 것은 시간과 비용의 문제로 인하여 현실적으로는 불가능합니다.

그래서 샘플링(sampling)을 하는 것입니다. 즉 표본의 개념이 있는 것입니다. 굳이 경제현상을 보편적인 우주적인 현상으로 규정하지 않더라도 어떤 집단의 특성을 조사할때 모든 것을 조사하는 것이 불가능할 때 우리는 샘플링을 합니다.

그 표본치들의 실제측정값(X1,Y1),(X2,Y2),.......(Xn,Yn)은 여러가지가 있을테지만 그것들은 어떤 규칙성이나 변수간의 상관관계를 갖을 것이며, 그것을 일반화 한것이 회귀분석의 기본개념입니다.

그래프로 모든 실제측정값을 찍어보면 어떤 가상의 선으로 회귀할텐데 그 추정치들의 조합들을 선으로 연결하면 소득이라는 엑스축과 저축이라는 와이축간에 어떤 선을 추정하여 그릴수 있습니다.

일반적으로 통계패키지를 이용하여 회귀분석을 하게 되면 단순선형회귀모형의 일반식

Y= B0 + B1X + U

여기서 U 는 관측도지 않고 Y값에 영향을 주는 오차항을 뜻합니다.
똑같은 소득인데도 어떤 사람은 저축이 많고 어떤 사람은 저축이 적고 하는 이유를 모두 오차항이라 할 수 있겠습니다.
이 오차가 없다면 어떤 함수관계가 주어지고 자료가 그에 맞게 정확하게 딱딱 떨어져야 한다는 현실적이지 않은 일이 벌어집니다.
회귀분석이 아니고 방정식 풀이에 불과 한 것이겠죠

정말 중요한 것은 회귀분석에서 이 오차항은 독립변수 x와 전혀 상관관계가 없다는 것입니다. 영조건부평균가정으로 인해서 버젓이 OLS추정을 할 수 있는 것입니다. 둘이 상관이 있다면 수학적으로나 통계적으로나 모든것이 엉망이 되고 OLS추정이 불가능해집니다.

참고문헌, 네이버지식인 참조, 기타등등해서 정리해 봤습니다.

제 생각으로는 공간데이터는 공간객체의 고유의 특성뿐만아니라, 지리적인속성도 가지고 있기 때문에 일반적인 통계기법을 이용한 분석에는 유의성 검증(significance test) 및 예측오차(prediction error) 등의 문제로 적용하기가 힘들다  정도로 이해가 되네요..

* 김한국님에 의해서 게시물 이동되었습니다 (2008-04-03 23:20)
List of Articles
번호 제목 글쓴이 날짜 조회 수
28 SOM을 이용한 환경분석결과 - 아래 GeoSOM과의 연계성을 검토할 수 있겠네요. file + 4 정광석 2008-11-06 25234
27 GeoSOM과 Geo3DSOM - 공간자료의 비선형적 처리와 그룹화 file 정광석 2008-11-06 21574
26 공간자기상관 이해를 위한 참고문헌 file + 3 aienkien 2008-04-23 26980
25 공간통계 1 - 공간자기상관의 해석 file + 8 김한국 2008-04-06 32518
24 GIS 공간패턴(통계 분석) 논문~ file + 1 김한국 2008-04-03 28489
23 Spatial Statistics part2.공간적자기상관의 가시화(ArcGIS Tools toolbox이용) + 2 이형민 2008-04-02 28649
22 Spatial Statistics part1.공간적자기상관이란.. + 6 이형민 2008-04-02 27921
21 [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 24690
» [re] Spatial Statistics part1.공간적자기상관이란.. 이형민 2008-04-03 22916
19 래스터 파일 value 값의 형태(실수, 정수)에 따른 의미 + 3 김한국 2008-01-04 15646
18 Tin 제작시 hard and soft breaklines 차이... 김한국 2007-12-21 15913
17 [환경]환경기초시설의 설치시 GIS의 활용 + 1 이형민 2007-10-15 12828
16 DEM을 활용한 유역 생성(홍수, 수리수문 관련 분석에 기초적으로 활용되는 알고리즘) + 17 김한국 2007-10-14 30748
15 지하철 노선을 이용한 지하철 이동영역 추출하기(차량이동거리 알고리즘 응용) + 4 김한국 2007-01-03 16716
14 교통량 파악을 어떻게 정량적으로 할 수 있을까?.. file + 4 김한국 2006-12-13 14735
13 GIS 보간방법 (IDW(Inverse Distance Weighted), Kriging) file + 2 김한국 2006-12-08 40363
12 아파트 상승률 분석결과 비교 IDW(Inverse Distance Weighted) Kriging + 2 김한국 2007-11-21 14650
11 그림파일을 ArcGIS에 shp파일에 겹쳐 보기 김한국 2006-07-27 20052
10 <좌표변환> TM -> 경위도 김한국 2006-07-27 24718
9 DXF 파일에서 특정 레이터를 추출하여 shp로 저장하기..... file + 2 김한국 2006-07-27 16299