03
2019-Dec
Quantile 분류에서 최소값은 왜 여러개 중 하나만 취급할까요?작성자: 다이라트스 IP ADRESS: *.27.63.245 조회 수: 22
Layer Properties 의 Symbology 탭에서
좌측의 Show 메뉴 중 Quantities 항목이 있는데
Value 값 (HEI_B) 을 지정한 후에 우측의 Classfication 에서 Classify 를 눌러서
(HEI_A 값과 HEI_B 값은 서로 같은데, 단지 분류를 할 때는 숫자이어야해서 HEI_A 값을 Field Calculator 를 이용하여 숫자로 변환)
Method 를 Quantitle 로 바꾸고 Classes 를 3으로 지정한 후 (상, 중, 하 3개 클래스로 분류하기 위해)
Sampling 을 모든 데이터가 포함할 수 있을만큼 충분히 값을 늘려주었습니다.
(데이터 총 수가 약 13만개인데, 기본값이 10,000 으로 너무 적게 되어있어서)
그랬더니 Break Values 가 3개 표시가 되면서 각 Break Values 의 Elements 수까지 확인해보았는데요.
(예를 들어 Break Values 중 8.000000 에 해당하는 클래스의 Elements 수는 63,717개 입니다.)
(HEI_B 라는 값은 0 부터 시작해서 40까지 2단위로 짝수만 존재하기 때문에 연속 분포는 아닙니다.)
(따라서 Elements 수가 63,717 개 라는 뜻은 HEI_B의 값이 0, 2, 4, 6, 8 인 개수를 뜻합니다.)
마찬가지로 Break Values 가 12인 클래스의 Elements 수는 44,303 개 이고
(HEI_B의 값이 10, 12인 개수가 44,303개)
Break Values 가 36인 클래스의 Elements 수는 19,301개 입니다.
(HEI_B의 값이 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38 인 개수가 19,301개)
그런데 문제는 이 분포를 위해서 사용한 HEI_B 값의 개수는 총 129,569 개 인데
위의 Elements 개수를 다 더해보면 127,321개가 나옵니다. (63,717 + 44,303 + 19,301)
총 사용한 개수인 129,569 개와 2,248개의 차이가 나더군요.
왜 그런가 살펴보던 중, HEI_B 값 중 최소값인 0의 개수가 2,249개이고
이 숫자는 총 사용된 데이터 수 - Elements 개수의 값 (2,248) 보다 1이 더 큰 숫자이고
Quantile 분류를 할 때 최소값을 한 개의 값만 사용했겠구나 라는 추측을 하게 되더라구요.
그래서 혹시나 최대값 (HEI_A의 값이 40)도 그런가 싶어서 확인해보니 최대값은 정상적으로 반영이 되더군요.
다른 종류의 데이터들도 똑같은 방식으로 Quantile 분류를 해봤는데 마찬가지로 최소값이 2개 이상일 경우
무조건 최소값은 1개만 반영하더군요. (최소값이 0이 아닌 그 이상의 수 (2, 4, 6 ...) 라 하더라도)
제가 통계쪽을 잘 모르는데, Quantile 이라는 것도 처음 들어봐서
구글링을 해봐도 이와 관련된 정보를 못 찾겠더라구요.