응용지질기사 기출문제·모의고사·오답노트·자동채점

2007년08월05일 57번

[탐사공학]
지구화학탐사 자료(data)가 정규분포를 보일 때 평균값을 M. 표준편차를 S라고 하면 threshold는 어떤 값이 적절한가?

  • ① M+S
  • ② M+2S
  • ③ M+3S
  • ④ M-S
(정답률: 70%)

문제 해설

정규분포에서 대부분의 데이터는 평균값을 중심으로 대칭적으로 분포하게 됩니다. 이 때, 표준편차가 클수록 데이터가 평균값에서 멀리 퍼져있는 것을 의미합니다. 따라서 threshold를 높게 설정하면, 평균값에서 멀리 떨어진 데이터를 이상치(outlier)로 판단할 가능성이 높아집니다. 반대로 threshold를 낮게 설정하면, 이상치로 판단해야 할 데이터가 놓치는 경우가 발생할 수 있습니다.

따라서, 일반적으로는 M+2S를 threshold로 설정하는 것이 적절합니다. 이유는 표준편차의 2배 이상 떨어진 데이터는 대부분 이상치로 판단될 가능성이 높기 때문입니다. M+S보다는 M+2S가 더 높은 threshold로 설정되어야 합니다. M+3S는 threshold를 너무 높게 설정하여 이상치를 놓치는 경우가 발생할 수 있습니다. M-S는 threshold를 너무 낮게 설정하여 이상치로 판단해야 할 데이터가 놓치는 경우가 발생할 수 있습니다.

연도별

진행 상황

0 오답
0 정답