2007년08월05일 57번
[탐사공학] 지구화학탐사 자료(data)가 정규분포를 보일 때 평균값을 M. 표준편차를 S라고 하면 threshold는 어떤 값이 적절한가?
- ① M+S
- ② M+2S
- ③ M+3S
- ④ M-S
(정답률: 70%)
문제 해설
정규분포에서 대부분의 데이터는 평균값을 중심으로 대칭적으로 분포하게 됩니다. 이 때, 표준편차가 클수록 데이터가 평균값에서 멀리 퍼져있는 것을 의미합니다. 따라서 threshold를 높게 설정하면, 평균값에서 멀리 떨어진 데이터를 이상치(outlier)로 판단할 가능성이 높아집니다. 반대로 threshold를 낮게 설정하면, 이상치로 판단해야 할 데이터가 놓치는 경우가 발생할 수 있습니다.
따라서, 일반적으로는 M+2S를 threshold로 설정하는 것이 적절합니다. 이유는 표준편차의 2배 이상 떨어진 데이터는 대부분 이상치로 판단될 가능성이 높기 때문입니다. M+S보다는 M+2S가 더 높은 threshold로 설정되어야 합니다. M+3S는 threshold를 너무 높게 설정하여 이상치를 놓치는 경우가 발생할 수 있습니다. M-S는 threshold를 너무 낮게 설정하여 이상치로 판단해야 할 데이터가 놓치는 경우가 발생할 수 있습니다.
따라서, 일반적으로는 M+2S를 threshold로 설정하는 것이 적절합니다. 이유는 표준편차의 2배 이상 떨어진 데이터는 대부분 이상치로 판단될 가능성이 높기 때문입니다. M+S보다는 M+2S가 더 높은 threshold로 설정되어야 합니다. M+3S는 threshold를 너무 높게 설정하여 이상치를 놓치는 경우가 발생할 수 있습니다. M-S는 threshold를 너무 낮게 설정하여 이상치로 판단해야 할 데이터가 놓치는 경우가 발생할 수 있습니다.
연도별
- 2019년04월27일
- 2018년09월15일
- 2018년04월28일
- 2017년09월23일
- 2017년05월07일
- 2016년10월01일
- 2016년05월08일
- 2015년08월16일
- 2015년05월31일
- 2015년03월08일
- 2014년05월25일
- 2014년03월02일
- 2013년08월18일
- 2013년06월02일
- 2013년03월10일
- 2012년08월26일
- 2012년05월20일
- 2012년03월04일
- 2011년08월21일
- 2011년06월12일
- 2011년03월20일
- 2010년07월25일
- 2010년05월09일
- 2010년03월07일
- 2009년07월26일
- 2009년05월10일
- 2009년03월01일
- 2008년07월27일
- 2008년03월02일
- 2007년08월05일
- 2007년03월04일
- 2006년08월06일
- 2006년03월05일
- 2005년08월07일
- 2005년03월20일
- 2005년03월06일
- 2004년08월08일
- 2004년03월07일
- 2003년08월10일
- 2003년03월16일
진행 상황
0 오답
0 정답