1학년 1학기/통계

[유니와이즈]2강. 통계학과 자료분석 (2)

seungyeonworld 2025. 1. 17. 19:42

1.4 자료의 요약

 

* 모수 

  - 모집단의 특성을 나타내는 수치들

  - 표본의 자료를 바탕으로 모수를 추정

  -  μ : 모평균,  σ2   : 모분산

 

* 통계량 : 표본의 특성 값 ( 𝑥̄ : 표본평균, 𝑠² : 표본분산)

 

* 질적자료, 범주형자료 : 수,량과 관계없는 자료 (ex. 피부색, 혈액형 등)

  - 명목자료 : 범주를 사용하기 편하도록 숫자로 대치한자료 (ex.우편번호, 전화번호)

  - 순서자료 : (ex. 1.초등학교, 2.중학교 , 3.고등학교, 4.대학교)

 

* 양적자료 : 자료가 수로 표현되며 그 수가 숫자로의 의미를 갖는 재료

  - 집단화자료 : 양적자료를 범주를 묶어서 나타낸것 (ex. A학점: 90점이상, B학점은 85점이상)

 

 

[1] 위치측도(대표값) - 자료의 중심

 

1) 평균 

  - 표본평균 : 표본들을 모두 더해 표본이 개수로 나눈 값

  - 모평균 : 모집간의 관측값을 모두 더해 개수로 나눈 값

  - 이상값, 극단값, 특이점 : 전체중 몇개만 앚 크거나 아주 작은 값들이 포함될 경우 평균은 대표값으로의 의미상실

    (ex. 2,5,7,9의 평균은 5.75, 2,5,7,100의 평균은 28.5)

 

2) 중앙값(중위수) : 자료를 크기 순으로 늘어 놓았을 때, 가운데에 해당 하는 값

  - 이상값의 영향을 덜 받음

  - 자료의 수가 많은 경우 자료를 크기순으로 재배열 하여 중앙의 값을 찾는 과정이 복잡함

 

3) 전사평균 : 자료의 가장 큰 부분과 작은 부분을 일정비율 제거한 나머지의 평균

  - ex. 1,2,2,3,3,4,5,5,7,100에서 10%절사평균을 구함 -> 1과 100을 제거후 평균을 구함

  - 이상값의 영향을 덜받음

 

4) 최빈값 : 두 번 이상 나타난 자료 중에서 그 빈도수가 최대인 값

  - 관측값의 수가 많아도 쉽게 구함

  - 질적자료에도 사용할 수 있음

  - 존재하지 않는 경우도, 여러 개 존재하는 경우도 있음

  - 통계학에서는 대표값으로 널리 사용되지는 않음

 

[2] 산포도 : 자료가 얼마나 퍼져 있는가를 측정하는 척도

 

1) 범위 : 최댓값 - 최솟값

  - 범위는 퍼진 정도를 재대로 알수 없음

  - 이상값의 영향을 많이 받음

 

2) 분산과 표준편자

  - 분산 : 이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 값, 클수록 데이터가 퍼져있음을 의미

     =>편차의 제곱을 구해 평균을 낸 값 (음수값도 있으므로 제곱을 구해 평균내는 것임)

  - 표준편차 : 분산의 제곱근 (분산에 루트를 씌운값)

     => 데이터의 단위를 유지하여 흩어짐 정도를 표현

 

3) 변동계수 : 표준편차/평균

  - 측정단위가 서로 다른 자료들의 산표도 비교 (자료의 측정 단위의 변화와 무관한 수치를 얻음)

  - 자료의 크기값들이 다른 자료들간의 산포도 피교  (신생아의 몸무게 / 성인집단의 몸무게)

 

★변동계수 정리

 

4) 사분위수 범위

  - 사분위수 : 크기의 순서에 따라 나열했을 경우 4등분되는 위치의 관측값

    >> 1사분위수 : (n+1) / 4 번째 순위의 값

    >> 2사분위수 : 중앙값과 같음

    >> 3사분위수 : (n+1) / 4 * 3 번째 순위의 값

  - 이상값의 영향을 크게 받지 않음

  - 사분위수범위 (IQR) : Q3-Q1

 

 

1.5 도표를 이용한 자료의 정리 => 자료의 특성을 명확히 보여줄 수 있음

 

1) 도수분포 : 데이터를 **계급(범위)**으로 나누고, 각 계급에 속하는 데이터의 개수(빈도, 도수)를 정리한 표/그래프

 

★도수분포 정리

2) 히스토그램 : 도수분포표의 계급간격을 수평축에 작성하고 수직축에 도수 또는 상대도수에 해당하는 높이를

                         표시한 막대그래프

 

3) 도수분포다각형 : 히스토그램의 막대의 상단중심부를 직선으로 연결

  - 확률밀도함수의 추정

  - 도수분포의 계급을 세분화하여 분포곡선을 얻음

  - 분포가 대칭인지 오른쪽이나 왼쪽으로 기울어졌는지 (비대칭인지) 등 고려

 

  • 오른쪽으로 기울어진 분포(Right-skewed): 높은 값들이 극단적으로 많음. 예) 소득 분포
  • 왼쪽으로 기울어진 분포(Left-skewed): 낮은 값들이 극단적으로 많음. 예) 시험 점수에서 어려운 시험의 점수 분포

  - 중심과 변동성

 

  • 그래프의 가장 높은 점은 데이터의 **중심 경향(중앙값, 평균 등)**을 나타냅니다.
  • 그래프의 너비는 데이터의 **산포도(분산, 표준편차)**를 시각적으로 보여줍니다.

★도수분포다각형과 히스토그램의 비교

 

 

4) 줄기 - 잎 그림 : 자료의 관측값 중 큰 단위값을 줄기로 하고 작은 단위의 값들을 잎으로 하여 

                             세로줄에 줄기를 표시하고 가로줄에 각 줄기에 해당하는 잎을 나열

  - 줄기-잎그림을 시계반대방향으로 90도 회전시키면 히스토그램과 유사함

  - 히스토그램의 성질을 보존하면서 개개의 측정값을 제공ㅎㅁ

 

5) 상자그림

  - 4분위수, 4분위수 범위 등을 이용하여 분포와 특이점들을 알 수 있음

  - IQR : Q3 - Q1

  - 안울타리 : Q1,Q3으로부터 바깥쪽으로 IQR의 1.5배 만큼 떨어진곳으로 안울타리값은 정상값

  - 바깥울타리 : Q1,Q3으로부터 바깥쪽으로 IQR의 3배 만큼 떨어진곳, 바깥울타리 밖의 값은 극단이상값

 

 

 

 

'1학년 1학기 > 통계' 카테고리의 다른 글

[유니와이즈]7강. 확률변수와 확률분포(1)  (0) 2025.01.25
[유니와이즈]6강. 확률(2)  (0) 2025.01.23
[유니와이즈]4강. 확률(2)  (0) 2025.01.21
[유니와이즈]3강. 확률(1)  (0) 2025.01.21
[유니와이즈 1강]  (0) 2025.01.15