1학년 2학기/머신러닝원리와 응용

[2강_on] Linear Regression(선형회귀)

seungyeonworld 2025. 3. 14. 00:03

[1. Linear Regression (선형 회귀) ]

 

1.선형회귀

  •  입력 변수(예 : 집 크기)를 이용해 출력 변수(예 : 집가격)를 예측하는 방법
  • 가장 단순한 형태의 머신러닝 알고리즘
  • 예측 모델이 직선( Linear Function)의 형태를 따름

2. 선형회귀 기본공식

  • y = w ₁ x + w ₀
    > y : 예측값 (집가격)
    > x : 입력값 (집크기)
    w ₁ : 기울기 ( x가 1씩 증가할 때 y가 얼마나 변하는지를 의미)
    > w ₀ : 절편 (x가 0일때 y의 값)
  • 선형 회귀의 목표는 입력변수x와 출력변수y 사이의 관계를 직선 방정식으로 나타내는 것임

3. 도식화

  • 테스트데이터로 알고리즘을 훈련시킨 모델 f
  • 입력변수 x를 f에 넣어 y를 예측 ( ŷ : ^햇지는 추정치에 해당하는 변수나 값에 붙이는 기호임)

 

[2. Terminology (용어 정리) ]

1. 입력변수 x : 모델이 예측을 수행하기 위해 입력으로 받는 데이터 속성 (모델이 학습하는데 사용하는 변수)

  • 독립변수
  • 설명변수
  • input feature (입력 특성)

2. 출력변수 y : 머신러닝 모델에서 예측하려는 정답

  • 종속변수
  • 반응변수
  • target variable (타겟변수)

3. Training set (훈련 데이터셋)

  • 모델을 학습시키기 위해 사용하는 데이터
  • 학습자료 내 집 크기 & 집 가격 데이터가 훈련 데이터임

4. 그밖의 용어들

  • n : 행단위로 쪼개진 훈련데이터에 있는 샘플의 개수
  • : i번째 데이터 샘플 (독립변수, 종속변수의 쌍)

 

 

[ 3. Simple Linear Regression (단순 선형 회귀) ]

1. 수식 : y = w₁x + w₀

  • 입력변수 x가 하나만 있을 때 사용
  • 기울기 w₁ : x가 증가할 때 y가 얼마나 증가하는지 결정
  • 절편 w₀ : x가 0일때 y의 값
  • 데이터를 가장 잘 설명하는 직선(회귀선 ,Regression Line)을 찾는 과정 
    (실제 값과 예측 값의 차이(오차)가 가장 작은 직선)
    > 방법1.  손실함수 를 최소화
    > 방법2. 기울기와 절편을 최적화하는 경사 하강법 사용

2. Determining Parameters (파라미터 결정하기)

  • 선형회귀에서 파라미터는 기울기와 절편임
  • 어떤값을 넣어야 모델을 제일 잘 설명할 수 있을까?  -> 얼마나 좋은지 수치화 한것이 cost function임!
  • 비용함수(cost function)을 최소화 하는 방향으로 파라미터를 조정하면서 점점 더 좋은 예측을 하도록 만듦
  • 가장 많이 쓰이는 방법은 최소 제곱법 (Least Squares Estimation, LSE) 임

 

[ 4. Cost Function (비용 함수) ]

1.. Cost Function (비용 함수)란?

  • 모델이 얼마나 잘못 예측했는지 측정하는 함수 (적을수록 좋은것)
  • 모델이 데이터를 더 잘 예측하도록 오차를 최소화하는 것
  • 평균제곱오차(MSE)를 제일 많이 사용

2. 평균 제곱 오차(MSE, Mean Squared Error)

  • 가장많이 쓰이는 비용함수
  • 오차를 제곱하여 평균을 낸 값이 비용함수가 된다.
  • 평균오차를 최소화 하는 방법은 최소제곱법(OLS)을 사용

 

3. Least Squares Estimation (LSE, 최소제곱법)

  • 평균 제곱오차를 최소화 하는 w₁과  w₀을 찾는 방법
  • 오차제곱의 합을 최소화하여 최적의 회귀선(직선)을 찾는 방법
  • 평균제곱오차 라는 비용함수를 최소화 하면 최소제곱법 방법과 동일한 결과를 얻게된다.
  • 미분값이 0이되는 포인트가 최소값을 가짐

 

4. 최대우도추정(MLE, Maximum Likelihood Estimation)

  • 주어진 데이터가 가장 잘 설명될 수 있도록 확률을 최대화 하는 방법
  • 주어진 데이터를 가장 잘 설명하는 모델의 파라미터(기울기, 절편)를 찾는 방법
  • 최대우도추정은 확률기반 접근법, 최소제곱법은 거리기반 접근법
  • 데이터에 있는 오차(e)를 정규분포로 가정하고, 우도(Likelihood) 함수를 최대로 만드는  w₁과  w₀(파라미터)를 찾음
    • 우도함수 : 모델의 파라미터가 주어진 데이터를 얼마나 잘 설명하는지 나타내는 함수임
    •  로그우도함수 : 확률값을 곱하는 방식으로 계산되어 매우복잡한 우도함수 대신 사용
       > 1. 곱셈을 덧셈으로 변환 : 계산이 쉬워짐
       > 2. 확률값이 너무 작아지는 문제 방지
       > 3. 로그를 씌우면 값자체는 변하나 크기의 순서는 변하지 않음  

  •  MLE의 3가지 가정
    1. 선형성 : 입력변수와 출력변수와의 관계는 선형적이다.
    2. 정규성 : 오차의 분포는 평균이 0인 정규분포를 따른다
    3. 분산성 : 오차의 분산이 입력변수와무관하게 일정하다

5. Multiple Linear Regression (다중 선형 회귀)

  • 입력변수가 여러개일때 사용하는 회귀모델
  • 예 : 집 가격예측시 집크기 & 방개수 & 위치 등을 고려

 

6. Polynomial Regression (다항 회귀)

 

  • 데이터를 단순한 직선이 아니라 곡선(Curve) 으로 학습하는 방법.
  • 입력 변수를 다항식 형태로 변환.