[2강_on] Linear Regression(선형회귀)

1학년 2학기/머신러닝원리와 응용

[2강_on] Linear Regression(선형회귀)

seungyeonworld 2025. 3. 14. 00:03

[1. Linear Regression (선형 회귀) ]

1.선형회귀

입력 변수(예 : 집 크기)를 이용해 출력 변수(예 : 집가격)를 예측하는 방법
가장 단순한 형태의 머신러닝 알고리즘
예측 모델이 직선( Linear Function)의 형태를 따름

2. 선형회귀 기본공식

y = w ₁ x + w ₀
> y : 예측값 (집가격)
> x : 입력값 (집크기)
> w ₁ : 기울기 ( x가 1씩 증가할 때 y가 얼마나 변하는지를 의미)
> w ₀ : 절편 (x가 0일때 y의 값)
선형 회귀의 목표는 입력변수x와 출력변수y 사이의 관계를 직선 방정식으로 나타내는 것임

3. 도식화

테스트데이터로 알고리즘을 훈련시킨 모델 f
입력변수 x를 f에 넣어 y를 예측 ( ŷ : ^햇지는 추정치에 해당하는 변수나 값에 붙이는 기호임)

[2. Terminology (용어 정리) ]

1. 입력변수 x : 모델이 예측을 수행하기 위해 입력으로 받는 데이터 속성 (모델이 학습하는데 사용하는 변수)

독립변수
설명변수
input feature (입력 특성)

2. 출력변수 y : 머신러닝 모델에서 예측하려는 정답

종속변수
반응변수
target variable (타겟변수)

3. Training set (훈련 데이터셋)

모델을 학습시키기 위해 사용하는 데이터
학습자료 내 집 크기 & 집 가격 데이터가 훈련 데이터임

4. 그밖의 용어들

n : 행단위로 쪼개진 훈련데이터에 있는 샘플의 개수
: i번째 데이터 샘플 (독립변수, 종속변수의 쌍)

[ 3. Simple Linear Regression (단순 선형 회귀) ]

1. 수식 : y = w₁x + w₀

입력변수 x가 하나만 있을 때 사용
기울기 w₁ : x가 증가할 때 y가 얼마나 증가하는지 결정
절편 w₀ : x가 0일때 y의 값
데이터를 가장 잘 설명하는 직선(회귀선 ,Regression Line)을 찾는 과정
(실제 값과 예측 값의 차이(오차)가 가장 작은 직선)
> 방법1. 손실함수 를 최소화
> 방법2. 기울기와 절편을 최적화하는 경사 하강법 사용

2. Determining Parameters (파라미터 결정하기)

선형회귀에서 파라미터는 기울기와 절편임
어떤값을 넣어야 모델을 제일 잘 설명할 수 있을까? -> 얼마나 좋은지 수치화 한것이 cost function임!
비용함수(cost function)을 최소화 하는 방향으로 파라미터를 조정하면서 점점 더 좋은 예측을 하도록 만듦
가장 많이 쓰이는 방법은 최소 제곱법 (Least Squares Estimation, LSE) 임

[ 4. Cost Function (비용 함수) ]

1.. Cost Function (비용 함수)란?

모델이 얼마나 잘못 예측했는지 측정하는 함수 (적을수록 좋은것)
모델이 데이터를 더 잘 예측하도록 오차를 최소화하는 것
평균제곱오차(MSE)를 제일 많이 사용

2. 평균 제곱 오차(MSE, Mean Squared Error)

가장많이 쓰이는 비용함수
오차를 제곱하여 평균을 낸 값이 비용함수가 된다.
평균오차를 최소화 하는 방법은 최소제곱법(OLS)을 사용

3. Least Squares Estimation (LSE, 최소제곱법)

평균 제곱오차를 최소화 하는 w₁과 w₀을 찾는 방법
오차제곱의 합을 최소화하여 최적의 회귀선(직선)을 찾는 방법
평균제곱오차 라는 비용함수를 최소화 하면 최소제곱법 방법과 동일한 결과를 얻게된다.
미분값이 0이되는 포인트가 최소값을 가짐

4. 최대우도추정(MLE, Maximum Likelihood Estimation)

주어진 데이터가 가장 잘 설명될 수 있도록 확률을 최대화 하는 방법
주어진 데이터를 가장 잘 설명하는 모델의 파라미터(기울기, 절편)를 찾는 방법
최대우도추정은 확률기반 접근법, 최소제곱법은 거리기반 접근법
데이터에 있는 오차(e)를 정규분포로 가정하고, 우도(Likelihood) 함수를 최대로 만드는 w₁과 w₀(파라미터)를 찾음
- 우도함수 : 모델의 파라미터가 주어진 데이터를 얼마나 잘 설명하는지 나타내는 함수임
- 로그우도함수 : 확률값을 곱하는 방식으로 계산되어 매우복잡한 우도함수 대신 사용
  > 1. 곱셈을 덧셈으로 변환 : 계산이 쉬워짐
  > 2. 확률값이 너무 작아지는 문제 방지
  > 3. 로그를 씌우면 값자체는 변하나 크기의 순서는 변하지 않음
MLE의 3가지 가정
1. 선형성 : 입력변수와 출력변수와의 관계는 선형적이다.
2. 정규성 : 오차의 분포는 평균이 0인 정규분포를 따른다
3. 분산성 : 오차의 분산이 입력변수와무관하게 일정하다

5. Multiple Linear Regression (다중 선형 회귀)

입력변수가 여러개일때 사용하는 회귀모델
예 : 집 가격예측시 집크기 & 방개수 & 위치 등을 고려

6. Polynomial Regression (다항 회귀)

데이터를 단순한 직선이 아니라 곡선(Curve) 으로 학습하는 방법.
입력 변수를 다항식 형태로 변환.

'1학년 2학기 > 머신러닝원리와 응용' 카테고리의 다른 글

[2강_off] Pandas (0)	2025.03.29
[1강_off] Python Packages (0)	2025.03.14
[1강_on] 머신러닝 개요 (Machine Learning Overview) (0)	2025.03.13

현재글[2강_on] Linear Regression(선형회귀)

seungyeonworld 님의 블로그

seungyeonworld 님의 블로그 입니다.

기초통계, 통계, 결합형확률변수, 유니와이즈, 초기하분포 기대값, 머신러닝, 확률변수 공식, 이항분포, r사용법, 확률, 확률과통계, 통계학, 주변밀도함수, 확률변수, 다변량초기하분포, 이화여자대학원, 데이터사이언스, 이산형균일분포, 초기하분포 분산, 이석민,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

seungyeonworld 님의 블로그