Logistic Regression

Beomsu Koh 2023. 7. 11.

- [[이진 분류]]하는 상황에서 자주 사용한다

로지스틱 회귀는 종속 변수가 이진 변수인 경우를 다루는 통계 기법입니다.
로지스틱 회귀는 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용됩니다.

이 방법은 Linear Regression과 매우 유사하지만, 로지스틱 회귀는 종속 변수가 범주형이고 선형 회귀는 종속 변수가 연속형이라는 점에서 차이가 있습니다
예시로 10년 후의 지구 온도는 어떻게 될까는 Linear Regression이고, 10년 후의 지구 온도가 50도 이상일까?는 Logistic Regression이다.

손실 함수 (Loss function)

이진 분류 문제(binary classification problem)의 경우

다중 클래스 분류 문제(multiclass classification problem)의 경우

y는 실제 클래스 레이블입니다. 이진 분류에서는 0 또는 1의 값을 가집니다.
y_hat은 모델이 예측한 확률입니다.

비용 함수 (Cost function)

비용 함수는 손실 함수의 평균을 나타냅니다. 비용 함수 J는 전체 훈련 세트에 대한 로그 손실의 평균이며, 다음과 같이 표현됩니다:

여기서 m은 총 샘플 수입니다.

sigmoid 함수

sigmoid 함수는 입력 값을 0과 1 사이의 값으로 변환하는 역할을 합니다.
출력 값이 0에 가까워질수록 해당 클래스에 속할 확률이 낮아지며, 1에 가까워질수록 해당 클래스에 속할 확률이 높아지게 됩니다.

0 ~ 1 사이의 결과 값으로 확률을 모델링 할 때 사용 된다
Logistic Regression에서 종속 변수 확률 예측하는데 사용 된다

🐳 Logistic 쓰는 이유 : 이진 분류 문제와 선형 회귀의 한계

로지스틱 회귀는 선형 회귀가 잘 작동하지 않는 이진 분류 문제에 효과적으로 사용됩니다.

이 방법은 '시그모이드 함수’라는 특별한 함수를 사용하여 출력 값이 항상 0과 1 사이에 있도록 보장합니다.
이렇게 시그모이드 함수의 출력이 항상 0과 1 사이에 있음으로써, 출력값을 확률로 해석하는 것이 가능해집니다.

로지스틱 회귀의 훈련 과정

로지스틱 회귀의 훈련 과정은 다음과 같습니다:

단계 1: 파라미터 벡터를 임의의 값으로 초기화합니다.
단계 2: 모델의 출력을 계산합니다. 이는 시그모이드 함수의 출력 값입니다.
단계 3: 모델의 출력과 실제 레이블 간의 차이를 계산하여 오차를 기록합니다.
단계 4: 전체 오차를 계산하여 모델의 비용을 계산합니다.
단계 5: 비용을 줄이기 위해 파라미터 값을 변경합니다.
단계 6: 비용이 충분히 낮아질 때까지 위의 과정을 반복합니다.

이 과정에서 파라미터 값을 변경하거나 반복을 언제 멈출지 결정하는 방법에는 경사 하강법 등의 기법들이 사용됩니다.

부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>

'AI' 카테고리의 다른 글

Support Vector Machine (0)	2023.07.11
sigmoid 함수 (0)	2023.07.11
Lab - Decision Trees (0)	2023.07.10
Decision Tree (0)	2023.07.10
Machine Learning (0)	2023.07.10