'AI/ML' 태그의 글 목록 (2 Page)

2023.07.11· AI

Support Vector Machine - 데이터를 고차원 공간으로 맵핑하여, 데이터를 구분하는 알고리즘 - 초평면을 그린다 - 데이터를 정확히 분류하는 범위를 찾고, Margin을 최대화 되도록 구분 SVM (Support Vector Machine)은 Classification를 위한 Machine Learning 방법 중 하나입니다. SVM은 지도 학습(Supervised Learning)으로, 분류 문제에서 케이스를 구분하는 분리자를 찾아서 케이스를 분류합니다. SVM은 데이터를 고차원 특징 공간으로 매핑하여 데이터가 선형적으로 분리되지 않는 경우에도 카테고리별로 분류할 수 있도록 합니다. 그런 다음, 데이터를 위한 분리자를 추정합니다. 데이터는 분리자를 초평면으로 그릴 수 있도록 변형되어야 합..

sigmoid 함수

2023.07.11· AI

- 0 ~ 1 사이의 결과 값으로 확률을 모델링 할 때 사용 된다 - [[Logistic Regression]]에서 종속 변수 확률 예측하는데 사용 된다 시그모이드 함수는 이름에서 알 수 있듯이 ‘S’ 형태의 곡선을 가지는 함수를 의미하며, 여기에서 'S’는 "시그모이드(Sigmoid)"의 'S’입니다. 수학적으로 표현하면 아래와 같습니다. Sigmoid 함수와 로짓 함수의 관계 일단 서로 역함수 관계입니다. 즉, 로지스틱 함수가 0과 1 사이의 값을 출력한다면 로짓 함수는 0과 1 사이의 값을 입력으로 받아서 실수 값을 출력합니다. 로지스틱 함수는 실수 값을 0과 1 사이의 값으로 '압축’하는 역할을 합니다. 반면에 로짓 함수는 0과 1 사이의 확률값을 다시 실수 값으로 ‘펼쳐’ 놓습니다. 부족한 점이..

Logistic Regression

2023.07.11· AI

- [[이진 분류]]하는 상황에서 자주 사용한다 로지스틱 회귀는 종속 변수가 이진 변수인 경우를 다루는 통계 기법입니다. 로지스틱 회귀는 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용됩니다. 이 방법은 Linear Regression과 매우 유사하지만, 로지스틱 회귀는 종속 변수가 범주형이고 선형 회귀는 종속 변수가 연속형이라는 점에서 차이가 있습니다 예시로 10년 후의 지구 온도는 어떻게 될까는 Linear Regression이고, 10년 후의 지구 온도가 50도 이상일까?는 Logistic Regression이다. 손실 함수 (Loss function) 이진 분류 문제(binary classification problem)의 경우 다중 클래스 분류 문제(multiclass c..

Lab - Decision Trees

2023.07.10· AI

Lab - Decision Trees Import the Following Libraries: numpy (as np) pandas DecisionTreeClassifier from sklearn.tree import piplite await piplite.install(['pandas']) await piplite.install(['matplotlib']) await piplite.install(['numpy']) await piplite.install(['scikit-learn']) import numpy as np import pandas as pd from sklearn.tree import DecisionTreeClassifier import sklearn.tree as tree from pyo..

Decision Tree

2023.07.10· AI

Decision Tree - 데이터 분류 기준을 학습하고, 트리 구조로 값을 예측한다 - 정보 이득이 높은 방향으로 데이터를 분할한다 의사결정 트리는 데이터를 분류하거나 값(레이블)을 예측하는데 사용하는 트리 구조 알고리즘이다 이 알고리즘은 각 노드에서 특정 속성에 대한 판단을 내리고 그 결과에 따라 데이터를 분할하는 방식으로 동작합니다. 왜 Machine Learning인가? 데이터의 특징을 기반으로 결정을 내리며, 이 결정 규칙을 학습 데이터로부터 자동으로 학습하기 때문입니다. 의사결정 트리의 순서는 각 속성의 중요도에 따라 자동으로 결정되며, 이 중요도는 데이터로부터 학습하는 과정을 통해 결정됩니다. 주요 요점 트리를 구성하는데 있어 어떤 속성이 데이터를 분할하는지가 핵심이다. 이를 결정하기 위해 ..

Machine Learning

2023.07.10· AI

- AI의 통계적인 부분을 담당 - 목적 : 학습을 통해 목표에 최대한 근사한 값을 찾아낸다 학습 시킨다의 의미 주어진 데이터를 학습 시켜서 가장 합리적인 모델(직선, 방정식 등)을 찾아내는 것입니다 지도 학습(Supervised Learning) Regression(회귀) 모델 Linear Regression : 종속 변수와 독립 변수 간의 선형 관계 Single Linear Regression Multiple Linear Regression Non-Linear Regression : 종속 변수와 독립 변수 간의 비선형 관계 Classification Decision Tree KNN(K-Nearset Neighbors) Logistic Regression Support Vector Machine 비지도..

KNN(K-Nearset Neighbors)

2023.07.07· AI

KNN(K-Nearset Neighbors) - KNN은 ML 지도학습 일종으로 분류 모델에 쓰인다. - K는 노드를 분류할 때 영향을 주는 이웃 노드의 수다 - K 값은 교차 검증 되어야 한다 K-최근접 이웃(K-Nearest Neighbors, KNN) 알고리즘은 지도 학습(Supervised Learning)으로 Classification과 Regression(회귀) 모델 문제를 해결하는 데 사용됩니다. 이 알고리즘은 "K"라는 사용자가 정의한 양의 정수를 통해 동작합니다. 이 "K"는 새로운 데이터 포인트가 어떤 분류에 속하는지를 결정하는 데 사용되는 가장 가까운 이웃의 수를 나타냅니다. KNN의 큰 특징은 따로 훈련을 할 필요가 없습니다. 이를 KNN이 Lazy Model이라 표현합니다 K-최근..

Classification

2023.07.07· AI

Introduction to Classification Classification 기계 학습에서의 지도 학습(Supervised Learning)으로, 알려지지 않은 항목들을 명확한 클래스 세트로 분류하거나 카테고리화하는 수단입니다. 분류는 특징 변수들의 집합과 관심 대상인 목표 변수 사이의 관계를 학습하려고 합니다. 분류에서의 목표 속성은 이산 값을 가진 범주형 변수입니다. 훈련 데이터 세트와 그에 대한 목표 레이블이 주어진 상태에서, 분류는 레이블이 없는 테스트 케이스에 대한 클래스 레이블을 결정합니다. 분류 알고리즘 크게 Classification 알고리즘은 이진 분류와 다중 분류가 있습니다 이진 분류 은행은 대출 채무 불이행을 예측하려고 할 때, 고객에 대한 정보(나이, 소득, 교육 등)가 포함된..

Non-Linear Regression 실습

2023.07.06· AI

Non-Linear Regression 실습 - 데이터를 보고, 그래프를 그릴 식을 추정해야 한다. - pd/np -> plt(mataplotlib) 순으로 라이브러리를 사용한다 목표 Differentiate between linear and non-linear regression Use non-linear regression model in Python Intro. Non-Linear Regression 왜 쓰냐? 비선형 회귀는 독립 변수 x와 종속 변수 y 사이의 비선형 관계를 모델링하는 방법입니다. 일반적으로 선형이 아닌 모든 관계를 비선형 관계로 간주할 수 있으며, 이는 주로 다항식의 형태로 표현됩니다. 다항식의 최고 차수는 k입니다 (x의 최고 차수). 비선형 함수에는 지수, 로그, 분수 등의 ..

Polynomial Regression 실습

2023.07.06· AI

Polynomial Regression 실습 - 선형 그래프가 나오지 않는 상황에서, 새로운 특성 집합을 생성하여 다항 그래프를 만든다 - 다항식을 치환해서, Linear Regression으로 만들 수 있다 실습 준비 df = pd.read_csv("FuelConsumption.csv") # take a look at the dataset df.head() 생성된 데이터 프레임을 5줄 출력해봅니다 데이터 프레임이 잘 생성 된 것을 볼 수 잇습니다. 그렇다면, 회귀 모델에 사용할 필드로 새로운 데이터 프레임을 형성합니다. 다시 한번, 데이터 프레임을 출력해봅니다 cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']] cdf.h..

티스토리툴바