본문 바로가기

Machine learning23

머신 러닝 데이터 전처리 #2 - One-hot Encoding 머신 러닝에서 사용하는 데이터 > 수치형 데이터 : 나이, 몸무게, 키 > 범주형 데이터 : 혈액형, 성별 > 머신 러닝의 경우 입력 데이터가 수치형 데이터여야 한다. > 범주형 데이터는 수치형 데이터로 변환해야 한다. > 1,2,3 숫자로 근데 이렇게 하면 혈액형에서의 크기가 생긴다. > One-hot Encoding을 이용해서 하나의 새로운 열로 만들어준다! > A형 B형 -> A형 열 B형 열 A형 AB형 B형 O형 나이 0 0 1 0 25 1 0 0 0 36 > One-hot Encoding을 하면 엉뚱한 관계를 만들지 않으면서 수치형 데이터로 바꿀 수 있다. import pandas as pd TITANIC_FILE_PATH = 'C:/Users/user/Desktop/titanic.csv' t.. 2021. 2. 9.
머신 러닝 데이터 전처리 #1 - Feature Scaling(min-max normalization) 0과 1사이 데이터 전처리 >데이터를 그대로 사용하지 않고, 가공해서 모델을 학습시키는데 좀 더 좋은 형식으로 만들어 주는 것 Feature Scaling (입력 변수/속성 조정하다) > 입력 변수들의 크기를 조절 일정 범위 내에 떨어지도록 바꾸는 것 ex) 연봉과 나이의 데이터 크기는 차이가 많이 나기 때문에 일정 범위로 통일하는 것 > 경사 하강법을 좀 더 빨리할 수 있게 도와준다! - min-max normalization (최솟값, 최댓값을 이용해서 숫자의 크기를 0과 1사이로 만든다.) 1. 최댓값에서 최솟값을 뺀다. 210 - 140 = 70 2. 원래 데이터에서 최솟값을 뺀다. 180 - 140 3. 그리고 최댓값과 최솟값의 차이만큼의 값으로 나누어 준다. 4. 그럼 0과 1사이의 값이 나오게 된다. 실.. 2021. 2. 9.
머신 러닝 로지스틱 회귀(Logistic Regrssion)#3 - 로지스틱 회귀 구현하기, 와인 종류 예측하기 구현 from sklearn.datasets import load_iris import pandas iris_data = load_iris() print(iris_data.DESCR) - sepal length in cm - sepal width in cm - petal length in cm - petal width in cm - class: - Iris-Setosa - Iris-Versicolour - Iris-Virginica 데이터가 넓이, 높이 등등 있고 목표 변수가 꽃의 종류이다! 그리고 150개 중 Setosa 50개 Versicolour 50개 50개 있다. X = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) X sepal len.. 2021. 2. 9.
머신 러닝 로지스틱 회귀(Logistic Regrssion)#2 - 손실 함수, 로그 손실 선형 회귀에서 손실 함수는 평균제곱오차를 이용해서 했다! 로지스틱 회귀에서는 로그 손실을 사용한다! -> 손실의 정도를 로그 함수로 결정하기 때문에 로그 손실 이라고 한다. y가 1일 때 1과 멀어질수록 손실이 많아지는!! -> 로지스틱 회귀에서의 로그 손실에서는 보통 한 줄로 표현하는데 위에 식과 동일하다! i~m까지 대입하고 더한 후 m으로 나누어 평균을 구한다! (모든 데이터의 로그 손실을 계산한 후 평균을 낸다. -> 분류의 기준이 0,1이 아니라 0,1,2 3가지 이상일 경우에는!! 2021. 2. 9.
728x90
반응형