본문 바로가기

분류 전체보기163

머신 러닝 데이터 전처리 #1 - Feature Scaling(min-max normalization) 0과 1사이 데이터 전처리 >데이터를 그대로 사용하지 않고, 가공해서 모델을 학습시키는데 좀 더 좋은 형식으로 만들어 주는 것 Feature Scaling (입력 변수/속성 조정하다) > 입력 변수들의 크기를 조절 일정 범위 내에 떨어지도록 바꾸는 것 ex) 연봉과 나이의 데이터 크기는 차이가 많이 나기 때문에 일정 범위로 통일하는 것 > 경사 하강법을 좀 더 빨리할 수 있게 도와준다! - min-max normalization (최솟값, 최댓값을 이용해서 숫자의 크기를 0과 1사이로 만든다.) 1. 최댓값에서 최솟값을 뺀다. 210 - 140 = 70 2. 원래 데이터에서 최솟값을 뺀다. 180 - 140 3. 그리고 최댓값과 최솟값의 차이만큼의 값으로 나누어 준다. 4. 그럼 0과 1사이의 값이 나오게 된다. 실.. 2021. 2. 9.
머신 러닝 로지스틱 회귀(Logistic Regrssion)#3 - 로지스틱 회귀 구현하기, 와인 종류 예측하기 구현 from sklearn.datasets import load_iris import pandas iris_data = load_iris() print(iris_data.DESCR) - sepal length in cm - sepal width in cm - petal length in cm - petal width in cm - class: - Iris-Setosa - Iris-Versicolour - Iris-Virginica 데이터가 넓이, 높이 등등 있고 목표 변수가 꽃의 종류이다! 그리고 150개 중 Setosa 50개 Versicolour 50개 50개 있다. X = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) X sepal len.. 2021. 2. 9.
머신 러닝 로지스틱 회귀(Logistic Regrssion)#2 - 손실 함수, 로그 손실 선형 회귀에서 손실 함수는 평균제곱오차를 이용해서 했다! 로지스틱 회귀에서는 로그 손실을 사용한다! -> 손실의 정도를 로그 함수로 결정하기 때문에 로그 손실 이라고 한다. y가 1일 때 1과 멀어질수록 손실이 많아지는!! -> 로지스틱 회귀에서의 로그 손실에서는 보통 한 줄로 표현하는데 위에 식과 동일하다! i~m까지 대입하고 더한 후 m으로 나누어 평균을 구한다! (모든 데이터의 로그 손실을 계산한 후 평균을 낸다. -> 분류의 기준이 0,1이 아니라 0,1,2 3가지 이상일 경우에는!! 2021. 2. 9.
머신 러닝 로지스틱 회귀(Logistic Regrssion)#1 - 로지스틱 회귀란? 머신러닝 지도학습(회귀, 분류) | 비지도 학습 회귀(연속적인 값 예측), 분류(정해진 몇 개의 값 중 예측) -> 로지스틱 회귀는 분류! ex) 해당 메일이 정상 메일인지, 스팸 메일인지 ex) 기사가 스포츠기사인지 정치기사인지 연예기사인지 -> 선형회귀로도 분류 학습을 할 수 있지만, 선형 회귀의 경우 예외적인 데이터에 민감하게 반응하기에 잘 사용하지는 않는다. -> 데이터에 가장 잘 맞는 1차 함수를 찾는다. = 선형 회귀 -> 데이터에 가장 잘 맞는 시그모이드 함수를 찾는다. = 로지스틱 회귀 무조건 0과 1사이 값을 리턴한다. X가 엄청나게 크면 1에 가까워지고 X가 엄청나게 작으면 0에 가까워진다. 따라서 시그모이드 함수는 무조건 0과 1사이 값을 리턴한다. -> 선형 회귀(1차 함수)의 경우.. 2021. 2. 8.
728x90
반응형