머신 러닝 데이터 전처리2 머신 러닝 데이터 전처리 #2 - One-hot Encoding 머신 러닝에서 사용하는 데이터 > 수치형 데이터 : 나이, 몸무게, 키 > 범주형 데이터 : 혈액형, 성별 > 머신 러닝의 경우 입력 데이터가 수치형 데이터여야 한다. > 범주형 데이터는 수치형 데이터로 변환해야 한다. > 1,2,3 숫자로 근데 이렇게 하면 혈액형에서의 크기가 생긴다. > One-hot Encoding을 이용해서 하나의 새로운 열로 만들어준다! > A형 B형 -> A형 열 B형 열 A형 AB형 B형 O형 나이 0 0 1 0 25 1 0 0 0 36 > One-hot Encoding을 하면 엉뚱한 관계를 만들지 않으면서 수치형 데이터로 바꿀 수 있다. import pandas as pd TITANIC_FILE_PATH = 'C:/Users/user/Desktop/titanic.csv' t.. 2021. 2. 9. 머신 러닝 데이터 전처리 #1 - Feature Scaling(min-max normalization) 0과 1사이 데이터 전처리 >데이터를 그대로 사용하지 않고, 가공해서 모델을 학습시키는데 좀 더 좋은 형식으로 만들어 주는 것 Feature Scaling (입력 변수/속성 조정하다) > 입력 변수들의 크기를 조절 일정 범위 내에 떨어지도록 바꾸는 것 ex) 연봉과 나이의 데이터 크기는 차이가 많이 나기 때문에 일정 범위로 통일하는 것 > 경사 하강법을 좀 더 빨리할 수 있게 도와준다! - min-max normalization (최솟값, 최댓값을 이용해서 숫자의 크기를 0과 1사이로 만든다.) 1. 최댓값에서 최솟값을 뺀다. 210 - 140 = 70 2. 원래 데이터에서 최솟값을 뺀다. 180 - 140 3. 그리고 최댓값과 최솟값의 차이만큼의 값으로 나누어 준다. 4. 그럼 0과 1사이의 값이 나오게 된다. 실.. 2021. 2. 9. 이전 1 다음 728x90 반응형