본문 바로가기

데이터4

머신 러닝 데이터 전처리 #2 - One-hot Encoding 머신 러닝에서 사용하는 데이터 > 수치형 데이터 : 나이, 몸무게, 키 > 범주형 데이터 : 혈액형, 성별 > 머신 러닝의 경우 입력 데이터가 수치형 데이터여야 한다. > 범주형 데이터는 수치형 데이터로 변환해야 한다. > 1,2,3 숫자로 근데 이렇게 하면 혈액형에서의 크기가 생긴다. > One-hot Encoding을 이용해서 하나의 새로운 열로 만들어준다! > A형 B형 -> A형 열 B형 열 A형 AB형 B형 O형 나이 0 0 1 0 25 1 0 0 0 36 > One-hot Encoding을 하면 엉뚱한 관계를 만들지 않으면서 수치형 데이터로 바꿀 수 있다. import pandas as pd TITANIC_FILE_PATH = 'C:/Users/user/Desktop/titanic.csv' t.. 2021. 2. 9.
뷰티풀 수프(Beautiful Soup) 이용한 페이지 크롤링 작업 오늘의 목표 네이버에서 제공하는 셀트리온의 주식 일별 시세를 뷰티풀 수프(Beautiful Soup)를 이용하여 크롤링해서 가져오기 1. 시장조사 셀트리온을 검색해서 들어가면 finance.naver.com/item/main.nhn?code=068270 해당 url 을 확인할 수 있다. 068270은 셀트리온 종목코드이고, 다른 종목을 확인하려면 종목코드만 바꿔서 접속하면 된다. 여기서 일별 시세 페이지를 보면 10page씩 아래와 같이 되어있음을 확인할 수 있다. 여기서 맨뒤로 이동하면 383page 까지 있음을 알 수 있다. 여기 page에서 페이지 소스보기를 클릭 그럼 해당 소스코드를 확인 -> 저 경로를 통해서 저 표를 가져오는 듯 -> 저 경로로 들어가면 일별시세만 확인할 수 있는 페이지로 접속.. 2021. 1. 7.
판다스(pandas) read_html() 함수로 엑셀파일 읽기, 사이트 파일 읽어오기 1. 무엇을 할 것인가? 한국거래소 기업공시채널(kind.krx.co.kr)에서 제공하는 엑셀 파일 읽기를 해보자!! 일단 저 사이트에 접속 (kind.krx.co.kr) -> 상장법인상세정보 -> 상장법인목록 -> excel 파일 다운로드 excel 파일을 열면 아래와 같이 표시된다. -> 그래서 read_excel() 함수를 사용해야 할 것 같지만 해당 파일을 메모장으로 열어보면 아래와 같이 html 파일로 이루어진 것을 알 수 있다. 따라서 팬더스의 read_html() 함수를 이용하여 파일을 읽어야 한다. 2. 선행과정 read_html() 함수를 호출 하기 위해 필요 라이브러리를 설치해 준다. C:\Users\user\AppData\Local\Programs\Python>pip install h.. 2021. 1. 4.
파이썬 pip 명령어 설명 (install, uninstall, freeze) PyPI(python Packages Index)에서 21만개 이상의 패키지를 관리 - 필요한 경우 홈페이지 접속 검색 다운로드 가능 - 자신이 만든 패키지를 업로드하여 배포할 수도 있다. ● PyPI 홈페이지 : pypi.org pip 명령으로 맷플롯핍 패키지 설치 예시 ------------------------------------------------c:\> pip install matplotlib--------------------------------------------------- 특정 버전 설치 시 pip install matplotlib==3.1.2 이렇게 설치 할 수 있다. ------------------------------------------------c:\> pip unins.. 2020. 12. 3.
728x90
반응형