본문 바로가기

크롤링3

뷰티풀 수프(Beautiful Soup) 이용한 페이지 크롤링 작업 오늘의 목표 네이버에서 제공하는 셀트리온의 주식 일별 시세를 뷰티풀 수프(Beautiful Soup)를 이용하여 크롤링해서 가져오기 1. 시장조사 셀트리온을 검색해서 들어가면 finance.naver.com/item/main.nhn?code=068270 해당 url 을 확인할 수 있다. 068270은 셀트리온 종목코드이고, 다른 종목을 확인하려면 종목코드만 바꿔서 접속하면 된다. 여기서 일별 시세 페이지를 보면 10page씩 아래와 같이 되어있음을 확인할 수 있다. 여기서 맨뒤로 이동하면 383page 까지 있음을 알 수 있다. 여기 page에서 페이지 소스보기를 클릭 그럼 해당 소스코드를 확인 -> 저 경로를 통해서 저 표를 가져오는 듯 -> 저 경로로 들어가면 일별시세만 확인할 수 있는 페이지로 접속.. 2021. 1. 7.
User-Agent: libww-perl 의 역할 위에 통신 패킷을 확인해보면 User-Agent의 값이 User-Agent: libww-perl/5.833 임을 확인 할 수 있다. 그럼 과연 User-Agent: libww-perl 무엇일까? 그리고 뒤에 오는5.833은 무엇을 의미할까 한번 확인해보도록하겠습니다. libwww-perl은 줄여서 (LWP)라고 쓰기도 한다. 이름에서 알 수 있는듯이 한 문장으로 정의 한다면 Perl을 위한 www클라이언트/서버 라이브러라고 할 수 있다. Perl(펄) 2020. 4. 7.
Yandex에서 접근하는 YandexBot[분석] GET /robots.txt HTTP/1.1 Host: bizmeka.com Connection: Keep-Alive User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) From: support@search.yandex.ru Accept: */* User-Agent: 사용자 에이전트의 애플리케이션 타입, 운영 체제, 소프트웨어 벤더 또는 소프트웨어 버전을 식별할 수 있는 특성 문자열을 포함합니다. From header: 요청하는 유저 에이전트를 제어하는 사용자(사람)의 인터넷 이메일 주소를 포함합니다. 위와같은 패킷을 보면 user-agnet로 YandexBot이 들어오고 에이전트를 제어하는 사용자는 support@se.. 2020. 3. 28.
728x90
반응형