본문 바로가기
Packet

Yandex에서 접근하는 YandexBot[분석]

by grey-hat hacker 2020. 3. 28.
728x90

GET /robots.txt HTTP/1.1

Host: bizmeka.com

Connection: Keep-Alive

User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

From: support@search.yandex.ru

Accept: */*


User-Agent: 사용자 에이전트의 애플리케이션 타입, 운영 체제, 소프트웨어 벤더 또는 소프트웨어 버전을 식별할 수 있는 특성 문자열을 포함합니다.

From header: 요청하는 유저 에이전트를 제어하는 사용자(사람)의 인터넷 이메일 주소를 포함합니다.


위와같은 패킷을 보면 user-agnet로 YandexBot이 들어오고 에이전트를 제어하는 사용자는 support@search.yandex.ru

의 정보를 획득할 수 있다! 

 

그럼 과연 YandexBot이 무엇일까?

 

과연 이 봇의 역할이 뭐고 접근한 이유가 무엇인지 궁금할 것이다! 

 

Yandex는 브라우저의 종류 중 하나이다! 예를 들어 chrom과 같이 하나의 브라우저이다! 

브라우저에서 검색을 하면 검색에 관련된 정보가 뜨게 되는데 이 검색에 관련된 내용들이 사용자에게 보여지게 하기 위해서 bot은 인터넷을 돌며 여러가지 정보를 끌어모으게 되고 그 정보를 다시 사용자가 볼 수 있게 해준다!

 

내가 가지고 있는 사이트가 사용자들에게 더 많이 보여지기를 원한다면 봇의 접근을 허용해주면 되는데! 

 

Yandex 브라우저는 러시아에서 60%의 시장 점유율을 차지하는 러시아 최대의 검색 엔진을 운영하는 인터넷 기업이다.또, 수많은 인터넷 기반 서비스와 제품들을 개발한다. 

컴스코어에 따르면 얀덱스는 전 세계 검색 엔진에서 4위를 차지하고 있으며 2012년 4월 기준으로 날마다 150,000,000건 이상의 검색을 처리하며 2013년 2월 기준으로 50,500,000명 이상이 방문한다. 이 회사의 목적은 사용자들이 생각하는 질문들에 대한 답변을 명시적으로나 암묵적으로 제공하는 것이다. 얀덱스는 우크라이나와 카자흐스탄에서도 존재감이 매우 큰 편인데, 해당 국가들의 시장에서 모든 검색 결과의 거의 1/3을 제공하며 벨라루스의 경우 전체 검색 결과의 43%를 제공한다.

Yandex.ru 홈페이지는 러시아에서 가장 대중적인 웹사이트로 순위를 올리고 있다. 이 웹사이트 또한 벨라루스, 카자흐스탄, 우크라이나, 터키에서 운영된다. 얀덱스 연구소는 얀덱스 소유로서 샌프란시스코 베이 에어리어에 위치해 있다. 2014년에 얀덱스는 독일 베를린에 연구개발 사무소를 개장할 예정이라고 발표하였다.   -위키백과 출처

 

보시는 바와 같이 우리나라에는 매우 드물지만 해외에서 사용하는 브라우저이다.

 

이 브라우저의 나의 웹사이트를 제공하고 싶다면 봇의 접근을 허용해주면 되지만 그렇지 않다면 봇의 접근을 거부할 수 있다. 

 

Yandex Bot을 거부하려면!!!!


 "Yandex Bot"은 여러가지 종류가 있는데 모든 Yandex 봇 을 차단 하려면 아래 내용대로 설정 하면 된다!

User-agent: Yandex

Disallow: /

 

그러나 기본 인덱싱 "YandexBot"만 차단하려면 아래 내용대로 설정 하면 된다!

User-agent: Yande!@xBot

Disallow: /


그러나 나의 사이트를 더욱 많은 사람들이 봐주기를 원한다면 들어보셨겠지만 Webmaster에 등록하면 된다!

국내에 블로그 하는 사람들 대부분 구글 웹마스터, 네이버 웹마스터, 다음 웹마스터에 등록을 많이 하기는 하지만 

Yandex.Webmaster를 사용해서 Yandex 브라우저에 나의 사이트 나의 블로그도 등록할 수 있다.

 

Yandex.Webmaster는 사용자가 사이트를 쉽게 찾을 수 있는지 이해하도록 도와줍니다. 이 서비스는 사이트 페이지 색인, 검색 순위 및 기술 조건을 추적하고 분석하기위한 도구를 제공합니다. -출처 Yandex Support 사이트 

 

1 단계. 사이트 크롤링

로봇은 크롤링 할 사이트와 빈도 및 각 사이트에서 크롤링 할 페이지 수를 결정합니다.

이를 크롤링 할 때 로봇은 다음 데이터를 기반으로 이미 알려진 페이지 목록을 고려합니다.

 

2 단계. 데이터로드 및 처리 (인덱싱)

로봇은 페이지의 내용을 결정하여 데이터베이스에 저장합니다.

 

3 단계. 검색 결과에 포함될 수있는 페이지 데이터베이스 작성

로봇이 수집 한 정보를 기반으로 알고리즘은 검색 결과에 포함될 수있는 페이지를 결정합니다. 알고리즘은 최종 결정을 내리는 데 사용되는 다양한 순위 및 인덱싱 요소를 고려합니다.

 

4 단계. 검색 결과 생성

알고리즘은 페이지의 품질을 결정합니다.

  • 페이지 콘텐츠가 검색 쿼리와 어느 정도 일치하는지 (즉, 관련성 여부)

  • 페이지 내용이 명확하고 사용자에게 유용한 지 여부

  • 페이지가 편리한 지 여부 (텍스트가 구성되는 방식, 다른 수준의 단락 및 머리글 등이 정렬 됨) 

-> 출처 Yandex Support 홈페이지 

 

위에 내용에따라 나의 홈페이지를 크롤링해서 간다. 

 

나의 블로그에 경우에는 Yandex Bot이 크롤링하지 않았기 때문에 이 브라우저에서 아무리 검색을 해도 나오지 않는다.

나처럼 개인 블로그에 경우에는 많이 노출되는게 좋기 때문에 이런 봇이 오는 것 만으로도 좋으련만..

그렇지 않으니 내가 직접 등록해서 와주세요!! 할 수 있다!! Yandex Bot님 나의 사이트에 와서 나의 정보를 가져가요!!

 

등록하는 방법은???? -> 곧 업데이트 될 예정입니다! 

 

728x90
반응형

'Packet' 카테고리의 다른 글

User-Agent: libww-perl 의 역할  (0) 2020.04.07
HTTP Banner Detection  (0) 2020.03.28
줌라(Joomla) table 명세데이터 호출  (0) 2020.03.27
Independence Day Spammail  (0) 2020.03.27

댓글