robot.txt 특정 검색엔진 봇 크롤링 방지하기

“야후 제펜에 노출되지 않았으면 좋겠어요!!”

 

어느날 이런 요구사항을 받게 된다면? 다행히 robot.txt 파일에 다음의 2줄을 추가해줌으로써 해결 가능합니다.

User-agent: slurp
Disallow: /

 

[robot.txt 사용법 참조]

https://support.google.com/webmasters/answer/6062596?hl=ko

 

 

많은 검색엔진이 있는데요 그들이 사용하는 User-agent 의 string value 목록은 아래의 링크에서 확인가능합니다.

https://perishablepress.com/list-all-user-agents-top-search-engines/#yahoo

 

 

대표적으로 구글과 야후는 아래와 같은 이름을 사용합니다.

구글 : adsbot-google, googlebot,

야후 : slurp

 

그런데 위의 사이트는 목록이 좀 빈약하군요. 네이버도 없다니 ^^ 그래서 봇 레퍼런스를 모두 담고 있는 아래의 사이트를 추가했습니다.

http://www.botreports.com

 

네이버 봇의 정보는  왼쪽 알파벳 중 n 을 클릭해서 접근 가능하겠죠. 링크는 아래와 같습니다. 또한 다음봇의 이름도 확인해 보았습니다.

http://www.botreports.com/user-agent/naver.shtml

 

 

네이버 : naver

다음 : Daumoa