robot.txt 특정 검색엔진 봇 크롤링 방지하기
“야후 제펜에 노출되지 않았으면 좋겠어요!!”
어느날 이런 요구사항을 받게 된다면? 다행히 robot.txt 파일에 다음의 2줄을 추가해줌으로써 해결 가능합니다.
User-agent: slurp
Disallow: /
[robot.txt 사용법 참조]
https://support.google.com/webmasters/answer/6062596?hl=ko
많은 검색엔진이 있는데요 그들이 사용하는 User-agent 의 string value 목록은 아래의 링크에서 확인가능합니다.
https://perishablepress.com/list-all-user-agents-top-search-engines/#yahoo
대표적으로 구글과 야후는 아래와 같은 이름을 사용합니다.
구글 : adsbot-google, googlebot,
야후 : slurp
그런데 위의 사이트는 목록이 좀 빈약하군요. 네이버도 없다니 ^^ 그래서 봇 레퍼런스를 모두 담고 있는 아래의 사이트를 추가했습니다.
http://www.botreports.com
네이버 봇의 정보는 왼쪽 알파벳 중 n 을 클릭해서 접근 가능하겠죠. 링크는 아래와 같습니다. 또한 다음봇의 이름도 확인해 보았습니다.
http://www.botreports.com/user-agent/naver.shtml
네이버 : naver
다음 : Daumoa