IT. POST LIST

POST ALL LABEL

robots.txt 파일 설정

By 때찌때찌맴매 - 12월 04, 2013

출처 : http://blog.naver.com/PostView.nhn?blogId=boxerehdwls&logNo=110163473568
robots.txt는 검색의 한계를 설정하는 파일입니다.
robots.txt는 반드시 도메인의 root에 존재해야 합니다.
텍스트 파일임을 명시해야 합니다.
하위 디렉토리에 있다면 검색엔진이 인식하지 못합니다.
즉 http://www.naver.com/robots.txt 처럼 도메인 바로 뒤에서 연결이 가능해야 합니다.
robots.txt 파일은 검색엔진을 통해 색인을 생성하지 않으려는 콘텐츠가 사이트에 포함되어 있는 경우에만 필요합니다. 검색엔진이 사이트의 모든 콘텐츠에 대한 색인을 생성하도록 하려면 설령 빈 파일이라 할지라도 robots.txt 파일이 전혀 필요하지 않습니다.



robots.txt에 의해 차단된 페이지의 콘텐츠는 Google에서 크롤링하거나 색인을 생성하지 않지만, 웹의 다른 페이지에서 해당 페이지의 콘텐츠를 찾은 경우에는 여전히 URL의 색인을 생성할 수 있습니다. 따라서 페이지의 URL 및 사이트 링크의 앵커 텍스트나 오픈 디렉토리 프로젝트(Open Directory Project)의 제목(www.dmoz.org) 같은 기타 공개 정보가 Google 검색결과에 나타날 수 있습니다.



robots.txt 파일을 사용하려면 도메인의 루트 액세스 권한이 있어야 합니다. 권한이 있는지 확실하지 않으면 웹호스팅 업체에 문의하시기 바랍니다. 도메인의 루트에 대한 액세스 권한이 없는 경우에는 로봇 메타태그를 사용하여 액세스를 제한할 수 있습니다.



페이지가 다른 사이트에 연결되어 있더라도 페이지의 콘텐츠가 Google 웹 색인에 열거되지 않도록 완전히 차단하려면 noindex 메타 태그 또는 x-robots-tag를 사용합니다. Googlebot이 페이지를 가져오는 즉시, noindex 메타 태그를 보게 되고 해당 페이지가 웹 색인에 표시되지 않게 합니다. x-robots-tag HTTP 헤더는 그래픽이나 다른 종류의 문서와 같이 HTML이 아닌 파일의 색인 생성을 제한하고 싶을 때 특히 유용합니다.
—————————————————————————————————————————————————————–

robots.txt 파일 만들기



user-agent : 검색로봇을 설정하는 부분

Disallow 행에는 차단할 페이지

특정 URL이나 패턴을 포함할 수 있으며, 각 항목은 슬래시(/)로 시작


     *   모든 로봇에게 문서 접근을 허용

          User-agent : *
          Allow : /


     *   모든 로봇에게 문서 접근을 차단

          User-agent : *
          Disallow : /
    *  구글봇이 ‘?’ 가 포함된 URL, 임의의 문자열 또는 물음표로 된 주소를 차단
         User-agent : Googlebot
         Disallow : /*?

    *   Badbot 이라는 로봇에 admin , tmp 라는 디렉토리를 차단

          User-agent : Badbot
          Disallow : /admin/
          Disallow : /tmp/

사이트 전체를 차단하려면 슬래시를 사용합니다.
Disallow: /

디렉토리 및 디렉토리에 포함된 모든 항목을 차단하려면 디렉토리 이름 다음에 슬래시를 사용합니다.
Disallow: /junk-directory/

특정 페이지를 차단하려면 해당 페이지를 표시합니다.
Disallow: /private_file.html

Google 이미지에서 특정 이미지를 삭제하려면 다음을 추가합니다.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Google 이미지에서 사이트 내 모든 이미지를 삭제하려면 다음과 같이 설정합니다.
User-agent: Googlebot-Image
Disallow: /

특정 파일 형식(예: .gif)을 차단하려면 다음과 같이 설정합니다.
User-agent: Googlebot
Disallow: /*.gif$

사이트 페이지에 애드센스 광고를 게재하면서도 크롤링되지 않도록 하려면 Mediapartners-Google을 제외한 모든 로봇을 차단합니다. 이렇게 하면 해당 페이지가 검색 결과에는 표시되지 않지만 Mediapartners-Google 로봇이 페이지를 분석하여 게재할 광고를 결정할 수 있습니다. Mediapartners-Google 로봇은 다른 Google user-agent와 페이지를 공유하지 않습니다. 예를 들면 다음과 같습니다.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

명령문은 대소문자를 구분합니다. 예를 들어, Disallow: /junk_file.asp는 http://www.example.com/junk_file.asp URL은 차단하지만 http://www.example.com/Junk_file.asp URL은 허용합니다. Googlebot은 robots.txt에서 빈 공간(특히 빈 행)과 알 수 없는 명령문을 무시합니다.

Googlebot은 robots.txt 파일을 통한 Sitemap 파일 제출을 지원합니다.

해당 파일을 사이트의 최상위 디렉토리에 저장합니다.

robots.txt 파일은 도메인의 루트에 있어야 하며 이름은 ‘robots.txt’여야 합니다.

검색 로봇은 도메인의 루트에 있는 robots.txt 파일만 찾기 때문에 하위 디렉토리에 있는 파일은 유효하지 않습니다.

예를 들어, http://www.example.com/robots.txt 는 유효한 위치이지만, http://www.example.com/mysite/robots.txt 는 그렇지 않습니다.

robots.txt 파일 테스트

robots.txt 테스트 도구는 robots.txt 파일이 잘못해서 Googlebot이 사이트의 파일이나 디렉토리를 크롤링하지 못하도록 차단하고 있는지 또는 Googlebot이 웹에 표시되어서는 안 되는 파일을 크롤링하도록 허용하는지 여부를 표시합니다. 제안된 robots.txt 파일의 텍스트를 입력하면 이 도구는 Googlebot과 같은 방식으로 텍스트를 읽고 파일의 영향 및 발견된 문제점을 나열합니다.

사이트의 robots.txt 파일을 테스트하려면 다음 단계를 따르세요.

웹마스터 도구 홈페이지에서 원하는 사이트를 클릭합니다.
상태에서 차단된 URL을 클릭합니다..
아직 선택되지 않은 경우 robots.txt 테스트 탭을 클릭합니다.
robots.txt 파일의 콘텐츠를 복사하여 첫 번째 입력란에 붙여넣습니다.
URL 입력란에 테스트할 사이트를 나열합니다.
User-agents 목록에서 원하는 User-agents를 선택합니다.
이 도구에 대한 변경사항은 저장되지 않습니다. 변경사항을 저장하려면 콘텐츠를 복사한 다음 robots.txt 파일에 붙여넣어야 합니다.





robots.txt 분석 도구는 Googlebot과 같은 Google User-agent에만 적용되는 결과를 제공합니다.

다른 검색 로봇은 robots.txt 파일을 다른 방식으로 해석할 수 있습니다.



도구에서 이러한 확장된 정의를 포함하는 행을 인식하는 것으로 표시하는 경우에도, 이는 Googlebot에만 적용되며

사이트를 크롤링하는 다른 검색 로봇에는 적용되지 않을 수 있습니다.



robots.txt 생성 사이트 : http://www.mcanerin.com/EN/search-engine/robots-txt.asp

  • Share:

You Might Also Like

0 개의 댓글