본문 바로가기

보호

Robots.txt

Robots.txt는 페이지나 파일을 크롤링하거나 인덱싱 하지 말아야 하는 검색 엔진 크롤러 또는 로봇에 대한 정의를 웹 사이트의 루트 디렉토리에 배치하는 파일입니다. 이 파일에는 검색 결과에서 제외하거나 포함해야 하는 페이지 또는 디렉토리를 지정하는 일련의 규칙이 포함되어 있습니다.

robots.txt 파일은 웹 크롤러가 웹 사이트의 페이지 색인 생성을 시작하기 전에 액세스하는 텍스트 파일입니다. 파일 이름은 "robots.txt"이며 웹 사이트의 루트 디렉터리(일반적으로 https://www.example.com/robots.txt )에 있습니다 . 파일의 규칙은 "User-agent" 및 "Disallow" 등의 지시문을 사용하여 특정 형식으로 작성됩니다.

User-agent: *
Disallow:

모든 검색 엔진 로봇이 웹사이트의 모든 페이지와 디렉토리를 크롤링하고 인덱싱할 수 있음을 알려줍니다.


User-agent: *
Disallow: /

모든 검색 엔진 로봇이 웹 사이트의 페이지나 디렉토리를 크롤링할 수 없음을 알려줍니다. 허용 안 되는 범위인 Disallow 뒤의 슬래시는 크롤링할 페이지나 디렉터리가 없음을 나타냅니다.


User-agent: Googlebot
Disallow: /admin/

Google의 검색 엔진 크롤러인 Googlebot에게 웹사이트의 /admin/ 디렉토리 내 페이지 또는 디렉토리를 크롤링할 수 없음을 알려줍니다. 다른 검색 엔진 로봇은 이 규칙의 영향을 받지 않습니다.


User-agent: *
Disallow: /list.html

모든 검색 엔진 로봇이 웹사이트의 /list.html 페이지를 크롤링할 수 없음을 알려줍니다. 다른 페이지와 디렉토리는 이 규칙의 영향을 받지 않습니다.


User-agent: Bingbot
Disallow: /
Allow: /special/

이 규칙은 Bing의 검색 엔진 크롤러인 Bingbot에게 Disallow 규칙에서 허용 되는 범위인 Allow에 지정된 항목을 제외하고 웹사이트의 모든 페이지와 디렉토리를 크롤링할 수 없음을 알려줍니다. Bingbot이 /special/ 디렉터리를 크롤링할 수 있도록 허용합니다. 다른 검색 엔진 로봇은 이 규칙의 영향을 받지 않습니다.


robots.txt는 자발적인 메커니즘이며 모든 웹 크롤러가 해당 규칙을 준수하는 것은 아닙니다. 일부 크롤러는 파일 및 색인 페이지를 무시할 수 있지만 다른 크롤러는 규칙을 준수하고 색인에서 특정 페이지를 제외할 수 있습니다.