로봇 Txt 파일이란 무엇입니까? 모두 허용

게시 됨: 2020-11-19

로봇 Txt 파일이란 무엇입니까?

robots.text 파일은 검색 엔진에 사이트에서 갈 수 없는 영역을 알려주는 핵심 방법입니다. 이 텍스트 파일이 제공하는 기본 기능은 모든 주요 검색 엔진에서 지원됩니다. 일부 검색 엔진이 응답하는 추가 규칙은 매우 유용할 수 있습니다. 사이트에서 robots.txt 파일을 사용할 수 있는 방법은 다양합니다. 절차가 매우 간단해 보이지만 주의가 필요합니다. 실수를 하면 웹사이트에 심각한 피해를 줄 수 있습니다.

검색 엔진 스파이더는 robots.txt 파일을 읽고 매우 엄격한 구문을 따릅니다. 많은 사람들이 이 거미를 로봇이라고 부르는데 그 이름이 유래했습니다. 구문에 사용되는 파일은 컴퓨터에서 읽을 수 있어야 하므로 단순해야 합니다. 이는 오류의 여지가 전혀 없다는 것을 의미합니다. 모든 것이 1 또는 0이며 그 사이에 아무 것도 들어갈 여지가 없습니다. robots.txt 파일은 로봇 제외 프로토콜이라고도 합니다.

이 이름은 검색 엔진을 위한 초기 스파이더 개발자 그룹을 통해 유래했습니다. 현재 로봇 텍스트 파일을 공식 표준으로 설정한 표준 기관은 없습니다. 그럼에도 불구하고 모든 주요 검색 엔진은 이 파일을 준수합니다.

로봇 텍스트 파일의 기능은 무엇입니까?

웹은 페이지를 스파이더링하여 검색 엔진에 의해 색인이 생성됩니다. 링크는 사이트 A에서 B 등으로 검색 엔진을 안내하기 위해 따릅니다. 검색 엔진에서 보낸 스파이더가 과거에 발견되지 않은 도메인 페이지를 크롤링하기 전에 해당 도메인의 robots.txt 파일이 열립니다. 이것은 웹사이트의 어떤 URL이 색인 생성이 허용되지 않는지 검색 엔진에 알리는 것입니다.

대부분의 경우 robots.txt 콘텐츠는 검색 엔진에 의해 캐시됩니다. 캐시는 일반적으로 매일 여러 번 새로 고쳐집니다. 즉, 변경 사항이 상당히 빨리 표시됩니다.

Robots.txt 파일 합치기

매우 기본적인 robots.txt 파일을 모으는 것은 매우 간단합니다. 그 과정에 어려움이 없어야 합니다. 메모장과 같은 간단한 텍스트 편집기만 있으면 됩니다. 페이지를 열어 시작하십시오. 이제 빈 페이지를 robots.txt로 저장합니다. cPanel로 이동하여 로그인합니다. 웹사이트의 루트 디렉토리에 액세스하려면 market public_html 폴더를 찾으십시오. 이 폴더를 연 다음 파일을 끌어다 놓습니다. 파일에 대한 올바른 권한을 설정했는지 확인해야 합니다.

웹사이트의 소유자이기 때문에 파일을 쓰고 읽고 편집해야 합니다. 다른 사람이 귀하를 대신하여 이러한 작업을 수행하도록 허용해서는 안 됩니다. 파일에 표시되는 권한 코드는 0644여야 합니다. 이 코드가 표시되지 않으면 변경해야 합니다. 파일을 클릭하고 파일 권한을 선택하여 이를 수행할 수 있습니다.

Robots.txt 구문

robots.txt 파일에 포함된 지시문 섹션이 많이 있습니다. 각각은 지정된 사용자 에이전트로 시작합니다. 이것은 코드가 말하는 크롤링 봇의 이름입니다. 두 가지 다른 사용 가능한 옵션이 있습니다. 첫 번째는 와일드카드를 사용하여 모든 검색 엔진에 동시에 주소를 지정하는 것입니다. 특정 검색 엔진에 개별적으로 주소를 지정할 수도 있습니다. 웹 사이트 크롤링을 위해 봇이 배포되면 즉시 블록에 그려집니다.

사용자 에이전트 지시문은 모든 블록의 처음 몇 줄입니다. 이것은 단순히 사용자 에이전트라고 하며 특정 봇을 찾아냅니다. 특정 봇 이름은 사용자 에이전트와 일치합니다. 원하는 작업을 Googlebot에 알려야 하는 경우 user-agent: Googlebot으로 시작합니다. 검색 엔진은 항상 그들과 가장 가까운 특정 지시어를 찾아내려고 시도할 것입니다. 다음은 사용자 에이전트 지시문의 몇 가지 예입니다.

로봇 Txt 파일이란 무엇입니까? 모두 허용

(이미지 제공: 모즈)

좋은 예는 두 개의 서로 다른 지시문을 사용하는 경우입니다. 첫 번째 지시문이 Googlebot-video에 대한 것이고 두 번째 지시문이 Bingbot에 대한 것이라면 프로세스는 다음과 같습니다. 사용자 에이전트로 Bingbot을 사용하는 첫 번째 봇은 지침을 따릅니다. Googlebot-video 지시문은 전달되고 봇은 보다 구체적인 지시문을 검색하기 시작합니다.

60초 안에 사이트의 SEO와 성능을 테스트하십시오!

훌륭한 웹사이트 디자인은 방문자 참여 및 전환에 매우 중요하지만 느린 웹사이트 또는 성능 오류로 인해 가장 잘 설계된 웹사이트라도 성능이 저하될 수 있습니다. Diib는 세계 최고의 웹사이트 성능 및 SEO 모니터링 도구 중 하나입니다. Diib은 빅 데이터의 힘을 사용하여 빠르고 쉽게 트래픽과 순위를 높일 수 있도록 도와줍니다. Entrepreneur에서 본 것처럼!

  • 사용하기 쉬운 자동 SEO 도구
  • 키워드 및 백링크 모니터링 + 아이디어
  • 속도, 보안, + Core Vitals 추적 보장
  • SEO 개선을 ​​위한 아이디어를 지능적으로 제안
  • 250,000k 이상의 글로벌 회원
  • 내장된 벤치마킹 및 경쟁사 분석

예: “www.diib.com”

250,000개 이상의 회사 및 조직에서 사용:

  • 심벌 마크
  • 심벌 마크
  • 심벌 마크
  • 심벌 마크

다음과 동기화 구글 애널리틱스

링크 빌딩

호스트 지시문

Yandex만 현재 호스트 지시문을 지원하고 있습니다. 이 지시문이 Google에서도 지원된다는 추측이 있습니다. 이것은 사용자가 www. URL 앞에 표시되어야 합니다. 확인된 유일한 서포터는 Yandex이므로 호스트 지시문에 의존하는 것은 권장하지 않습니다. 현재 호스트 이름을 사용하는 데 관심이 없다면 301 리디렉션을 사용하여 리디렉션할 수 있습니다.

두 번째 줄은 robots.txt disallow입니다. 이것은 지시문 블록입니다. 이것은 봇이 액세스할 수 없는 웹사이트 영역을 지정하는 데 사용할 수 있습니다. 비어 있는 허용 안 함을 선택하면 모두에게 허용됩니다. 이는 봇이 사이트의 지시 없이 방문하고 싶지 않은 위치를 결정할 수 있음을 의미합니다.

사이트맵 지침

사이트맵 지시문은 robots.txt 사이트맵을 사용하여 검색 엔진에 XML 사이트맵이 있는 위치를 알려줍니다. 가장 유용하고 최선의 방법은 특정 웹마스터 도구를 사용하여 검색 엔진에 각각을 개별적으로 제출하는 것입니다. 이렇게 하면 모든 웹사이트에서 웹사이트에 관한 귀중한 정보를 많이 배울 수 있습니다. 시간이 많지 않다면 sitemap 지시문을 사용하는 것이 좋은 대안입니다. 예를 들어:

로봇 Txt 파일이란 무엇입니까? 모두 허용

당신은 관심이있을 것입니다

(이미지 제공: WooRank)

Robots.txt 검사기

유효성 검사기는 robots.txt 파일이 웹사이트에 있는 특정 URL에 대해 Google의 웹 크롤러를 차단하는지 여부를 표시하는 도구입니다. 좋은 예는 모든 Google 이미지 검색에서 차단하려는 이미지 URL을 크롤링할 수 있는 액세스 권한이 Googlebot-Image 크롤러에 있는지 테스트하는 데 이 도구를 사용하는 것입니다.

Robots.txt 모두 허용

허용 안 함 지시문은 허용 지시문을 사용하여 대응할 수 있습니다. Google과 Bing은 모두 Allow 지시문을 지원합니다. Disallow 및 Allow 지시문을 함께 사용하여 검색 엔진에 Disallow 디렉토리가 있는 특정 페이지 또는 파일에 액세스할 수 있음을 알릴 수 있습니다. 예를 들어:

로봇 Txt 파일이란 무엇입니까? 모두 허용

(이미지 크레디트: DeepCrawl)

Robots.txt 구글

9월 1일부로 Google은 로봇의 독점 프로토콜에 대해 게시되지 않은 규칙과 지원되지 않는 규칙에 대한 지원을 중단했습니다. 이 발표는 Google 웹마스터 블로그에서 이루어졌습니다. 즉, Google은 noindex 디렉토리가 있는 파일 내에서 robots.txt 파일을 더 이상 지원하지 않습니다.

크롤링 지연 지시문

크롤링과 관련하여 Yahoo, Yandex 및 Bing은 모두 작은 방아쇠가 될 수 있습니다. 즉, 크롤링 지연 지시문에 응답합니다. 이것은 당신이 그들을 잠시 동안 멀리 할 수 ​​있음을 의미합니다.

Robots.txt 생성기

robots.txt 생성기는 웹마스터, 마케팅 담당자 및 SEO가 필요한 기술 지식 없이도 robots.txt 파일을 생성하도록 지원하기 위해 만들어진 도구입니다. robots.txt 파일을 만들 때 WordPress 또는 다른 CMS 중 하나를 사용하여 구축했는지 여부에 관계없이 웹사이트에 액세스하는 Google 기능에 큰 영향을 미칠 수 있으므로 여전히 주의해야 합니다.

이 도구를 사용하는 것은 매우 간단하지만 권장 사항은 먼저 Google에서 제공하는 지침에 익숙해지는 것입니다. 구현이 올바르지 않으면 Google을 포함한 검색 엔진이 웹사이트의 중요한 페이지를 포함하여 전체 도메인을 크롤링할 수 없습니다. 결과는 SEO 노력에 상당한 영향을 미칠 수 있습니다.

Robots.txt 워드프레스

대부분의 경우 WordPress 웹사이트의 루트 폴더에서 robots.txt를 찾을 수 있습니다. 루트 폴더를 보거나 FTP 클라이언트를 통해 웹사이트에 연결하려면 cPanel 파일 관리자를 사용해야 합니다. 이것은 메모장을 사용하여 열 수 있는 단순한 텍스트 파일입니다. 아래 이미지는 WordPress에서 파일 관리자로 이동하는 방법을 보여줍니다.

로봇 Txt 파일이란 무엇입니까? 모두 허용

(이미지 제공: Kinsta)

크롤링 지연: 10

이렇게 하면 검색 엔진이 웹사이트를 크롤링하기 전 또는 크롤링을 위해 웹사이트에 다시 액세스한 후 10초 동안 대기하도록 할 수 있습니다. 개념은 거의 동일하지만 특정 검색 엔진에 따라 약간의 차이가 있습니다.

왜 Robots.txt를 사용합니까?

Robots.txt는 성공적인 웹사이트를 갖기 위해 필요하지 않습니다. 웹 사이트가 없더라도 올바르게 작동하는 웹 사이트를 사용하면 좋은 순위를 얻을 수 있습니다. robots.txt를 사용하지 않기로 결정하기 전에 다음과 같은 몇 가지 주요 이점을 염두에 두십시오.

  • 개인 파일을 안전하게 유지: 봇을 개인 폴더에서 멀리 떨어져 위치를 찾고 인덱싱하기가 훨씬 더 어렵도록 할 수 있습니다.
  • Sitemap 지정: Sitemap 위치를 지정할 수 있습니다. 크롤러가 위치를 검색할 수 있기를 원하기 때문에 크롤러에게 위치를 제공하는 것이 중요합니다.
  • 리소스 제어: 리소스를 계속 제어할 수 있습니다. 봇이 웹사이트를 크롤링할 때마다 서버 리소스와 대역폭이 사용됩니다. 전자 상거래 사이트와 같이 페이지 수가 많고 콘텐츠가 많은 웹 사이트가 있는 경우 페이지 수가 많기 때문에 리소스가 매우 빨리 고갈될 수 있습니다. robots.txt 파일을 사용하면 봇이 개별 이미지와 스크립트에 액세스하기가 더 어려워집니다. 이는 귀하의 귀중한 리소스가 실제 방문자를 위해 유지된다는 것을 의미합니다.
  • 탐색 제어: 검색 엔진이 사이트에서 가장 중요한 페이지를 찾기를 원합니다. 특정 페이지에 대한 액세스를 전환하여 검색자가 볼 페이지를 제어할 수 있습니다. 검색 엔진이 특정 페이지를 보지 못하도록 완전히 차단하는 것은 권장되지 않습니다.
  • 중복 콘텐츠 없음: SERP가 중복 콘텐츠를 보는 것을 원하지 않습니다. 로봇을 사용하여 크롤러가 중복 콘텐츠가 포함된 페이지를 인덱싱하지 못하도록 하는 규칙을 추가할 수 있습니다.

Robots.txt 색인 없음 vs. 허용 안 함

noindex 규칙에 robots.txt가 지원되지 않는다는 것을 이미 알고 있습니다. noindex 메타 태그를 사용하여 검색 엔진이 특정 페이지의 색인을 생성하지 않도록 할 수 있습니다. 봇은 여전히 ​​귀하의 페이지에 액세스할 수 있지만 로봇은 귀하의 태그에서 귀하의 페이지가 SERP에 색인이 생성되거나 표시되지 않는다는 것을 알게 됩니다. 일반적인 noindex 태그로서 허용하지 않는 규칙이 효과적인 경우가 많습니다. 이 태그를 robots.txt에 추가하면 봇이 페이지를 크롤링하지 못하도록 차단됩니다. 예를 들어:

로봇 Txt 파일이란 무엇입니까? 모두 허용

귀하의 페이지가 이미 외부 및 내부 링크를 사용하여 다른 페이지에 링크되어 있는 경우, 귀하의 페이지는 다른 웹사이트 또는 페이지에서 받은 정보를 사용하여 봇에 의해 여전히 인덱싱될 수 있습니다. noindex 태그를 사용하여 페이지가 허용되지 않으면 로봇이 태그를 볼 수 없습니다. 이로 인해 귀하의 페이지가 어쨌든 SERP에 나타날 수 있습니다.

와일드카드 및 정규식 사용

이제 robots.txt 파일과 이 파일이 사용되는 방식에 대해 충분히 이해하고 있을 것입니다. 또한 robots.txt 내에서 와일드카드를 구현할 수 있으므로 와일드카드에 대해서도 알아야 합니다. 두 가지 종류의 와일드카드 중에서 선택할 수 있습니다. 원하는 문자 시퀀스를 일치시키기 위해 와일드카드 문자를 사용할 수 있습니다. 이러한 종류의 와일드카드는 동일한 패턴을 따르는 URL이 있는 경우 훌륭한 솔루션입니다. 좋은 예는 와일드카드를 사용하여 URL에 물음표가 있는 필터 페이지에서 크롤링을 허용하지 않는 것입니다.

$ 와일드카드는 URL의 끝과 일치합니다. 좋은 예는 robots.txt 파일에서 봇이 PDF 파일에 액세스하지 못하도록 하려는 경우입니다. 규칙을 추가하기만 하면 됩니다. 그러면 robots.txt 파일을 통해 모든 사용자 에이전트 봇이 사이트를 크롤링할 수 있습니다. 동시에 .pdf 끝이 포함된 페이지는 허용되지 않습니다.

피해야 할 실수

robots.txt 파일을 사용하여 다양한 방법으로 광범위한 작업을 수행할 수 있습니다. 파일을 올바르게 사용하는 것을 이해하는 것은 필수적입니다. robots.txt 파일을 올바르게 사용하지 못하면 SEO 재앙이 되기 쉽습니다. 피해야 할 가장 일반적인 실수는 다음과 같습니다.

좋은 콘텐츠는 절대 차단되어서는 안 됩니다

공개 프레젠테이션에 noindex 태그 또는 robots.txt 파일을 사용하려는 경우 좋은 콘텐츠가 차단되지 않는 것이 중요합니다. 이러한 유형의 실수는 매우 일반적이며 SEO 결과를 손상시킵니다. SEO 노력을 보호하기 위해 금지 규칙과 NOINDEX 태그가 모두 있는지 페이지를 철저히 확인하십시오.

대소문자 구분

robots.txt는 대소문자를 구분합니다. 이것은 로봇 파일이 올바르게 생성되어야 함을 의미합니다. 항상 소문자로 로봇 파일의 이름을 robots.txt로 지정해야 합니다. 그렇지 않으면 작동하지 않습니다. 예를 들어:

로봇 Txt 파일이란 무엇입니까? 모두 허용

(이미지 제공: 검색 엔진 랜드)

크롤링 지연을 남용

크롤링 지연에 대한 지시문을 남용하는 것은 매우 나쁜 생각입니다. 이렇게 하면 봇이 크롤링할 수 있는 페이지 수가 제한됩니다. 매우 작은 웹 사이트가 있는 경우 이 방법이 작동할 수 있습니다. 웹 사이트가 상당히 크면 트래픽의 흐름과 좋은 순위를 방해하여 자신을 다치게 할 수 있습니다. 크롤링 지연을 사용하는 빈도에 주의하십시오.

이 기사가 유용했기를 바랍니다.

사이트 상태에 대해 더 자세히 알고 싶거나 개인 권장 사항 및 알림을 받고 싶다면 Diib으로 웹 사이트를 스캔하십시오. 60초밖에 걸리지 않습니다.

웹사이트 입력

예: “www.diib.com”

저는 Diib이 압도적일 수 있는 Google Analytics 데이터를 이해하는 데 매우 유용하다는 것을 알았습니다. 이 서비스는 데이터를 탐색하고 개선할 수 있는 영역을 찾습니다. 전문가인 경우에도 이를 통해 시간을 절약할 수 있습니다. 저에게 있어 이는 Google Analytics에서 수집한 데이터가 단순히 흥미롭기보다는 개선할 수 있도록 실행 가능하다는 의미입니다.
사용후기
닉 콜배치
RV 커버 공급

Robots.txt로 콘텐츠 인덱싱 방지

봇이 페이지 중 하나를 직접 크롤링하지 못하도록 하는 가장 좋은 방법은 페이지를 허용하지 않는 것입니다. 특정 상황에서는 작동하지 않습니다. 여기에는 외부 소스에 대한 링크가 있는 모든 페이지가 포함됩니다. 봇은 링크를 사용하여 페이지에 액세스하고 색인을 생성할 수 있습니다. 봇이 불법인 경우 콘텐츠 크롤링 및 색인 생성을 방지할 수 없습니다.

Robots.txt로 개인 콘텐츠 보호하기

감사 페이지나 PDF를 포함하여 개인 콘텐츠에서 봇을 멀리하는 경우에도 여전히 인덱싱될 수 있습니다. 가장 좋은 옵션 중 하나는 모든 개인 콘텐츠를 로그인 뒤에 그리고 disallow 지시문 옆에 두는 것입니다. 사이트 방문자는 추가 단계를 수행해야 합니다. 장점은 모든 콘텐츠가 안전하게 유지된다는 것입니다.

Diib는 로봇 txt 파일이 작동하는지 확인합니다!

Diib Digital은 robots.txt 파일의 상태 및 효율성에 관한 최신 정보를 제공합니다. Google이 트래픽을 잘못 안내하여 높은 이탈률로 이어지지 않도록 하십시오. 다음은 도움이 될 수 있는 사용자 대시보드의 일부 기능입니다.

  • 웹사이트 상태와 robots.txt 파일에 영향을 줄 수 있는 Google 알고리즘 변경 사항에 대한 정보를 제공하는 맞춤 알림 을 제공합니다.
  • 모바일 친화성, 웹사이트 상태 및 유기적 트래픽을 개선하는 방법에 대한 맞춤형 제안이 포함된 목표 .
  • 귀하의 웹사이트 상태뿐만 아니라 주요 경쟁자의 상태에 대한 통찰력 .
  • Facebook 프로필을 동기화하여 소셜 미디어 캠페인의 세부 사항에 대한 통찰력을 얻을 수 있습니다. 특정 게시물 성능, 사용자 인구 통계, 게시하기 가장 좋은 시간 및 전환과 같은 것입니다.
  • 모바일 SEO 노력을 미세 조정하고 성장과 성공으로 안내할 수 있는 Diib 성장 전문가와 의 월간 협업 세션 .

오늘 800-303-3510으로 전화하거나 여기를 클릭하여 무료 60 웹사이트 스캔을 받고 SEO의 강점과 약점에 대해 자세히 알아보세요.