크롤링 예산이란 무엇이며 이를 최적화하는 방법

게시 됨: 2022-04-28

크롤링 예산이란 무엇이며 URL과 googlebot을 사용하여 이를 최적화하는 방법

검색 엔진 봇의 작동 방식에 대해 처음 배울 때 크롤링 예산은 낯선 개념처럼 보일 수 있습니다. 가장 쉬운 SEO 개념은 아니지만 보이는 것보다 덜 복잡합니다. 크롤링 예산이 무엇이며 검색 엔진 크롤링이 작동하는 방식을 이해하기 시작하면 웹사이트를 최적화하여 크롤링 가능성을 최적화할 수 있습니다. 이 프로세스는 귀하의 사이트가 Google 검색 결과에서 순위를 매길 수 있는 가장 높은 잠재력을 달성하는 데 도움이 됩니다.

크롤링 예산이란 무엇입니까?

크롤링 예산을 보여주는 색인 생성 작업 목록이 있는 googlebot

크롤링 예산은 검색 엔진 봇이 하나의 인덱싱 세션 내에서 인덱싱할 수 있는 한 웹사이트의 URL 수입니다. 크롤링 세션의 "예산"은 각 개별 사이트의 크기, 트래픽 측정항목 및 페이지 로드 속도 에 따라 웹사이트마다 다릅니다 .

여기까지 했고 SEO 용어가 익숙하지 않은 경우 SEO 용어집을 사용하여 정의에 더 익숙해지십시오 .

웹사이트의 크롤링 예산에 영향을 미치는 요인은 무엇입니까?

googlebot으로 크롤링 예산 설명 Google은 인터넷의 모든 웹사이트에 동일한 시간이나 크롤링 횟수를 할애하지 않습니다. 또한 웹 크롤러는 여러 요인에 따라 크롤링하는 페이지와 빈도를 결정합니다. 다음을 기반으로 각 사이트를 크롤링해야 하는 빈도와 기간을 결정합니다.

  • 인기도: 사이트나 페이지를 더 많이 방문할수록 업데이트를 위해 더 자주 분석해야 합니다. 또한 인기 있는 페이지가 많을수록 인바운드 링크가 더 빠르게 누적됩니다.
  • 크기: 데이터 집약적인 요소가 더 많은 대형 웹사이트와 페이지는 크롤링하는 데 시간이 더 오래 걸립니다.
  • 상태 /문제: 웹 크롤러가 내부 링크를 통해 막다른 골목에 도달하면 새로운 출발점을 찾는 데 시간이 걸리거나 크롤링을 포기합니다. 404 오류, 리디렉션 및 느린 로딩 시간은 웹 크롤러의 속도를 늦추고 방해합니다.

크롤링 예산이 SEO에 어떤 영향을 미칩니까?

웹크롤러 인덱싱 프로세스 를 통해 검색이 가능합니다 . 귀하의 콘텐츠를 Google의 웹 크롤러가 색인을 생성할 수 없는 경우 검색자가 귀하의 웹페이지 및 웹사이트를 검색할 수 없습니다. 이것은 귀하의 사이트가 많은 검색 트래픽을 놓치게 만들 것입니다.

Google이 웹사이트를 크롤링하는 이유는 무엇입니까?

Googlebot은 웹사이트의 페이지 를 체계적으로 살펴보고 페이지와 전체 웹사이트의 내용을 파악합니다. 웹 크롤러는 콘텐츠와 함께 URL 캐시를 생성하기 위해 해당 웹사이트의 데이터를 페이지별로 처리, 분류 및 구성하므로 Google은 검색어에 대한 응답으로 어떤 검색 결과를 표시할지 결정할 수 있습니다.

또한 Google은 계층적 검색 결과 목록에서 각 검색 결과가 표시되어야 하는 위치를 결정하기 위해 이 정보를 사용하여 검색어에 가장 적합한 검색 결과를 결정합니다.

크롤링 중에 어떤 일이 발생합니까?

색인 생성 체크리스트가 있는 googebot

Google은 Googlebot이 웹사이트를 처리하는 데 일정 시간을 할당합니다. 이러한 제한으로 인해 봇은 한 번의 크롤링 세션 동안 전체 사이트를 크롤링하지 않을 수 있습니다. 대신 robots.txt 파일 및 기타 요소(예: 페이지 인기도)를 기반으로 사이트의 모든 페이지에서 작동합니다.

크롤링 세션 동안 Googlebot은 처리하는 각 페이지의 콘텐츠를 이해하기 위해 체계적인 접근 방식을 사용합니다.

여기에는 다음과 같은 인덱싱 특정 속성이 포함됩니다.

  1. 메타 태그 및 NLP를 사용하여 의미 결정
  2. 링크 및 앵커 텍스트
  3. 이미지 검색 및 비디오 검색을 위한 리치 미디어 파일
  4. 스키마 마크업
  5. HTML 마크업

웹 크롤러는 또한 페이지의 콘텐츠가 표준 콘텐츠와 중복되는지 확인하기 위해 검사를 실행합니다. 그렇다면 Google은 URL을 우선순위가 낮은 크롤링으로 이동하므로 페이지를 자주 크롤링하는 데 시간을 낭비하지 않습니다.

크롤링 속도 및 크롤링 수요란 무엇입니까?

Google의 웹 크롤러는 수행하는 모든 크롤링에 일정 시간을 할당합니다. 웹사이트 소유자는 이 시간을 제어할 수 없습니다. 그러나 사이트에 있는 동안 사이트의 개별 페이지를 크롤링하는 속도를 변경할 수 있습니다. 이 수치를 크롤링 속도 라고 합니다 .

크롤링 수요 는 Google이 사이트를 크롤링하는 빈도입니다. 이 빈도는 인터넷 사용자의 사이트 요구와 검색 시 사이트 콘텐츠를 업데이트해야 하는 빈도를 기반으로 합니다. 로그 파일 분석을 사용하여 Google이 사이트를 크롤링하는 빈도를 확인할 수 있습니다(아래 2번 참조).

내 사이트의 크롤링 예산은 어떻게 결정합니까?

크롤링 예산 계산

Google은 사이트를 크롤링하는 횟수와 시간을 제한하므로 크롤링 예산이 얼마인지 알고 싶습니다. 그러나 Google은 사이트 소유자에게 이 데이터를 제공하지 않습니다. 특히 예산이 너무 작아서 새 콘텐츠가 적시에 SERP에 도달하지 못하는 경우에는 더욱 그렇습니다. 이는 중요한 콘텐츠와 제품 페이지와 같이 돈을 벌 수 있는 새 페이지에 재앙이 될 수 있습니다.

사이트에 크롤링 예산 제한이 있는지 확인하려면(또는 사이트가 A-OK인지 확인하려면) 다음을 수행해야 합니다. 사이트에 있는 URL 수에 대한 인벤토리를 가져옵니다. Yoast를 사용하는 경우 사이트맵 URL 상단에 총계가 나열됩니다 .

  • 이 번호가 있으면 Google Search Console 의 '설정' > '크롤링 통계' 섹션을 사용하여 Google이 사이트에서 매일 크롤링하는 페이지 수를 결정합니다.
  • 사이트맵의 페이지 수를 하루 평균 크롤링 페이지 수로 나눕니다.
  • 결과가 10 미만이면 크롤링 예산에 문제가 없는 것입니다. 그러나 숫자가 10보다 작으면 크롤링 예산을 최적화하여 이점을 얻을 수 있습니다.
  • 크롤링 예산을 어떻게 최적화할 수 있습니까?

    사이트가 크롤링 예산에 비해 너무 커지면 크롤링 예산 최적화에 대해 자세히 알아봐야 합니다. 더 자주 또는 더 오랜 시간 동안 사이트를 크롤링하도록 Google에 지시할 수 없으므로 제어할 수 있는 항목에 집중해야 합니다.

    크롤링 예산 최적화에는 다각적인 접근 방식과 Google 권장 사항에 대한 이해가 필요합니다 . 크롤링 속도를 최대한 활용하려면 어디서부터 시작해야 합니까? 이 포괄적인 목록은 계층적 순서로 작성되었으므로 맨 위에서 시작하십시오.

    1. 사이트의 크롤링 속도 제한 증가 고려

    Google은 사이트의 여러 페이지에 동시에 요청을 보냅니다. 그러나 Google은 정중하게 노력하며 사이트 방문자의 로드 시간이 느려지는 결과로 서버에 무리를 주지 않습니다. 사이트가 갑자기 느려지는 것을 발견했다면 이것이 문제일 수 있습니다.

    사용자 경험에 영향을 미치는 것을 방지하기 위해 Google에서는 크롤링 속도를 줄일 수 있습니다. 이렇게 하면 Google에서 동시에 색인을 생성할 수 있는 페이지 수가 제한됩니다.

    그러나 흥미롭게도 Google에서는 크롤링 속도 제한을 높일 수도 있습니다. 즉, 한 번에 더 많은 페이지를 가져올 수 있으므로 한 번에 더 많은 URL이 크롤링됩니다. 모든 보고서에 따르면 Google은 크롤링 속도 제한 증가에 느리게 응답하며 Google이 더 많은 사이트를 동시에 크롤링할 것이라고 보장하지 않습니다.

    크롤링 속도 제한을 늘리는 방법:

    1. Search Console에서 '설정'으로 이동합니다.
    2. 여기에서 크롤링 속도가 최적인지 여부를 확인할 수 있습니다.
    3. 그런 다음 90일 동안 더 빠른 크롤링 속도로 제한을 늘릴 수 있습니다.

    2. 로그 파일 분석 수행

    로그 파일 분석은 서버에 전송된 모든 요청을 반영하는 서버의 보고서입니다. 이 보고서는 Googlebot이 사이트에서 수행하는 작업을 정확히 알려줍니다. 이 프로세스는 종종 기술 SEO에 의해 수행되지만 서버 관리자에게 문의하여 얻을 수 있습니다.

    로그 파일 분석 또는 서버 로그 파일을 사용하여 다음을 배우게 됩니다.

    • Google이 사이트를 크롤링하는 빈도
    • 가장 많이 크롤링되는 페이지
    • 응답하지 않거나 누락된 서버 코드가 있는 페이지

    이 정보가 있으면 #3~#7을 수행하는 데 사용할 수 있습니다.

    3. XML Sitemap 및 Robots.txt를 최신 상태로 유지

    로그 파일에 Google이 SERP에 표시되기를 원하지 않는 페이지를 크롤링하는 데 너무 많은 시간을 소비하고 있다고 표시되면 Google 크롤러가 이 페이지를 건너뛰도록 요청할 수 있습니다. 이렇게 하면 더 중요한 페이지에 대한 크롤링 예산의 일부를 확보할 수 있습니다.

    사이트맵 (Google Search Console 또는 SearchAtlas 에서 얻을 수 있음 )은 검색 결과에 표시될 수 있도록 Google에서 색인을 생성할 사이트의 모든 페이지 목록을 Googlebot에 제공합니다. 검색 엔진이 찾도록 하고 싶은 모든 웹 페이지로 사이트맵을 업데이트하고 검색 엔진이 찾길 원하지 않는 페이지를 생략하면 웹크롤러가 사이트에서 시간을 보내는 방식을 극대화할 수 있습니다.

    예제 xml 사이트맵

    robots.txt 파일은 검색 엔진 크롤러에게 크롤링을 원하는 페이지 와 원하지 않는 페이지를 알려줍니다 . 방문 페이지가 좋지 않거나 차단된 페이지가 있는 경우 robots.txt 파일의 URL에 noindex 태그 를 사용해야 합니다. Googlebot은 noindex 태그가 있는 모든 웹페이지를 건너뛸 수 있습니다.

    4. 리디렉션 및 리디렉션 체인 줄이기

    상태 301 보고서

    검색 엔진 크롤링에서 불필요한 페이지를 제외하여 크롤링 예산을 확보하는 것 외에도 리디렉션을 줄이거나 제거하여 크롤링을 최대화할 수도 있습니다. 이는 3xx 상태 코드가 되는 모든 URL입니다.

    리디렉션된 URL은 서버가 리디렉션에 응답한 다음 새 페이지를 검색해야 하므로 Googlebot이 검색하는 데 더 오래 걸립니다. 리디렉션 하나에 몇 밀리초가 걸리지만 추가될 수 있습니다. 이로 인해 사이트 크롤링이 전반적으로 더 오래 걸릴 수 있습니다. 이 시간은 Googlebot이 일련의 URL 리디렉션을 실행할 때 곱해집니다.

    리디렉션 및 리디렉션 체인을 줄이려면 콘텐츠 생성 전략을 염두에 두고 슬러그의 텍스트를 신중하게 선택하세요.

    5. 깨진 링크 수정

    Google이 사이트를 자주 탐색하는 방식은 내부 링크 구조를 통해 탐색하는 것입니다. 페이지를 통해 작동할 때 링크가 존재하지 않는 페이지로 연결되는지 여부를 기록합니다(이를 종종 소프트 404 오류라고 함). 그런 다음 해당 페이지를 인덱싱하는 데 시간을 낭비하지 않고 계속 진행합니다.

    사용자 또는 Googlebot을 실제 페이지로 보내려면 이러한 페이지에 대한 링크를 업데이트해야 합니다. 또는 (믿기 힘들지만) 페이지가 실제로 존재하는데 Googlebot이 페이지를 4xx 또는 404 오류로 잘못 식별했을 수 있습니다. 이 경우 URL에 오타가 없는지 확인한 다음 Google Search Console 계정을 통해 해당 URL에 대한 크롤링 요청을 제출하세요.

    이러한 크롤링 오류를 최신 상태로 유지하려면 Google Search Console 계정의 색인 > 범위 보고서를 사용할 수 있습니다. 또는 SearchAtlas 의 사이트 감사 도구를 사용하여 웹 개발자에게 전달할 사이트 오류 보고서를 찾습니다.

    참고: 새 URL은 로그 파일 분석에 바로 나타나지 않을 수 있습니다. 크롤링을 요청하기 전에 Google이 찾을 수 있도록 시간을 주세요.

    6. 페이지 로드 속도 개선 작업

    페이지 로드 속도

    검색 엔진 봇은 빠른 속도로 사이트를 이동할 수 있습니다. 그러나 사이트 속도가 그에 못 미치는 경우 크롤링 예산에 큰 타격을 줄 수 있습니다. 로그 파일 분석, SearchAtlas 또는 PageSpeedInsights를 사용하여 사이트의 로드 시간이 검색 가시성에 부정적인 영향을 미치는지 확인하십시오.

    사이트의 응답 시간을 개선하려면 동적 URL을 사용하고 Google의 핵심 성능 향상 권장사항을 따르세요 . 여기에는 스크롤 없이 볼 수 있는 미디어에 대한 이미지 최적화가 포함될 수 있습니다.

    사이트 속도 문제가 서버 측에 있는 경우 다음과 같은 다른 서버 리소스에 투자할 수 있습니다.

    • 전용 서버(특히 대규모 사이트의 경우)
    • 최신 서버 하드웨어로 업그레이드
    • RAM 증가

    이러한 개선 사항은 또한 사용자 경험을 향상시켜 사이트 속도가 PageRank의 신호이기 때문에 Google 검색에서 사이트 성능을 향상시키는 데 도움이 될 것입니다.

    7. Canonical 태그 사용을 잊지 마세요.

    중복 콘텐츠는 최소한 중복 콘텐츠에 소스 페이지가 있음을 인정하지 않는 경우 Google에서 눈살을 찌푸리게 합니다. 왜요? Googlebot은 별도의 지시가 없는 한 부득이한 경우가 아니면 모든 페이지를 크롤링합니다. 그러나 중복 페이지나 익숙한 항목의 사본(귀하의 페이지 또는 외부에서)을 발견하면 해당 페이지 크롤링을 중지합니다. 이렇게 하면 시간이 절약되지만 표준 URL을 식별하는 표준 태그를 사용하여 크롤러의 시간을 훨씬 더 절약해야 합니다.

    표준 예

    Canonical 은 Googlebot에 크롤링 기간을 사용하여 해당 콘텐츠의 색인을 생성하는 데 신경 쓰지 말라고 지시합니다. 이렇게 하면 검색 엔진 봇이 다른 페이지를 조사할 시간이 더 많이 생깁니다.

    8. 내부 연결 구조에 집중하기

    사이트 내에서 잘 구성된 링크 방식을 사용하면 Google 크롤링의 효율성을 높일 수 있습니다. 내부 링크는 사이트에서 가장 중요한 페이지를 Google에 알려주고 이러한 링크는 크롤러가 페이지를 더 쉽게 찾는 데 도움이 됩니다.

    최고의 연결 구조는 사용자와 Googlebot을 웹사이트 전체의 콘텐츠에 연결합니다. 항상 관련 앵커 텍스트를 사용하고 콘텐츠 전체에 자연스럽게 링크를 배치하세요.

    전자 상거래 사이트의 경우 Google 에는 크롤링을 최대화하기 위한 패싯 탐색 옵션에 대한 모범 사례가 있습니다. 패싯 탐색을 통해 사이트 사용자는 속성별로 제품을 필터링하여 쇼핑 경험을 개선할 수 있습니다. 이 업데이트는 과도한 URL 크롤링과 함께 표준 혼동 및 중복 문제를 방지하는 데 도움이 됩니다.

    9. 불필요한 콘텐츠 정리

    Googlebot은 사이트를 크롤링할 때마다 매우 빠르게 이동하고 많은 페이지의 색인을 생성할 수 있습니다. 트래픽이 발생하지 않거나 오래되었거나 품질이 낮은 콘텐츠가 있는 페이지가 많은 경우 잘라내십시오! 가지치기 과정 을 통해 사이트의 무게를 줄일 수 있는 초과 수하물을 줄일 수 있습니다.

    사이트에 페이지가 너무 많으면 Googlebot이 페이지를 무시하면서 중요하지 않은 페이지로 이동할 수 있습니다.

    크롤링 오류가 발생하지 않도록 모든 링크를 이러한 페이지로 리디렉션하는 것을 잊지 마십시오.

    10. 더 많은 백링크 발생

    Googlebot이 사이트에 도착한 다음 내부 링크를 기반으로 페이지 색인을 생성하기 시작하는 것처럼 색인 생성 프로세스에서 외부 링크도 사용합니다. 다른 사이트가 귀하의 사이트에 링크되면 Googlebot은 링크 출처 콘텐츠를 더 잘 이해하기 위해 귀하의 사이트와 색인 페이지로 이동합니다.

    또한 백링크 는 사이트의 색인 생성 빈도를 결정하기 위해 Google에서 사용하는 사이트의 인기도와 최신성을 제공합니다.

    11. 고아 페이지 제거

    고아 페이지 보고서

    Google의 크롤러는 내부 링크를 통해 페이지에서 페이지로 이동하기 때문에 쉽게 링크된 페이지를 찾을 수 있습니다. 그러나 사이트의 어딘가에 링크되지 않은 페이지는 종종 Google에서 눈치채지 못합니다. 이러한 페이지를 "고아 페이지"라고 합니다.

    고아 페이지가 적절할 때? 매우 구체적인 목적이나 대상이 있는 방문 페이지인 경우 예를 들어 마이애미에 거주하는 골퍼에게만 적용되는 랜딩 페이지가 포함된 이메일을 보내는 경우 다른 페이지로의 링크를 원하지 않을 수 있습니다.

    크롤링 예산 최적화를 위한 최고의 도구

    Search Console과 Google Analytics는 크롤링 예산을 최적화할 때 매우 유용할 수 있습니다. Search Console을 사용하면 크롤러가 페이지 색인을 생성하고 크롤링 통계를 추적하도록 요청할 수 있습니다. Google Analytics는 내부 연결 여정을 추적하는 데 도움이 됩니다.

    SearchAtlas와 같은 다른 SEO 도구를 사용하면 사이트 감사 도구를 통해 크롤링 문제를 쉽게 찾을 수 있습니다. 하나의 보고서로 사이트의 다음을 볼 수 있습니다.

    • 색인 생성 가능성 크롤링 보고서
    • 인덱스 깊이
    • 페이지 속도
    • 중복 콘텐츠
    • XML 사이트맵
    • 연결

    크롤링 예산 최적화 및 검색 엔진 최고 실적

    검색 엔진이 사이트를 색인화하는 빈도 또는 기간을 제어할 수는 없지만 각 검색 엔진 크롤링을 최대한 활용하도록 사이트를 최적화할 수 있습니다. 서버 로그로 시작하여 Search Console에서 크롤링 보고서를 자세히 살펴보세요. 그런 다음 크롤링 오류, 링크 구조 및 페이지 속도 문제를 해결하는 방법에 대해 자세히 알아보세요.

    GSC 크롤링 활동을 진행하면서 링크 구축 양질의 콘텐츠 추가를 포함한 나머지 SEO 전략에 집중하세요 . 시간이 지남에 따라 방문 페이지가 검색 엔진 결과 페이지를 올라갑니다.