- 内部施策・SEO周辺技術
- 更新日:
クロールバジェット(Crawl budget)とは、Googlebot(クローラー)が1つのWebサイトに対して、クロールできる上限を指す言葉です。記事が検索結果に表示されるには、クロール及びインデックスしてもらう必要がありますが、最適化が行われていないとクロールしてもらうことができません。
本記事では、クロールバジェットの概要や、クロールに対して影響する要素を解説します。コンテンツを適切に評価してもらうためにも、ぜひ参考にしてください。
目次
クロールバジェットとは?
クロールバジェット(Crawl budget)とは、Googlebot(クローラー)が1つのWebサイトに対して、クロールできる上限を指す言葉です。
新しく作成されたWebサイトやWebページがインターネットで検索結果に表示されるためには、Googlebotにクロール(巡回&発見)してもらい、インデックス(データベースに登録)される必要があります。
しかし、Googlebotも無限にクロールできるわけではなく、能力に上限があります。これを「クロールバジェット」と呼び、「クロールに割り当て枠がある」という考え方がGoogleの外部で浸透していきました。
これに対し、Googleは公式サイトである「Google 検索セントラル ブログ」にて、クロールバジェットを下記のように定義づけています。
クロールの割り当ては、Googlebot によるクロールが可能であり、かつクロールが必要な URL の数であると定義できます。
Googlebotがどれだけクロール可能かは、サイトの応答速度によってクロールの同時接続数が左右され、それによってクロールの性能が変動します。またWebサイトの所有者がクロールの性能に制限をかけることもできます。
クロールが必要なURLかどうかは、URLのインターネット上の人気度や
古さ(古すぎてURLが無効にならないために)によって判断されます。
つまり、クロールバジェットはサイトの応答速度や人気度・古さなど、全体的な要素によって決まるというわけです。
大規模サイトはクロールバジェットの影響を受けやすい
クロールバジェットは、大規模なサイトやURLがパラメータを使用して、ページを自動生成するサイトが影響を受けやすくなっています。
なぜなら、クロールバジェットは1つのWebサイトに対してクロールできる上限のことなので、Googlebotがクロールできる上限に近いような、数多くのURLを抱えているサイトは、必然的に影響を受けやすくなります。
逆に、サイトのURLが数千もない場合は、クロールバジェットについて気にする必要はありません。
この事については、下記のようにGoogleの公式サイトに明記されています。
サイトの URL が数千もない場合、そのサイトのクロールはたいてい効率的に行われます。クロールの対象やタイミング、また、サイトをホストしているサーバーでクロールに割り当て可能なリソースの量に優先順位を付けることが特に重要となるのは、大規模なサイトや、たとえば URL パラメータを使用してページを自動生成するサイトの場合です。
そのため、数十~数百記事のホームページや個人ブログを運営している方は、クロールバジェットについて考える必要はありません。
クロールの最適化を含めた大規模サイトにおけるSEO対策については、以下の記事で詳しく解説していますので、興味のある方はぜひご覧ください。
>>データベース型サイトのSEO対策 成功ポイント10選!対策の流れと事例紹介
>>【NG例付き】EC・不動産・求人サイト運用者必見!プロが語る大規模サイトSEO
クロールの割当に対して影響する要素(要因)
先ほど「サイトのURLが数千もない場合、そのサイトのクロールはたいてい効率的に行われます。」といったGoogleの公式発言を紹介しました。
しかし逆を言えば、サイトのURLが数千ある場合、サイトのクロールが効率的に行われていない可能性があるわけです。この場合、クロールの割り当てに悪影響を及ぼす要因を取り除いていくことが重要です。
では、クロールの割り当てに影響する要因は何なのか、Googleは公式サイトでこのように発言しています。
Google の分析によると、サイトに価値の低い URL が多数ある場合、そのサイトのクロールやインデックス登録に悪影響が及ぶ可能性があります。価値の低い URL は、重要度順に次のようなカテゴリに分けられます。
- ファセット ナビゲーションとセッション ID
- サイト内の重複コンテンツ
- ソフトエラー ページ
- ハッキングされたページ
- 無限のスペースとプロキシ
- 質の低いコンテンツやスパム コンテンツ
このようなページでサーバーのリソースが浪費されると、実際に価値のあるページのクロールの妨げとなるため、サイト上の優れたコンテンツの発見に大幅な遅れを引き起こしかねません。
ファセットナビゲーションやセッションIDは、システム的に重複コンテンツを持つURLを生成する仕組みです。
また無限のスペースは、「翌月」リンクのあるカレンダーで、「翌月」を押した先のカレンダーの「翌月」リンクのように、無限にURLが増えてしまうことを指します。
このように、サイトに価値の低いURLを多数生成してしまう仕組みや、重複コンテンツなど価値の低いURLそのものが、クロールの割り当てに悪影響を及ぼします。
そのため、できるだけ質の高いコンテンツだけでサイトを構成することがサイトのクロールを効率的に行う鍵となります。
続いて、クロールを効率的に行わせるための「クロールの最適化」の方法について具体的に解説します。
クロールの最適化を行うためには
クロールの最適化を行うための方法は下記のとおりです
- XMLサイトマップの更新
- クロールのさせる必要ないページの削除
- robots.txtで除外する
- 低品質なコンテンツを改善する
- ステータスコード404・410エラーの修正
それぞれ解説します。
XMLサイトマップの更新
クロールの最適化を行う方法の1つ目は、XMLサイトマップを更新することです。
サイトマップとは、Webサイト全体の地図のようなものです。サイト全体の構成をわかりやすく伝えるために設置されます。
サイトマップはHTMLとXMLの2種類に分けられ、HTMLは人間向け、XMLはクローラー(Googlebot)向けになっています。
XMLサイトマップは、WordPressのプラグイン「XML Sitemap Generator for WordPress」やオンライン無料ツール「Sitemap Creator」などを使用することで作成できます。
また、Google Search Consoleに作成したサイトマップを再送信することで、XMLサイトマップを最新の情報に更新することができます。
「Sitemap Creator」であれば、サイトマップの自動作成・更新を行うことができます。
クロールさせる必要ないページの削除
クロールの最適化を行う方法の2つ目は、クロールさせる必要のないページの削除をすることです。
先ほども紹介したように、低品質や重複コンテンツなど、価値の低いURLはクロールの割り当てに悪影響を及ぼします。
価値の低いURLと判定され、クロールの割り当てに悪影響を及ぼすリスクを削減するため、クロールさせる必要がないのであれば、ページの削除を行いましょう。
robots.txtで除外する
クロールの最適化を行う方法の3つ目は、クロールの割り当てに悪影響を及ぼす可能性があるURLをrobots.txtで除外することです。
これについては、Googleの公式サイトでも下記のように明記されています。
robots.txt で許可していないURL もクロールの割り当てに影響しますか?
いいえ。許可されていないURL はクロールの割り当てには影響しません。
クロールさせる必要ないページの削除と同じように、価値の低いURLと判断されて、クロールの割り当てに悪影響を及ぼすリスクを減らすため、クロールさせる必要がないのであれば、robots.txtで除外設定をしましょう。
robots.txtの書き方や設定方法については、下記をご覧ください。
_robots.txt の書き方、設定と送信(Google検索セントラル)
低品質なコンテンツを改善する
クロールの最適化を行う方法の4つ目は、低品質なコンテンツを改善することです。低品質なコンテンツは、クロールの割り当てに悪影響を及ぼします。ページを削除したり、robots.txtでクロールの対象から除外することで対策ができますが、そういった対策がとれない場合は、コンテンツそのものを改善する必要があります。
人気のコンテンツにすることができれば、クロールの割り当てに好影響を与え、クロールの効率を上げることができます。
ステータスコード404・410エラーの修正
クロールの最適化を行う方法の5つ目は、ステータスコード404・410エラーを修正することです。ステータスコード404は「ページが見つからなかった」、ステータスコード410は「以前あったページが削除された」ことを意味します。
サイトの応答にエラーが返される場合、クロールに悪影響を及ぼすことについては、Googleの公式サイトで下記のように明記されています。
サイトの応答が遅くなった場合やサーバーエラーが返された場合はクロール頻度の上限が下がり、Googlebot によるクロールが減ります。
つまり、サイト上のエラーページを修正することが、クロールの割り当てに悪影響を及ぼすことを防ぐことができます。
以上が、クロールの最適化を行う方法5つです。
続いては、クロールの最適化を行った結果、実際にクロールの頻度が上がったか確認する方法を紹介します。
Webサイトのクロール頻度を確認する方法
Webサイトのクロールの頻度は、Google Search Consoleで確認できます。
- Google Search Consoleにログインする
- 「設定」をクリックする
- 「クロールの統計情報」の「レポートを開く」をクリックする
上記手順で、過去90日間のクロールリクエストの合計数を確認することができます。
折れ線グラフで見ることができるので、クロールの最適化を行ったあとに、実際にクロールの頻度が増えているかわかりやすく把握することができます。
また、サイト上でどれくらいの割合で400番台のエラーが発生しているかも確認することができます。
まとめ
本記事では、クロールバジェットやクロールの最適化について紹介しました。クロールバジェットは、Webサイトに対するクロールできる上限のことで、サイトの応答速度や人気度・古さなど、全体的な要素によって決まります。
しかし、サイトのURLが数千もない大半のサイトは、クロールバジェットについて気にする必要はありません。クロールを最適化するには、XMLサイトマップを更新したり、質の低いコンテンツの改善や、質の低いコンテンツがクロールされないように対策をするなどが効果的です。
クロールの頻度で悩んでいる方は、ぜひ今回紹介した方法を実践してみてください。クロールの最適化を実践したあとは、Google Search Consoleでクロールの頻度が改善されたか確認してみましょう。
SEOにお困りなら【無料SEO診断】
株式会社デジタルアイデンティティでは、創業から14年以上、SEO対策に注力してきました。
検索エンジンをハックするようなブラックハットな手法に頼ることなく、Googleの推奨に沿ったホワイトハットな手法で上位表示を実現してきました。
そんな弊社のSEOナレッジを50以上の項目に落とし込んだSEO診断を無料でご提供しています!
(毎月先着10社様限定とさせていただいています)
無料SEO診断はこんな方におすすめ!
- SEO対策をどこから始めればいいかわからない…
- 自社でSEO対策をしているが思うように順位が上がらない…
- 他社にSEO対策を依頼しているがセカンドオピニオンが欲しい…
- なぜ競合サイトの検索順位が高いのか知りたい…
- 現在のSEO対策が正しいのか確認したい…
弊社の無料SEO診断でわかること
- 現在のSEO評価
- SEO項目ごとの改善方法
- SEO項目ごとの優先度
正しい現状認識は、SEO対策で効果を出す上で何よりも重要です。
自社のSEO対策について、少しでも気になる方は以下のリンクからお気軽にお申し込みください。