クローラビリティとは
- 2020.12.29
- SEO基礎知識
クローラビリティとは?インデックスに関わるSEOの重要課題
クローラビリティとはクローラーによるWEBページの見つけやすさのことです。検索エンジンはクロールしたページの中からインデックス登録を行います。
そして、検索順位はインデックスされているページの中から決められますのでページのインデックスはSEOにおける最重要課題といえます。
クローラビリティが良くなればクロール頻度が高まり、より検索エンジンに見つけられやすくなります。
クローラビリティとは
検索エンジンはインターネット上のページをボット(bot)と呼ばれるプログラムにより自動的に巡回しています。そして、新しく見つけたWEBページの情報をインデックスします。
どれだけ良いコンテンツを作っても検索エンジンに認識してもらわなければ集客は期待できません。そのため、クローラビリティを高めることは非常に重要なSEO課題です。
ボットのクロールの仕組み
ボットがWEBページをクロールする方法は主に次の2つです。
- 既存ページからのリンクを辿る
- サイトマップ情報を参照する
既存ページからのリンクを辿る
Googleをはじめ、ボットは既に知っているページを再度確認し、まだ知らないページを見つけた時に中を見てしてインデックスするかどうかを判断します。
新しいページを作ったら既存ページから内部リンクを貼ると良いと言われるのはこのためです。
サイトマップ情報を参照する
サイトマップ(sitemap.xml)を作成するとボットは記載情報を確認し、クロールしていきます。
特にワードプレスなどのツールを利用してサイト運営している場合には自動的にサイトマップが更新されるので、特別なことをしなくてもインデックスは進みます。
また、サイト要件により内部リンクで繋がっていない独立ページを作っている場合にもサイトマップから判断してもらうことができます。
インデックスの確認方法
実際にサイトの登録が進んでいるのかどうかを確認する方法は大きく2つあります。
- サーチコンソールのカバレッジ
- site:検索
サーチコンソールのカバレッジ

Google Search Console(サーチコンソール)のカバレッジの項目を確認するとGoogleにインデックスされているページ数とURLを確認することができます。
エラーの詳細や除外件数の詳細もわかるため必ずサーチコンソールは登録しましょう。
特に新規サイトの場合には公開して一定期間が過ぎるとインデックスが進み、徐々に増えていくのが普通です。公開後も認知されなかったり、公開したページ数と大きな乖離があった場合にはサイト構成を見直す必要があります。
site:検索

Google検索ではURLの前に site: (サイトコロン)を付けることでGoogleが認識しているページ数を確認することができます。自社サイトの場合にはサーチコンソールを使う方が正確ですが、競合サイトのページ数を確認する時にはよく使われる手法です。
ただし、site:検索では概数しかわかりませんので参考程度にとどめておきましょう。
クローラビリティの改善方法
クローラビリティを改善するにはサイト運営全般がかかわりますが、特に自社サイト内で対策できることとしては次のようなものが挙げられます。
- サイトマップの設置
- 質の高いページの作成
- URLやスラッグの改善
- リンク階層
- 重複ページの削除
- 内部リンクの最適化
- 画像リンクはalt属性
- パンくずリスト(ブレッドクラム)の設置
- 独立ページを削除
- 外部リンクを増やす
- サーバーの最適化
- ファイルサイズの最適化
- robots.txtの活用
- .htaccess(エイチティーアクセス)
サイトマップの設置
ボットのクロールはサイトマップを参照していますので正しいサイトマップを設置することで新規ページや独立したページの認知を加速させることができます。
ただし、検索エンジンのボットは大変優秀なので各ページが正しくリンクされていればほとんどのページを検出することができます。サイトマップは大規模なサイト、複雑なサイト、専門性の高いファイルのクロールを助けるためのものとお考えください。
質の高いページの作成

ボットに検出されたとしても質の低いコンテンツだと判断された場合にはインデックスされないことがあります。反対に質が高いと判断された場合には想定を上回ってクロールされる可能性があります。
質が高いページというのは検索意図を意識した、ユーザーに求められる記事といえますので、キーワードを意識し、上位記事を参照に専門性の高いページにする必要があります。
URLやスラッグの改善
URLやスラッグを改善することでクロールを促進できることがあります。
スラッグとは https://www.switchitmaker2.com/seo/ でいうところの /seo/ の部分です。URLの最後の部分といってもよいです。
URLやスラッグは通常はわかりやすければ良いのですが、複雑なパラメータを含めたり、過度に複雑にしたりすることでクロールに問題を生じる可能性があることをGoogleは指摘しています。
リンク階層
基本的にリンク階層は浅い方がインデックスされやすい傾向にあります。階層が深いということはトップページからのクリック数が多くなることを意味することが多く、クローラーが深いページまでたどり着かないことがあります。
重複ページの削除
当たり前のことですが、全く同じページがWEB上に存在してはいけません。検索エンジンがどちらを評価してよいかわからなくなり評価分散されてしまうためです。そのため、サイトの正規化(canonical)は必ず行う必要があります。
例えば、https://yahoo.co.jp にアクセスしても https://www.yahoo.co.jp (www付き)に自動的に転送されます。これはwwwが付いている方のURLに正規化されているためです。
内部リンクの最適化
ボットは通常は内部リンクを参照して新規ページを見つけますので内部リンク対策はクローラビリティ対策としては最も重要です。とはいえ、通常のサイトでは内部リンクを設置していないことはまずないでしょう。
内部リンクには複数の方法がありますがHTMLタグ(Aタグ)を使って、アンカーテキストにキーワードを入れていれば大きな問題は起こらないはずです。
画像リンクはalt属性
画像にリンクを使っている場合、アンカーテキストの設置はできませんので代わりにalt属性を設定する必要があります。alt属性を設定することでユーザビリティが向上できます。
パンくずリスト(ブレッドクラム)の設置
パンくずリストを設置するかどうかはサイトデザインや導線にもよりますが、多くの場合でパンくずリストを使うことで内部リンクを担保できます。
独立ページを削除
独立ページ(内部被リンクのないページ)は本来は起こりません。しかし、サイト要件次第では起こりえることです。独立ページであってもサイトマップや外部リンク次第ではインデックスさせることは可能ですが、できる限り内部リンクを付けるようにしましょう。
外部リンクを増やす
内部リンク以外にも外部リンクからもクロールを促進させることは可能です。
ただし、外部リンクは自分で操作できることではありません。外部リンクを付けてもらえるだけの良いサイト運営をするためには努力が必要です。
サーバーの最適化
通常はサーバーの最適化までは意識しなくても構いませんが、サーバーが極端に遅い場合にはクロールがうまくいかないことも考えられます。他のことを試してもインデックスが進まないのであればサーバーの最適化の検討が必要です。
ファイルサイズの最適化
画像を中心にファイルが重すぎる場合にはページの表示速度にも影響します。圧縮したり、削除したりして軽いサイトを心掛けましょう。
robots.txtの活用
robots.txtをうまく利用することでボットに検出してほしくないページを設定できます。ページ数があまりに多くなりすぎて重要度が低いページがある場合やホワイトペーパー用のpdfなどはインデックスさせなくても問題ありません。
ただし、robots.txtは使い方を間違えると既存ページにも影響が出ることがあります。使う際には慎重に設定しましょう。
なお、勘違いされることが多いのですがWEBページのnoindex設定とrobots.txtは全く違うものです。noindexはサイトをクロールした上でインデックスしてほしくないと報告するものであり、robots.txtはそもそもクロールさせないものです。
.htaccess(エイチティーアクセス)
.htaccessを利用することでユーザーエージェント、IPアドレス、ホスト名などのアクセスを拒否することができます。これによりクロールさせないことが可能です。
適用される優先度は .htaccess > robots.txt > メタタグによるnoindex設定です。
サイトマップはいらない場合も多い
多くのSEO対策会社やSEO記事ではサイトマップは必ず設置しましょうと主張しますが、実はサイトマップはいらない場合も多数あります。
Google検索セントラルでは「次の場合にサイトマップが必要になることがあります」としています。(Googleセントラルのサイトマップについてより抜粋)
- サイトのサイズが非常に大きい。
- サイトにどこからもリンクされていない、または適切にリンクされていないコンテンツ ページのアーカイブが大量にある。
- サイトが新しく、外部からのリンクが少ない。
- サイトに動画や画像などのリッチメディア コンテンツが多数含まれている、またはサイトが Google ニュースに表示されている。
反対に、次の場合には「サイトマップは必要ありません」としています。(Googleセントラルのサイトマップについてより抜粋)
- サイトのサイズが「小さい」。
- Blogger や Wix のようなシンプルなサイト ホスティング サービスを利用している。
- サイトはサイト内で完全にリンクされている。
- インデックスに表示する必要のあるメディア ファイル (動画、画像)またはニュースページが多くない。
そして、Googleは「サイトマップを提供することで有益な結果が得られ、デメリットになることはありません。」としていますが、ここで誤解してはいけないのは前提としては「正しいサイトマップを提供する」ということです。
ワードプレスなどを使っているのであれば自動でサイトマップを作成することもできますがサイトが小さい場合には必須ではありませんし、大規模なサイトであればサイトマップを自動化していないこともあります。
正しいサイトマップを公開できない可能性があるのであればクロールの偏りにも繋がりますので悪影響が出ることがあります。
-
前の記事
アンカーテキストとは 2020.12.27
-
次の記事
ユーザビリティとは 2020.12.30