robots.txtとは?設定する目的や具体的な書き方を解説

robots.txtとは

特定のページやディレクトリにて、クロールの拒否を行える設定がrobots.txtファイルです。robots.txtを設置することで、重要なページのクロール頻度を高めたり、サイトマップを送信できるなど、さまざまなSEO効果が得られます。

 

SEOコンサルタントそこで本記事ではrobots.txtについて、基本知識から記述方法、そして設定方法についても解説していきます。本記事を最後までお読みいただくことで、SEOで効果を出すために押さえておくべきrobots.txtの運用方法が理解できます。

 

robots.txtとは? 

 

robots.txtとは、特定のコンテンツへのクロールを拒否するためのファイルを指します。

 

そもそもクロールとは、検索エンジンのクローラーと呼ばれるロボットがインターネット上のサイトを巡回することをいい、サイトの情報を集めるためには欠かせない仕組みです。クロールによって集まった情報は、その後検索エンジンのデータページへと保存されます。

 

一般的にサイトのなかには、重要なコンテンツとそれほど重要ではないコンテンツが存在するはずです。そのためrobots.txtによって一部のクロールを制御し、重要なコンテンツへとクロールを集中させることが可能となります。

 

noindexとの違い

 

robots.txtと間違えやすい設定が、noindexを活用した方法です。noindexは検索エンジンにインデックス(データページへ情報を保存)させないための設定となり、HTMLコードにmetaタグを記述する仕組みとなります。

 

そのため以下のように、目的や設定方法には大きな違いがあります。

項目robots.txtnoindex
形式テキストファイルmeta要素またはHTTPヘッダ
対象サイト全体に設定可能個別ページで設定
目的クロールを拒否インデックスを拒否

またnoindexではインデックスを拒否するため、検索結果に表示されることはありません。しかしrobots.txtではクロールを拒否する設定となり、検索結果に表示される可能性はあると認識しておきましょう。

 

robots.txtの目的 

 

robots.txtの主な目的はクロールを拒否することですが、他にもクローラービリティの最適化やXMLサイトマップの送信など、さまざまな役割をもちます。またHTMLでなければ使用できないnoindexの代替として、robots.txtの活用は欠かせない要素といえます。

 

ここでは、robots.txtの目的について詳しく解説していきます。

 

特定のページをクロールさせない

 

robots.txtの最大の目的は特定のコンテンツでクロールを拒否することですが、コンテンツではページ単位やディレクトリ単位など、さまざまな階層で設定可能です。

 

例えば、以下のようなコンテンツが存在する場合に活用できます。

 

  • 未完成のページ
  • ログインが必須のページ
  • 会員様にしか公開していないページ

このようなページがある場合、検索結果に表示させたくないことや、SEOをまったく意識していないことが多いといえます。不要なコンテンツのクロールは、SEOにおいて逆効果となる可能性があります。

 

そのためrobots.txtを活用しクロールを拒否することで、無駄にサイト評価を下げるような事態を未然に防ぐことが可能となります。

 

画像や動画ファイルをクロールさせない

 

サイトを運営するうえで画像や動画を活用する機会は多いですが、画像、動画ファイルはHTMLではないため、ページにnoindexの設定はできません。

 

しかしrobots.txtであれば、HTMLではないファイルについてもクロールの拒否設定が可能です。そのためnoindexが使用できない際の代替案として活用される機会も多いといえます。

 

ただし使用しているサイトによっては画像ページが自動生成されることや別途作成できる場合もあり、通常ページと同様にnoindexを活用できるパターンもあります。

 

クローラビリティの最適化

 

robots.txtは重要なコンテンツへクロールを促せるため、クローラビリティの最適化にもつながります。

 

コンテンツ量の少ないサイトでは問題となりませんが、ECサイトのように大量のページが存在する場合、クローラーはすべてのページをクロールできるとは限りません。

 

なかには重要なページではあるものの、ページ量が原因となりクロールされないといったこともあります。

 

仮にアクセスの見込めるページや問い合わせにつなげるページなど重要な役割をもつ場合、サイトにとっては大きな痛手となります。

 

そのためrobots.txtによって無駄なページのクロールを拒否し、重要なページを確実にクロールさせることが効果的です。またrobots.txtによってクロールが最適な状態になれば、サイト全体のクロール頻度が高まることや、クロールの量が増加するなどの効果も得られます。

 

XMLサイトマップの提示

 

robots.txtではXMLサイトマップを記載でき、検索エンジンにサイトマップを送信する役割をもちます。Googleであれば「Google Search Console」、Bingであれば「Bingウェブマスターツール」などからサイトマップを送信できますが、検索エンジンのなかにはツールが存在しないこともあります。

 

そのためクロール状況とサイト構造を効率良く伝える際は、robots.txtは非常に便利な手段といえます。

 

robots.txtの書き方 

 

robots.txtを設定する際は、決められた項目に沿って該当する内容を入力する仕組みです。記述項目は主に4つあり、具体的なサンプルコードについては「Google検索セントラル」をご確認ください。

 

ここでは、robots.txtの書き方について解説していきます。

 

User-Agent

 

User-Agentは、制御したいクローラーを指定する際に活用する記述項目です。

 

記述内容はこちら

  • すべてのクローラー:*(アスタリスクマーク)
  • Googleのクローラー:Googlebot
  • スマートフォン用のクローラー:Googlebot
  • AdSenseのクローラー:Mediapartners-Google
  • Google画像検索のクローラー:Googlebot-Image

基本の記述方法は、すべてのクローラーを対象とする「*」を入力します。仮にGoogleからのクロールを拒否する場合には、Googleクローラーの「Googlebot」を入力しましょう。

 

Disallow

 

Disallowは、クロールを拒否するページやディレクトリを指定する際に活用する記述項目です。URLパスを入力することで、限定的にクロールの拒否設定が行えます。

 

  • サイト全体:「Disallow: /」
  • ディレクトリの指定:「Disallow: /abc9999/」
  • ページの指定:「Disallow: /abc9999.html/」
  • 「abc9999」にURLパスを入力

Disallowは活用する場面が多い記述項目となるため、入力内容を覚えておきましょう。

 

Allow

 

Allowはクロールを許可するための記述項目となり、Disallowとは真逆の役割を持ちます。ただし通常であれば、Allow項目を入力しなくてもクロールは許可された状態です。そのため活用する場面は少ないといえます。

 

基本的にはDisallowを入力してはいるものの、さらに特定のページやディレクトリのみクロールを許可させる場合にAllowを活用する流れとなります。

 

具体的には以下のような状態です。

  • User-agent: *
  • Disallow: /sample/
  • Allow: /sample/abc9999.html

上記の場合は「sample」というディレクトリのクロールを許可してはいるが、そのなかでも「abc9999.html」というページのみクロールを許可する記述です。

 

Sitemap

 

Sitemapはその名のとおり、サイトマップを送信するために活用する記述項目です。

 

入力は任意となりますが、Sitemapを入力することでクロールの速度は高まる傾向があります。そのためクローラビリティを向上させたい場合には入力をおすすめします。

 

記述内容はこちら

  • Sitemap:http://abc9999.com/sitemap.xml
  • 「abc9999.com」にサイトマップのパスを入力

 

仮にサイトマップのパスが複数ある場合には、改行して入力しましょう。

 

関連記事: サイトマップにSEO効果がある!?実はリスクがあるサイトマップ

 

robots.txtの設定方法 

 

実際にrobots.txtを設定するためには、以下の方法から実施しましょう

 

  • プラグインの使用
  • 直接アップロード

WordPressサイトを活用している場合には、簡単に設定できるプラグインの使用がおすすめです。

 

ここでは、robots.txtの設定方法について解説していきます。

 

プラグインの使用

 

WordPressサイトであれば「All in One SEO Pack」というプラグインを活用することで、簡単にrobots.txtの設定が行えます。

 

以下の方法で設定できます。

 

  • 「All in One SEO Pack」をダウンロードし有効化する
  • WordPress管理画面から「投稿」→「Robots.txt」の設定画面を表示させる
  • 「機能」のフリーをすべて有効化する

ここまで設定すると「Robots.txtファイルを作成」の最下部に以下が記述されます。

 

  • User-agent: *
  • Disallow: /wp/wp-admin/
  • Allow: /wp/wp-admin/admin-ajax.php
  • Sitemap: https://sample.com/sitemap.xml

あとは前述の「書き方」を参考に編集すれば完了です。

 

直接アップロード

 

どのサイトにも共通する方法が、サイトのディレクトリトップに直接アップロードする方法です。

 

具体的な条件はこちら

 

  • ファイル形式:「UTF-8」エンコードされた書式なしテキスト
  • ファイルサイズ:上限500KB

サブドメインは問題ありませんが、サブディレクトリでは検出されないため注意をしましょう。

 

robots.txtの確認方法 

 

robots.txtの確認ではrobots.txtファイルを直接確認する方法もありますが、見落としや確認ミスが発生する可能性があるため、ツールの活用がおすすめです。「robots.txtテスター」はGoogleが無料提供しているツールとなり、URLを入力するだけで簡単にエラー確認をできます。

 

ここでは「robots.txtテスター」を活用し、robots.txtを確認する方法について解説していきます。

 

構文の確認

 

構文の確認とは、robots.txtファイルの記載内容が文法的に正しいかを判断するための方法です。

 

以下の方法にて構文確認を行えます。

 

  • robots.txtテスター」にアクセスする
  • 画面下部のURL入力欄に該当するURLパスを入力し「テスト」をクリックする
  • テスト結果が表示される

テストを行う前に、自社サイトが正しく連携されているかを確認しましょう。仮に自社サイトが反映しない場合には、robots.txtファイルが正しく設置されていません。そのため、再度robots.txtファイルを設置してからテストを行ないましょう。

 

構文の修正

 

「robots.txtテスター」でテスト結果を確認したら、エラーが発生していないかを確認します。

 

仮にエラーが発生している場合には、まずは「robots.txtテスター」内で修正を行ないましょう。エラー箇所をクリックし直接文字を入力すると、構文が変更されます。

 

再度間違った構文となった場合にはエラーが発生するため、エラーがなくなるまで内容を修正することが大切です。

 

ただし「robots.txtテスター」で修正を行ったとしても、実際のrobots.txtファイルが変更されるわけではありません。そのためエラー内容を確認後、実際のファイルを修正しましょう。

 

再度、前述の流れでテストを行ない、エラーが発生しなければ確認完了となります。

 

robots.txtを設定する際の注意点 

 

robots.txtは記述項目に沿って入力するだけとなり、比較的簡単な設定といえます。

 

ただし以下の項目は間違いやすい内容となるため、活用する際は目的がズレないように注意が必要です。

 

  • インデックス拒否の目的で使用しない
  • 重複コンテンツ対策の目的で使用しない
  • ユーザーのアクセス制限にはならない

各々、解説していきます。

 

インデックス拒否の目的で使用しない

 

よくある間違いとして多いことが、インデックスの拒否を目的としたrobots.txtの使用です。

 

robots.txtはあくまでクロールを拒否する設定のため、インデックス拒否ではnoindexを使用しなければいけません。一見同じような効果に感じられますが、誤った使い方をすると「サイトの説明文がない状態で検索結果に表示される」など、エラーが発生するため注意をしましょう。

 

サイト全体の評価にも影響を及ぼすため、本来の目的に応じた設定を行うことが重要になります。

 

重複コンテンツ対策の目的で使用しない

 

前述の「インデックス拒否」と同じ理由ですが、重複コンテンツ対策としてrobots.txtを使用することもやめましょう。

 

サイトのコンテンツ量が増加すると、どうしても重複コンテンツが発生しやすくなります。そのためクロールを拒否することで重複を解消できると考えやすいですが、インデックスされた時点で検索エンジンからは重複コンテンツと認識されます。

 

robots.txtでは完全な対処ができないため、重複コンテンツでは「noindex」や「URLの正規化」によって対策しましょう。

 

ユーザーのアクセス制限にはならない

 

最後に紹介するrobots.txtの間違った活用目的が、ユーザーのアクセス制限です。インデックスと同じように、検索エンジンから完全に排除されると考えられた際に間違いやすいといえます。

 

しかしrobots.txtではユーザーのアクセスを制限する効果はありません。そのためインターネット上にURLが記載されていれば、クロールを拒否した場合でもアクセスは可能となります。

 

アクセス制限を行うには別途の設定が必要となるため、得られる効果を間違えないように注意をしましょう。

 

まとめ

SEOコンサルタント本記事ではrobots.txtについて、基本知識から記述方法、そして具体的な設定方法を解説してきました。noindexと間違えやすい設定ですが、インデックスの拒否とクロールの拒否では効果面が大きく異なるため注意をしましょう。また本来得られる効果が失われてしまう可能性もあるため、あくまで目的に合わせて使用することが重要となります。robots.txtの設定自体は簡単に行えるため、本記事の書き方や設定方法を参考にぜひ実践していきましょう。

 

SEO対策のお申込みボタン

格安SEOのTOPページへ戻る

 

 

 

この記事を書いた人

SEOコンサルタント

アドマノ株式会社 代表取締役 天野 剛志

日本大学法学部卒業、広告代理店で12年間働いている間、SEOと出会い、SEO草創期からSEO研究を始める。SEOを独学で研究し100以上のサイトで実験と検証を繰り返しました。そのノウハウを元に起業し現在、10期目。営業、SEOコンサル、WEB解析(Googleアナリティクス個人認定資格GAIQ保持)コーディング、サイト制作となんでもこなす。会社としては今まで1000以上のサイトのSEO対策を手掛けてきました。

新着記事

人気記事

海外SEOメディア記事

おすすめ記事

SEO初心者向け記事

SEO上級者向け記事

SEOライティング記事

SEO外部リンク記事

  • 03-5394-8107
  • お問い合わせ・ご相談はこちら