重複コンテンツが発生する理由と修正方法

重複コンテンツ

この記事は、ahrefs blog(ahrefs.com)に掲載された以下の記事を、ahrefsの許諾を得て日本語化したものです。

 

目次

Duplicate Content: Why It Happens and How to Fix It

 

重複コンテンツとは何か、そしてそれがどのようにSEOに悪影響を及ぼしているのかを知りたいですか?

 

重複コンテンツは、多くのサイトオーナーにとって、常に不安の種です。

 

それに関する記事を読めば、あなたのサイトは重複コンテンツの問題で時限爆弾を抱えているのだと思うことでしょう。Googleのペナルティは数日後に迫っている。

 

幸いなことに、これは真実ではありませんが、重複コンテンツは依然としてSEO上の問題を引き起こす可能性があります。ウェブの25~30%は重複コンテンツであり、そのような問題を回避し、修正する方法を知っておくことは有益です。

 

このガイドでは、次のことを学びます。

 

  • 重複コンテンツとは何か
  • 重複コンテンツがSEOに不利な理由
  • Googleが重複コンテンツのペナルティを設けているかどうか
  • 重複コンテンツが発生する一般的な原因
  • 重複コンテンツの確認方法と修正方法

 

テクニカルSEOは初めてなら:Beginner’s guide to technical SEO

 

重複コンテンツとは何か

重複コンテンツとは、ウェブ上に2箇所以上表示される、完全な、または、ほとんど重複していないコンテンツのことです。これは、1つのWebサイトで発生することも、ドメインをまたいで発生することもあります。

 

例えば、私がこの記事をahrefs.com/blog/duplicate-content-copy/に再掲載した場合、それは重複コンテンツとなります。これは、他のWebサイトで再公開する場合も同様です。

 

Googleは、ほとんどの重複コンテンツはオリジナルを欺くものではないとしています

 

重複コンテンツがSEOに不利な理由

重複コンテンツは、いくつかの理由でSEOのパフォーマンスに悪影響を及ぼす可能性があります。

 

  1. 検索結果に好ましくないURLや不親切なURLが表示される
  2. バックリンクの希薄化
  3. クロールバジェットが減る
  4. スクレイピングやシンジケートコンテンツが追い抜いてしまう

 

これらについて、もう少し詳しく見ていきましょう。

 

検索結果に好ましくないURLや不親切なURLが表示される

同じページが3つの異なるURLで提供されていると想像してください。

 

  1. domain.com/page/
  2. domain.com/page/?utm_content=buffer&utm_medium=social
  3. domain.com/category/page/

 

最初のものは検索結果に表示されるはずですが、Googleはこれを間違えることがあります。その場合、望ましくないURLがその場所に表示される可能性があります。

 

人々は不親切なURLをクリックすることに抵抗があるため、オーガニックトラフィックが減少する可能性があります。

 

バックリンクの希薄化

同じコンテンツが多くのURLで提供されている場合、それらのURLはそれぞれバックリンクを集める可能性があります。その結果、URL間で「リンクエクイティ」が分割されることになります。

 

この例として、buffer.comの2つのページを見てみましょう。

 

https://buffer.com/library/social-media-manager-checklist

https://buffer.com/resources/social-media-manager-checklist

 

これらのページは、ほぼ完全に重複しています。そして、それぞれ106と144の参照ドメイン(ユニークなウェブサイトからのリンク)を持っています。

106の参照ドメイン

144の参照ドメイン

パニックになる前に、Googleが重複コンテンツを処理する方法によって、これが常に問題であるとは限らないことを知っておいてください。

 

簡単に説明すると、Googleは重複コンテンツを検出すると、URLを1つのクラスターにまとめます。そして、「検索結果でクラスタを代表する “最適な “URLを選択」し、「リンク人気などクラスタ内のURLのプロパティを代表URLに集約」するのだそうです。

 

つまり、上記の場合、Googleはオーガニック検索で1つのURLのみを表示し、クラスタ内のすべての参照ドメイン(106+144)をそのURLに帰属させるはずです。

 

しかし、そうではなく、両方のURLが同じようなキーワードでGoogleにランクインしていることがわかります。

同じようなキーワードでGoogleにランクイン1

同じようなキーワードでGoogleにランクイン2

この例では、Googleはおそらく「リンクエクイティ」を1つのURLに集約していないのでしょう。

 

免責事項

BufferのGoogle Search Consoleアカウントにアクセスできないため、Googleがこれらの2つのURLをどのように見ているかはわかりません。この2つのURLは重複しているとみなされ、どちらかがすぐにオーガニック検索から消えてしまうかもしれません。

 

クロールバジェットが減る

Googleは、既存のページから新しいページへのリンクをたどるクロールによって、あなたのウェブサイトの新しいコンテンツを見つけます。また、何か変更がないかどうかを確認するために、時折、彼らが知っているページを再クロールしています。

 

重複したコンテンツがあると、その分仕事が増えるだけです。重複コンテンツがあると、新しいページや更新されたページをクロールするスピードや頻度に影響が出ます。

 

新しいページのインデックス付けや更新されたページの再インデックス付けに遅れが生じる可能性があるため、それは悪いことです。

 

参考までにGoogleの「クロール率制限」は、より応答性の高いウェブサイトほど高くなるため、帯域幅の許容範囲が小さい低速のウェブサイトでは、より問題となります。また、Googleのシステムは、重複するURLをクロールする頻度も少なくなります

 

スクレイピングやシンジケートコンテンツが追い抜いてしまう

時には、他のウェブサイトがあなたのコンテンツを再公開することを許可する場合があります。これはシンジケーションと呼ばれています。また、あなたのコンテンツをスクレイピングして、許可なく再出版するサイトもあります。

 

これらのシナリオは、複数のドメインにまたがる重複コンテンツにつながりますが、通常は問題が発生することはありません。問題が発生するのは、スクレイピングされたコンテンツや再出版されたコンテンツが、あなたのサイトのオリジナルコンテンツより上位に表示され始めたときだけです。

 

これは稀なケースですが、起こり得ることです。

 

Googleが重複コンテンツのペナルティを設けているかどうか

Googleは複数回にわたり、重複コンテンツペナルティを設けていないと明言しています。

 

私たちは、重複コンテンツのペナルティを設けていません。重複コンテンツが多いという理由でサイトを降格させるということはないのです。

ジョン・ミューラー、ウェブマスタートレンドアナリスト、Google

 

皆さん、この件は一旦お終いにしましょう。重複コンテンツによるペナルティは存在しません。

スーザン・モスクワ、元ウェブマスタートレンドアナリスト、Google

 

DYK Googleに重複コンテンツのペナルティはない。

ゲイリー・イリーズ、ウェブマスタートレンドアナリスト、Google

 

しかし、これは完全に正しいとは言えません。重複コンテンツが偶発的なもので、検索結果を意図的に操作したり、スパムを行ったりした結果でないなら、ペナルティを受けることはないでしょう。もしそうであれば、ペナルティを受ける可能性があります。

 

Googleはここで主張しています。

 

Google では、ランキングを操作し、ユーザーを欺く目的で重複コンテンツを表示している可能性があると認識した場合、ごくまれに、関係するサイトのインデックスとランキングに適切な調整も実施します。その結果、サイトの順位が下がることもあれば、Googleのインデックスから完全に削除されることもあり、その場合は検索結果にも表示されなくなります。

 

問題は、何が「ランキングを操作し、ユーザーを欺く意図」とみなされるのか、ということです。

 

Googleがここに多くの情報を提供しています。しかし、基本的には次のようなことです。

 

  • 意図的に複数のページ、サブドメイン、ドメインを作成し、重複するコンテンツを多数掲載すること。
  • スクレイピングされたコンテンツを大量に公開する
  • Amazonや他のサイトからスクレイピングしたアフィリエイトコンテンツを公開すること(そして、何の付加価値も与えないこと)

 

しかし、上記のように、重複コンテンツは、ペナルティがなくてもSEOに悪影響を及ぼします。

 

重複コンテンツが発生する一般的な原因

重複コンテンツの原因は1つではありません。たくさんあるのです。

 

ファセット/フィルター付きナビゲーション

ファセットナビゲーションは、ユーザーがページ上のアイテムをフィルターにかけたり、並べ替えたりできる機能です。Eコマースサイトではよく使われています。

 

この種のナビゲーションは、URLの末尾にパラメータを追加します。

URLの末尾にパラメータを追加

通常、これらのフィルターの組み合わせは多数存在するため、ファセット・ナビゲーションでは、多くの場合、重複する、あるいは、ほぼ重複するコンテンツが発生します。

 

たとえば、次の2つのページを見てください。

 

bbclothing.co.uk/ja-gb/clothing/shirts.html?new_style=Checked

bbclothing.co.uk/ja-gb/clothing/shirts.html?Size=S&new_style=Checked

 

URLはユニークですが、中身はほとんど同じです。

 

しかも、パラメータの順番は重要でないことが多い。たとえば、次の両方のURLで同じページにアクセスできます。

 

bbclothing.co.jp/ja-gb/clothing/shirts.html?new_style=Checked&Size=XL

bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

 

解決方法

ファセット・ナビゲーションは、複雑です。重複コンテンツの問題の原因がこれだと思われる方は、こちらをお読みください。

トラッキング用パラメータ

パラメータ化されたURLは、トラッキングの目的にも使用されます。例えば、Google Analyticsでニュースレターキャンペーンからの訪問を追跡するために、UTMパラメータを使用することができます。

 

:example.com/page?utm_source=newsletter。

 

解決方法

トラッキングパラメータを使用しない、SEOに適したURLに正規化する

セッションID

セッションIDは、訪問者についての情報を保存します。通常、このような長い文字列がURLに付加されます。

 

:example.com?sessionId=jow8082345hnfn9234のようになります。

 

解決方法

URLをSEOに適したバージョンに正規化する

HTTPSとHTTP、非wwwとwww

ほとんどのウェブサイトは、この4つのバリエーションのいずれかでアクセスできます。

 

  • https://www.example.com (HTTPS、www)
  • https://example.com (HTTPS、non-www)
  • http://www.example.com (HTTP、www)
  • http://example.com (HTTP、non-www)

 

HTTPSを使用している場合は、最初の2つのうちの1つになります。www版かnon-www版かは、あなたの選択です。

 

しかし、サーバーを正しく設定しないと、あなたのサイトはこれらの2つ以上のバリエーションでアクセスされることになります。それは良いことではなく、重複コンテンツの問題につながる可能性があります。

 

解決方法

リダイレクトを使用して、あなたのウェブサイトが1つの場所でしかアクセスできないようにする。

大文字と小文字を区別するURL

Googleは、URLの大文字と小文字を区別して見ています。

 

 

 

注意:これはBingには当てはまらないようで、URLはすべて小文字として扱われます。

 

つまり、この3つのURLはすべて違うということです。

 

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

 

解決方法

内部リンクに一貫性を持たせる(つまり、内部で複数のバージョンのURLにリンクさせない)。それでも解決しない場合は、正規化またはリダイレクトする。

 

トレイリングスラッシュとノントレイリングスラッシュの比較

Googleは、トレーリングスラッシュがあるURLもないURLも一意であると扱います。つまり、この2つのURLはGoogleの目にはユニークに映るということです。

 

  • example.com/page/
  • example.com/page

 

もし、あなたのコンテンツが両方のURLでアクセス可能であれば、重複コンテンツの問題につながる可能性があります。

 

これが問題かどうかを確認するには、末尾にスラッシュを付けたページと付けないページを読み込んでみてください。理想的なのは、片方のバージョンだけが読み込まれることです。もう一方はリダイレクトされます。

 

たとえば、この記事を末尾のスラッシュなしで読み込もうとすると、末尾のスラッシュがあるURLにリダイレクトされます。

 

Googleは、この動作が理想的であると述べています。

 

1つのバージョンのみが返される(つまり、他がリダイレクトされる)のであれば、それは素晴らしいことです。この動作は、重複するコンテンツを減らすことができるので有益です。

 

解決方法

望ましくないバージョン(例:末尾にスラッシュのないもの)を望ましいバージョン(例:末尾にスラッシュのあるもの)にリダイレクトする。また、内部リンクの一貫性を保つようにする必要があります。あるときはスラッシュ付きで、あるときはスラッシュなしというようなリンクの仕方はやめましょう。どちらかを選び、それを厳守してください。

 

プリントフレンドリーURL

プリントフレンドリーバージョンは、オリジナルと同じ内容です。URLが異なるだけです。

 

  • example.com/page
  • example.com/print/page

解決方法

プリントフレンドリーバージョンをオリジナルに正規化する。

 

モバイル向けURL

モバイルフレンドリーのURLは、印刷用のURLと同様に重複しています。

 

  • example.com/page
  • m.example.com/page

 

解決方法

モバイルフレンドリーバージョンをオリジナルに正規化する。rel=”alternate “を使用して、モバイルフレンドリーコンテンツがデスクトップコンテンツの代替バージョンであることをGoogleに伝える。

おすすめの記事:デスクトップ用URLとモバイル用URLのアノテーション

 

AMPのURL

Accelerated Mobile Pages (AMP)は重複しています。

 

  • example.com/page
  • example.com/amp/page

 

解決方法

AMPバージョンを非AMPバージョンに正規化する。rel=”amphtml”を使用して、AMP URLが非AMPコンテンツの代替バージョンであることをGoogleに伝える。

AMPコンテンツしかない場合は、自己参照型のcanonicalタグを使用します。

おすすめの記事:あなたのページを発見しやすくする – amp.dev

タグとカテゴリーページ

ほとんどのCMSでは、タグを使用すると専用のタグページが作成されます。

 

例えば、オーガニックホエイプロテインについての記事があり、タグとして「プロテインパウダー」と「ホエイ」の両方を使用した場合、以下のような2つのタグページが作成されることになります。

 

  • https://www.caltonnutrition.com/tag/whey/
  • https://www.caltonnutrition.com/tag/protein-powder/

 

それ自体が常に重複コンテンツの原因になるわけではありませんが、その可能性はあります。

 

このサイトでは、2つのタグを持つページは1つだけなので、それぞれのタグ・ページが同一であることが原因です。

それぞれのタグ・ページが同一である1

それぞれのタグ・ページが同一である2

解決方法

選択肢は2つ。

  1. タグを使用しない。ほとんどの場合、タグにはほとんど価値がありません。
  2. タグのページをnoindexにする。Googleはこれらのページをクロールする時間を無駄にするので、これはクロールバジェットの問題を解決するものではありません。

なお、カテゴリーページもタグページと同様の問題を引き起こす可能性があります。その例として

https://www.xs-stock.co.uk/adidas/

https://www.xs-stock.co.uk/brands/Chelsea-FC.html

この2つのページは、どちらのカテゴリーにも商品が掲載されていないため、ほぼ同じ内容になっています。つまり、テンプレートの定型文が残っているだけなのです。

この問題を解決するには、サイト内で適度な数のカテゴリーを使用するか、あるいはカテゴリーページをnoindex化する必要があります。

 

添付画像URL

多くのCMSは、画像添付のための専用ページを作成します。これらのページには、通常、画像と定型的なコピーしか表示されません。

 

このコピーは、自動生成されたすべてのページで同じであるため、重複したコンテンツになります。

 

解決方法

CMSで画像専用ページを無効にする。WordPressでは、Yoastなどのプラグインを使用してこれを行うことができます。

コメントのページ分割

WordPressや他のCMSでは、ページ分割されたコメントを表示することができます。これは、同じURLの複数のバージョンを効果的に作成するため、重複コンテンツの原因となります。

 

  • example.com/post/
  • example.com/post/comment-page-2
  • example.com/post/comment-page-3

 

解決方法

Yoastなどのプラグインを使用して、コメントのページ送りをオフにするか、ページ送りされたページをnoindexにする。

 

ローカライゼーション

同じ言語を話す異なる地域の人々に、同じようなコンテンツを提供している場合、重複コンテンツが発生する可能性があります。

 

たとえば、米国、英国、オーストラリアの人々に、それぞれ異なるバージョンのサイトを提供することが考えられます。各ロケールに提供するコンテンツにはわずかな違いしかないため(例:ドル建て価格とポンド建て価格)、各バージョンはほぼ重複することになります。

 

注意:ジョン・ミューラーによると、翻訳されたコンテンツは重複コンテンツではありません

 

解決方法

hreflangタグを使用して、バリエーション間の関係を検索エンジンに伝える。

検索結果ページ

多くのWebサイトには、検索ボックスがあります。これらを使用すると、通常、パラメータ化された検索URLにアクセスすることになります。

 

:example.com?q=search-term

 

Googleの元ウェブスパム責任者であるMatt Cutts氏は、次のように述べています

 

一般的に、ウェブ検索結果はユーザーに付加価値を与えません。私たちの中核目標は可能な限り最高の検索結果を提供することなので、一般的に検索結果をウェブ検索インデックスから除外しています。(もちろん、”/results” や “/search” などを含むすべての URL が検索結果というわけではありません)。

マット・カッツ、元ウェブスパムGoogleの責任者

 

解決方法

robots meta タグを使用して、Google のインデックスから検索ページを削除するか、robots.txtで検索結果ページへのアクセスをブロックします。検索結果ページへの内部リンクを控える。

ステージング環境

ステージング環境は、テスト目的で使用するサイトの複製またはほぼ複製されたバージョンです。

 

例えば、新しいプラグインをインストールしたり、ウェブサイト上のコードを変更したりする場合を考えてみましょう。しかし、毎日何十万人もの訪問者がある本番のサイトにそのまま移行することは避けたいものです。大惨事につながるリスクが高すぎるからです。解決策は、まずステージング環境で変更をテストすることです。

 

ステージング環境は、Googleにインデックスされると、重複したコンテンツになるため、SEO上の問題になります。

 

解決方法

HTTP認証、IPホワイトリスト、またはVPNアクセスを使ってステージング環境を保護する。すでにインデックスされている場合は、robots noindexディレクティブを使用して削除させる。

 

重複コンテンツの確認方法と修正方法

AhrefsのSite Auditにアクセスし、クロールを開始します。

 

 

完了したら、コンテンツの品質レポートにアクセスします。

 

重複やcanonicalのない重複に近いもののクラスターを探します。これらはオレンジ色でハイライトされます。

オレンジ色でハイライト

これらのクラスタのいずれかをクリックすると、該当するページが表示されます。

該当するページが表示

重複しているコンテンツの理由を調査し、適切な対処をする。

 

特に、ほぼ重複している場合は、必ずしも修正する必要がある問題ではないことに注意してください。

 

ahrefsユーザーでない方はこちら

Google Search Consoleで重複コンテンツに関連する以下のような警告を確認しましょう。

  • ユーザーが選択した正規表現がなく、重複している
  • Google がユーザーと異なる正規表現を選択したため、重複している
  • 重複している、送信された URL が正規化として選択されていない

これらの警告の対処方法については、こちらをご覧ください。

Google が特定の URL をどのように扱うかを確認するには、URL 検査ツールを使用します。

URL 検査ツールを使用

 

また、HTMLタグのレポートでは、タイトルタグ、メタディスクリプション、H1の重複を確認することができます。

 

悪い重複は、あなたが探しているものです。これらは、metaタグは重複しているが、canonicalは異なるページです。

 

HTMLタグ&コンテンツ」の「Bad duplicates」をクリックして、これらを選択します。

「HTMLタグ&コンテンツ」の「Bad duplicates」をクリック

黄色のバーのいずれかをクリックすると、影響を受けるページが表示されます。

 

タイトル、メタディスクリプション、H1が重複しているページは、非常によく似ていることが多いです。

 

たとえば、この2つはタイトルタグが同じで、製品も同じなので内容もほぼ同じです。唯一の違いは、一方のページがインスタント着火式消火ログの3個パックであるのに対し、もう一方は1個だけであることです。

 

https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/

https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/

 

Googleは、このような類似したコンテンツは最小限に抑えるべきとしています

 

類似したページが多数ある場合は、各ページを拡張するか、ページを1つに統合することを検討してください。

 

しかし、類似したページが少数であれば、それほど問題になることはないでしょう。

 

ウェブ上の重複コンテンツ問題をチェックする方法

コンテンツのスクレイピングとシンジケーションは、重複コンテンツの問題につながる可能性もあります。しかし、通常問題になるのは、スクレイピングされたバージョンのコンテンツが上位に表示される場合だけです。

 

そのようなことはあるのでしょうか?しかし、新しいウェブサイトや弱小のウェブサイトでは、より大きな問題となることがよくあります。なぜでしょうか?なぜなら、あなたのコンテンツをスクラップしているサイトの方が、より権威がある場合が多いからです。そのため、Googleは自分たちのサイトがオリジナルであると「だます」ことがあるのです。

 

もしあなたが小さなウェブサイトを持っているなら、Googleであなたのページのテキストのスニペットを引用符で囲んで検索することで、しばしばスクレイピングされたコンテンツを見つけることができます。

スクレイピングされたコンテンツ

大規模なサイトの場合は、Copyscapeのような自動ツールを使用する必要があります。このツールは、あなたのページにあるコンテンツの他の出現箇所をウェブ上で検索します。

コンテンツの他の出現箇所

どの方法を使っても、ほとんどの結果はスパムサイトや低品質なサイトから得られることになります。

 

一般的に言って、これらは心配することはありません。しかし、正規のウェブサイトがあなたのコンテンツをスクレイピングしていることがわかり、それがあなたのトラフィックを盗んでいるのではないかと心配になった場合、そのURLをAhrefsのSite Explorerに投げ込んでオーガニックトラフィックの見積もりを見てください。

オーガニックトラフィックの見積もり

もし、あなたのページよりも多くのトラフィックがある場合は、問題がある可能性があります。

 

この場合、3つの選択肢があります。

 

  1. そのコンテンツを削除するよう依頼する。
  2. あなたのサイトのオリジナルへの正規リンクを追加するように依頼する。
  3. Google経由でDMCAテイクダウンリクエストを送信する。

 

意図的にコンテンツを他のウェブサイトに配信している場合は、オリジナルへの正規リンクを追加するよう依頼する価値があります。そうすれば、重複コンテンツの問題が発生するリスクはなくなる。

 

自分のサイトにコンテンツを再掲載していますか?

他人のコンテンツを自分のサイトに再掲載する場合、重複コンテンツの問題を防ぐには、次の2つの方法があります。

  1. オリジナルに戻るように正規化する
  2. そのページをnoindexにする

 

まとめ

重複コンテンツにストレスを感じすぎないようにしましょう。通常、考えられているよりもはるかに少ない問題です。

 

重複しているページや重複に近いページがほんの一握りであれば、それほど問題になることはないでしょう。他のウェブサイトのコンテンツを引用したり、サイト内の他のページを引用したりする場合も同様です。少量の重複コンテンツや定型的なコンテンツは問題ないはずです。Googleには、そのようなことに対処するシステムがあります。

 

注意しなければならないのは、何百、何千ページもの重複コンテンツを生成するような技術的なSEOの失敗、たとえば、eコマースサイトでのファセットナビゲーションの不適切な実装などです。

 

これらは、特にクロールの予算に大打撃を与える可能性があります。

 

重複コンテンツでお困りの方は、コメント欄やTwitterでお知らせください。

 

この記事は、ahrefs blog(ahrefs.com)に掲載された以下の記事を、ahrefsの許諾を得て日本語化したものです。

この記事の筆者:

Head of Content @ Ahrefs (or, in plain English, I’m the guy responsible for ensuring that every blog post we publish is EPIC).

 

joshua Hardwick

 

 

新着記事

人気記事

海外SEOメディア記事

おすすめ記事

SEO初心者向け記事

SEO上級者向け記事

SEOライティング記事

SEO外部リンク記事