そもそもは、このブログで使っているYahoo!JAPANの「 カスタムサーチ 」がカスタマイズしやすくてオススメだという記事を書こうとしていたわけです。
そうしたらカスタムサーチのページで「 内容が重複する複数のURLをまとめるよう、検索エンジンに通知 」という記事を見つけました。
サイトには、URLは異なるがウェブページの内容は変わらないというケースがあります。たとえば、URLがトラッキング用のパラメータを含んでいる場合や、URLに含まれるパラメータをもとに閲覧環境によってウェブページの表示を最適化しているような場合です。
例
- http://www.example.com/products?trackingid=feed
- http://www.example.com/products?sessionid=hgjkeor2
- http://www.example.com/products?printable=yes&trackingid=footer
このような場合、検索エンジンのインデックスに個々のURLで登録されると、同じ内容のウェブページが検索結果に表示されたり、同じ内容のウェブページであるにもかかわらず、各URLにクローラーが巡回し、サーバーに負荷をかけてしまう、また、サイト内の巡回が効率的に行われないといった不都合が発生することがあります。このようなことを避けるため、サイト管理者がウェブページのなかで<link>タグを利用して、重複を避けるように検索エンジンに通知する方法が用意されています。
具体的にはヘッダに下の様に書いたとすると
「 このページはhttp://www.example.com/と同じ内容です
」と宣言したことになるようです。
ということは、ここでひとつの疑問が出てきます。
別のドメインでも canonical は適用できるのだろうか?
その回答はGoogleの「 rel="canonical" 属性について - ウェブマスター ツール ヘルプ 」にありました。
rel="canonical" 属性を使用して、まったく別のドメイン上の URL を指定できるか
リダイレクトは簡単に設定できない場合があります。たとえば、サーバーサイドのリダイレクトを作成できないウェブ サーバーを使用しているときに、新しいドメイン名に移行する場合などです。このような場合には、rel="canonical" リンク要素を使用して、このドメインでインデックス登録の対象になる正確な URL を指定できます。rel="canonical" リンク要素は絶対的な指示ではなく、ヒントとしてみなされますが、Google では可能な限りこの要素を追跡します。
つまり、解釈が間違っていなければ「rel="canonical" 属性」は、次のような使い方が出来るということでしょうか?
ブログやサイトを別ドメインに移転した。今までに作ったページも新しいドメインにコピーした。今後は新ドメインで運用するが、これまでの遺産として古いドメインにも記事を残しておきたい。
しかし、そうすると後から作った新しいサイトがコピーサイトとして検索エンジンに低く扱われる可能性がある。そうならないために、 今までの(古い)サイトのHTMLに「rel="canonical" 属性」でコピー済みの新しいサイトの記事を指定しておく。 そうすることで検索エンジンには、新サイトを優先するよう指定する。
そうすると「Google では可能な限りこの要素を追跡」してくれるのでしょうか?実は最近、この条件に合致した移転ブログがあります。
パート派遣主婦のぐーたら子育て生活 (長いので以下「パー活」と省略表記)
「パー活」は最近、独自ドメインを取って「 ココロデザイン 」というサイトに移転しました。その移転の際のリポートを「 技術のタマゴ 」というブログに書いています。が、自分は読んでいないのでよくわかりません。ただ、noindexがどうだとか、いろいろやっていたみたいなので参考になるかもしれない。
ということで「技術のタマゴ」を開いたら、 こんな記述が見つかりました。
※rel="canonical"で重複記事の中で、新記事を一番だと主張する
という案もありましたが、同一ドメイン間じゃないと
使えないということで、却下になりました。
おかしい。Googleのページには、こう書いてあります。「 リダイレクトを作成できないウェブ サーバーを使用しているときに、新しいドメイン名に移行する場合などです。このような場合には、rel="canonical" リンク要素を使用して、このドメインでインデックス登録の対象になる正確な URL を指定できます 」
そうであるなら「同一ドメイン間じゃないと使えない」というのは間違いじゃないでしょうか?
しかし、rel="canonical" で新サイトを指定できるとしても、ブログで実際にどうやればいいのかという問題があります。すべての記事のヘッダにrel="canonical"属性で、新しいURLを書き込まないといけませんが、多くの無料ブログのテンプレートでは1記事ごとに違うURLを指定する事は出来ません。
ファンブログハックの記事から
ファンブログハック に「 「タイトルタグの重複」をjavascriptで回避する(ファンブログ、FC2) 」という記事があります。JavaScriptを使ってHTMLに書いてあるのと違うタイトルに書きかえたところ、Googleには書きかえたタイトルが反映されたという内容です。
実はこのブログは今月1日に新しいスキンに変えているんですが、「 site:fanblogs.jp/ayzfqir5 」をググるとおもしろい結果が出ます。このブログのスキンには、タイトルにページ番号やカテゴリー名を表示させる機能がありません。なので、JavaScriptで書き加えているんですが、スキンを変えて数日で、検索結果に反映されるようになりました。ファンブログハックの記事の通りです。
ヘッダにrel="canonical" 属性を追加するスクリプト
ということは、JavaScriptで、ヘッダにrel="canonical" 属性を追加すれば、検索に反映されるのではないだろうか?つまり、新しいサイトを優先して表示してくれるのではないだろうか?と仮定できるのです。もし、それが出来るなら「パー活」にnoindexを指定する必要はなくなります。
とは言ったものの、ページ数がたくさんある時は大変です。ちなみにページが数ページしかない時には、下のようなスクリプトで実現できると思います。
前提条件として、古い記事のURLはすべて「https://fanblogs.jp/parthaken/archive/ xxx /0」というフォーマットになっているものとします。URLの中のxxxは数字です。この数字ごとに新しいURLをヘッダに書き加えます。新しいサイトでは、記事の内容ごとに違うブログに分けていたとしても大丈夫です。
<script type="text/javascript"><!-- var urls={ "001":"http:\/\/hoge.example.com/page_001.php", "002":"http:\/\/moge.example.com/page_002.php", "003":"http:\/\/kome.example.com/page_003.php" }; var key=window.location.href.match(/\/archive\/([0-9]+)\//); if(key){ document.write('\<link rel="canonical" href="'+urls[key[1]]+'" /\>'); } //--> </script>
これをheadタグの中で、一番最初のscriptタグの直前に書けばうまくいくと思います。古い記事のURLがhttps://fanblogs.jp/parthaken/archive/001/0なら「http://hoge.example.com/page_001.php」というように、それぞれの新URLをヘッダに追記します。
しかし、記事が何百ページもあったら上のやり方では無理があります。
新ドメイン側の.htaccessに旧URLを渡して、振り分ける
大抵の無料ブログでは.htaccessは使えないし、だからこの記事のような困りごとになるわけですが、新しいサイトでは.htaccessが使えます。だから新サイトの.htaccessにパラメータを渡してリダイレクトさせればいいわけです。
旧ブログのヘッダには次のスクリプトを書き加えます。場所は最初のscriptタグの前でいいでしょう。
<script type="text/javascript"><!-- var new_domain="http:\/\/cocorodesign.net/"; var key=window.location.href.match(/\/archive\/([0-9]+)\//); if(key){ document.write('\<link rel="canonical" href="'+new_domain+'?old_page='+key[1]+'" /\>'); } //--> </script>
これで古いブログのURLが「https://fanblogs.jp/parthaken/archive/ 001 /0」である記事が開かれると、ヘッダの最初のscriptタグの直前に次のタグが書き込まれます。
Googleなどの検索エンジンが、狙いどおりにこのタグを読んだら、新ドメインのサーバに「http://cocorodesign.net/?old_page=001」を問い合わせます。新しいサーバには「old_page=001」というパラメータが渡されるので、それを判断材料に、新しいURLに誘導すれば(リダイレクトさせれば)いいわけです。
サーバー側のリダイレクト手順
ということで、サーバー側で.htaccessを使ってリダイレクトと書きましたが、何百個もある記事を、一定のパターンに沿って書きかえるならともかく、記事ごとに違うブログに振り分けるとなると.htaccessでは大変です。こうなると、旧URLと新URLを紐付けたデータベースを作って処理する方が簡単ではないでしょうか。作るデータベースのtableはこんな仕様になると思います。
CREATE TABLE url( old varchar(256), new varchar(256) );
このテーブルに、URL対応表を作ってから、PHP等のインタープリタでアクセスすればいいと思います。アクセスする際は「SELECT new FROM url WHERE old='xxx'」というクエリで新URLを取れるでしょう。
PHPの場合のソースは次のようになります。
<?php $host='localhost'; $db=''; $user=''; $pwd=''; $old=$_GET['old_page']; if(empty($old)){ header('HTTP/1.1 400 Bad Request'); return; } try{ $pdo=new PDO('mysql:host='.$host.'; dbname='.$db,$user,$pwd); $stmt=$pdo->query('SELECT new FROM url WHERE old="'.$old.'"'); $row=$stmt->fetch(PDO::FETCH_ASSOC); header('HTTP/1.1 301 Moved Permanently'); header('Location: '.$row['new']); }catch (PDOException $e){ header('HTTP/1.1 500 Internal Server Error'); } $pdo=null;
申し訳ないですが、このソースは動作確認をしていません。実際に使って、うまくいかない場合はコメント欄からご連絡ください。