【決定版】リファラースパムの99.26%を簡単に除外する方法
アクセス解析,Google Analytics | 2016年1月13日
Google Analytics を使っている人を悩ませるリファラースパム。
リファラースパムとは、リファラー(参照元)に関係のないURLを表示させ、アクセス解析ツールの使用者にそのURLを開かせてアフィリエイトなどを仕込むといった類のものです。
不正なアクセスなので、きちんと除外しないと正しいアクセス解析データを得ることができないのですが、新しいスパムが出るたびに除外設定を更新する必要があるのではっきり言ってかなり面倒くさい。。。
そんなスパムを簡単な設定で大量に除外することに成功したのでその方法をご紹介。
リファラースパムの特徴
従来のリファラースパムの除外方法は、新しい参照元を見つけるたびに、その参照元を除外するというものでした。
この地道な戦いを1年間繰り返してきた結果、ある共通点が見つかったのです。
まず、こちらのデータをご覧ください。
上図はチャネル別の解析データですが、ここからセカンダリディメンションで「ホスト名」を指定すると、このようになります。
ホスト名とは、そのアクセスが発生したときのURLみたいなもの(厳密には違うけど・・・)になります。ですので、通常リステップのサイトであれば「restep.jp」になっていないといけない。
しかし、上図を見ると「restep.jp」以外のホスト名を大量に発見。実は、これらの全てがスパムからのアクセスだったのです。
・・・ということは、ホスト名が「restep.jp」となるアクセスだけを抽出すればオッケーだったんですね。
リファラースパムを除外するフィルタ設定
Google Analyticsでフィルタを設定する場合は、アナリティクス設定から行います。
次にフィルタの設定・・・と言いたいところですが、解析用のビューを作っていない人はちょっと待った!
フィルタ設定で特定のアクセスを除外すると、除外されたデータは二度と参照することができなくなります。((((;゚Д゚))))ガクガクブルブル
万が一フィルタ設定を間違えたりしてアクセスが全く取得できなくなったりしたら困るので、最初から用意されている「すべてのウェブサイトのデータ」ビューは残し、必ず解析用のビューを別に設けましょう。
既に解析用のビューを作成されている方は (2)フィルタを設定する まで読み進めてください。
(1)新しいビューを作成する
新たにビューを作成する場合は、既存のビューを複製するのが手っ取り早いです。
複製元のビューが選択されていることを確認し、「ビュー設定」をクリック。
次に、「ビューをコピー」をクリック。
「新規ビュー名」を入力して「ビューをコピー」をクリックしたら複製が完了です。
(2)フィルタを設定する
フィルタ設定を行うには、アナリティクス設定からビューの中の「フィルタ」をクリックします。
「フィルタを追加」ボタンをクリック。
新しいフィルタを下図の様に設定していきます。
フィルタを適用する方法 | 「新しいフィルタを作成」を選択 |
---|---|
フィルタ名 | スパム除外(何でも良いです) |
フィルタの種類 | 「カスタム」を選び「一致」を選択 |
フィルタフィールド | 「ホスト名」 |
フィルタパターン | 「restep\.jp」(計測サイトのドメインを指定) |
「フィルタパターン」は、計測対象となるサイトのドメインを正規表現で指定してください。「正規表現って何?」って方は、とりあえず「.(ドット)」と「-(ハイフン)」があれば、その直前に「\(円記号)」を挿入すれば良いということだけ覚えておいてください。
このフィルタが設定されたビューは、以降は指定したホスト名からのアクセスのみを集計するようになります。
ここで、ひとつだけ注意!
Google Analyticsを使ってクロスドメイントラッキング(複数のドメインをまたがって計測)しているサイトの場合、この設定だけではホスト名で指定したドメインしか集計されなくなります。
複数ドメインからのアクセスが発生する場合は、対象となるドメインを全て指定してください。複数のドメインの指定する方法は次のとおりです。
(例)計測対象として、自社サイト以外にカラーミーショップ(shop-pro.jp)とアメブロ(ameblo.jp)を含める場合
フィルタパターン:「restep\.jp|shop\-pro\.jp|ameblo\.jp」
このように、複数のドメインを「|(縦線、パイプライン)」で区切って指定します。
なお、Googleのキャッシュで開かれた場合のホスト名は「google.com」になるのですが、同じホスト名のスパムが結構ありますのでこの際キャッシュへのアクセスを集計することは諦めます^^;
フィルタの効果はどれくらい?
リステップの2015年の全アクセスのうち、スパムと思われるアクセスは1,348件でした。
そして、そのうちホスト名が「restep.jp」ではないものが1,338件。
つまり、このフィルタを設定するだけで、実に99.26%のスパムを除外することが可能になりました。
そして、この除外されるスパムはリファラースパムだけでなく、キーワードスパムやページスパムもまとめて除外できるという大変オトクなフィルタ設定となっています。
ぜひ、あなたのサイトでもこの設定を試してみてください!
番外編1:残りの0.74%のスパムも除外するには?
スパムの中には計測サイトと同じホスト名を使ったスパムが存在します。このスパムについてはホスト名を使ったフィルタでは除外することができません。
よって、残りのスパムは従来通り「参照」で除外してやります。
フィルタを適用する方法 | 「新しいフィルタを作成」を選択 |
---|---|
フィルタ名 | リファラースパム除外(何でも良いです) |
フィルタの種類 | 「カスタム」を選び「除外」を選択 |
フィルタフィールド | 「参照」 |
フィルタパターン | 「^(.+\.|)(dbutton\.net|justprofit\.xyz|rankings\-analytics\.com|success\-seo\.com|top1\-seo\-service\.com|video\-\-production\.com|wordpress\-crew\.net)$」(ホスト名で除外できないスパムの参照元を指定) |
これでスパムの排除率は100%となりました^^
番外編2:過去のアクセスデータからスパムを除外したいんだけど・・・
フィルタの設定は、その設定をした以降のアクセスにしか適用されません。よって、過去のアクセスについてはスパムが含まれたままになります。
「せっかくだから過去のアクセスからもスパムを除いた数値が欲しい!」という方は、セグメントを使用すると幸せになりますよ~。(手抜きでスミマセン…)
2016.1.30追記
リファラースパムに新しいものが4件見つかりました。上記記事中のフィルタパターンは最新のものに更新してあります。
google analytics苦手で少し放置してましたが、ロシアからのアクセスが多く困っていたので、助かりました。ありがとうございます。HP参考にさせていただきます。