リファラースパムはダイレクトトラフィックにも。ホスト名(not set)でフィルターをかけよう

巷を騒がせているリファラースパム。サイトの数字が狂ったり、ウィルスに感染することもあったり。

ハイベロシティのビューにはリファラースパムのフィルターをかけているのですが、それでも日夜新しいスパムが出てくるので、いたちごっこの様相を呈しています。

refferal-spam-sample(リファラースパムの一例、アクセスしないでくださいね)

ひとつひとつの訪問数は微々たるものなのですが、総数たるや、塵も積もれば山となる形式でそこそこの数になります。

フィルターをかけていない例を見ると、影響がよく分かります。これは私が持っているブログのひとつで、フィルターを入れていません。

dat-spam(free-social-buttons、多すぎる…)

リファラートラフィックは全セッションで99なのですが、その全てがリファラースパムで占められていました。そもそものトラフィックが少ないとは言っても、データの汚染力は非常に高いと言えます。

私が持っているブログは備忘録のようなものなので良いとしても、目的を持って運営しているサイトのデータを汚染されると、分析に支障をきたす恐れがあります。汚染のないデータを得るためにも、Google Analyticsのフィルターを活用しましょう。

フィルター対象はホスト名「(not set)」を指定する

それでは、どのようにフィルターをかければよいのでしょうか。リファラースパムの特徴として、ホスト名が「(not set)」であることが挙げられます。論より証拠、ちょっと見てみましょう。

[集客] > [すべてのトラフィック] > [チャネル]を開き、Refferalをクリック。そして、セカンダリディメンションで [ホスト名] を指定します。 [行動] の中にありますが、ホスト名と入力して探す方が楽です。

select-hostname

こうすると参照元の隣に、ホスト名という項目が表示されます。

hostname-not-set

見事にホスト名全てが(not set)です。(not set)でフィルタをかける理由は、もうひとつあるのですが、それは後述します。

ひとまず、ホスト名が(not set)のトラフィックに対してフィルターを施しましょう。

1. アナリティクス設定を開く

filter-analytics-setting

2. フィルターをかけたいビューを選び、フィルタを選択する

filter-select-view

3. 新しいフィルタを選択する

filter-select-filter

4. フィルターの情報を入力する

ここでは正規表現を用いています。

  1. 何のフィルタか分かりやすい名前をつける
  2. フィルタの種類でカスタムを選択する
  3. 条件の仲から一致を選択する
  4. フィルタフィールドからホスト名を選択する
  5. フィルタパターンにトラッキングしたいホスト名を入力する

perfect-spam-filter

5. フィルターを確認する

作成したフィルターを保存する前に、正しく機能しているか確認しましょう。最後にある「このフィルタを確認する」でチェックが行えます。

filter-check

フィルタパターンに入力しているホスト名が間違っていると、ビューに何も表示されなくなってしまいます。ここで先ほどの個人用備忘録にもう一度登場してもらい、正しく入力すると以下のようになります。

success-filter

確認して、問題が無ければ保存してください。これでフィルターのセットは完了です。

ダイレクトトラフィックにもスパムが紛れ込んでいる

ここから先は、先ほど「後述する」と言ったもうひとつの理由です。

リファラースパムというと、どうしてもリファラートラフィックだけに目が行ってしまいます。でも、実はダイレクトトラフィックにもスパムが潜んでいるのです。

そもそもダイレクトトラフィックとは、何らかの参照元を経由せずに流入があった場合に発生します。一般的には、以下の流入がダイレクトトラフィックとして分類されます。

  • ブラウザのブックマーク
  • ブラウザでURLを直接入力
  • RSS (Feedly, Livedoor Readerなど)
  • メール (Gmail, Hotmailなど)
  • スマートフォンアプリ

データが汚染されていない場合、Google Analyticsの [集客] > [すべてのトラフィック] > [チャネル] からDirectをクリックすれば、ダイレクトトラフィックによる訪問者のランディングページ(最初に閲覧があったページ)が分かります。

normal-direct-traffic

データが汚染されている可能性がある場合、このような表示になります。

direct-spam

ただ、これだけだとトップページへダイレクトトラフィックがあった可能性があります。スパムかどうかを白黒つけるには、セカンダリディメンションで [ホスト名] を指定します。

こうするとランディングページの隣に、ホスト名という項目が表示されます。

direct-not-set

ホスト名が(not set)となっていますね。先ほどフィルターをかけたので、このトラフィックは弾かれるようになります。

なぜホスト名が(not set)なのか

そもそも、なぜリファラースパムはホスト名が(not set)なのでしょうか。

少し調べてみたところ、アメリカのSEO会社のOhowのブログには、ウェブサイトへ直接アクセスせず、Google Analyticsのサーバーへ直接データを送っているためだと書かれています。ブログにはもっと詳細にかかれていますが、簡単に言えば訪問したというニセのデータをサーバーへ送り、あたかもサイトからアクセスがあったように見せかけているわけです。で、そのデータの中にホスト名が入っていないため、(not set)になっています。

最後に

リファラースパム、非常に困りますね。直帰率はほぼ100%で、滞在時間もほぼ0秒。サイトが大きくなれば相対的に少数になるとはいえ、枕元に蚊が一匹居ては安眠もできません。そもそも全く気付かずにURLを叩いてしまうと、スパイウェアやウィルスなどに感染する可能性もあるので、不快の一言。フィルターをかけて必ず対応するようにしましょう。

また、合わせて自社やbotからのアクセスを除外しておくと、より正確なデータを取得できます。ぜひ設定してみてくださいね。

メルマガ登録はこちら

(Photo: Hide and Seek by Hendrik Dacquin)