グーグルがスパムに負けつつある

最近HNにGoogle検索結果の質の低下を指摘するポストが目立つ。

Tumblrの元リードデベロッパー、Instapaperのファウンダー Marco Arment

http://www.marco.org/2617546197
検索をいくつかのカテゴリに分類して分析している。

ナビゲーション(Address Bar)：行き先のページがわかっているがURLを知らない(打ち込むのが面倒な)場合

"オリンパスデジタルカメラ sp-600uz" --> オリンパスの公式製品ページ

リファレンス：明確な特定の質問に対する答

"顔検出AFとは" --> 「顔検出AF」の解説ページ。 wikipediaによって答えられるような質問。

ガイド: あるトピックに関する有益なページ

"デジタル一眼カメラ広角レンズ" --> ハウツーや解説ページ

買い物リサーチ：商品に関する一般情報、レビュー、批評など

"デジタルカメラ比較" --> 口コミや批評ページ

Marcoによると数年前から「買い物リサーチ」は全く駄目。最近は「ガイド」カテゴリも使い難い。そして「リファレンス」もかなり汚染されている。「ナビゲーション」がやられるのも時間の問題。

stackoverflowのJeff Atwood：「スパマ、スクレーパ、SEOコンテントファームがグーグルに勝ちつつある」

http://www.codinghorror.com/blog/2011/01/trouble-in-the-house-of-google.html

Jeffは根っからのgoogleファンで、サーチがおかしいときは、グーグルを疑わず「まず自分を疑え」をモットーとしてきた。「グーグルが間違っていると思うのは転んだことを重力のセイにするようなものだ」とまで言っている。しかし、2000年以来始めてグーグルの質の低下を認識せざるおえなくなった。彼とJoelが作ったstackoverflowをはじめとする*overflow QAサイトのコンテンツでスパマに悪用されたものが、高くランキングされているのだ。

これがJeffの集めたグーグル劣化指摘リンク集

'The Rails 3 Way'の著者Obie Fernandez

Google Alertsで「ベストな結果」と「全て」というオプション発見したObieは後者を選択してみた。すると、彼の著書のタイトルを使ったスパムサイトや無法ダウンロードサイトが続々と出てきたのだ。「ベストな結果」ではこれは出ていなかったので、グーグルはこれらが底質・スパムということは認識していることになる。
http://blog.obiefernandez.com/content/2011/01/google-probably-knows-what-crap-results-are.html

broadstuff: 徐々に使い辛くなるグーグルについて

グーグル独占がスパムの問題をさらに悪化させていると指摘している。monocultureに一度害虫が発生すると決定的なダメージを受ける。もし、検索市場が三つのプレイアーに分割されていたとしたら、スパマは各エンジンの癖を捕むために工作資源を分割しなければいけなくなり、スパムもより困難になる。
http://broadstuff.com/archives/2370-On-the-increasing-uselessness-of-Google......html

ニューヨークのファウンダー Anil Dash

引用ばかりであまりオリジナルなアイデアがないが、コメントに面白い指摘があった。"market"を(英語設定)で検索するとアンデロイドのマーケットページ(www.android.com/market/)がトップに出る。客観性を疑ってしまうな。

グーグルの質が低下しているのは否めない。観察者は「アルゴリズムベース検索の限界」を指摘し人間を使ったエディトリアルによる判断を求めている。しかし、これはフォードのモデルTがエンストするのを見て、「やはり内燃機は駄目だ。馬車に戻ろう」と言うような話だ。グーグルは確かに強いアルゴリズム文化を持っている。しかし、グーグルのアルゴリズムも元をただせば、人間様の判断を集計している部分が大きい。SEOをちょっと勉強したことなる人なら、ページ内のテキストより外部からのリンク数やアンカーテキストの方が遥かに重要視されることは知っている。これはウェブのリンクグラフにる投票システムだと考えていい。

そもそもテキストマッチに加えこの人気投票によってランクしたことが、グーグル検索を古典的IRの域を越えるものにしたイノベーションだ。つまり、グーグルのアルゴリズムも結局人間の判断から学習している部分が中枢にある。なので、人間対アルゴリズムという構図は成り立たない。あるのはどれだけ広の人間のプールから機械学習のトレーニングデータを求めるかを調整するダイアルだ。

現状はウェブページを制作できる全ての人間(と残念ながら機械)を対象としている。人間派が求めるのはこれを、社内の信頼できるスタッフにさせろということだろう。しかし、グーグルのスケールを考えると無理な話だ。実際、グーグルは一部の作業のためこのようなスタッフを抱えているが、問題が多い。経験の浅い忙しい疲れた一人の社員が瞬時の判断でサイトをブラックリストするようなグーグルの方が現状より良いとは考えられない。

次のステップとしてはテンプさんを雇うことになる。サーチアルゴリズムのランキングチューニングのためにジャッジメントはスタッフ+テンプ体制でやっていると聞くが膨大なコストらしい。テンプの次はmechanical turksに見られるようなcrowdソーシングになる。crowdによる検索は面白いと思うが、成功した途端にcrowdがスパムの対象になるだろう。つまり今ウェブのリンクグラフとなっている工作の対象がcrowdに移るだけだ。結局はスパマの影響下にある人材を探知してディスカウントするアルゴリズムを組むことになる。今のスパムドメイン探知と同じだ。(というかそれより難しそう)

検索エンジンで大きな金が動く限り、その入力を操作する方法が発見され利用されるという経済原理からは逃がれられない。これは現行のウェブを通した人気測定だろうが、もっと直接人を使った方法であろうが同じことだ。

ここから憶測だが、グーグルの技術力が今のレベルのスパマにやられるとはちょっと考えがたい。酷いページをちょっと見るだけで、悪いドメインとその特徴は把握できる。グーグルがこれに対する対策を持っていないとは信じがたい。原因は二つしか考えられない：

スケールが大きくなりすぎて、簡単なスパム対策が実装できなくなってしまっている。
スパムを表示する方が収益が上るので技術的でなく体質的にスパム制御ができない。

買い被りかもしれないが、グーグルに限って前者はないと思う。テングは後者を疑う。もしかするとスパムサイトにおいての広告収益がオリジナルコンテツより高いのかもしれない。すると、ユーザにとって底質なサーチ結果は企業としては最適化された製品なのかもしれない。そうだと、ユーザとグーグルの利益が一致していないことになる。

グーグルにこのような根本的かつ構造的問題があるとするとサーチをdisruptするチャンスがあるということだ。特に上の「買い物リサーチ」の分野において、ベンダーから広告をうけず利害の衝突の無い検索エンジンが参入する余地があるかもしれない。ビジネスモデルとしては Consumer Reportsのように購読でやっていくものが考えられる。(Consumer ReportsはNPOが運営していたのか… しかし、収益をあげていることに変わりない)

Tumblrの元リードデベロッパー、Instapaperのファウンダー Marco Arment

ナビゲーション(Address Bar)： 行き先のページがわかっているがURLを知らない(打ち込むのが面倒な)場合

リファレンス： 明確な特定の質問に対する答