ITmedia NEWS > セキュリティ >
セキュリティ・ホットトピックス

増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除

» 2008年10月10日 11時00分 公開
[宮本真希,ITmedia]

 ライブドアは10月10日、「livedoorブログ検索」に、検索結果にスパムブログを表示しない技術を実装した。スパムブログを自動判定する技術を新開発。従来、検索結果の半分ほどスパムだったが、新技術でスパムの約9割が表示されなくなったという。

 スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。

 別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。

 同社エンジニアの山下拓也さんによると、「日々新しいパターンのスパムブログが出てくる」という。スパムが検索結果に表示されなくなれば、スパムブログを通じてアフィリエイトで稼ごうとするユーザーが減り、スパムブログ自体も減っていくと期待する。

10種類のフィルターでスパム排除

 livedoorブログ検索では従来、目視と簡単なプログラムを使ってスパムブログを削除していた。新たに、スパムブログを自動判定する新技術を、社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に実装した。

 新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。

 収集したブログ記事を、同社が持つ100万件のブログ記事のサンプルと比較し、類似した記事が投稿されていないかを確認する――といったことも行う。スパムブログの中でも、別のブログ記事をコピーして作ったものが多いためだ。

 同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのにスパムと誤判定した割合は1.8%。ほかの記事を引用して短いコメントを付けているようなブログ記事は、誤ってスパムと判定してしまう場合があった。

 今後はフィルタの種類やブラックリストに登録されたブログの数を増やしていく。現在ブラックリストには十数万件が登録されているという。

1人で2000個のIDを作成し、投稿するスパムブロガーも

 スパムブログは3〜4年ほど前から増え始めたという。「ブログがメディアで取り上げられるようになってから増えてきた」と、井原郁央マネージャーは感じている。

 同社の調査によると、スパムブログでよく使われる3つのキーワードで抽出した90のブログ記事のうち、約66%がスパムだった。1人で1つのブログサービスに2000以上のIDを作り、スパム記事を大量に投稿するユーザーもいるという。livedoor ブログのスパム記事の割合は、正確なデータを集計していないが、66%よりは少ないとしている。

 大量にスパムブログが生成されるのは、専用ツールが出回っているため。「アフィリエイトでもうかる方法教えます」と売り込むサイトなどで、専用ツールが販売されているという。「スパムブログを通じて最ももうけているのは、専用ツールを売っているユーザーでは」(井原マネージャー)

人が見ても判定しづらいスパムが増えている

 山下さんによると「人が見てもスパムかどうか判定しづらいスパムブログが増えている」という。ニュースをコピーし、語尾を関西弁風に変えているというスパム記事もある。コピー元との類似性を下げることで、スパムフィルターに引っかかりにくくしているというわけだ。「日々新しいパターンのスパムブログが出てくるが、そのパターンはシステムでは判別できず、人間の力に頼るしかない」(山下さん)

 スパムブログに関する情報を公開したり、他社と交換するといったことも積極的に進めていきたい考えだ。ニフティとはスパム判定に関する情報を交換しているという。

 「スパム業者に手口を覚えられるからと、情報や技術を公開したり、交換したがらない企業もあると思うが、1社で対策するよりは、お互い手を組んだ方がいい。スパム業者同士も手を組んでやっているような印象がある」(井原マネージャー)

 情報公開の一環として今後、ラボサイト「livedoor ラボ『EDGE』」で、IPアドレスを入力すると、そのアドレスが同社のスパムのブラックリストに登録されているかどうかを返してくれるサービスを公開する予定。個人でブログを運営していて、スパムコメントに困っているユーザーなどに使ってもらうことを想定している。

Copyright © ITmedia, Inc. All Rights Reserved.