Home‎ > ‎WebDev‎ > ‎WebAnalytics‎ > ‎

DataMining

081224_18_54

ウェブマーケティングのソリューション周りを扱う部署に異動して、もうすぐ2年になるかな。
少し制作現場と離れているわけだが、制作との連携って重要だよねと思うコトしきり。

ま、それはそれとして「アクセス解析」は、メイン業務の一つなのだが、アクセス解析単体での限界もひしひしと感じていたり。
この部署に入ったときには、既にその動きはあったのだが、ウェブ解析と他のソリューションプラットホームやサービス同士を繋ぐのが主流になりつつあるようだ。
広告に関しては、必要上の問題から、昔から連携があったと思うけどね。

  • 営業管理
  • リコメンド
  • テストツール
  • メールマーケティング
  • CRM

などなど。

アクセス解析そのものの利用法としては、概要としてのトレンドや、ランキングで傾向を見る、テストの結果測定、サイト導線の問題点と言ったところが、主たる使い方になる。
ツールにもよるが、アクセスログを生のママもっているサービスは少ないし、仮に生ログがあったとしても、そこからデータマイニング的な知見を得るのは、迂遠というか、労多くして実り少ない作業になると想像される。

しかし、これが周辺の情報、特に顧客情報とつながってくると話は変わってくる。
購買データからは、いわゆるバスケット分析など、いろいろな手法が既に存在しているし、その考え方をアクセス解析のデータまで広げることは、そう難しくはない。

また、リコメンドなどの手法のアルゴリズムそのものも、ある種のデータマイニング手法を用いているが、協調フィルタリングなどは、商品数が多くないとあまり有効ではない。そういった場合に、ルールベースでのリコメンドを行うことがよくある。
では、そのルールをどうやってつくるかといえば、人間の知見に基づいて決定することが多い。しかし、ルールを抽出する、あるいはルールの優先度を決める際にも、こういったデータマイニング手法を流用することで精度を上げられる可能性がある。

以前、Excelでは、データ処理的につらいアクセスデータの解析を、Rという解析ツールを使って処理した。
これがきっかけで、Rというものを知ることになったのだが、このツールは本来統計解析及び、データマイングのためのツールである。

今日は、「データマイニング入門 Rで学ぶ最新データ解析」という書籍を買ったのだが、これに、主立ったデータマイニング手法が載せられていた。

  • ニューラルネット
  • 決定木
  • 自己組織化マップ
  • 連関規則
  • クラスター分析
  • ベイジアンネットワーク
  • サポートベクターマシン
  • 潜在意味解析

統計解析の基本的な手法として、なじみ深いものもあれば、そうでないモノもある。
この本で述べられていたこととして、旧来の統計・解析とデータマイニングの違い、について書かれている部分があった。

・統計・解析は、基本的に「検定」「分布」「傾向」を扱うもので、一意の解を得られるものである。重回帰分析、因子分析、主成分分析などが、この範疇。また、データ量が増えると、「有意である」モノが増えて、事実上意味が薄くなるとあった。
・データマイニングは、解が一意とは限らない。また、正解ではなく、95%程度で素早く結論を得るといった、より実務的な目的に寄っているという違いがあるようだ。

ま、このあたりの見解はこのあたりの見解はいろいろあるのかもしれないけど。
それと、上記の項目は、以前「集合知プログラミング」との共通項が非常に多い。

これも、当たり前だが、今の技術トレンドを示している気がする。


Comments