解説
種別 | 手法 |
---|---|
回帰 | 線形回帰 |
ロジスティック回帰 | |
サポートベクターマシーン(SVM) | |
木 | 決定木(CART) |
回帰木 | |
ランダムフォレスト | |
勾配ブースティング木 | |
ニューラルネットワーク | パーセプトロン |
畳み込みニューラルネットワーク(CNN) | |
再起型ニューラルネットワーク(RNN) | |
ベイズ | 単純ベイズ(ナイーブベイズ) |
時系列 | AR,MA,(S)ARIMAモデル |
状態空間モデル | |
クラスタリング | k近傍法(KNN) |
アンサンブル学習 | ブースティング |
バギング | |
ベイズ | 単純ベイズ(ナイーブベイズ) |
回帰分析
売上高 = a * ヘビーユーザーDAU + b * ライトユーザーDAU + c * 呼び戻しユーザーDAU
のように仮に数値モデルを立てて、実データから逆算してそれぞれの係数a, b, cを推定することでモデルの全体像を求める手法のこと
主成分分析・因子分析
データがごちゃごちゃしていて、ある程度どういう方向性にデータが割れているか絞り込みたい!という時に使える手法です。
この2つ、良くそっくりだと言われるんですが大まかに言えば
モデルなしで、多くの変数を少ない変数に集約するのが主成分分析
モデルありで、多くの変数を共通因子にまとめるのが因子分析
といった違いがあります。
ともあれ、全体の傾向としてデータがどの方向性に向かって分布しているかを知りたい時にはどちらの手法も非常に有用です。
クラスタリング
データの組み合わせが似たもの同士をまとめる」分析方法です。
イメージとしては、「ゲームAとゲームBをやっている人たち」vs.「ゲームCとゲームDをやっている人たち」のように、
利用しているサービスの組み合わせごとにグルーピングできるんじゃないか?というケースで、
それを実際にUUベースで切り分ける方法論と言って良いでしょう。
決定木 / 回帰木
これはデータの表示方法が直感的で分かりやすいため、
多くのwebデータ分析の現場で使われています。中には全自動化して自前でパッケージ化して誰でもアクセスできるようにしているところもあるようです。
ランダムフォレスト
近年急速に広まっている、機械学習分類器です。実はベースはただの決定木 / 回帰木なんですが、
これをブートストラップ・リサンプリング法と組み合わせることで高速かつ正確に分類結果が得られるようにしたものです。
サポートベクターマシン(SVM)
スパム判定などで重宝される非常に有名な機械学習分類器です。
SVMは実装向けライブラリ・パッケージ群が非常に充実していて、
例えばC++ / Java / Pythonなどの言語にも対応するライブラリが数多くあります。
むしろ実務的にはそちらで実装することの方が多いかもしれないです。
ロジスティック回帰
「ロジスティック回帰分析(Logistic regression)」とは、多変量解析の一種。
線形回帰分析が量的変数を予測するのに対して、ロジスティック回帰分析は質的確率を予測する。
ロジスティック回帰分析は量的変数から質的変数を予測するが、予測する変数の値(1か0かなど)を予測するのではなく、
目的変数が1となる確率を予測する。
たとえば、ある商品の購入有無(「Yes」or「 No」)のように、2値しかとりえない値を従属変数の実績値として用い、説明変数を用いてその発生確率を予測する。
ロジスティック回帰分析は,キャンペーンの反応率や、特定商品の普及率などマーケティングの現場で活用されるほか、
土砂災害発生危険基準線の確率を求めたり、理学療法の現場で活用されるなど、気象、医療分野でも活用されている。
http://analytics-news.jp/info/logi-reg-analysis
アソシエーション分析(バスケット分析)
いわゆる「バスケット分析」です。
アメリカで有名になった「ビールとオムツのまとめ買い」の例のように、
従来はどちらかというとPOSなど小売店での顧客購買データに用いられることが多かったようです。
ところが、webデータ分析の世界でも例えば「登録翌月も来訪してくれたユーザーで、コンテンツAを見ていた人は
他にコンテンツB-Zのうちどれを一番多く見ていたか?」みたいな、
「サービスを合わせ技で提供することでよりリピートしやすくなる」行動パターンの抽出に使われることが増えてきているようです。
■計量時系列分析
難しいからパス
ニューラルネットワーク
人間の脳の神経回路の仕組みを模したモデル
ステップアップ
キーワード
- XXX
- XXX
- XXX
- XXX
- XXX
ソースコード
XXX.py:XXXするプログラム
このプログラムを実行すると、与えられた配列の中央値を算出します。
データセット
ー