初めまして。
データサイエンティストの小酒井 亮太と申します!
普段業務でデータの分析・数理モデル開発を行っております。
どうぞよろしくお願いします。
よく使う言語はRですが、Pythonもそこそこ使っていきたいと考えています。
なかなか自身の発言の場がなく、今後いろいろ投稿させて頂きたいと考えていますので、分析観点から考えられること、主に考えた手法、事案等を共有できたらなーと思っています。
簡単ですが、「データ分析でできること」をいくつか挙げてみたいと思います。
データから現在の傾向を調査する
回帰分析(例は数量化Ⅰ)という方法で現在の傾向を知ることが出来ます。
例えば、下記例はルームクーラーの販売率(河口至商著:「多変量解析入門Ⅰ」参照)についての分析事例です。
上のデータは、10個の各サンプル都市における地域と気候によって
ルームクーラーをどのような都市に宣伝に行ったらよいかを予測した例になります。
予測精度としては、販売率と予想販売率を比較してもわかるように、そこそこの精度が確認できると思います。
実際に精度としては、1を最大とすると、
0.968(重相関係数)となり、かなりの精度が確認できます。
回帰係数の結果(地域と気候による販売率への影響力)を確認すると、以下のようになります。
この結果を見ると、よく売れているのは大都市で温暖な地域なのがわかります。
上のデータではオレンジ色の部分を意味します。
次に売れているのは、大都市で普通の地域だというのも確認できます。
同じく黄色のラインで確認できます。
上記にはないですが、地方都市で寒冷な地域に関しては0.43%の販売率となり、この結果から、宣伝に行くべきかどうかを考えさせられます。
データのそれぞれの特性における分類
判別分析(例は数量化Ⅱ)という方法で分類の尺度を知ることが出来ます。
下記は、ある自動車メーカーでの乗用車購入時における意識調査(河口 至商著:「多変量解析入門Ⅱ」参照)についての分析事例です。
上のデータは、自社製および他社製の乗用車購入時における意識をデータで示したものです。
確認する意識項目としては、価格、外観、性能の3つの指標で確認を行っています。
下記に線形判別(判断基準となるものから、その値を表示)した結果を示すと、以下のようになります。
この結果から、「自社製を購入」もしくは「他社製を購入」に関して
predictの値が0.5以下、0.5以上でうまく切り分けられていることが確認できます。
例として、「価格_考慮」、「外観_考慮」、「性能_検討した」に当てはまる購入者の値を計算すると0となるので、
0.5以下となることから、「自社製を購入」したグループに近いと判断できます。
時系列データ分析における予測
これまでの過去のデータから、将来起こりそうなことを予測することがデータ分析によって行える場合があります。
例えば、一年間の中で起こる年次行事が日本では多々あります。
正月、クリスマス、お彼岸、成人式、その他いろいろです。
その年次行事によって、近未来的なものを数値で具体的に確認することがデータ分析では行えます。
下に一例として挙げた(ARMA)モデルにより予測を行う場合には、過去何日分のデータから現在のデータを予測したときが一番よく表しているのか、
言い換えれば、現在を予測する際に周期的に過去何日分がよく影響しているかを調べることができます。
(下記):時系列的な動きをモデルにより予測(ARMA):
データにおいて、「仮説検定」における数値による判断
確認したい項目に対して、数値でそれが「確か」であるかを確認することが出来ます。
他、「区間推定」によって、「確か」と思われるのはどんな事象なのかを数値で確認することが出来ます。
例えば、ある広告会社で、以前は紙媒体での広告が2008年まで行われていたとします。
その中で、現在はweb媒体での広告に大きく切り替わっているかどうかをデータ分析し、統計検定を行うことで判断を下すことが出来ます。
また、それらの事象において、どの事象がどのくらいの確率で発生するのかを具体的に計算することが出来ます。
(下記):2つのデータの値のずれ具合により発生する分布:
最適化
コストなどの最適化が行えます。
例えば、仕入れ価格に対して、売値をいくらでつけた際にこれまでの売り上げデータからどれくらいの利益が見積もれるかなどです。
無駄なコストを削減し、必要な経費だけにするにはどうしたらいいのかなどが計算されます。
(下記):データからモデルにより予測された仕入れ数ごとにおける期待総費用:
最後に
今後もこのような感じで最近作ったモデルのことや分析事例等を多々紹介していきたいと考えていますので、どうぞよろしくお願いします。
自身の感想なんですが、データ分析という仕事は自身の勉強量に直結するような気がします。
ビジネス視点もそうですが、実際の現場にたつと分析をお願いされるデータ構造が複雑で、まず、特徴量をまとめるのに非常に苦労します。
なので、特徴量抽出(主成分等)から回帰分析に持っていくパターン等が非常に多くなり、一つ二つの手法を組み合わせて果敢に挑みます。
そのときに必要なのが、勉強量に直結する知識量と組み合わせてうまくいくアイデアです。