経営情報システム　「統計」問題14年分の傾向分析と全キーワード　その３【多変量解析】

f:id:sun1200:20210630111618j:plain

まだ続くの…？

今回は重要ですよ！最近よく出題される多変量解析の種類です！
ただ「統計学」では回帰分析ばっかりですけどね…。

f:id:sun1200:20210626231723p:plain

f:id:sun1200:20210626231750p:plain

多変量解析って↑の表でいうところの「分析」の欄じゃね。

多変量解析編

多変量解析の種類とその内容です。実際の分析は不要です。ただそれが何なのかを知るだけでOKです。

①A/B分析
②主成分分析
③因子分析
④判別分析
⑤クラスター分析
⑥コンジョイント分析
⑦コレスポンデンス分析
⑧単回帰分析
⑨重回帰分析
⑩数量化分析
まとめ

①A/B分析

一番簡単な分析方法。
とりあえず色々やってみて、結果どれが良かったかを確認するやつです。
広告とかでもよく使われる分析の方法です。
どんな広告が受けるかを事前に予測するのはプロでも難しい。
なのでAパターンとかBパターンとかでとにかく複数やってみて反応をみる。
結果Aパターンの方がレスポンスやコンバージョンレート(成約率)が高ければ、今後Aパターンで継続する、あるいはCパターンとまた比べてみる、などを行います。

②主成分分析

多変量解析の代表格。複数の成分から主成分を割り出します。
一番簡単な例では身長と体重でしょうか。
色んな人の身長と体重のデータから散布図を作ります。

f:id:sun1200:20210629011808p:plain

その相関から主成分を発見します。（自力）

f:id:sun1200:20210629011850p:plain
身長が高いと体重も大きくなる。
この関係がメインの主成分ですよね？
これを第１主成分といい「体格」と名付けました。
名付けは分析者次第でセンスが問われるところです。
そしてまだ成分がありそうです。

f:id:sun1200:20210629012112p:plain

こっち向きの成分も少しありますね。バラつき≒成分です。
これを第２主成分といいます。
身長が高いのに軽い、身長が低いのに重い、すなわち「体型」成分と名付けました。

今回はこの２つの主成分で、ある程度全体が説明ができそうです。

他にはアンケート等を集計してマーケティング戦略を練る時などに使われます。
例えば、商品の「見ため」「香り」「食べやすさ」「コク」「甘み」等に関する項目のアンケート評価をとり、それらを点数化する場合はもっと複雑な散布図になります。
その散布図からもやはり、主成分を何個か見つけ出します。
でも大体2～3個の主成分で全体の80%くらいは説明出来ますのでそれでOKです。
１個目の主成分、例えば「総合的美味しさ」で50％の説明(寄与率といいます）、2個目の主成分、例えば「さっぱり感」で30％の説明、この時点で累計寄与率が80％なので、後の成分は無視でいいや、となります。
分析の結果、『美味しくてさっぱりした種類のジュース』を多めに陳列しようか、といった戦略を練ることが出来ます。

もう1つ実例として、ミス・ユニバースになるための女性の理想像を分析する際など。
歴代ミス・ユニバースから、「身長」「体重」「バスト」「ウエスト」「ヒップ」等をデータ化します。そこから1個目の主成分「健康的な体型」、2個目の主成分「コーラ瓶型のシルエット」などと分析します。
なるほど、まずは健康的な体型ありきで、その次にボン・キュッ・ボンが大事だな。
でもこれでも寄与率はまだ低いからボディライン以外にも何か要因があるのでは？
(顔とか性格とか？）といった分析が出来ます。

このように多くの項目から、統一的なメイン成分を探す手法を主成分分析といいます。

③因子分析

多変量解析の代表格2。主成分分析と双子の関係。
主成分分析とよく似ているが、ある意味真逆の分析です。
主成分分析と因子分析の違いを識別するような試験問題は、今後非常に出てきそうな論点だと予想しています。

まだ確か出題されてないね。違いがややこしいんだよなぁ。

主成分分析が、データから「結果」となる成分を見つけるのに対し、因子分析は、データから「原因」となる成分を見つけます。
例えば、国語、算数、理科、社会、英語の成績のデータ（説明変数）から、「総合学力」という成分を見つけるのが主成分分析です。
一方、国語、算数、理科、社会、英語の成績のデータ（説明変数）から、「理系能力」といった「説明因子」を見つけるのが因子分析です。

もっと砕けて言えば、様々な事柄から「つまり○○」を見つけるのが主成分分析。
様々な事柄から「なぜならば○○」を見つけるのが因子分析。

【平成19過去問】

f:id:sun1200:20210630114524p:plain

割と中身に言及した問題ですね。昔の問題は難しいんだよなぁ…

アは✖です。20個のアンケート質問項目から25個の共通因子を見つけるって普通に考えて無理ゲーですよね。
イも✖です。固有値とか知らんがなって話ですが、実際の分析の時ってコンピュータで全部データが数値化されています。
その時に因子Aは固有値1.8、因子Bは固有値1.3、因子Cは固有値0.7とか、相関性の高い順に表示されるみたいです。で、1.0の境界でばっさり切るみたいですね。
1.0以上は確かに共通因子と認める。1.0未満は共通因子として認めないので無視する。みたいな。主成分分析時の寄与率みたいなものですね。

エも✖です。いやデータ中に異常値があったら影響するだろ…と常識の判断です。
消去法でウが正解です。もし線形であることが間違いなんだったら何でしょうね？円形？対数形？まぁ大体線形ですよね…。なんとなく。

④判別分析

これは簡単。「ひよこ鑑定士」のイメージでOKです。
♂だったりこっち、♀だったらこっちと振り分けられます。
応募者に対し、採用、非採用を決めるのも判別分析ですね。

【過去問H27-24】
f:id:sun1200:20210629234828p:plain
まず②と③が簡単です。②はA/Bテストで、③はひよこ判別です。
この時点で答えはウ。
①は検定の時に確認した「分散分析」になります。（複数の池の鯉の差異ですね）

【復習】
1~2つの母集団(分散既知）の平均値を　→　ｚ検定
1~2つの母集団(データ多）の平均値を　→　ｚ検定
2つの母集団の分散の違いを確認　→　Ｆ検定
1~2つの母集団(分散未知だか等しい）の平均値を　→　ｔ検定
1~2つの母集団(分散等しくデータ少）の平均値を　→　ｔ検定
2つの母集団(分散未知で等しくない）の平均値を　→　ウェルチ検定
1つの母集団の分散自体を　→　χ2検定
クロス表で独立性を検定　→　χ2検定
クロス表で適合度を検定　→　χ2検定
3つの母集団で平均値を　　→　（一元配置）分散分析
3つの母集団で平均値と中央値を　→　（二元配置）分散分析
3つの母集団でAとBとCを　→　（多元配置）分散分析

なお、♂ひよこの運命は…😣

⑤クラスター分析

色々混ざった集団から仲間（クラスター）分けするだけ。
顧客の中から、性別、年齢、居住地、嗜好、収入などの性質を定量化して、クラスターに分けて分類する。
クラスター毎に効果的なDMを送付したり出来る。

⑥コンジョイント分析

こちらもマーケティングでよく使われる分析方法です。
マンション購入時に、「価格」「立地」「間取り」「駅近」「駐車場」など様々な項目を検討すると思います。工務店などマンションを売る側の立場からすると、どれを一番強化すれば最もよく売れるのかなどを解析します。

飲食店に行ったときに、うーん10点満点で何点？とかよくやりますよね。
味はいいけど、店員の態度が悪いから6点かな～とか
店の雰囲気も、値段も最高だけどいかんせん料理がまずすぎて2点…とかいうわけです。

そんな店あんまりないけど…

店側からすると★5評価に近づけるためには、店の雰囲気と社員教育も大事だけど、味を良くしないと話にならんわ…と統計的に明示されるわけですね。

⑦コレスポンデンス分析

こういうマトリックス的なやつです。略してコレポン！

f:id:sun1200:20210630122422p:plain

競合とのポジショニングの分析などによく使われます。
差別化戦略を取る際に有効。
様々なアンケート、ヒアリングの情報から各社の位置がどこに属するかを決定していきます。
「価格感」や「安心感」といった名称は、後付けで命名するやつですね。

⑧単回帰分析

統計ではよく出てきます。確かCVP分析の時に軽く触れたと思います。

色々なデータが与えられて、散布図をプロットした際に、それの動向を一本の直線式で表すイメージですね。
直線式は、Y=aX+bで表されます。
例えば、色んな人の年齢と年収のデータを集めて、そこから一番あてはまりそうな直線を導き出します。

f:id:sun1200:20210630145830p:plain
平均年収=10万×年齢＋150万円（適当）みたいな感じで数字化されます。
そうすると、例えば55歳の人がいます、この人の期待年収はいくらでしょうか？
ということが「予測」できるわけです。(答え700万円）

⑨重回帰分析

これは単回帰分析にさらに要素を加えただけの話です。
年収の話でいけば、関わる要素は「年齢」だけではなく、他に「性別」「勤務地」「業種」「所属企業規模」など色々と関係しているかもしれません。
それら複数の要素を式にすればいいわけです。
Y=aX1+bX2+cX3+dX4+e　などとなります。
要素がたくさんあれば重回帰と呼ばれるだけの話です。

なお重回帰か単回帰かどちらが良いかは、ケースバイケースです。
あんまり関係の無い項目を無駄に式に入れてもかえって不正確になりますし、相関のありそうな項目に絞ることが大事です。
また本当に、これって相関あるの？ってことがよくあります。
例えば出生数とコウノトリの生息数については正の相関があります。
やはりコウノトリが赤ちゃんを運んでいるかというとそんなことはありません。
実は、9か月前の天候が共通の要素だったりします。
つまりコウノトリを大量に飼育したところで人口が増えるわけではありません。
こういう見かけ上は相関しているが実は何の関係もなかったりすることを「疑似相関」といいます。
不要な要素を排除することや、疑似相関を見分ける能力などが回帰分析では必要となってくるのです。

⑩数量化分析

Ⅰ類～Ⅲ類までありますが、内容は簡単です。

■数量化Ⅰ類
相手強豪校、自分弱小校、アウェーでの戦い、練習不足といった情報から
ピコピコピコピコ(コンピューター音）チーン！
勝率 2% …　みたいな感じです。数値化してますね。

■数量化Ⅱ類
相手強豪校、自分弱小校、アウェーでの戦い、練習不足といった情報から
ピコピコピコピコ(コンピューター音）チーン！
勝敗予想【敗北】 みたいな感じです。言葉で結果を予測しています。

■数量化Ⅲ類
これはコレポン分析とほぼ同じだそうです。与えられた要素情報から要するにこれとこれとでしょと導く分析です。
色々な各企業イメージをヒアリングして、要は高級感と安心感の2軸のマトリックスに落とし込んで配置するコレポン分析と本質が同じですね。
主成分分析とも似ています。

はい、ここまでお疲れ様でした。

覚えるの大変じゃ。

全く知らない状態より、1～2回でも読んでおけばもしかしたら対応出来ることもあるかもしれません。甘いですかね？
最後に表にまとめておきますね。