- 分布と代表値両面の理解が肝心
- ヒストグラムで外れ値を見抜く
- 利用状況把握は視覚化が肝要
分布と代表値は何が違う?
データを加工する際は、単一の平均値だけに頼るのではなく、分布と代表値の両面から分析することが重要だと感じました。代表値としては、単純平均、加重平均、幾何平均、そして外れ値の影響を受けにくい中央値が挙げられ、それぞれの特徴を理解することで、より正確な評価ができると思います。
外れ値の存在はどう捉える?
また、データをヒストグラムなどで視覚化することで、全体の傾向だけでなく、一部の外れ値の存在も把握できる点に気づきました。利用金額などの分析において、平均値と中央値に違いが見られる場合、中央値が本来の代表値としてふさわしいケースがあることを再認識しました。
利用状況はどう確認できる?
さらに、セグメント設計の際に、たとえばアプリの起動日数ごとの利用状況をヒストグラムで確認する方法は、どの期間にユーザーが多く集まっているのかを明確に示しており、とても参考になりました。平均値のみの分析では捉えきれないリアルなユーザー行動が見えてくる点も、新たな発見でした。
グロービス式と呼びたくなる、強制力の強いアウトプットの機会・グループワークがあることでモチベーションを持続させ走り抜けた感覚です。
データ分析の基本をまなぶことで、普段聞いていて点だった単語や考え方が線で繋がりました。
ビジネスパーソンの教養として、挑戦してよかったです。