数値とグラフの違いは?
今週は、データ比較のアプローチとして、数値に集約する方法とグラフ化して視覚的に捉える方法の両面から学びました。数値に集約する際は、代表値として単純平均を用いることが多いですが、外れ値が混ざると平均値が影響を受けやすいため、その場合は標準偏差を活用してデータのバラつきを確認します。ヒストグラムを用いることで、グラフから傾向を読み取り、背景を推察する仮説思考の大切さも実感しました。
データばらつきの見方は?
標準偏差は分散の平方根であり、自然現象のバラつきが正規分布(釣鐘型)に従う場合、2SDルールで求めることができます。ただし、ピークが複数あるヒストグラムでは正規分布とならない点には注意が必要です。
成長率の計算は?
また、成長率などの変化を計算する場合は、各年度の成長率を掛け合わせた数値のn乗根で算出される幾何平均を用います。複数のデータの平均を求める際、外れ値の影響がある場合は単純平均ではなく中央値を用いる方法も取り入れています。
散布図の意義は?
要素が2つの場合、散布図を用いて数値の関係性を視覚化し、相関係数によりその関係を数値化します。相関関係を直線で表現するために単回帰分析を適用し、相関係数はR、決定係数はR²として示されます。決定係数は、散らばりの何%が横軸の要因で説明できるかを示しますが、相関が必ずしも因果関係を意味しないことを改めて認識しました。
フェルミ推定を使う?
さらに、データ収集の前に成果をもたらす要因を構造化するため、フェルミ推定を活用して方程式を作るモデル化にも取り組みました。フェルミ推定は、売上を上げる施策の検討にも用いられ、多角的に捉えてアクションに結びつける手法として有用だと感じました。たとえば、薬局の売上伸長を検討する際に売上を分解し、複数の施策を検討することで、利益の方程式と組み合わせてより分かりやすい説明が可能になると感じています。
相関と因果の違いは?
また、気温とビールの相関性の事例を通して、これまで取り入れてこなかった相関性の視点を業務に役立てたいと考えました。具体的には、患者の平均待ち時間と減少率、在庫品目数と医薬品廃棄率、管理者への研修時間と理解度テストの結果など、さまざまな原因と結果の関係を散布図にして検証することで、業務改善につなげる手法を学びました。なお、常に相関と因果は一致しない点を念頭に置いて取り扱う必要があります。
適切なグラフ選びは?
最後に、これまでなんとなく選んでいた棒グラフや折れ線グラフに代えて、根拠を持って適切なグラフや散布図を選択する重要性を再認識しました。売上アップのための各施策を列挙し、売上と施策の関係を散布図で表すとともに、グラフの縦軸のメモリを工夫して読みやすさを追求します。その上で、相関係数や決定係数を算出し、どの施策が最も効果的だったかを分析し、上司や部下、部内と情報を共有していきたいと考えています。