Table of Contents
この記事ではエクセルで度数分布表の作成からヒストグラムの作成までを解説
今回はエクセルで度数分布表の作成からヒストグラムの作成までを紹介いたします。
この記事ではエクセルのアドインであるデータ分析ツールを使った方法を紹介します。
筆者も業務でたまにヒストグラムを作成することがあるわけですが、「入力範囲」にはどの数字を入れたら良いのか、度数分布表を作る際に「データ区間」はどの様に指定すれば良いのか、最初慣れないうちや、久々にヒストグラムを作成する際に混乱してしまうことがありますので備忘録も兼ねてまとめておきます。
ヒストグラムとは
ヒストグラムは連続したデータを区間で区切り、それぞれの区間での出現頻度をまとめたもの(度数分布表)をグラフにしたものです。
アウトプットとしては以下の様なイメージです。
以下は米国の代表的な株式指数であるS&P500の1957年から2020年までの各年の年末終値から各年の対前年増減率(%)を求め、度数分布表からヒストグラムを作成しています。
前年と比較して何%増減している年が多いのかを示しています。
S&P500の1957年から2020年までの各年の年末終値と各年の対前年増減率(%)
年 | 年末終値 | 対前年増減率(%) |
---|---|---|
1941 | 8.69 | |
1942 | 9.77 | |
1943 | 11.67 | |
1957 | 39.99 | -14.31 |
1958 | 55.21 | 38.06 |
1959 | 59.89 | 8.48 |
1960 | 58.11 | -2.97 |
1961 | 71.55 | 23.13 |
1962 | 63.1 | -11.81 |
1963 | 75.02 | 18.89 |
1964 | 84.75 | 12.97 |
1965 | 92.43 | 9.07 |
1966 | 80.33 | -13.09 |
1967 | 96.47 | 20.09 |
1968 | 103.86 | 7.66 |
1969 | 92.06 | -11.36 |
1970 | 92.15 | 0.1 |
1971 | 102.09 | 10.79 |
1972 | 118.05 | 15.63 |
1973 | 97.55 | -17.37 |
1974 | 68.56 | -29.72 |
1975 | 90.19 | 31.55 |
1976 | 107.46 | 19.15 |
1977 | 95.1 | -11.5 |
1978 | 96.73 | 1.71 |
1979 | 107.94 | 11.59 |
1980 | 135.75 | 25.77 |
1981 | 122.55 | -9.73 |
1982 | 140.64 | 14.76 |
1983 | 164.93 | 17.27 |
1984 | 167.24 | 1.4 |
1985 | 211.28 | 26.33 |
1986 | 242.17 | 14.62 |
1987 | 247.08 | 2.03 |
1988 | 277.72 | 12.4 |
1989 | 353.4 | 27.25 |
1990 | 330.22 | -6.56 |
1991 | 417.09 | 26.31 |
1992 | 435.71 | 4.46 |
1993 | 466.45 | 7.06 |
1994 | 459.27 | -1.54 |
1995 | 615.93 | 34.11 |
1996 | 740.74 | 20.26 |
1997 | 970.43 | 31.01 |
1998 | 1,229.23 | 26.67 |
1999 | 1,469.25 | 19.53 |
2000 | 1,320.28 | -10.14 |
2001 | 1,148.08 | -13.04 |
2002 | 879.82 | -23.37 |
2003 | 1,111.92 | 26.38 |
2004 | 1,211.92 | 8.99 |
2005 | 1,248.29 | 3 |
2006 | 1,418.30 | 13.62 |
2007 | 1,468.36 | 3.53 |
2008 | 903.25 | -38.49 |
2009 | 1,115.10 | 23.45 |
2010 | 1,257.64 | 12.78 |
2011 | 1,257.60 | 0 |
2012 | 1,426.19 | 13.41 |
2013 | 1,848.36 | 29.6 |
2014 | 2,058.90 | 11.39 |
2015 | 2,043.94 | -0.73 |
2016 | 2,249.26 | 10.05 |
2017 | 2,673.61 | 18.87 |
2018 | 2,506.85 | -6.24 |
2019 | 3,230.78 | 28.88 |
2020 | 3,756.07 | 16.26 |
度数分布表
データ区間(対前年増減率(%)) | 頻度 |
---|---|
-50 | 0 |
-40 | 0 |
-30 | 1 |
-20 | 2 |
-10 | 8 |
0 | 7 |
10 | 12 |
20 | 18 |
30 | 12 |
40 | 4 |
50 | 0 |
次の級 | 0 |
ヒストグラム
ヒストグラムのデータ区間について
例えばデータラベルを付けている対前年増減が20%の区間だった年は1957年から2020年までの間に18回あったという見方になります。
20%の区間を厳密に表現すると、上記の例では10%<対前年増減(%)<=20%の区間ということになります。
例えば、対前年増減が10.0%の年はこの範囲にカウントされず、10.1%の年はこの範囲にカウントされることになります。
よく過去1年、3年、5年等の平均利回りが示されたりしますが、長期で投資した場合、対前年比でプラスになる年があればマイナスになる年もあります。
長期で見た時には平均してプラスの利回りになりますが、マイナスになる年がどれ程の頻度で発生し得るのか等を確認することができます。
ヒストグラムと棒グラフの違い
ヒストグラムと棒グラフの違いに疑問を持つかもしれません。
Excel操作では同じ縦棒グラフを作成する要領でヒストグラムを作成することも可能です。
しかし、Excelでグラフを作成する上でもヒストグラムを作成する場合、 横軸の要素の間隔を詰めて表示します。
この理由は縦棒グラフでは横軸は独立した項目を示しますが、ヒストグラムの場合、横軸は連続量になります。
先程の例ですと、各年の対前年増減(%)の連続するデータ区間を横軸にとっています。
ヒストグラムは棒グラフと異なる性質のもので、データの散らばり方やまとまり方、中心位置はどこにあるのかという情報を視覚的に見やすくするものです。
ヒストグラムからわかることと注意点
ヒストグラムの結果の解釈にはいくつか注意が必要です。
ここからは一般的にヒストグラムを解釈する際の注意点について挙げます。
ばらつきの程度やばらつき方を確認
以下はNASDAQ総合指数の1971年から2020年までの各年の年末終値から各年の対前年増減率(%)をヒストグラムで示していますが、S&P500と比較して更にばらつきが大きそうであることが視覚的に確認できます。
しかし、グラフのデータからばらつきを判断すると見た目の印象に影響されやすいため「分散」や「標準偏差」などの指標も確認しましょう。
ヒストグラムの山(ピーク)が一つか複数か、山の形が左右対称かどうかも確認しましょう。
ヒストグラムの山が複数ある場合、異なる傾向のデータが混在している可能性があります。
異なる傾向のデータが混在していることが悪いと言っているわけではなく、その場合、原因を考えることで何かビジネスのヒントが見つかることもあります。
山の形が左右非対称の場合、データの平均値が真ん中にない可能性があります。
分かりやすい例だと以下は所得金額の階級別にみた世帯数になりますが、平均所得金額は所得が高い世帯に引っ張られ中央値よりも高い結果を示していますし、実態として一番世帯数が多いのは200-300万円の世帯であることが分かります。
平均値だけを見て結果を解釈するのと、ヒストグラムを作成してデータの全体像を把握するのとでは、結果に対する印象が随分と異なってくることがあります。
度数を確認
S&P500は歴史の長い指数ですが、できたばかりの指数でデータが少ない場合、わずかなデータの追加で印象が変わってしまう可能性があります。
度数にも注目をしてデータの件数が少ない場合、結果の解釈に注意を払う必要があります。
区切りの違いによる結果の変化
区間の区切り方の違いで印象はやや変わるかもしれません。
以下は先程のS&P500指数の各年の対前年増減率(%)を5%毎、10%毎の区間で区切ったヒストグラムの違いになります。
10%で区切った場合、山の中心は20%のリターンにあるように見えますが、もう少し細かい5%毎で区切ると、実際に頻度として一番多いのは10%<対前年増減(%)<=15%の区間であることが分かります。
外れ値が存在するか確認
上記の5%毎の区間で区切ったヒストグラムを見ると、他のデータとかけ離れた-35%の成績の年が1年ありました。
これはリーマンショックで歴史的な金融危機のあった年を示していました。
ビジネスでは全体傾向と外れた値にヒントが有ることが多く、外れ値の確認は重要な分析視点になります。
スポンサーリンク
Excelでヒストグラムを作成する前の下準備(「分析ツール」を追加)
Excelでヒストグラムを作成する前の下準備として「分析ツール」というアドインを追加設定(読み込み)する必要があります。
①Excelを起動し、「ファイル」を選択して、左側のメニューから「オプション」を選択します。
②「Excelのオプション」ダイアログボックスが表示されたら、左側のメニューから「アドイン」を選択します。
③アドインリストが表示されたら、「分析ツール」があることを確認します。
④「管理」のドロップダウンリストで「Excelアドイン」が選択されていることを確認して「設定」をクリックします。
⑤「アドイン」ダイアログボックスが表示されたら、「分析ツール」のチェックをオンにして「OK」をクリックします。
⑥Excelのリボンの「データ」タブを選択して、一番右の「分析」グループの中に「データ分析」という項目が追加されたことを確認します。
⑦「データ分析」をクリックして、「データ分析」ダイアログボックスが表示されることを確認します。
ヒストグラムの作成方法
Excelの分析ツールを使ったヒストグラムの作成方法について解説していきます。
冒頭で紹介したS&P500の1957年から2020年までの各年の対前年増減率(%)のヒストグラムを作成していきましょう。
度数分布表の作り方
①まず分析データを区切る区間を設定していきます。
既に少し触れましたが、例えばF2で区間として入力された-50は-50以下という区間を設定したことになります。
②「データ」タブの「分析」グループにある「データ分析」をクリックします。
③「データ分析」ダイアログボックスから「ヒストグラム」を選択して「OK」をクリックします。
④「ヒストグラム」ダイアログボックスが表示されたら、分析するデータ範囲を「入力範囲」に指定します。今回は「対前年増減率」別の出現頻度を求めますので、「入力範囲」には「対前年増減率」を指定します。
⑤先頭行の変数名を含めて選択をする場合、「ラベル」にチェックを入れます。(今回はチェックを入れていません)
⑥「データ区間」に①で設定した区間の数字をすべて指定します。⑤で「ラベル」にチェックを入れた場合、こちらも先頭行の変数名を含めた範囲を指定する必要があります。(今回はチェックを入れていません)
⑦「出力オプション」を指定します。先ずは結果の出力先を指定します。今回は同じワークシートのH1を指定していますが、新規ワークシートにチェックを入れる場合、違うワークシートに出力することも可能です。
⑧「出力オプション」の下の3つの項目(パレート図、累積度数分布の表示、グラフ作成)に対して、1つもチェックを入れないと、度数分布表のみが出力されます。今回はヒストグラムを作成するので、「グラフ作成」にチェックを入れます。
⑨「OK」をクリックして、結果を表示します。
ヒストグラムの作り方
ここまでで度数分布表が完成しましたので、作成した度数分布表を元にヒストグラムを作成します。
先程⑧の手順で 「グラフ作成」にチェックを入れていますので既に初期設定のグラフは作られていますが、⑧でチェックを入れ忘れた方も基本的には縦棒を作成する手順と同じになりますので、後から完成した度数分布表を元に縦棒グラフを追加してヒストグラムを作成することも可能です。
⑩ヒストグラムは各要素の間隔を詰めて表示します。データ系列を選択し、右クリックメニューから「データ系列の書式設定」をクリックします。
⑪「データ系列の書式設定」パネルが開いたら、「要素の間隔」のスライダーを「0%」までドラッグするか、「0」と入力します。
⑫ヒストグラムが完成しました。
いかがでしたでしょうか。
S&P500指数の各年の対前年増減(%)ではプラスになる年が多いですが、-10%になる年も1957年まで振り返ると7回も起こっているのですね。
この様な年も起こりうるということを前提に長期で投資を考える必要がありそうですね。
Excelを一度体系的に学ぶと生産性が効率的かつ飛躍的に向上する
筆者は日常業務でExcelを頻繁に使用するため、当ブログではその時々で必要とされがちだったスキルを発信しています。
皆さんも当ブログやその他のサイトでその都度、Excel関数やグラフの作り方を調べて、取り組まれてもいいのですが、Excelをしばしば使う機会がある方は一度体系的に学ばれることを強くおすすめします。
筆者の経験上、体系的にExcelを学んだ前後で、目に見えて業務の生産性が飛躍的に向上し、 スキルアップの費用対効果も高かったと振り返っています。
作業時間の大幅短縮だけではなく、関数などを駆使してシンプルに数値を変える箇所をまとめて最小限にすることによって、ミスもほとんどなくなりました。
体系的に学ぶ方法として、私が実際にやってよかったのはUdemyの動画講座とMOS試験の受験です。
Udemyの動画講座
Udemyは世界最大級のオンライン学習プラットフォームです。
筆者は、Udemyのエクセル兄さんの動画講座で学んでいました。
Excel関数からMOS試験対策、ExcelVBAまで幅広い講座を取り揃え、体系的に学ぶことができます。
非常に分かりやすくておすすめです。
>>エクセル兄さんのExcel講座はこちらUdemyの学習プラットフォームは受講期限はなく何度でも見返せる点がおすすめです。
スマホアプリで移動時間も学習可能です!
>>Udemyの無料登録はこちらサンプル動画を購入する前に確認することができます。
気になる講座はブックマークしておいて高頻度セールでの購入がおすすめです。
以下の記事ではセール情報を定期的に更新しています。
MOS試験
Microsoft Office Specialist(MOS)ExcelはExcelの利用能力を証明する世界的な資格です。
「スペシャリスト(一般)」と「エキスパート(上級)」がありまして、筆者は日常業務でエキスパートレベルの作業も頻繁に行いますのでその両方を取得しました。
せっかく体系的に学ぶなら、資格の取得というゴールがあったほうがモチベーションが上がるだろうということで、筆者は受験しましたが、仮に受験しなかったとしても、受験対策でExcelを体系的に学ぶことができますので、MOSの勉強をすることはおすすめです。
MOS試験対策でどのテキストを使うべきか悩まれる方も多いのではないかと思いますが、以下がおすすめです。
今回の内容が参考になれば幸いです。