Contents
【R7】 統計の概念とマーケットのリターン
(Statical Concepts and Market Returns)
母集団(Population)と標本(Sample)
この単元を学ぶ上では、先ず、母集団(Population)と標本(Sample)の違いを確りと理解しておくことが重要です。
先ず、母集団(Population)とは、対象とするものの集団全体を指します。
例えば、金融分野で「日本株のリターン」を対象として分析を行う場合、母集団(Population)は全ての日本株が対象となります。
ただ、現実的にはこれらデータを全て集めるのは難しいので、母集団からいくつかの要素を選び出して、分析を行うことになります。この選び出された要素のことを標本(Sample)と表現します。例えば、母集団(Population)から単純無作為に選びだされた100銘柄のリターンがそれに該当します。
記述統計(Descriptive Statistics)と推測統計(Inferential Statistics)
もう一つ重要な概念として、記述統計(Descriptive Statistics)と推測統計(Inferential Statistics)の区別があります。
記述統計(Descriptive Statistics):集団としての特徴を記述するため、各個体について分析して得られたデータを整理要約する方法論
データが得られた場合、そのデータ全体としての特徴を眺めたい場合があります。例えば株式のリターンや、複数社の財務指標などのデータを得たとすれば、その平均やばらつきについて、数値的な要約を行いたい場合が多くあります。そうしたデータ全体の特徴を記述する統計を記述統計(Descriptive Statistics)といいます。
推測統計(Inferential Statistics):標本を分析し、そこで得られたデータから、まだ手に入れていないデータについて推測する方法論
記述統計では得られたデータ(標本)から特徴を導きました。統計学では、そうした手元にあるデータ以外ではどうなるのかを推測することもできます。より大きな一般的なデータ(母集団)がどうなっているのかを推測し、リターンの分析やリスクについて分析を行うことができるわけです。こうした推測を行う方法論を推測統計(Inferential Statistics)といいます。
尺度(Measurement Scale)について
世の中で得られるデータには様々な種類があります。分析を行う際には、それらのデータを分析する必要がありますが、データはある尺度に基づいて測られています。それらの尺度について説明しておきます。
- 名義尺度(Nominal scale):ある個体が他の個体と異なるか同一かという判断のみの基準
例:1.吉野家 2.松屋 3.なか卯 4.すき屋
ここではそれぞれの数字に意味はなく、他のチェーン店と識別するためだけに数字が割り当てられています。
- 順序尺度(Ordinal scale):ある個体が他の個体より“大きい”、“良い”、“多い”と言える判断の基準
例:1位,2位,3位,4位
ここでは、数値は小さいほど結果が優秀であるという意味を持っており、その意味とは数字の順番にあります。そのため、こうした尺度を順序尺度としています。
- 間隔尺度(Interval scale):ある個体が他よりもある単位によって~だけ多い(少ない)と言える判断の基準
例:温度,湿度etc
温度や湿度はどこの目盛でも等間隔であり、昨日よりも4度高い(低い)という判断を行うことができます。こうした尺度を間隔尺度としています。
- 比率尺度(Ratio scale):ある個体が他よりもある単位によって~倍だけ多い(少ない)といえる判断の基準
例:重さ,長さ
体重や身長などは”0”という数字が何もないことを意味します。0kg,0cmそして、測定された値同士で~倍だけ多い(少ない)という比率での比較ができます。こうした尺度を比率尺度としています。
以下はhttps://mathwords.net/syakudoの表の引用です。
尺度の概念についてうまくまとめてくださっているため、参照してください。
例 | 大小比較 | 差 | 比 | |
名義尺度 | 電話番号 | ✕ | ✕ | ✕ |
順序尺度 | 震度 | 〇 | ✕ | ✕ |
間隔尺度 | 温度 | 〇 | 〇 | ✕ |
比率尺度 | 長さ | 〇 | 〇 | 〇 |
度数分布(Frequency Distributions)
例えば、記述統計(Descriptive Statistics)の手法を用いて100人の学生の得点データを要約してみます。
階級
(Marks interval) |
絶対度数
(Absolute frequency) |
相対度数
(Relative frequency) |
累積相対度数
(Cumulative Relative frequency) |
0-25 | 10 | 10% | 10% |
26-50 | 30 | 30% | 40% |
51-75 | 40 | 40% | 80% |
76-100 | 20 | 20% | 100% |
表に出てきた各用語について説明します。
- 相対度数(Relative Frequency):データの全体を100%としたとき、各階級に属する観測値の個数の全体中での割合
この表中では、0-25点階級に、10の度数(観測値)が観測されていることを確認できます。度数(観測値)全体は100個あるので、全体に占める0-25階級の度数、つまり相対度数は10%ということができます。
- 累積相対度数(Cumulative Relative frequency):上記の相対度数を下の階級から順に積み上げたときの累積和のことを指します。
この表中では、51-75点階級の累積相対度数が80%となっていますが、この意味は75点以下の度数が80%であることを意味しています。
平均(Mean)・中央値(Median)・最頻値(Mode)
- 平均(Mean):平均とは、観測値の和を観測値の総数(データの大きさ)で割った値です。
例題
過去のリターンが10%、-5%、20%の株式の算術平均を求めよ。
注:ここで算術平均という見慣れない言葉が登場していますが、一般的に用いられている平均と同じ考え方です。ここで算術平均としているのは、後ほど算術平均と異なる平均について述べるためです。
解答
$$8.33\% = \frac{(10 – 5 + 20)}{3}$$
- 中央値(Median):中央値とは、観測値を小さいものから順番に並び替えたときの中央の値を指します。
例題
以下のデータセットの中央値を計算せよ。
A)1,2,3,4,5
B)1,2,3,4,5,6
解答
$$A)Median = 3$$
$$B)Median = \frac{(3+4)}{2}$$
注:Bのケースでは、データが偶数個あります。そのためデータの真ん中の値を二つ取り、その平均を中央値としています。
- 最頻値(Mode):データセットで観測される回数が最も多いデータのことを指します。度数分布表では、その度数が最大である階級の階級値が最頻値となります。
例題
以下のデータセットの最頻値を計算せよ。
1,2,3,4,4,4,5,5
解答
$$mode = 4$$
様々な平均の概念
- 幾何平均(Geometric Mean):平均成長率の計算に用います。他にも売上比率やリターンの計算にも用いられることがありますが、共通しているのは「掛け合わせることに意味がある数字」であることです。特に過去数年間にわたるポートフォリオのパフォーマンスを計測する際に用いられます。
幾何平均の公式:$$R_G={(1+R_1)(1+R_2)(1+R_3)……(1+R_n)}^\frac{1}{n}-1$$
例題
過去のリターンが5%、-5%、20%の株式の幾何平均を求めよ。
解答
$$6.17\%={(1.05)(0.95)(1.20)}^\frac{1}{3}-1$$
- 加重平均(Weighted Mean):平均を算出する上では、各観測値の重要度や全体に占める割合を反映したい場合があります。その際に加重平均の計算を行います。
加重平均の公式:$$\bar{X_w}=\sum_{i=1}^{n}w_iX_i$$
例題
ある投資家のポートフォリオでは、銘柄Aに20%、銘柄Bに30%、銘柄Cに50%投資している。
銘柄Aのリターンが4%、銘柄Bが7%で銘柄Cが8%であった場合、ポートフォリオのリターンを計算せよ。
解答
$$6.9\% = (0.2)(4)+(0.3)(7)+(0.5)(8)$$
- 調和平均(Harmonic Mean):一定期間の継続的な投資の平均購入価格を求めるのに用いる平均概念です。身近な例では、「行きは時速4kmで帰りが時速6kmで歩いた場合に平均時速は何kmですか」というような往復の平均時速を算出するのに用いられます。
調和平均の公式:$$X_H=\frac{n}{\sum_{n}^{i=1}(\frac{1}{X_i})}$$
例題
ある投資家が銘柄Aの株を$1000分を、過去3か月でそれぞれ$5,$6,$7で購入しました。平均購入価格を計算せよ。
解答
$$5.88 = \frac{3}{(1/5+1/6+1/7)}$$
四分位(Quartiles)、五分位(Quintiles)、十分位(Deciles)百分位(Percentiles)
分位というのは、データを小さい方から並び替え、データの個数を等分した際の区切り点を指します。四分位店であればデータの個数を四等分した際の区切り点を、十分位であればデータの個数を十等分した際の区切り点を指します。
分位店を計算する公式:$$L_y=\frac{(n+1)y}{100}$$
$$n:データ数$$
$$y:パーセンタイル$$
例題
以下のデータセットからなる分布の第一四分点(25%点)を計算せよ。
3%,4%,6%,9%,11%,12%,14%
解答
第一四分位店は“2”番目のデータ(4%) = (7+1)25/100
つまり、左から二番目のデータ以下が25%になっているといえる。
データの散らばりの指標
- レンジ(Range):データセットの最大値と最小値の間隔
レンジの公式:$$Range = Max Value – Min Value$$
例題
ポートフォリオマネージャーの毎期リターンが4%,2%,6%,8%である。レンジを計算せよ。
解答
$$6\% = 8\% – 2\%$$
- 平均絶対偏差(Mean Absolute Deviation):平均からの偏差(絶対値)の平均値
これは統計学の中でも重要な分散につながる概念ですので、しっかり理解しておく必要があります。
それぞれの観測値が、平均からどれくらい離れているかを足しあげてからデータの個数で割ったものです。
値がそのままだとマイナスの値とプラスの値が相殺されて0になってしまうため、絶対値をつけて計算します。
MADの公式:$$MAD=\frac{[\sum_{i=1}^{n}|x_i-\bar{x}|]}{n}$$
例題
ポートフォリオマネージャーの毎期リターンが4%,2%,6%,8%である。MADを計算せよ。
解答
$$平均:5=\frac{4+2+6+8}{4}$$
$$MAD:2=\frac{|4-5|+|2-5|+|6-5|+|8-5|}{4}$$
- 分散(Variance)と標準偏差(Standard deviation):これらは、データがどれほど散らばっているかについての重要な指標となるので良く理解しておくことが重要です。
母集団のデータのばらつきを示すのが母分散です。
母分散:$$\sigma^2=\sum_{i=0}^{N}(x_i-\mu)^2/N$$
一方で、観測された標本データのばらつきを示すのが標本分散です。
標本分散:$$s^2=\sum_{i=0}^{N}(x_i-\bar{x})^2/(n-1)$$
ここで分散が2乗の形であらわされていることに注目してください。この分散の平方根をとったものが
標準偏差としてあらわされます。
標準偏差:$$s=\sqrt{\sum_{i=0}^{N}(x_i-\bar{x})^2/(n-1)}$$
分散に関わる統計学の概念
- チェビシェフの不等式(Chebyshev’s Inequality)
先ほど見てきたように、標本分布では、平均の周りにデータが分布しています。そうした分布と標準偏差との間に成り立つ関係がチェビシェフの不等式であらわされています。
チェビシェフの不等式:$$1-\frac{1}{k^2}\ for\ all\ k>1$$
k=2としてみると、この式は、「2標準偏差以上離れた値は全体の1/4を超えることはない」ということを表しています。kが2よりも大きい場合にも共通してこの関係性は言えるため、チェビシェフの不等式という形で定式化されています。
- 変動係数(Coefficient of Variation):標準偏差を平均値で割った値のことを指します。リターンあたりのリスクを算出する際に用いられます。ここでのリスクとは、データのばらつきのことを指しています。
変動係数の式:$$CV =\frac{\sigma}{\bar{x}}$$
例題
以下のポートフォリオの変動係数を計算し、結果を解釈せよ。
平均リターン | 標準偏差 | |
ポートフォリオA | 10% | 9% |
ポートフォリオB | 6% | 4% |
ポートフォリオC | 9% | 2% |
解答
$$CV(A)0.9 = 9/10$$
$$CV(B)0.66 = 4/6$$
$$CV(C)0.22 = 2/9$$
ポートフォリオCが最もリターンあたりのリスクが小さいため、魅力的な投資と言える。
- シャープレシオ(Sharpe ratio):シャープレシオは、リスクあたりの超過リターンを計測する指標です。投資のリスクの大きさと比較してどれだけのリターンが得られるかという運用効率の高さを指します。
シャープレシオの式:$$S_p=\frac{\bar{R_p}-\bar{R_F}}{s_p}$$
$$\bar{R_p}:リターン$$
$$\bar{R_F}:リスクフリーレート$$
$$s_p:ポートフォリオの標準偏差$$
例題
平均リターンが8%、標準偏差が10%のポートフォリオのシャープレシオを計算せよ。なおリスクフリーレートは3%とする。
解答
$$0.5 = (8 – 3)/10$$
- 尖度(Kurtosis):正規分布よりも尖っているか、丸まっているかを測る指標を指す。
尖度が正(3より大きい)である(Leptokurtic)
尖度が負(3より小さい)である(Platykurtic)
尖度が3である(Mesokurtic)=正規分布と同様の尖度を示す
【R8】 確率の概念
(Probability Concepts)
確率(Probability)の特徴
事象(Events)の確率は0から1までを取ります。
互いに排反な事象の合計は1となります。
例えば、株価の上昇や下落などは同時に生じないために「排反」とみなすことができます
確率をどうやって推定するかについては以下の方法があります。
- 経験的確率(Empirical probability):過去の事象が起きた頻度の分析に基づいた確率
- 事前確率(A priori probability):事象が起きる前の合理的な推論や検証に基づいた確率
- 主観確率(Subjective probability):個人的な主観に基づいた確率
オッズ(odds)について
ギャンブルなどで「オッズ」という言葉を聞いたことがあるかと思います。そのオッズの計算方法です。
P(E)を成功する確率とみなした場合、オッズ(成功確率)は以下の式で表されます。
オッズ:$$Odds = \frac{P(E)}{[1-P(E)]}$$
P(E)を成功する確率とみなした場合、1-P(E)は失敗する確率としてみなされています。
失敗する確率を分子にとったものは、Odds againstとして定義することができます。
逆オッズ:$$Odds against= \frac{[1-P(E)]}{P(E)}$$
確率の規則(その1)
- 条件なし確率(Unconditional probability)
他の事象が起きたかどうかに影響しない確率を指しています。この確率は$$P(A)$$と表現されます。
例えば、一つのサイコロを振る際に、1が出る確率はそれ以前に出た目には影響を受けません。
- 条件付確率(Conditional Probability)
他の事象によって影響を受ける確率を指しています。Bという事象が起きたという条件のもとでAという事象が起きる確率のことを指しており、この確率は$$P(A|B)$$と表現されます。
例えば、経済環境の改善という条件のもとでは株価が上向きに転じる確率は影響を受けます。
- 乗法定理(Multiplication Rule)二つの事象が同時に起こる確率のことを指します。上記の条件付確率より次のように表現できます。
乗法定理:$$P(AB)=P(A|B)P(B)$$
つまり、(B事象が生じた場合にA事象が起きる確率)*(B事象が起きた確率)によって、A事象とB事象の両方の事象が生じる確率が導出されます。
例えば、
経済環境の改善が60%の確率で生じるとし:$$P(E)=0.6$$
経済環境のもとで株価が上向きになる確率を40%とすると:$$P(S|E)=0.4$$
これらが同時に生じる確率は
$$P(AB)=P(A|B)P(B)$$より、
$$(0.24)=(0.6)(0.4)$$
と計算できます。
- 加法定理(Addition Rule)
少なくとも1つの事象が起きる確率のことを指します。
加法定理:$$P(A\ or\ B)=P(A)+P(B)-P(AB)$$
例えば
A銘柄株価が上がる確率を40%:$$P(A)=0.4$$
B銘柄株価が上がる確率を50%:$$P(B)=0.5$$
両方の株価が上がる確率を:$$P(AB)=0.2$$
とすると、
少なくとも一方が生じる確率は
$$P(A\ or\ B)=P(A)+P(B)-P(AB)$$より、
$$(0.7)=(0.4)+(0.5)-(0.2)$$
と計算できます。
確率の規則(その2)
- 全確率の公式(Total probability Rule)
条件付確率から条件なし確率を計算する際にこの公式を用います。
全確率:$$P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+…+P(A|B_n)P(B_n)$$
例えば、以下の情報が与えられているとします。
①経済が平均以上に成長する確率:$$P(B_1)=0.4$$
②経済が平均的に成長する確率:$$P(B_2)=0.5$$
③経済が平均以下で成長する確率:$$P(B_3)=0.1$$
①の状況下で株価が上昇する確率:$$P(A|B_1)=0.9$$
②の状況下で株価が上昇する確率:$$P(A|B_2)=0.6$$
③の状況下で株価が上昇する確率:$$P(A|B_3)=0.1$$
この時、株価が上昇する確率P(A)は$$P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+…+P(A|B_n)P(B_n)$$より、
$$(0.67)=(0.9)(0.4)+(0.6)(0.5)+(0.1)(0.1)$$
と計算できます。
- 独立事象(Independent events):他の事象に影響しない事象を指します。
$$P(A|B)=P(A)$$
この式では、B事象という条件はA事象に影響を与えていません。そのためA事象とB事象は独立と言えます。
- 非独立事象(Dependent events):他の事象に影響する事象を指します。
$$P(Stock\ Price\ Rising|Above\ Economic\ Growth)>P(Stock\ Price \ Rising)$$
この式では、株価の上昇という単独事象よりも、
経済の急成長事象下での株価の上昇という事象の方が確率として高くなっています。
そのため、A事象とB事象は非独立と言えます。
上記の条件なし確率や条件付確率と混同しやすいのですが、独立/非独立事象は「事象(events)」に関わる定義であり、条件なし/条件付確率は「確率(probability)」に関わる定義であることに注意してください。
樹形図について
例題
40%の確率で経済状況が良好になった場合
ある銘柄の株価は75%で$100に,25%で$90になる。
一方で、60%の確率で経済状況が悪化した場合
ある銘柄の株価は50%で$80に,50%で$70になる。
この銘柄の株価の期待値を求めよ。

解答
樹形図を描き、期待値を求めます。
84=(0.4)(0.75)(100)+(0.4)(0.25)(90)+(0.6)(0.5)(80)+(0.6)(0.5)(70)
共分散(Covariance)について
共分散とは、2つの変数が互いにどのような関係にあるかを指します。
共分散:$$Cov(X,Y)=E[{X-E(X)}{Y-E(Y)}]$$
例題
下記の表より、銘柄A,B2つの株価の共分散を求めましょう。
シナリオ | 確率 | Aの期待リターン | Bの期待リターン |
景気後退 | 0.2 | 1% | 3% |
景気拡大 | 0.8 | 8% | 6% |
解答
Aの期待リターン:$$(0.2)(1)+(0.8)(8) = 6.6\%$$
Bの期待リターン:$$(0.2)(3)+(0.8)(6) = 5.4\%$$
共分散は$$Cov(X,Y)=E[{X-E(X)}{Y-E(Y)}]$$より
$$1=(0.2)(1-6.6)(3-5.4)+(0.8)(8-6.6)(6-5.4)$$
相関係数(Correlation)について
相関係数とは、共分散を標準化したものを指します。
相関係数:$$Corr(X,Y)=Cov(X,Y)/\sigma(X)\sigma(Y)$$
例題
上の例題より、銘柄AとBの共分散は3.36とわかりました。銘柄Aの標準偏差は2.8とし、銘柄Bの標準偏差を1.2とし、相関係数を計算してみましょう。
解答
$$Corr(X,Y)=Cov(X,Y)/\sigma(X)\sigma(Y)$$より、
$$?= \frac{(3.36)}{(2.8)(1.2)}$$
相関係数の値はその定義より、-1~+1までの範囲で動きます。
- +1:2つの変数は完全に正の関係にあります。
- -1 :2つの変数は完全に負の関係にあります。
2つの変数の関係を考えるうえではこの-1~+1の範囲に収まることがわかりますね。共分散だと、2つの変数の関係を見るうえで少しわかりにくい数字が出てきてしまうので、-1~+1というわかりやすい値をとる相関係数が一般に利用されています。
確率変数の期待値(Expected variable)について
期待値の公式は以下の通りです。
$$E(X)=X_1P(X_1)+X_2P(X_2)+…+X_nP(X_n)$$
例題
経済の状況により、1株当たりが以下のように変化します。
経済状況 | 確率 | 一株当たり利益 |
良好 | 0.4 | $9 |
平均 | 0.5 | $6 |
弱小 | 0.1 | $1 |
解答
$$E(X)=X_1P(X_1)+X_2P(X_2)+…+X_nP(X_n)$$より、
$$6.7=(9)(0.4)+(6)(0.5)+(1)(0.1)$$
ポーフォリオリターンと分散
ポートフォリオの期待値と分散の公式は以下の通りです。
期待値:$$E(R_p)=w_1E(R_1)+w_2E(R_2)$$
分散:$$\sigma^2(R_p)=w_1^2\sigma_1^2(R_1)+w_2^2\sigma_2^2(R_2)+2w_1w_2(R_1)\rho(R_1,R_2)\sigma(R_1)\sigma(R_2)$$
例題
70%株式、30%債券からなるポートフォリオにおいて、
株式期待リターンは10%
債券期待リターンは5%である。
株式リターンの標準偏差は0.3
債券リターンの標準偏差は0.1である。
株式と債券の相関係数は0.2であるとき、
このポートフォリオの期待リターンと分散を求めましょう。
解答
期待リターンは$$E(R_p)=w_1E(R_1)+w_2E(R_2)$$より、
$$8.5\%=(0.7)(10)+(0.3)(5)$$
分散は$$\sigma^2(R_p)=w_1^2\sigma_1^2(R_1)+w_2^2\sigma_2^2(R_2)+2w_1w_2(R_1)\rho(R_1,R_2)\sigma(R_1)\sigma(R_2)$$より、
$$約4.752\%=(0.7^2)(0.3^2)+(0.3^2)(0.1^2)+2(0.7)(0.3)(0.2)(0.3)(0.1)$$
ベイズの定理(Baye’s Formula)
ベイズの定理は以下の通りです。
$$P(Event|Information)\frac{P(Information|Event)}{P(Information)}P(Event)$$
例題
景気拡大の確率を0.6とし、景気後退の確率を0.4とする
景気拡大となれば、株価が値上がりする確率は0.8となる。
景気後退になれば、株価が値上がりする確率は0.3となる。
株価が値上がりした時、景気後退にある確率を計算しましょう。
解答
$$0.3=\frac{(0.3)}{(0.3)(0.4)+(0.8)(0.6)}(0.4)$$
分子には、景気後退という条件のもとで、株価が値上がりする確率を置きます。
分母には、そもそも株価が上がる状況になる確率を置きます。
そしてそれらに対して、景気後退が起きているという事象の確率(0.4)を置くと
株価が値上がりした際に景気後退にある確率を導出できます。
【R9】 確率分布の共通項目
(Common Probability Distributions)
確率の基礎事項
- 確率変数(Random variable)
生じうる事象に割り当てている実数をとる変数を指します。
- 確率分布(Probability distribution)
確率変数がとる各々の値と、その値をとる確率の対応の様子を指します。
初学者はこれらの概念についてイメージしにくいと思われます。
以下ではこれらの概念についてサイコロの例を用いて説明します。
X=x : 確率変数 | p(x) = P(X=x) : 確率分布 | F(x)=P(X≦x) : 累積分布関数 |
1 | 1/6 | 1/6 |
2 | 1/6 | 2/6 |
3 | 1/6 | 3/6 |
4 | 1/6 | 4/6 |
5 | 1/6 | 5/6 |
6 | 1/6 | 6/6 |
一般的なサイコロの各目には1~6が割り当てられており、それぞれは確率的に変動します。これが確率変数と表現されている理由です。
また、それぞれが出る確率は1/6となっています。これは表を参照していただけるとわかりやすいのですが、確率変数に確率が対応しています。
それぞれの確率変数に対して確率が対応している(分布している)ので、確率分布と表現されます。
- 累積分布関数(Cumulative distribution function)
ある確率変数以下の目がでる確率として表現されています。
サイコロの例では、1以下の目、2以下の目、3以下の目…というように、ある確率変数以下をとる確率のことを指しています。この考え方はサイコロのようなとびとびの値を取る(離散)場合はあまりピンと来ないかもしれませんが、正規分布から確率導くときに重要になってくるので、ぜひ覚えておいてください。
- 離散確率変数(Discrete random variable)と連続確率変数(Continuous random variable)
離散確率変数とは、とびとびの値をとるような確率変数のことを指します。サイコロは1~6まで、とびとびの値しかとりません。こうした確率変数が離散確率変数に該当します。
連続確率変数とは、離散のようにとびとびではなく、連続な値をとる確率変数です。身長や体重などは連続確率変数といえ、例えば182.278127681356…cmといくらでも細かくとることができます。これは、「すべての実数値」をとりうるとも表現できます。
離散一様分布(Discrete uniform random variable)
離散確率変数がとる値の確率がすべての場合で等しい確率分布は、離散一様確率分布と表現します。
X=x : 確率変数 | p(x) = P(X=x) : 確率関数 |
1 | 1/6 |
2 | 1/6 |
3 | 1/6 |
4 | 1/6 |
5 | 1/6 |
6 | 1/6 |
上記のサイコロの確率分布をグラフにすると次のようになります。
確率がそれぞれ一様に分布していることから、離散一様分布と表現されています。
離散一様分布図

二項分布
ベルヌーイ試行をn回行ったときの成功回数の分布を二項分布と呼びます。
ベルヌーイ試行とは、
- 結果が「成功か失敗か」のいずれかである
- 各試行が独立である
- 成功する確率がpで、失敗する確率が(1-p)である
ような試行を指します。
例えば、コイントスのような試行です。
二項分布とは、そうしたベルヌーイ試行をn回、つまり何度も行い、成功する回数をプロットした際にでてくる分布のことを指します。
二項分布について詳しくはhttps://bellcurve.jp/statistics/course/6979.htmlに記述されています。
連続一様分布(Continuous Uniform Distribution)
先ほどの離散一様分布が連続になった場合、グラフは以下のようになります。

図では、a~bのすべての区間に一様に確率が分布しているのが分かると思います。
わかりにくい方は、さきほどのサイコロの確率分布での青い棒がとても細くなったと考えてみると連続の考え方も一緒に理解できるかもしれません。
では、連続確率変数がある値をとる確率はどのように計算できるでしょうか?
連続確率変数の計算式
$$P(x_1\leq X \leq x_2)=\frac{x_2-x_1}{b-a}$$
例題
Xが10から20まで連続一様分布する確率変数とする。12から18の間をとる確率を計算せよ。
解答
$$P(12\leq X \leq 18)=\frac{18-12}{20-10}=0.6$$
正規分布(Normal Distribution)
重要な特徴
・平均(µ)と分散(σ)という特徴さえわかれば分布の形が決定します。
・歪度は0(左右対称)であり、尖度は3です。
・複数の確率変数の線形結合は正規分布します。
信頼区間
母集団が正規分布していると仮定した場合、次の特徴が言えます。
- 観察データの90%はµ±1.65sに含まれています
- 95%はµ±1.96sに、99%はµ±2.58sに含まれています
これは、平均から標準偏差何個分で、どれくらいのデータが含まれているかということを表しています。
例題
ある銘柄の平均リターンが10%で標準偏差が2%とする。来年度の株式リターンの95%信頼区間を求めよ。
解答
$$10-1.96*2\leq x \leq 10 + 1.96 *2$$
確率変数Xの標準化(Standardizing)
株式のリターンなどを比較する際には、その平均や標準偏差から、同じ条件で比較したいという発想になります。そこで役に立つのが標準化というプロセスです。これは今後の仮説検定などでも非常に重要になってくるので、しっかり覚えておいてください。理解しにくいと感じられた方は、お手元の統計の教科書などでしっかり理解しておいてください。
まず、データの値Xから平均µを引きます。そして標準偏差で除することによって、データの値が平均からどれだけ外れたところにいるのかが確認できるようになります。
確率変数Xを標準化する式:
$$Z=\frac{X-\mu}{\sigma}$$
例題
ある銘柄の平均リターンが10%であり、標準偏差が2%とする。リターンが11%を下回る確率を求めよ。
解答
$$0.5=\frac{11-10}{2}$$
となる。
標準正規分布表を用いると、対応するのは0.6915ということがわかる。
リスク測定(Risk Measures)
・ショートフォールリスク
ポートフォリオのリターンが最低リターン水準を下回るリスクのことを指します。
Safety first ratio(Roy’s Safety-First Criterion)は、目標リターンを下回るリスクを最小化する、最適なポートフォリオを選ぶ基準として用いられます。
Safety first ratio(Roy’s Safety-First Criterion)の式:
$$SF_{ratio}=\frac{E(R_p)-R_r}{\sigma_F}$$
例題
投資家がA,Bのポートフォリオを検討している。
ポートフォリオAは期待リターンが10%であり、標準偏差が2%となっている。
ポートフォリオBは期待リターンが15%であり、標準偏差が10%となっている。
投資家が最低限求めるリターンが8%である。
Safety first ratio(Roy’s Safety-First Criterion)に基づくと、どちらのポートフォリオを選択すべきか。
解答
$$SF_A=\frac{10-8}{2}=1$$
$$SF_B=\frac{15-8}{10}=0.7$$
Aの方がより高いsafety first ratioなので、投資家はAを選択する
対数正規分布(Lognormal Distribution)について
確率変数の対数をとった値が正規分布するような統計分布を指します。
対数正規分布の特徴としては、
- xの値が負の値をとらない
- xの値は無限大までとりうる
- 右に歪んだ分布になっている
対数正規分布はしばしば資産価格のモデリングに用いられます。
こちらのサイトが分かりやすく対数正規分布を解説してくださっています。
離散複利(Discrete compounding)と連続複利(Continuous Compounding)
- 離散複利
離散複利では、複利の期間が4半期や月次などで定義されています。
- 連続複利
離散複利では、複利回数が多ければ多いほど、最終的な元利合計額が大きくなりますが、その値はある一定の元利合計額に収束していきます。
複利回数を多くしていくということは、連続的に複利計算をしていくということであり、この時の複利計算を連続複利と表現します。
連続複利の式
$$r=\ln(Holding Period Return+1)$$
例題
Holding Period Return(所有期間利回り)が1年で10%の株がある。連続複利に直すといくらになるか計算せよ
解答
$$r=\ln(0.1+1)=0.0953=9.53%$$
つまり、連続複利が9.53%である場合と1年で10%利回りの場合のリターンは同じとなる。
【R10】標本と推定(Sampling and Estimation)
抽出にまつわるあれこれ
- 無作為抽出(Simple random sampling)について
母集団中のどの標本も、等しく選ばれる可能性がある状況で標本を選ぶことを無作為抽出と表現します。これは推測統計において、正確に母集団の特徴をつかむのに必要な条件です。
例えばAさんがサンプルをとる状況を考えてみましょう。全国の大学生の教育レベルを測るために、Aさんが属する大学の学生のテストスコアのみをデータとしてとったとします。この状況ではデータは「Aさんが属する大学」に限られており、ここから全国の大学生のテストスコア分布を推測するのは至難の業です。
それよりも、全国の大学生を無作為に選び、テストスコアについての調査を行うほうが母集団の分布を特定しやすいことは直感的におわかりいただけると思います。
- 層別無作為抽出(Stratified random sample)
上記、全国の大学生の教育レベルを測る例を用いて引き続き説明していきます。
調査において、例えば各地方の大学のスコアの様子を調べたい状況になったと仮定します。
そうした状況で、母集団をいくつかの層に分け、その分けられた各々の集団から無作為抽出を行う方法が層別無作為抽出です。
先ほどの例を用いると、全国ではなく、各地方の母集団を推測したいときなどにこうした層別無作為抽出の方法が用いられます。
- 標本誤差(Sampling error)
抽出された標本統計量には概して、母集団のパラメータと誤差があると考えるのが自然です。この誤差を標本誤差と表現します。例えば、平均の標本誤差は\(\bar{x}-\mu\)で表されます。
時系列データとクロスセクションデータ
- 時系列データ(Time Series data)
一定の時間間隔で観察された、一つの主体のデータを時系列データと呼称します。
- 横断面データ(Cross-sectional data)
ある時点における複数の主体のデータを横断面データ、またはクロスセクションデータと呼称します。
これらは以下の図例で認識いただけるとわかりやすいかと思います。
アンダーラインが引かれているのが時系列データであり、Bold体で示されているのが横断面データです。
売り上げ成績 |
||||
2016年 | 2017年 | 2018年 | 2019年 | |
A | 435 | 460 | 475 | 490 |
B | 320 | 345 | 375 | 395 |
C | 405 | 390 | 410 | 395 |
D | 260 | 270 | 285 | 280 |
中心極限定理と標本平均の標準誤差
上記でみたように、母集団を推測するために標本をとります。記述統計によってその値や特徴が要約されたものを標本分布(Sample distribution)と呼びます。
中心極限定理(Central Limit Theorem)に基づけば、
\(平均\mu分散\sigma^2\)の母集団から標本をとると、標本平均の標本分布は
- 正規分布する
- 平均が母集団の平均と同じµになる
- 分散が\(\frac{\sigma^2}{n}\)という値をとる
という特徴を持ちます。
これらの理由を知りたい方は数理統計学の教科書を紐解くと、なぜこうした論理が導出されるのかについて知見を深めることができますが、ここでは深く立ち入らず、「こうした母集団から標本平均をとると標本分布はこんな風になるんだな」と軽く考えておく方が時間の節約になります。
標本平均の標準誤差(Standard error of the sample mean)
「標本平均の分布」の標準誤差についてです。
標本をとり、平均をとって一つのデータが生成される状況を想定してみてください。それを何度も繰り返し、標本平均の分布を作り出します。
そうして生成された標本分布は先ほどの特徴とともに、標準偏差は以下のような特徴を持ちます。
$$\sigma_\bar{X}=\frac{\sigma}{\sqrt{n}}$$
これは先ほど述べた分散の式より容易に導くことが可能です。
ここで、\(\sigma\)という記号がどこから来ていたかというと、母集団の分散からでした。
しかしながら、現実世界に目を移すと、母集団の分散がそもそもわかっているという状況はかなり限定されていると考えられます。
そのため、標本分布の標準偏差として代用するのが以下の式です。
$$s_\bar{X}=\frac{s}{\sqrt{n}}$$
例題
ある大型株の平均リターンが10%で、標準偏差が6%である。
無作為抽出した100銘柄について標準偏差を計算せよ。
解答
$$\mu=10\%$$
$$\sigma=6\%$$
$$n=100$$
なので、$$\frac{6}{\sqrt{100}}=0.6$$
推定量と信頼区間について
推定量とは、標本データから母数の値として推定した値のことを指します。
先ほどの例でいう\(s_\bar{X}\)のようなものが推定量です。
推定量の望ましい特徴は以下の通りです。
- 不偏性(Unbiasedness)
推定量を取りパラメータ(母数)を推測するときに望ましいのは、その推定量がパラメータとあまり大きくずれていないことが望ましいのは直感的にお分かりいただけると思います。これを統計学的な言い方に直せば、推定量の期待値がパラメータに一致すると言え、この特徴を不偏性と言います。
- 効率性(Efficiency)
不偏性に加えて次に望ましいのは、推定量の分散があまり大きくないことです。上述したように、期待値をとって母数のパラメータに一致したとしても、分散が大きいとそこから外れる確率もまた大きくなります。
私たちが欲しているのは手元にあるデータから正確に母集団の特徴を推測することですから、そうした外れる確率、すなわち分散は小さい方が好ましいといえます。
不偏推定量のなかで分散が小さい推定量を、効率性を持っていると呼称します。
- 一致性(Consistency)
期待値を取って母集団の特徴と一致する、分散が少ないという特徴に加えて必要なのがこの一致性という特徴です。一致性とは、標本のサイズnが大きければ大きいほど、推定量が真のパラメータに近づく性質のことを表しています。
これら3つが、母集団の特徴を推測するのに望ましい推定量の特徴です。
※本項の記述に当たっては以下を参考にしました。
https://bellcurve.jp/statistics/course/8612.html
- 点推定(Point estimate)
点推定とは、一つの値を用いて母数の推定を行うことを指します。
例えば、「大学生の平均スコアは60点である」というような推定の方法です。
- 信頼区間(Confidence interval)
信頼区間とは、ある一定の確率で真のパラメータが存在する値の区間のことを指します。
例えば、「大学生の平均スコアのリターンが50点から70点の間にある確率は90%である」というような
点推定ではピンポイントで平均などについて推定を行いましたが、信頼区間では、そうした点推定量からずれることが生じうるのか、ほぼ生じえないのかについて考察を進めるのが信頼区間の考え方です。
- 信頼区間 = 点推定量 ±(信頼度 × 点推定の標準誤差)
・信頼度(reliability factor)は分布の形と信頼水準(the level of confidence)は\(1-\alpha\)によります。ここで\(\alpha\)は統計的有意性(significance)と解釈できます。
- 例えば正規分布で
信頼水準90%である場合、信頼度は1.65となり、
信頼水準95%である場合、信頼度は1.96
信頼水準99%である場合、信頼度は2.58となります。
ステューデントのt分布(Student’s t- Distribution)
次に、正規分布とは異なる分布の形についてその特徴とともに紹介していきます。
t分布は
- 左右対称であり釣り鐘型で、正規分布と似ている
- 頂点は正規分布より低く、裾は正規分布より厚い
- 自由度(degrees of freedom:\(df\))によってその形が微妙に異なる
- 自由度の決定は次の式 \(df = sample size -1\)
- 自由度が大きくなるにつれて、t分布は正規分布に近似していく
ここで、t分布と標準正規分布zの使い分けについてまとめてみます。
標本の出所 | Small sample size | Large sample size | |
正規分布 | 分散既知 | z | z |
分散未知 | t | tまたはz | |
非正規分布 | 分散既知 | NA | z |
分散未知 | NA | tまたはz |
適切な標本サイズとバイアスを巡る”問題”
適切な標本サイズを巡る問題としては
- コストの問題
多くの標本を収集するにはどうしてもコストが大きくなってしまいます。
- 異なる母集団の問題
多くの標本を集めるうちに、異なる母集団に含まれると考えられる標本が混じる問題があります。
標本バイアスの問題としては
- 標本セレクションのバイアス
結果欲しさにいくつかのデータを故意に除いて分析を行う場合にこのバイアスが生じます。
- 時間軸のバイアス
とる時間軸が短すぎたり長すぎたりすると、生じるバイアスを指します。短すぎると正確な分析ができず、逆に長すぎても、経済の構造変化を捉えられないというトラブルが生じます。
【R11】 仮説検定(Hypothesis Testing)
仮説検定
仮説(hypothesis):理論の検証を目的とした、母集団のパラメータについての記述
仮説検定の手順
- 仮説の構築適切な統計量の選択
- 有意水準の決定
- 仮説の受容/棄却の判断軸の決定
- 標本データの収集及び検定統計量
- 仮説の受容/棄却の判断→経済/投資の意思決定
帰無仮説(Null hypothesis):調査者が棄却したい仮説
対立仮説(Alternative hypothesis):調査者が証明したい仮説
例1:片側検定(One-tailed Test)
S&P500全ての株式の平均リターンが10%以上になるという仮説を検証したいとする。
帰無仮説と対立仮説はそれぞれ
$$H_0:\mu\leq 10\%とH_1:\mu>10\%$$
となる。
例2:片側検定(One-tailed Test)
S&P500すべての株式の平均リターンが10%以下になるという仮説を検証したいとする。帰無仮説と対立仮説はそれぞれ
$$H_0:\mu\geq10\%とH_1:\mu<10\%$$
となる。
例3:両側検定(Two-tailed Test)
S&P500のすべての株式の平均リターンが10%でないという仮説を検証したいとする。
帰無仮説と対立仮説はそれぞれ
$$H_0:\mu=10\%とH_1:\mu\neq10\%$$
となる。
片側検定と両側検定について
- 片側検定の手続き例
S&P500のすべての株式の平均リターンが10%以上である場合を想定する。
信頼水準95%(有意水準5%)と設定する。
サンプルサイズは49であり、標本平均が12、標本標準偏差が4とする。
帰無仮説と対立仮説はそれぞれ、以下のように設定できる。
$$H_0:\mu\leq10\%とH_1:\mu>10\%$$
検定統計量は\(\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\)なので、それぞれ代入すると、\(3.5=\frac{12-10}{4/\sqrt{49}}\)である。
信頼水準は95%、つまり1.65と比較すると3.5>1.65となる。
よって、帰無仮説が棄却され対立仮説\(H_1:\mu>10%\)が採択される。
- 両側検定の手続き
S&P500のすべての株式の平均リターンが10%でないという仮説を検証したいとする。
信頼水準95%(有意水準5%)と設定する。
サンプルサイズは49であり、標本平均が12、標本標準偏差が4とする
帰無仮説と対立仮説はそれぞれ、以下のように設定できる。
$$H_0:\mu=10\%とH_1:\mu\neq10\%$$
上記の例より、検定統計量は3.5である。
信頼水準は95%であるが、両側検定を行うため、1.96と比較すると3.5>1.96となる。
よって帰無仮説が棄却され、対立仮説\(H_1:\mu\neq10\%\)が採択される。
検定統計量
- z統計量
$$\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$$
- t統計量
$$\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$$
ここで\(\sigma\)は母集団の分散であり、\(s\)は標本データの分散を指す。
それぞれの統計量の使い分けに関しては以下の表でまとめることができる。
小さい標本サイズ | 大きい標本サイズ | ||
正規分布 | 分散既知 | z | z |
分散未知 | t | tまたはz | |
正規分布以外 | 分散既知 | NA | z |
分散未知 | NA | tまたはz |
基本的に分散既知であればz、分散未知であればtを用いることになるが、標本サイズが大きいとt分布は正規分布に近似するために、t統計量もz統計量も用いることができます。
例題
S&P500のすべての株式の平均リターンが10%以上と考えている。49の標本を集めてくると、平均が12%であり、すべてのS&P500の株式の分散が4であることが分かった。有意水準5%として、上記の仮説を検定せよ。
解答
Step1:帰無仮説と対立仮説を設定する。
\(H_0:\mu\leq10\%\)
\(H_1:\mu>10\%\)
Step2:検定統計量を計算する。
ここでは上記の説明よりz統計量を用いることができるため、
\(3.5=\frac{12-10}{4/\sqrt{49}}\)
と計算できる。
Step3:棄却限界値の計算
今回は片側検定であり、右側での検定を行うことが設問よりわかるので、z統計量における5%信頼区間は以下の通りである。
棄却限界値=\(Z_{0.05}=1.65\)
Step4:意思決定
検定統計量(3.5)は棄却限界値(1.65)よりも大きいため、帰無仮説\(H_0:\mu\leq10\%\)が棄却される。そのため、設問冒頭の「S&P500のすべての株式の平均リターンが10%以上」という対立仮説が採択される。
タイプⅠ、タイプⅡのエラーとp値について
上記の手続きを踏むなかで、標本のデータによっては真の関係とは異なる意思決定を行ってしまう場合がある。
この場合、それぞれの「誤り方」によってタイプⅠ、Ⅱというように異なる呼び方がされる。
以下がタイプⅠ、タイプⅡのエラーについてまとめた表である。
真の状態 | ||
\(H_0\)が真である | \(H_0\)が偽である | |
を棄却しない | 正 | タイプⅡエラー |
を棄却する | タイプⅠエラー | 正 |
- 有意水準(\(\alpha\)) = (1 – 信頼水準)
- 有意水準(\(\alpha\)) = タイプⅠエラーが生じる確率
- 検定力 = 1 – タイプⅡエラーが生じる確率
p値:帰無仮説が棄却される最小の有意水準のことを指す。
p値の例
p値が4%である場合、帰無仮説は5%有意水準では棄却されるものの、一方で1%有意水準では棄却されない。
検定統計量について
これまで見てきた検定統計量の他にも、調べたい仮説によって多様な検定統計量がある。
それらについて以下リスト形式で紹介する。
- 1つの母集団の平均を調べたい場合
$$t_{n-1}=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$$
母集団同士の差異についての仮説も考えたい場合が多い。
例えば男女で成績が平均で差があるかどうかなどである。
- 2つの母集団の平均を調べたい場合
- 分散が同一であるケース
$$t=\frac{(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)}{(\frac{s^2_p}{n_1}+\frac{s^2_p}{n_2})^1/2}$$
- 分散が異なるケース
$$t=\frac{(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)}{(\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2})^1/2}$$
- 1つの母集団の分散を調べたい場合
カイ二乗統計量を用いる。
$$\chi^2=\frac{(n-1)s^2}{\sigma^2_0}$$
- 2つの母集団の分散を調べたい場合
F統計量を用いる。
$$F=\frac{s^2_1}{s^2_2}$$
ノンパラメトリック検定
これまで紹介した統計量はパラメトリック(正規分布を前提とする)検定統計量である。もちろんデータには正規分布に従わないものもあるために、そうしたデータについて統計解析を行うためにノンパラメトリック検定も存在する。
ノンパラメトリック検定は
- データが正規分布に従わない場合
- データに時系列が割り当てられている場合
- パラメータ以外の統計量を調べたい場合
に用いられることが多い。