基本情報技術者試験など情報処理技術者試験を受験する方にとっては必須の,確率・統計についてシンプルにまとめています。場合の数,事象,順列(Permutation),組み合わせ(Combination),確率,統計,代表値(平均値,中央値(メジアン),最頻値(モード)),ばらつき(レンジ,分散・標準偏差),確率分布(正規分布,標準正規分布),回帰分析(相関係数,正の相関,負の相関,強い相関,弱い相関,無相関,完全相関,説明変数,目的変数,回帰直線)についてまとめています。例や練習問題を繰り返し解いて身につけましょう。
確率
場合の数
場合の数とは,ある事象について,考えられるパターンの総数のことをいいます。
※ 事象…特定の状況や現象,できごとのこと
例)サイコロを1回振る場合
※ サイコロを1回振ると,1~6の,どれかが出る ⇒ 考えられるパターン(場合の数)=6通り
順列(Permutation)
順列とは,ある要素の中から,いくつかの要素を取り出して並べるときの,パターンの総数(場合の数)のことをいいます。
※ n!とは,nの階乗のことで,1からnまでの自然数の積を表す(例:5!=5×4×3×2×1)。
例)「1」,「2」,「3」と書かれた3枚のカードから2枚を選択して,2桁の数字ができるときの,場合の数(順列)
※ 「12」,「13」,「21」,「23」,「31」,「32」の6通り
組み合わせ(Combination)
組み合わせとは,ある要素の中から,いくつかの要素を取り出すときの,パターンの総数(場合の数)のことをいいます。
※ 「組み合わせ」なので,「並び方」(順番)は考えない
※ n!とは,nの階乗のことで,1からnまでの自然数の積を表す(例:5!=5×4×3×2×1)。
例)「1」,「2」,「3」と書かれた3枚のカードから2枚を選択するときの,場合の数(組み合わせ)
※ 「1,2」,「1,3」,「2,3」の3通り
練習問題
問 Aくん,Bくん,Cくん,Dくん,Eくんの5人から成るチームがある。
(1) キャプテン,副キャプテンを選ぶ方法は何通りか
(2) キャプテン,副キャプテン,マネージャーを選ぶ方法は何通りか
(1) 20通り (2) 60通り
(1)
(2)
問 男子4人,女子2人が1列に並ぶ場合,
(1) 両端が男子となる並び方は何通りか
(2) 女子2人が隣り合う並び方は何通りか
(3) どの女子も隣り合わない並び方は何通りか
(1) 288通り (2) 240通り (3) 480通り
(1)
男子4人から2人を選んで両端に並ぶ並び方は,
残り4人の並び方は,
よって,
(2)
男子4人,女子1人,合わせて5人の並び方は,
女子2人の並び方は,
よって,
(3)
男子4人の並び方は,
女子が入る位置は,5か所中2か所なので,
女子2人の並び方は,
よって,
問 Aさんを含む男子3人,Bさんを含む女子6人の中から5人の代表を選ぶ場合,
(1) 男子1人,女子4人を選ぶ方法は何通りか
(2) Aさんを含む男子2人,Bさんを含む女子3人を選ぶ方法は何通りか
(3) Aさんは選ばれ,Bさんは選ばれない方法は何通りか
(1) 45通り (2) 12通り (3) 35通り
(1) 男子3人から1人を選ぶ方法は,
女子6人から4人を選ぶ方法は,
よって,
(2) Aさん以外の男子1人を選ぶ方法は,
Bさん以外の女子2人を選ぶ方法は,
よって,
(3) Aさんを選ぶ方法は,
Aさん以外の男女8人からBさんを除いて4人を選ぶ方法は,
よって,
確率
確率とは,ある事象の起こりやすさの度合いのことをいいます。
例)サイコロを1回振って,3の目が出る確率P(A)
例)コインを3回投げて,表が2回だけ出る確率P(A)
全体の場合の数と,表が2回だけ出るときの場合の数は,次のように求めることもできる。
例)サイコロを1回振って,2の倍数(偶数)の目が出る確率P(A)
例)サイコロを1回振って,2の倍数(偶数)の目,または,3の倍数の目が出る確率P(A)
例)サイコロを2回振って,1回目に2の倍数(偶数),2回目に3の目が出る確率P(A)
例)サイコロを2回振って,少なくとも1回は3の目が出る確率P(A)
統計
代表値
平均値
平均値とは,すべての値の合計値を,データの個数で割った値のことをいいます。
例)次の7人の得点の平均値
中央値(メジアン)
中央値とは,データを値の小さい順に並べたときに,中央に位置する値のことをいいます。データの個数nが奇数個の場合は (n÷2)+1番目の値が,偶数個の場合は (n÷2) 番目の値と (n÷2)+1番目の値の平均値が中央値になります。
例1)次の7人の得点の中央値
例2)次の8人の得点の中央値
最頻値(モード)
最頻値とは,データの中で最も出現回数の多い値のことをいいます。
例)次の10人の得点の中での最頻値
ばらつき
レンジ
レンジとは,データが分布している範囲のことをいいます。データの最大値と最小値の差で求められます。
分散・標準偏差
分散とは,平均値を中心とした分布の広がり(散らばり)の程度を示す値のことをいいます。
偏差とは,各データと平均値との差のことをいいます。
標準偏差とは,各データが平均値から標準的に,どのくらい離れているのかを示す値のことをいいます。
例)次の10人の得点の平均値,偏差,分散,標準偏差
確率分布
正規分布
正規分布は,統計学において利用される連続型確率分布です。正規分布の形は,平均μと標準偏差σによって決まり,N(μ,σ2)と表します。
※ 平均が0,標準偏差が1である正規分布を,標準正規分布といい,N(0,12)と表す
例)平均が60,標準偏差が10の正規分布
例)あるテストの結果が,平均点50点,標準偏差20の正規分布に従うとき,90点以上の人は何%いるのかを推定する
90点は平均点(50点)より40点多い。この40点は,標準偏差の2倍の値なので,90点の位置は,「平均値+2×標準偏差」の位置にあることになる。正規分布では,「平均値±2×標準偏差」の範囲に全体の95%が含まれるので,90点以上の人の割合は,
(1 - 0.95)÷ 2 = 0.0025(2.5%)
となる。
例)ある畑で採れたじゃがいもの重さの分布は,平均が150g,標準偏差が20gの正規分布であった。110g未満のじゃがいもは,検査で不合格とされる。採れたじゃがいもの不合格の割合は約何%か。
μの値は,
となる。標準正規分布表より,μ=2.0の場合のPの値は0.023であることから,μ=-2.0の場合のPの値も0.023であることが分かる。よって,採れたじゃがいもの不合格品の割合は約2.3%であることが分かる。
回帰分析
相関係数
相関係数は,ある2つの変数の関係の強さを表します。相関係数は,-1以上1以下の範囲の値であり,相関係数が0より大きい場合を正の相関,0より小さい場合を負の相関といいます。相関係数の値が-1や1に近いほど相関は強く,0に近づくほど弱くなります。
回帰分析
回帰分析とは,相関関係にある数値の関係を調べて,それぞれの関係を分析・予測する手法のことをいいます。
説明変数
値の分かっている変数のこと
目的変数
説明変数を基に予測する変数のこと
回帰直線
すべてのデータからの距離の和が最小となるように求めた直線のこと。最小二乗法により計算する
まとめ
今回は,確率・統計について,シンプルにまとめてみました。例や練習問題をくり返しくことにより,少しずつ身についてくると思います。根気よく頑張りましょう。