データ分析関連メモ(メモです)

仲秋の候、涼やかな秋風の下、ご一同様にはその後お健やかにお過ごしのことと存じます。

蓑谷千凰彦先生『線形回帰分析』の感想文

はじめに

数理統計の入門書を一通り読み終えて、実践的な分析手法として線形回帰分析に関心を抱きました。信頼できる知人から薦められたこともあり、蓑谷千凰彦先生の『線形回帰分析』を読み始めました。

線形回帰分析について多くを学ぶことができたのですが、あまり本書が紹介されている場面を見掛けないため、かつての自分のように線形回帰分析に関心を持ち始めた方に向けて感想文を残しておきます。

www.asakura.co.jp

本書の位置付けと対象読者

本書の「はじめに」には次のように書かれています。

本書は入門書であるが, 線形回帰分析の技術的な手続きのみを示した書ではない. 統計理論についても可能な限り証明も省略せず, 証明が長くなる, あるいは少し煩瑣な内容は, 各章で数学注として示した.

この方針通り、本書は線形回帰分析を実践するためというよりは、その理論を理解するための書籍です。各章に例題が掲載されていますが、線形回帰分析の実行手順を学ぶためというよりは、理論を理解するための手助けのような役割であると感じます。また、分析を実行するためのプログラミングについての記載は一切ありません。

また、「入門書」とされていますが、基礎的な数理統計の知識は前提としているようです。例えば「中心極限定理」「フィッシャー情報行列」「尤度比検定」などの用語は特に説明なく登場します。

さらに、その前提となる微積分や行列計算の知識も求められます。恥ずかしながら、私は行列計算には不安を抱えたまま読んでいました。特に行列の幾何的な意味は分からないままだったので、きちんと学んでから読み直したらまだまだ多くの発見がありそうだと思っています。

本書の構成

目次は朝倉書店のWebサイトに掲載されていますが、全体を大きくまとめると前半と後半に分かれます。

目次(クリックで展開)

まえがき
1単純回帰モデルのパラメータ推定
 1.1 はじめに
 1.2 単純回帰モデル
 1.3 正規線形回帰モデルの諸仮定
 1.4 パラメータ推定
  1.4.1 散布図
  1.4.2 最小2 乗法による, の推定
  1.4.3 ρ²の推定
 1.5 自由度とは何か
 1.6 最尤法による, およびρ² の推定
 1.7 プロファイル尤度関数
  1.7.1 βのプロファイル対数尤度関数
  1.7.2 ρ² のプロファイル対数尤度関数
 1.8 定数項なしの単純回帰モデル
 1.9 α,β の 特 性
  1.9.1 α,β はYi の線形関数である
  1.9.2 α,β の分散および共分散
  1.9.3 最小2 乗推定量α,β の特性
 数学注
2単純回帰モデルにおける説明力,仮説検定および予測
 2.1 はじめに
 2.2 モデルの説明力
 2.3 決定係数に関する3 つの注意
 2.4 α,β に関する仮説検定
  2.4.1 βに関する検定
  2.4.2 αに関する検定
 2.5 計算の順序
 2.6 ρ²に関する仮説検定
 2.7 有意確率(p 値)
 2.8 パラメータの区間推定
  2.8.1 α,βの信頼区間
  2.8.2 ρ²の信頼区間
 2.9 予 測
  2.9.1 平均予測値と予測区間
  2.9.2 点予測値と予測区間
 数学注
3重回帰モデルのパラメータ推定と説明力
 3.1 はじめに
 3.2 重回帰モデル
 3.3 未知パラメータの推定― 最小2 乗法
 3.4 最小2 乗残差の性質
 3.5 ρ² の 推 定
 3.6 βの共分散行列の推定
 3.7 未知パラメータの推定―最尤法
 3.8 偏回帰係数推定量の意味
 3.9 F W L の定理
 3.10 ダ ミ ー 変 数
  3.10.1 質的属性の代理変数
  3.10.2 季節ダミー
 3.11 モデルの説明力
  3.11.1 決定係数
  3.11.2 自由度修正済み決定係数
  3.11.3 AIC, SBIC, GCV およびHQ
 3.12 偏回帰作用点プロット
 3.13 パラメータ推定量の特性
  3.13.1 βの特性
  3.13.2 s² の特性
 3.14 最尤推定量MLE の特性
 3.15 多重共線性
 数学注
4重回帰モデルにおける仮説検定と予測
 4.1 はじめに
 4.2 βj=0 の検定
 4.3 βに関する線形制約の検定
  4.3.1 線形制約
  4.3.2 R βからの接近
  4.3.3 制約つき最小2 乗推定量からの接近
 4.4 βの信頼域
 4.5 β に関する仮説検定
 4.6 R β=r の信頼域
 4.7 ρ²に関する仮説検定
 4.8 ρ²の信頼区間
 4.9 予測と予測区間
  4.9.1 平均予測値と予測区間
  4.9.2 点予測値と予測区間
 4.10 デルタ法
  4.10.1 1 変量のケース
  4.10.2 2 変量のケース
  4.10.3 重回帰モデルとデルタ法
 数学注
5 定式化テスト
 5.1 はじめに
 5.2 非ゼロの期待値をもつ誤差項
  5.2.1 βへの影響
  5.2.2 s² への影響
  5.2.3 系統的要因欠落による定式化の誤り
  5.2.4 不適切な説明変数追加による定式化の誤り
 5.3 定式化ミスのテスト― RESET テスト
 数学注
6  不均一分散
 6.1 はじめに
 6.2 不 均 一 分 散
 6.3 O L S の結果
 6.4 均一分散の検定
  6.4.1 e-Yˆ プロット
  6.4.2 ブロイシュ・ペーガンテスト(BP テスト)
  6.4.3 ホワイトテスト
  6.4.4 ゴドフライ・コーエンカーテスト
 6.5 分散安定化変換
 6.6 ボックス・コックス変換
  6.6.1 ボックス・コックス変換
  6.6.2 ボックス・コックスモデルの推定
  6.6.3 βの共分散行列
  6.6.4 ボックス・コックス変換における関数形の検定
 6.7 一般化最小2 乗法(GLS)
 6.8 不均一分散のもとでのvar( )の一致推定量
 数学注
7自 己 相 関
 7.1 はじめに
 7.2 1 階の自己回帰過程AR(1)
 7.3 OLS の結果
 7.4 自己相関AR(1)の検定
  7.4.1 残差のグラフを描く
  7.4.2 ダービン・ワトソン検定
  7.4.3 ダービン・ワトソン検定の問題点
  7.4.4 m テスト
  7.4.5 h 統計量
 7.5 パラメータ推定― 一般化最小2 乗法
 7.6 実行可能なGLS
  7.6.1 2 SPW
  7.6.2 GLS―格子探索法
 7.7 パラメータ推定―最尤法
  7.7.1 尤度関数と必要条件
  7.7.2 最尤法―格子探索法
  7.7.3 最尤法―ビーチ・マッキノン法
 7.8 見せかけの回帰
 数学注
数学付録
 A1 クラメール・ラオCramér-Rao の不等式
 A2 クラメール・ラオ不等式の一般化
 B 行列とベクトルの微分
 C 跡trace の定義と性質
 D 分割行列の逆行列
 E 固有値と固有ベクトル
 F 対称行列の変換
 G 正規確率変数の2 次形式の分布
 H 正規確率変数の関数の独立
 I カーネル密度関数
参考文献
付表
索   引


前半の第1~4章では、行列を用いて最小二乗推定量の性質や重回帰分析の構造が解説されています。例えば第3章では、単位行列やハット行列を用いたFWLの定理(Frisch–Waugh–Lovellの定理)によって、偏回帰係数推定量やダミー変数の意味が示されます。これまで「そういうもの」と知識でしかなかったものの理解が進み、データの特徴が推定量にどのような影響を与えるのかが見えるようになってきました。

第3章の最後では、多重共線性についても触れられています。比較的新しい(2015年刊)こともあり、線形回帰分析の類書である佐和隆光先生の『回帰分析』では触れられなかったVIF(Variance Inflation Factor)も登場します*1。ただし、多重共線性への対処については深入りせず、Ridge回帰が紹介されるものの、「決定的な解決にはならないことが多い.」と簡潔に述べられています。

後半の第5~7章では、線形回帰分析の仮定が崩れた場合を扱います。「誤差項の期待値ゼロ」「均一分散」「自己相関無し」というそれぞれの仮定について、「仮定が崩れると何が起こるのか」「仮定をどのように検証するのか」「仮定が崩れている場合、どのように対処するのか」が解説されます。私はこれまで、なぜか多重共線性にばかり囚われていましたが、そもそも最小二乗法による線形回帰分析が正しいのかどうか、置かれている仮定をよく検討する必要があることを学びました。

本書の特徴

「はじめに」にも書かれていたように、証明の丁寧さが本書の特徴として挙げられます。これまで統計の専門書を読んでいて、説明や式展開の途中が省略された場合、自明だから省略されたのか、その書籍のレベルを超えているから省略されたのか迷ってしまうことがありました。本書では省略が少なく、長くなる部分は「数学注」として明確に区別されています。また、本書のレベルを超えている部分は、その旨が分かりやすく書かれています。そのため、「自分の理解不足なのか、それとも本書では理解が困難なのか」で悩むことがほとんどありませんでした。

また、本書そのものの特徴ではないのですが、著者である蓑谷千凰彦先生は関連書籍も多数執筆されている点もメリットとして挙げられます。 外れ値や分析結果への影響が強い観測値について扱う『回帰診断』、外れ値の影響をいかに軽減するかがテーマの『頑健回帰推定』、線形回帰分析の枠組みを超えてより広汎なモデルを解説する『一般化線形モデルと生存分析』、などです*2。これらの本が用意されていることで、線形回帰分析からより発展的な内容に接続がしやすい点が特徴の1つです。

結び

本書を通じて、線形回帰分析の偏回帰係数の意味や、置かれている仮定が分析結果に与える影響についての理解が深まりました。 線形回帰分析を手続き的に使うだけでなく、理論的な背景を学ぶことで手に馴染ませて使いたい方に、お薦めできる一冊だと思います。

注釈

*2 ちなみに全て未読。そのうち読みます。