前のページ|次のページ

一般化線形モデル

一般化線形モデルタスクについて

一般化線形モデルは、従来の線形モデルを拡張したモデルです。一般化線形モデルでは、母平均は非線形リンク関数による線形予測子によって異なります。その応答確率分布は、指数型分布族に含まれます。一般化線形モデルの例には、誤差が正規性を持つ古典的線形モデル、バリナリデータに対するロジスティックおよびプロビットモデル、多項データに対する対数線形モデルがあります。その他の統計量モデルは、適切なリンク関数と応答確率分布を選択することにより、一般化線形モデルとして定式化できます。
一般化線形モデルタスクでは、一般化線形モデルのモデル当てはめおよびモデル構築を行います。このタスクでは、正規分布、Poisson分布、Tweedie分布などの指数型分布族に属する標準分布モデルの当てはめを行います。また、順序応答および公称応答の多項モデルの当てはめにも対応しています。タスクには、選択方法として変数増加法、変数減少法および変数増減法(ステップワイズ法)が用意されています。
注: このタスクを使用するには、SAS/STATが必要です。

例: Sashelp.Baseballデータセットの分析

この例を作成するには、次の操作を実行します。
  1. タスクセクションで、統計量フォルダを展開し、一般化線形モデルをダブルクリックします。一般化線形モデルタスクのユーザーインターフェイスが開きます。
  2. データタブで、SASHELP.BASEBALLデータセットを選択します。
  3. 分布ドロップダウンリストからPoissonを選択します。次の役割に列を割り当てます。
    役割
    列名
    応答
    応答変数
    nHome
    リンク関数ドロップダウンリストから、Logarithmを選択します。
    説明変数
    分類変数
    League
    連続変数
    logSalary
  4. モデルタブをクリックします。変数ボックスで、LeagueおよびlogSalaryを選択します。追加をクリックしてこれらを主効果として追加します。
  5. タスクを実行するには、実行をクリックします。
結果の一部を次に示します。
例の結果の一部

役割へのデータの割り当て

一般化線形モデルタスクを実行するには、二項分布を除くすべての分布の応答変数役割に列を割り当てる必要があります。二項分布を選択した場合には、単一の応答変数または1組の変数のいずれかをイベント数および試行数役割に割り当てる必要があります。
オプション名
説明
役割
応答
分布
モデルの分布を指定します。次の分布から選択できます。
  • 二項分布
  • ガンマ分布
  • 逆Gaussian分布
  • 多項分布
  • 負の二項分布
  • 正規分布
  • Poisson
  • Tweedie分布。Tweedie分布を選択した場合は、Tweedieのべき指数パラメータを指定できます。この値には、1.1より大きく3.0以下の値を使用する必要があります。
  • Zero-inflated負の二項分布。
  • Zero-inflated Poisson 分布
二項分布のオプション
Response data consists of numbers of events and trials
イベントと試行の応答データからなる対の変数を指定します。
イベント数
イベント数を含む列を指定します。
試行数
試行数を含む列を指定します。
応答
応答値を含む単一の変数を指定します。
モデル化するイベントを表す応答変数の値を選択するには、関心のあるイベントオプションを使用します。
注: 応答役割および関心のあるイベントオプションは、応答データはイベント数と試行数を含みますチェックボックスを選択していない場合のみ使用できます。
すべての分布タイプのオプション
応答
応答データを表す変数を指定します。ほとんどの種類の分布に対して、単一の数値変数を指定します。
リンク関数
モデルのリンク関数を指定します。利用可能な関数は、選択した分布によって異なります。
説明変数
分類変数
分析でデータのグループ化(分類)に使用する変数を指定します。分類変数は文字でも数値でもかまいません。分類変数は、統計分析またはモデルをその値ではなく、水準で入力する変数です。変数の値を水準に関連付けるプロセスを水準化と呼びます。
効果のパラメータ化
コーディング
分類変数のパラメータ化方法を指定します。選択したコーディングスキーマに従って、分類変数から設計行列の列が作成されます。
次のコーディングスキーマから選択できます。
  • Effect coding効果コーディングを指定します。
  • GLM codingフルランク未満の参照セルコーディングを指定します。このコーディングスキーマがデフォルトです。
  • Reference coding参照セルコーディングを指定します。
欠損値の処理
次の条件のいずれかが満たされた場合、オブザベーションは分析対象から除外されます。
  • モデル内の変数に欠損値が含まれる場合
  • (分類変数がモデルで使用されているかどうかにかかわらず)分類変数に欠損値が含まれる場合
連続変数
回帰分析モデルの独立共変量(回帰変数)を指定します。連続変数を指定しない場合、タスクでは切片のみを使用するモデルの当てはめを行います。
オフセット変数
線形予測子に対するオフセットとして使用する変数を指定します。オフセットは、係数が1となる効果として働きます。オフセット変数の値が欠損しているオブザベーションは、分析から除外されます。
追加役割
度数カウント
各オブザベーションの出現度数を表す数値列を指定します。
重み変数
データの重み付き分析を実行する際に重みとして使用する数値列を指定します。
グループ分析
BY変数として使用する列を指定します。

モデルの構築

モデル構築の要件

デフォルトでは、効果が指定されていないため、切片のみのモデルの当てはめが行われます。効果を指定するには、分類変数役割または連続変数役割に少なくとも1つの変数を割り当てる必要があります。変数の組み合わせを選択し、クロス、ネスト、組み合わせまたは多項式の各効果を作成できます。
モデルを作成するには、モデルタブでモデルビルダを使用します。モデルを作成したら、モデルに切片を含めるかどうかを指定できます。

主効果の作成

  1. 変数ボックスで変数名を選択します。
  2. 列の追加をクリックして、モデル効果ボックスに変数を追加します。

クロス効果(相互作用)の作成

  1. 変数ボックスで2つ以上の変数を選択します。複数の変数を選択するには、Ctrlキーを押します。
  2. クロスをクリックします。

ネストされた効果の作成

ネストされた効果は、主効果またはクロス効果に続けて、分類変数または分類変数のリストをかっこで囲んで指定します。主効果またはクロス効果は、かっこ内にリストされた効果内にネストされます。ネストされた効果の例としては、B(A)、C(B*A)、D*E(C*B*A)などがあります。この例でB(A)は、"AはB内にネストされる"と読みます。
  1. モデル効果ボックスで、効果名を選択します。
  2. Nestをクリックします。Nestedウィンドウが開きます。
  3. ネストされた効果で使用する変数を選択します。外側または外側内でネスト化をクリックし、ネストされた効果の作成方法を指定します。
    注: 外側内でネスト化ボタンは、分類変数が選択されている場合にのみ使用できます。
  4. 追加をクリックします。

すべての組み合わせモデルの作成

  1. 変数ボックスで2つ以上の変数を選択します。
  2. すべての組み合わせをクリックします。
たとえば、Height、WeightおよびAge変数を選択し、すべての組み合わせをクリックすると、モデル効果としてAge、Height、Weight、Age*Height、Age*Weight、Height*Weight、Age*Height*Weightが作成されます。

N元の組み合わせの作成

  1. 変数ボックスで2つ以上の変数を選択します。
  2. N 元の組み合わせをクリックして、モデル効果ボックスにこれらの効果を追加します。
たとえば、Height、WeightおよびAge変数を選択し、Nの値として2を指定し、N 元の組み合わせをクリックすると、モデル効果としてAge、Height、Weight、Age*Height、Age*Weight、Height*Weightが作成されます。Nがモデル内の変数の数より大きな値に設定されている場合、事実上Nは変数の数に設定されます。

N次の多項式効果の作成

  1. 変数ボックスで1つの変数を選択します。
  2. Nフィールドの数値を調整して、高次クロスを指定します。
  3. 多項式の次数 = Nをクリックして、モデル効果ボックスに多項式効果を追加します。
たとえば、AgeおよびHeight変数を選択し、Nフィールドで3を指定して、多項式の次数 = Nをクリックすると、モデル効果としてAge、Age*Age、Age*Age*Age、Height、Height*Height、Height*Height*Heightが作成されます。

Zero-Inflatedモデルのモデル効果の指定

これらのオプションは、データタブで、分布としてZero-inflated負の二項分布またはZero-inflated Poisson分布を選択した場合に使用できます。
次の中から作成するモデルの種類を選択する必要があります。
  • 切片のみのモデル。
  • 主要なモデルから効果を追加したモデル。モデルビルダを使用して、これらのモデル効果を定義します。
  • カスタムモデル。これらの効果は、Enter a custom modelテキストボックスで指定します。複数の効果を指定する場合は、各効果の間にスペースを挿入します。
zero-inflatedモデルに効果を追加することを選択する場合は、これらの効果のリンク関数を指定してください。

オプションの設定

オプション
説明
手法
Dispersion
過分散調整
パラメータの共分散行列および尤度関数を尺度パラメータにより調整します。分散パラメータには、Pearson推定または逸脱推定を選択できます。Pearsonおよび逸脱のカイ2乗適合度検定の計算に使用する部分母集団を定義するには、1つ以上の変数をその役割に割り当てます。
注: このオプションは、二項分布および多項分布のみで使用できます。
分散パラメーターを推定する
分散パラメータを持つ分布に、固定の分散パラメータを指定できます。このパラメータは、デフォルトでは推定されます。
注: このオプションは、二項分布および多項分布では使用できませんが、他の種類の分布では使用できます。
最適化
最大反復回数
選択した最適化法で実行する最大反復回数を指定します。
統計量
出力に含める統計量を選択できます。統計量のリストは、選択した分布に依存します。
含めることができる追加統計量を次に示します。
  • type 1 (逐次)分析
  • type 3分析
  • Type 3の対比に関するWald統計量
  • プロファイル尤度信頼区間およびWald信頼区間などの信頼区間
  • パラメータ推定値の相関
  • パラメータ推定値の共分散
  • 影響度診断、予測値、信頼区間、残差などのオブザベーション統計量
  • 分類効果の多重比較
  • ロジットリンク関数を使用した二項分布または対数リンク関数を使用したPoisson分布のみで使用可能な正確検定
ブロット
出力に表示するプロットを選択できます。複数のプロットの表示を選択する場合、これらのプロットを個別または1つのパネルとして表示できます。
使用可能なプロットのリストは、モデルの種類によって異なります。結果に追加できるいくつかのプロットを次に示します。
  • 予測プロット
  • オブザベーションの数によるCookのDおよびオブザベーションの数によるDFBETAなどの影響度プロット
  • 残差、逸脱度残差、標準化された逸脱度残差、Pearson残差、標準化されたPearson残差、尤度残差のプロット

出力オプションの設定

出力データセットを作成するかどうかを指定できます。出力データセットに含める値を指定することもできます。出力データセットには、線形予測子の予測値、残差、影響統計量、標準誤差を含めることができます。
前のページ|次のページ|ページの先頭へ