前のページ|次のページ

線形回帰分析タスク

線形回帰分析タスクについて

線形回帰分析タスクでは、線形モデルを当てはめて、1つ以上の連続予測子変数またはカテゴリ予測子変数から1つの連続従属変数を予測します。このタスクでは、結果の解釈に使用できる統計量とグラフが生成されます。
注: このタスクを使用するには、SAS/STATが必要です。

例:生徒の身長に基づく体重予測

この例では、回帰分析を使用することで、子の身長がわかっている場合にその身長から体重を適切に予測できることを確認します。
この例を作成するには、次の操作を実行します。
  1. タスクセクションで、統計量フォルダを展開し、線形回帰分析をダブルクリックします。線形回帰分析タスクのユーザーインターフェイスが開きます。
  2. データタブで、SASHELP.CLASSデータセットを選択します。
  3. 次の役割に列を割り当てます。
    役割
    列名
    従属変数
    体重
    分類変数
    性別
    連続変数
    年齢
    身長
  4. モデルタブをクリックし、次のモデルを作成します。
    1. 身長変数を選択し、Ctrlキーを押しながら年齢変数を選択します。追加をクリックします。
    2. 身長変数を選択し、Ctrlキーを押しながら性別変数を選択します。クロスをクリックします。
    モデルビルダでのこの例のモデルの作成
  5. タスクを実行するには、実行をクリックします。
結果の一部を次に示します。
線形回帰分析の例の表形式の結果
体重の観測値と予測値のグラフ
線形回帰分析の例における体重の当てはめ診断

役割へのデータの割り当て

線形回帰分析タスクを実行するには、従属変数役割に1つの列を割り当て、分類変数役割または連続変数役割に1つの列を割り当てる必要があります。
役割
説明
役割
従属変数
回帰分析の従属変数として使用する数値変数を指定します。この役割には数値変数を割り当てる必要があります。
分類変数
設計行列コードを使って回帰分析モデルを入力する分類変数を指定します。
効果のパラメータ化
コーディング
分類変数のパラメータ化方法を指定します。選択したコーディングスキーマに従って、分類変数から設計行列の列が作成されます。
次のコーディングスキーマから選択できます。
  • Effects coding効果コーディングを指定します。
  • GLM codingフルランク未満の参照セルコーディングを指定します。このコーディングスキーマがデフォルトです。
  • Reference coding参照セルコーディングを指定します。
欠損値の処理
次の条件のいずれかが満たされた場合、オブザベーションは分析対象から除外されます。
  • モデル内の変数に欠損値が含まれる場合
  • (分類変数がモデルで使用されているかどうかにかかわらず)分類変数に欠損値が含まれる場合
連続変数
回帰分析モデルの数値共変量(回帰変数)を指定します。
追加役割
度数カウント
オブザベーションの度数を表す数値変数を指定します。この役割に変数を割り当てると、各オブザベーションがn件のオブザベーションを表すものとされます。nは、度数変数の値です。nが整数以外の場合、自動的に切り捨てられます。nが1未満か、欠損している場合、そのオブザベーションは分析から除外されます。度数変数の合計は、オブザベーションの合計数を表します。
体重
データの重み付き分析を実行する際に重みとして使用する変数を指定します。
グループ分析
オブザベーションの各グループについてそれぞれ個別の分析を作成することを指定します。

モデルの構築

モデル構築の要件

効果を指定するには、分類変数役割または連続変数役割に少なくとも1つの列を割り当てる必要があります。変数の組み合わせを選択し、クロス、ネスト、組み合わせまたは多項式の各効果を作成できます。モデルに切片を含めるかどうかを指定することもできます。
モデルを作成するには、モデルタブでモデルビルダを使用します。

主効果の作成

  1. 変数ボックスで変数名を選択します。
  2. 列の追加をクリックして、モデル効果ボックスに変数を追加します。

クロス効果(相互作用)の作成

  1. 変数ボックスで2つ以上の変数を選択します。複数の変数を選択するには、Ctrlキーを押します。
  2. クロスをクリックします。

ネストされた効果の作成

ネストされた効果は、主効果またはクロス効果に続けて、分類変数または分類変数のリストをかっこで囲んで指定します。主効果またはクロス効果は、かっこ内にリストされた効果内にネストされます。ネストされた効果の例としては、B(A)、C(B*A)、D*E(C*B*A)などがあります。この例でB(A)は、"AはB内にネストされる"と読みます。
  1. モデル効果ボックスで、効果名を選択します。
  2. Nestをクリックします。Nestedウィンドウが開きます。
  3. ネストされた効果で使用する変数を選択します。外側または外側内でネスト化をクリックし、ネストされた効果の作成方法を指定します。
    注: 外側内でネスト化ボタンは、分類変数が選択されている場合にのみ使用できます。
  4. 追加をクリックします。

すべての組み合わせモデルの作成

  1. 変数ボックスで2つ以上の変数を選択します。
  2. すべての組み合わせをクリックします。
たとえば、Height、WeightおよびAge変数を選択し、すべての組み合わせをクリックすると、モデル効果としてAge、Height、Weight、Age*Height、Age*Weight、Height*Weight、Age*Height*Weightが作成されます。

N元の組み合わせの作成

  1. 変数ボックスで2つ以上の変数を選択します。
  2. N 元の組み合わせをクリックして、モデル効果ボックスにこれらの効果を追加します。
たとえば、Height、WeightおよびAge変数を選択し、Nの値として2を指定し、N 元の組み合わせをクリックすると、モデル効果としてAge、Height、Weight、Age*Height、Age*Weight、Height*Weightが作成されます。Nがモデル内の変数の数より大きな値に設定されている場合、事実上Nは変数の数に設定されます。

N次の多項式効果の作成

  1. 変数ボックスで1つの変数を選択します。
  2. Nフィールドの数値を調整して、高次クロスを指定します。
  3. 多項式の次数 = Nをクリックして、モデル効果ボックスに多項式効果を追加します。
たとえば、AgeおよびHeight変数を選択し、Nフィールドで3を指定して、多項式の次数 = Nをクリックすると、モデル効果としてAge、Age*Age、Age*Age*Age、Height、Height*Height、Height*Height*Heightが作成されます。

モデルオプションの設定

オプション名
説明
手法
信頼水準
信頼区間の作成に使用する有意水準を指定します。
統計量
結果にデフォルトの統計量を含めるか、または追加統計量を含めるかを選択できます。
パラメータ推定値
標準回帰係数
標準回帰係数を表示します。標準回帰係数は、回帰変数のサンプル標準偏差に対する従属変数のサンプル標準偏差の比率によってパラメータ推定値を割ることによって計算されます。
推定値の信頼限界
パラメータ推定値の100 open 1 minus alpha close percent. 別の形式を利用するにはイメージをクリックします。上側信頼限界と下側信頼限界を表示します。
平方和
逐次平方和(Type I)
モデルの項ごとにパラメータ推定値と一緒に逐次平方和(Type I SS)を表示します。
偏平方和(Type II)
モデルの項ごとにパラメータ推定値と一緒に偏平方和(Type II SS)を表示します。
偏相関と半偏相関
平方偏相関
Type IとType IIの平方和を使用して計算される平方偏相関係数を表示します。
平方半偏相関
Type IとType IIの平方和を使用して計算される平方半偏相関係数を表示します。この値は、平方和を修正済み平方和合計で割ることによって計算されます。
診断
Analysis of influence
推定値と予測値に各オブザベーションが与える影響の詳細な分析を要求します。
Analysis of residuals
残差の分析を要求します。結果には、入力データと推定されたモデルからの予測値、平均の予測値と残差値の標準誤差、スチューデント化残差、およびパラメータ推定値への各オブザベーションの影響を評価するCookのD統計量が含まれます。
予測値
入力データと推定されたモデルから予測値を計算します。
多重比較
多重比較の実行
固定効果の最小二乗平均を計算して比較するかどうかを指定します。
テストする効果を選択する
比較する効果を指定します。これらの効果はモデルタブで指定します。
手法
p-値の多重比較調整と最小二乗平均の差異の信頼限界を求めます。有効な手法は次のとおりです。BonferroniNelsonSchefféSidakTukey
有意水準
各最小二乗平均に1 – numberの信頼水準のtタイプ信頼区間が確立されることが求められます。numberの値は0~1の間である必要があります。デフォルト値は、0.05です。
共線性
共線性分析
回帰変数間の詳細な共線性分析を要求します。固有値、条件インデックス、および各固有値に対する推定値の分散分解などが挙げられます。
推定値のトレランス値
推定値のトレランス値を作成します。変数のトレランスは、1 minus , r squared. 別の形式を利用するにはイメージをクリックします。として定義されます。R2乗値は、モデルの他のすべての回帰変数に対する変数の回帰から得られます。
分散拡大係数
パラメータ推定値の分散拡大係数を作成します。分散拡大はトレランスの逆数です。
不等分散性
不等分散性分析
モデルの一次モーメントと二次モーメントが正しく指定されていることを確認する検定を実行します。
漸近共分散行列
不等分散性仮説下での推定値の漸近共分散行列とパラメータ推定値の不等分散一致標準誤差を表示します。
ブロット
診断と残差プロット
デフォルトでは、いくつかの診断プロットが結果に含まれます。説明変数の残差のプロットを含めるかどうかを指定することもできます。
その他の診断プロット
Rstudent統計量と予測値
予測値でスチューデント化残差をプロットします。極値ポイントのラベルオプションを選択した場合、参照線r s t u d e n t equals plus minus 2. 別の形式を利用するにはイメージをクリックします。の帯域から外れるスチューデント化残差は異常値と見なされます。
DFFITS統計量とオブザベーション番号
DFFITS統計量とオブザベーション番号をプロットします。極値ポイントのラベルオプションを選択した場合、DFFITS統計量の大きさが2 , square root of p over n end root. 別の形式を利用するにはイメージをクリックします。を超えるオブザベーションは影響因子と見なされます。使用されるオブザベーションの数はnで、回帰変数の数はpです。
説明変数ごとの DFBETAS 統計量とオブザベーション番号
モデルの各回帰変数について、オブザベーション番号に対するDFBETASを示すパネルを作成します。これらのプロットはパネルとして表示することも、個々のプロットとして表示することもできます。極値ポイントのラベルオプションを選択した場合、DFBETAS統計量の大きさがfraction 2 , over square root of n end fraction. 別の形式を利用するにはイメージをクリックします。を超えるオブザベーションは該当する回帰変数に対する影響因子と見なされます。オブザベーションの数はnです。
極値ポイントのラベル
プロットの各タイプの極値を識別します。
散布図
単一連続変数の当てはめプロット
単一の連続変数を持つモデルの回帰線、信頼帯および予測帯とデータを重ね合わせた散布図を作成します。切片は除外されます。点の数がプロットポイントの最大数オプションの値を超える場合は、散布図の代わりにヒートマップが表示されます。
観測値と予測値
予測値に対する観測値の散布図を作成します。
説明変数ごとの偏回帰プロット
各回帰変数の偏回帰プロットを作成します。これらのプロットをパネルに表示する場合は、パネル1つ当たりの回帰変数数は最大で6つになります。
プロットポイントの最大数
各プロットに含める最大点数を指定します。

モデルの選択オプションの設定

オプション
説明
モデルの選択
選択方法
モデルのモデル選択法を指定します。このタスクでは、選択法で定義されているルールに従って、モデルに効果を追加する必要があるか、モデルから効果を削除する必要があるかを調べることによって、モデルが選択されます。
選択方法の有効な値は次のとおりです。
  • Noneでは、フルモデルを当てはめます。
  • 変数増加法では、効果を含まないモデルから開始し、指定した基準の値に基づいて効果を追加します。
  • 変数減少法では、すべての効果を含むモデルから開始し、指定した基準の値に基づいて効果を削除します。
  • 変数増減法(ステップワイズ法)は、変数増加法モデルに似ています。ただし、モデルにすでに存在する効果が必ずしもそのまま残るとは限りません。効果は、指定した基準の値に基づいてモデルに追加されます。
効果の追加/削除法
モデルに対して効果を追加または削除する際の基準を指定します。
効果の追加/削除の停止法
モデルに対する効果の追加または削除を停止する際の基準を指定します。
最適モデルの選択方法
最も当てはまるモデルが識別されるようにするための基準を指定します。
統計量の選択
モデルの当てはまりに関する統計量
当てはめ要約テーブルと当てはめ統計テーブルに表示するモデル当てはめ統計量を指定します。デフォルトの当てはめの統計量を選択した場合、これらのテーブルに表示される統計量のデフォルトセットには、モデルの選択で使用されるすべての基準が含まれます。
結果に含めることのできる追加の当てはめ統計量を次に示します。
  • 調整済み R2 乗値
  • 赤池の情報量規準
  • 小サンプルバイアス用に修正された赤池の情報規準
  • Bayes情報量規準
  • MallowsのCp
  • 予測残差平方和統計量を指定するPress統計量
  • R2乗値
  • SchwarzのBayes情報量規準
選択プロット
基準プロット
調整済みR2乗値、赤池の情報量規準、小サンプルバイアス用に修正された赤池の情報規準および最も当てはまるモデルの選択に使用する規準のプロットを表示します。
係数プロット
次のプロットを表示します。
  • 選択プロセスの進行に伴うパラメータ値の漸次的変化を示すプロット
  • 最も当てはまるモデルの選択に使用する規準の漸次的変化を示すプロット
詳細
選択プロセスの詳細
選択プロセスに関してどの程度の情報を結果に含めるかを指定します。選択プロセスの各ステップの要約または詳細、または選択プロセスに関するすべての情報を表示できます。

出力データセットの作成

オブザベーションに関する統計量データセットを作成するかどうかを指定できます。このデータセットには、平方和と積和が含まれます。
次の統計量を出力データセットに含めることもできます。
  • 予測値
  • i番目の残差をopen 1 minus h close. 別の形式を利用するにはイメージをクリックします。で除算したPress統計量。hはてこ比を表し、モデルはi番目のオブザベーションなしで再度当てはめられています。
  • 残差。
  • 残差を標準誤差で除算したスチューデント化残差。
  • 現在のオブザベーションを除いたスチューデント化残差。
  • CookのD影響統計量。
  • ベータの共分散に関するオブザベーションの標準的な影響度。
  • 予測値に関するオブザベーションの標準的な影響度(DFFITSと呼ばれる)。
  • てこ比。
前のページ|次のページ|ページの先頭へ