前のページ|次のページ

本書のシナリオについて

最初の7つの章では、読者をSAS Text Minerに慣れてもらうために1つの大がかりな例を紹介しています。各トピックは直前のトピックに基づいて構成されているため、読者はこれらの章を順番に読む必要があります。これらの章では、SAS Text Minerのプロセスフローダイアグラムの主要なコンポーネントについて説明しています。このステップごとの例では、SAS Text Minerにおける基本タスク(プロジェクトの作成やプロセスフローダイアグラムの構築など)の実行方法を学ぶことができます。ユーザーが作成したダイアグラム内では、データへのアクセス、データの準備、テキスト変数を使用した複数の予測モデルの構築、モデルの比較などのタスクを実行できます。本書におけるこの大がかりな例は、SAS Text Minerソフトウェアと組み合わせて使用するために設計されたものです。残りの章では、それぞれのSAS Text Minerノードに焦点を当て、読者がテキストマイニング分析を行う場合に有益となる追加情報を紹介します。
ワクチン有害事象報告制度(VAERS)データは、米国保険社会福祉省(HHS)が一般に公開しているデータです。このデータは、http://vaers.hhs.govからCSV形式で誰でもダウンロードできます。同サイトには、米国がデータ収集を開始した1990年以来、毎年のデータが別々のCSVファイルとして公開されています。このデータはさまざまなソースから収集されたものですが、ほとんどの報告書はワクチン製造業者や医療事業者から提供されたものです。ワクチンの提供者は、ワクチンに関する禁忌事象や重篤な合併症がある場合には、それを報告する義務があります。ワクチンの場合、禁忌事象は、そのワクチンの使用に関するリスクを高める条件または要因となります。
Getting Started Examplesのzipファイルには次のファイルが含まれています。
  • ReportableEventsTable.pdf: 各ワクチンでの報告可能な事象の完全な一覧を記載しています。
  • VAERS READMEファイル: データ辞書および使用されている略語の一覧を記載しています。
注: Getting Started Examplesのzipファイルのダウンロードに関する詳細は、このシナリオの前提条件を参照してください。
VAERSデータの表の最初の10行の先頭から8列目までを次の図に示します。一意のID、居住州、受容者の年齢などが含まれていることが分かります。それ以外の列(次の図には示されていないもの)の中には、非構造化テキスト文字列であるSYMPTOM_TEXTがあり、これには報告済みの問題、特定の症状、symptom counterが含まれています。
VAERSデータ
この例を十分理解するためには、読者は自分がこのデータセット内にはどんな情報が含まれているかを明らかにしようとしている研究者であると仮定する必要があります。また、読者はそのような研究者として、子供や大人がこのワクチン接種から経験する有害事象についてより良く理解するためには、このデータセットをどのように使用すればよいかを知りたいと思っているとします。これらの有害事象は、1つまたは複数のワクチン接種により引き起こされたか、または投与実験室で不適切な手順(消毒されていない針の使用など)により誘発された可能性があります。また、一部の報告は、ワクチンによる有害事象とはまったく無関係である場合もあります。たとえば、インフルエンザのワクチン接種後に風邪を引いた人がそれを報告した場合が考えられます。このため、入院を要するような、または一生引きずる障害や死亡を引き起こすような重篤な反応を調査する必要があります。
この例を完了した時点で、読者のプロセスフローダイアグラムは次のようになります。
プロセスフローダイアグラム
前のページ|次のページ|ページの先頭へ