前の章で示したように、SAS Text Minerはデータ内で明確となっているテーマを見つける場合に良い仕事をします。ただし、データがクリーニングを必要としている場合、SAS
Text Minerによる有益なテーマの検出は有効性が低下します。本章では、多くのスペルミスや略語を含んでいる手動で編集を行ったデータに遭遇した場合に、そのデータをクリーニングすることで、より良い結果が得られるようにする方法を紹介します。
本書のzipファイル内に含まれているREADME.TXTファイルには、有害事象レポートで一般的に使用される略語のリストが含まれています。SAS Text Minerを使用することで、類義語リストを指定できます。本書のzipファイル内には、VAER_ABBREV類義語リストが含まれています。このような類義語リストを作成するために、README.TXT内の略語リストをMicrosoft
Excelファイルにコピーしたとします。このMicrosoft Excelファイル形式のリストが手動で編集された後、SASデータセットへインポートされたとします。ここで、たとえば、CTという語が"computerized
axial tomography"の略語としてマークされたとします。
データをSASデータセットへとインポートする方法についての詳細は、次のドキュメントリソースを参照してください。
http://support.sas.com/documentation/
テキストをクリーニングし、その結果を確認するには、次のタスクを実行します。
-
本書のzipファイル内に含まれている類義語データセットを使用します。
-
SASコードノードと%TEXTSYNマクロを使用して、新しい類義語データセットを作成します。%TEXTSYNマクロはすべての語を評価することにより、スペルが誤っている語を自動的に特定し、正しいスペルの語を誤ったスペルの語に対応付ける類義語リストを作成します。
-
マージされた類義語データセットを使用して結果を確認します。