의사결정트리 작업

의사결정트리 정보

의사결정트리에서는 하나 이상의 예측변수 데이터 항목 값을 사용하여 타겟 데이터 항목의 값을 예측합니다. 의사결정트리에는 일련의 노드가 트리로 표시됩니다. 여기서 최상위 노드는 타겟 데이터 항목이고, 트리의 각 가지는 예측변수 데이터 항목 값의 분할을 나타냅니다. 의사결정트리를 분류 및 회귀 트리라고도 합니다.

의사결정트리 예

트리의 각 가지에는 가지에 대한 예측변수 이름이 분할 맨 위에 표시됩니다. 가지의 두께는 각 노드와 연결된 값 개수를 나타냅니다. 각 노드에 대한 예측변수 값은 노드 위에 표시됩니다.

트리의 각 노드에서 노드의 데이터는 히스토그램(타겟에 연속 데이터가 포함된 경우)이나 막대 그래프(타겟에 이산 데이터가 포함된 경우)로 표시됩니다. 각 노드의 히스토그램이나 막대 그래프에는 트리 분할로 선택된 타겟 데이터 항목의 값이 표시됩니다. 노드 오른쪽 위의 숫자는 막대 그래프나 히스토그램의 가장 큰 값 또는 빈도를 나타냅니다. 각 노드 맨 아래에는 노드의 총 데이터 값 수(개수)가 표시됩니다.

SAS Visual Analytics의 의사결정트리에서는 수정된 C4.5 알고리즘 버전을 사용합니다.

의사결정트리에 대한 상세 정보 테이블에는 두 개의 추가 데이터 칼럼, 즉 노드 ID와 상위 ID가 포함됩니다. 노드 ID는 트리의 각 노드에 대해 고유 값을 지정합니다. 상위 ID는 상위 노드의 ID를 지정합니다.

의사결정트리에 대한 데이터 역할

의사결정트리에 대한 기본 데이터 역할은 다음과 같습니다.

타겟

의사결정트리에 대한 타겟을 지정합니다. 모든 범주나 측도를 지정할 수 있습니다. 그러면 의사결정트리가 타겟 데이터 항목의 값을 예측하려고 시도합니다. 트리의 각 노드 내에 있는 막대 그래프나 히스토그램에는 타겟 데이터 항목에 대한 값의 빈도가 표시됩니다.

예측변수

의사결정트리에 대한 예측변수를 지정합니다. 하나 이상의 범주나 측도를 예측변수로 지정할 수 있습니다. 예측변수 데이터 항목의 값은 트리의 노드 위에 표시됩니다. 예측변수 리스트에 있는 데이터 항목의 순서는 트리에 영향을 주지 않습니다.

주: 예측변수가 트리의 예측 정확도에 기여하지 않으면 트리에서 사용되지 않습니다.

의사결정트리에 대한 속성 지정

속성 탭에서 다음과 같은 옵션을 지정할 수 있습니다.

이름

시각화의 이름을 지정합니다.

제목

그래프 위에 나타나는 제목을 지정합니다.

주: 그래프 제목 생성을 선택하면 제목 옵션이 비활성화됩니다.

그래프 제목 생성

시각화에 있는 데이터 항목을 기준으로 그래프 제목이 자동으로 생성되도록 지정합니다.

결측 포함

결측값이 트리에 포함되는지 여부를 지정합니다.

빈도

각 노드의 빈도 값이 개수로 표시되는지(개수) 아니면 백분율로 표시되는지(백분율) 지정합니다.

주: 빈도 값은 필터 및 기타 데이터 선택 사항이 적용된 후 시각화에 표시되는 데이터를 기반으로 합니다.

생성 방법

의사결정트리를 생성하는 데 사용되는 파라미터를 지정합니다. 다음 값 중 하나를 선택합니다.

기본

분할당 가지는 최대 2개가, 레벨은 최대 6개가 있는 단순 트리를 지정합니다. 자세한 내용은 기본 및 고급 생성 방법에 대한 파라미터 값를 참조하십시오.

고급

분할당 가지는 최대 4개가, 레벨은 최대 6개가 있는 복합 트리를 지정합니다. 자세한 내용은 기본 및 고급 생성 방법에 대한 파라미터 값를 참조하십시오.

전문

각 전문 파라미터에 대한 값을 선택할 수 있습니다.

전문을 생성 방법에 대한 값으로 선택하면 다음과 같은 옵션이 추가로 나타납니다.

최대 가지

각 노드 분할에 대한 최대 가지 수를 지정합니다.

최대 레벨

트리의 최대 레벨 수를 지정합니다.

리프 크기

각 노드에 대한 최소 값 수(개수)를 지정합니다.

타겟 구간

타겟 데이터 항목에 사용되는 구간 수를 지정합니다.

주: 타겟 데이터 항목에 이산 데이터가 포함된 경우에는 이 옵션을 선택해도 효과가 없습니다.

예측변수 구간

예측변수 데이터 항목에 사용되는 구간 수를 지정합니다.

주: 예측변수 데이터 항목에 이산 데이터가 포함된 경우에는 이 옵션을 선택해도 효과가 없습니다.

가지치기

트리에 적용되는 가지치기 레벨을 지정합니다. 가지치기는 트리의 예측 정확도에 가장 적게 기여하는 리프와 가지를 제거합니다. 약 가지치기 값이 높을수록 트리에서 제거되는 리프와 가지가 감소합니다. 강 가지치기 값이 높을수록 트리에서 제거되는 리프와 가지가 증가합니다.

예측변수 재사용

트리에서 예측변수를 두 번 이상 사용할 수 있도록 지정합니다.

다음 파라미터 값은 기본 및 고급 생성 방법에 사용됩니다.

기본 및 고급 생성 방법에 대한 파라미터 값
속성	기본 값	고급 값
최대 가지	2	4
최대 레벨	6	6
리프 크기	1	1
타겟 구간	10	10
예측변수 구간	2	10
예측변수 재사용	아니요	예

새로운 시각화로 나타나는 노드 탐색

트리의 각 노드에 대해 새로운 히스토그램 또는 막대 그래프 시각화로 나타나는 데이터 값을 탐색할 수 있습니다. 트리에 대해 새로운 시각화를 생성하려면 노드를 마우스 오른쪽 버튼으로 클릭한 다음, 노드로부터 시각화 생성을 선택합니다. 새로운 시각화가 나타납니다.

주: 히스토그램을 표시하는 노드에서 시각화를 생성하면 새로운 히스토그램은 의사결정트리에 표시되는 히스토그램과 시각적으로 다를 수 있습니다. 예를 들어, X축에 있는 데이터의 구간과 범위가 다를 수 있습니다. 하지만 두 히스토그램은 정확히 동일한 데이터를 사용합니다.

의사결정트리에서 데이터 항목 계산

계산된 데이터 항목을 생성하여 의사결정트리의 결과를 나타낼 수 있습니다. 계산된 데이터 항목은 노드 ID에 해당하는 값을 생성합니다. 노드 ID는 의사결정트리에 대한 상세 정보 테이블에 표시됩니다.

필터에서 계산된 데이터 항목을 사용하여 다른 시각화 유형의 의사결정트리 노드에 대한 값을 선택할 수 있습니다.

의사결정트리에서 데이터 항목을 계산하는 방법:

시각화 도구 모음에서 드롭다운 리스트를 선택한 다음, 계산 항목 생성을 선택합니다.
새로운 계산 항목 창에 계산 항목에 대한 이름을 입력합니다.
확인을 클릭하여 새로운 항목을 생성합니다.

개요 표시

대규모 의사결정트리의 경우, 개요를 사용하여 표시되는 트리 부분을 선택할 수 있습니다.

개요를 표시하려면 시각화 도구 모음에서

드롭다운 리스트를 선택한 다음, 개요 표시를 선택합니다.

의사결정트리 확대/축소

다음 컨트롤 중 하나를 사용하여 의사결정트리를 확대/축소할 수 있습니다.

개요에서 표시할 의사결정트리 부분 선택
마우스 휠을 시각화 위로 스크롤하여 커서 위치에서 확대 또는 축소

주: 타겟에 이산 데이터가 포함된 경우, 의사결정트리를 축소하면 각 노드에 해당 노드에서 가장 큰 값에 대한 막대 하나가 표시됩니다.

의사결정트리를 확대하여 스크롤 막대가 표시되면 Shift 및 Alt 키를 누른 채 의사결정트리를 끌어 위치를 변경할 수 있습니다.

의사결정트리 이동(스크롤)

다음 컨트롤 중 하나를 사용하여 의사결정트리를 이동(스크롤)할 수 있습니다.

개요에서 선택 상자 끌기
Shift 키를 누른 상태로 의사결정트리 끌기