이전 페이지|다음 페이지

정보 이득 및 이득비 계산

빠른 성장 속성을 사용하도록 설정하면 노드 분할을 결정하는 데 정보 이득 대신 정보 이득비가 부분적으로 사용됩니다. 이 섹션에서는 정보 이득과 정보 이득비 계산, 그리고 각각의 장점과 단점에 대해 설명합니다. 이러한 설명에서 분류 변수의 특정 측도 레벨 또는 측도 변수의 구간은 속성으로 간주됩니다.
정보 이득 방법은 정보 이득이 가장 큰 속성에 따라 분할을 선택합니다. 이득은 비트 단위로 측정됩니다. 이 방법이 적합한 결과를 제공하기는 하지만 속성 수가 많은 변수를 기준으로 분할하는 경향이 있습니다. 정보 이득비 방법은 실질적으로 분할에 유용한 정보 이득의 비율을 결정할 때 해당 분할의 값을 함께 고려합니다. 그 결과, 정보 이득비가 가장 큰 분할이 선택됩니다.
정보 이득 계산은 분석용 데이터 정보를 결정하면서 시작됩니다. 반응값 r의 정보는 다음과 같은 표현식으로 계산됩니다.
T는 분석 데이터를 나타내고 |T|는 관측치의 개수입니다. 분석 데이터의 예상 정보를 파악하려면 가능한 모든 반응값에 대한 이 표현식의 합계를 구하면 됩니다.
여기서 n은 반응값의 총 개수입니다. 이 값을 분석 데이터의 엔트로피라고 합니다.
그 다음으로, 변수 X에 대한 분할인 S를 고려하고, 이때 m은 가능한 속성의 개수입니다. 해당 분할을 통해 제공되는 예상 정보는 다음과 같은 식으로 계산됩니다.
이 식에서 Tj 부분은 j번째 속성이 포함된 관측치를 나타냅니다.
분할 S의 정보 이득은 다음과 같은 식으로 계산됩니다.
정보 이득비는 여기에 분할 정보 값을 도입하여 정보 이득 계산을 수정합니다. 분할 정보는 다음과 같은 식으로 계산됩니다.
이름에서 알 수 있듯이 정보 이득비는 분할 정보에 대한 정보 이득의 비율입니다.
이전 페이지|다음 페이지|페이지 위