Информационный критерий Акаике

11.06.2021

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года.

Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимального правдоподобия. То есть стояла задача оценки переобучения модели. Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера), смог для ряда частных случаев получить искомую оценку.

Определение

В общем случае AIC:

A I C = 2 k − 2 ln ⁡ ( L ) {displaystyle {mathit {AIC}}=2k-2ln(L)} ,

где k {displaystyle k} — число параметров в статистической модели, L {displaystyle L} — максимизированное значение функции правдоподобия модели.

Далее будем полагать, что ошибки модели нормально и независимо распределены. Пусть n {displaystyle n} — число наблюдений, а остаточная сумма квадратов

R S S = ∑ i = 1 n ε ^ i 2 . {displaystyle {mathit {RSS}}=sum _{i=1}^{n}{hat {varepsilon }}_{i}^{2}.}

Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех них. Следовательно:

A I C = 2 k + n [ ln ⁡ ( 2 π R S S / n ) + 1 ] . {displaystyle {mathit {AIC}}=2k+n[ln(2pi {mathit {RSS}}/n)+1],.}

В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от n {displaystyle n} :

A I C = 2 k + n [ ln ⁡ ( R S S ) ] . {displaystyle {mathit {AIC}}=2k+n[ln({mathit {RSS}})],.}

Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (SIC) штрафует свободные параметры в большей мере.

Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.

Применимость к настройке по χ 2 {displaystyle chi ^{2}} (максимуму правдоподобия)

Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию χ 2 {displaystyle chi ^{2}} .

Для таких случаев можно приспособить AIC. В рамках статьи назовем его A I C χ 2 {displaystyle AIC_{chi ^{2}}} . От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.

Для приближения χ 2 {displaystyle chi ^{2}} функция правдоподобия определяется следующим образом:

L = ∏ i = 1 n ( 1 2 π σ i 2 ) 1 / 2 exp ⁡ ( − ∑ i = 1 n ( y i − f ( x ) ) 2 2 σ i 2 ) {displaystyle L=prod _{i=1}^{n}left({frac {1}{2pi sigma _{i}^{2}}} ight)^{1/2}exp left(-sum _{i=1}^{n}{frac {(y_{i}-f(mathbf {x} ))^{2}}{2sigma _{i}^{2}}} ight)} ∴ ln ⁡ L = ln ⁡ ( ∏ i = 1 n ( 1 2 π σ i 2 ) 1 / 2 ) − 1 2 ∑ i = 1 n ( y i − f ( x ) ) 2 σ i 2 {displaystyle herefore ln L=ln left(prod _{i=1}^{n}left({frac {1}{2pi sigma _{i}^{2}}} ight)^{1/2} ight)-{frac {1}{2}}sum _{i=1}^{n}{frac {(y_{i}-f(mathbf {x} ))^{2}}{sigma _{i}^{2}}}} ∴ ln ⁡ L = C − χ 2 / 2 {displaystyle herefore ln L=C-chi ^{2}/2} ,

где C {displaystyle C} — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.

Таким образом: A I C = 2 k − 2 ln ⁡ ( L ) = 2 k − 2 ( C − χ 2 / 2 ) = 2 k − 2 C + χ 2 {displaystyle AIC=2k-2ln(L)=2k-2(C-chi ^{2}/2)=2k-2C+chi ^{2}} . Исключая константу:

A I C χ 2 = χ 2 + 2 k . {displaystyle AIC_{chi ^{2}}=chi ^{2}+2k.}

Эта форма критерия часто удобна, если мы уже вычислили χ 2 {displaystyle chi ^{2}} как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением A I C χ 2 {displaystyle AIC_{chi ^{2}}} .

Аналогично, если имеется вычисленная статистика R 2 {displaystyle R^{2}} («Объясненная дисперсия»), можно записать:

A I C R 2 = n ln ⁡ 1 − R 2 n + 2 k .   {displaystyle AIC_{R^{2}}=nln {frac {1-R^{2}}{n}}+2k. }