pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠžΡ†Π΅Π½ΠΊΠ° качСства Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… классификации ΠΈ рСгрСссии

Π’ машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ ΠΎΡ†Π΅Π½ΠΊΠΈ качСства для Π·Π°Π΄Π°Ρ‡ΠΈ классификации ΠΈ рСгрСссии. ΠŸΡ€ΠΈΡ‡Π΅ΠΌ ΠΎΡ†Π΅Π½ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ классификации часто Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ слоТнСС, Ρ‡Π΅ΠΌ ΠΎΡ†Π΅Π½ΠΊΠ° рСгрСссии.

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

ΠžΡ†Π΅Π½ΠΊΠΈ качСства классификации [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° ошибок (Π°Π½Π³Π». Π‘onfusion matrix) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠŸΠ΅Ρ€Π΅Π΄ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΎΠΌ ΠΊ самим ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ввСсти Π²Π°ΠΆΠ½ΡƒΡŽ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΡŽ для описания этих ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Π² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Ρ… ошибок классификации β€” confusion matrix (ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° ошибок). Допустим, Ρ‡Ρ‚ΠΎ Ρƒ нас Π΅ΡΡ‚ΡŒ Π΄Π²Π° класса [math]y = \< 0, 1 \>[/math] ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· классов. Рассмотрим ΠΏΡ€ΠΈΠΌΠ΅Ρ€. ΠŸΡƒΡΡ‚ΡŒ Π±Π°Π½ΠΊ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ систСму классификации Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠΎΠ² Π½Π° крСдитоспособных ΠΈ нСкрСдитоспособных. ΠŸΡ€ΠΈ этом ΠΏΠ΅Ρ€Π²Ρ‹ΠΌ ΠΊΡ€Π΅Π΄ΠΈΡ‚ выдаётся, Π° Π²Ρ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ ΠΎΡ‚ΠΊΠ°Π·. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ нСкрСдитоспособного Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠ° ( [math]y = 1 [/math] ) ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ «ΡΠΈΠ³Π½Π°Π» Ρ‚Ρ€Π΅Π²ΠΎΠ³ΠΈ», ΡΠΎΠΎΠ±Ρ‰Π°ΡŽΡ‰ΠΈΠΉ ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… рисках.

Π›ΡŽΠ±ΠΎΠΉ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹ΠΉ классификатор ΡΠΎΠ²Π΅Ρ€ΡˆΠ°Π΅Ρ‚ ошибки. Π’ нашСм случаС Ρ‚Π°ΠΊΠΈΡ… ошибок ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π΄Π²Π΅:

НСслоТно ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ эти ошибки Π½Π΅Ρ€Π°Π²Π½ΠΎΡ†Π΅Π½Π½Ρ‹ ΠΏΠΎ связанным с Π½ΠΈΠΌΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°ΠΌ. Π’ случаС «Π»ΠΎΠΆΠ½ΠΎΠΉ Ρ‚Ρ€Π΅Π²ΠΎΠ³ΠΈ» ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π±Π°Π½ΠΊΠ° составят Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Ρ‹ ΠΏΠΎ Π½Π΅Π²Ρ‹Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΊΡ€Π΅Π΄ΠΈΡ‚Ρƒ (Ρ‚ΠΎΠ»ΡŒΠΊΠΎ упущСнная Π²Ρ‹Π³ΠΎΠ΄Π°). Π’ случаС «ΠΏΡ€ΠΎΠΏΡƒΡΠΊΠ° Ρ†Π΅Π»ΠΈ» ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡ‚Π΅Ρ€ΡΡ‚ΡŒ всю сумму Π²Ρ‹Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π°. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ систСмС Π²Π°ΠΆΠ½Π΅Π΅ Π½Π΅ Π΄ΠΎΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ «ΠΏΡ€ΠΎΠΏΡƒΡΠΊ Ρ†Π΅Π»ΠΈ», Ρ‡Π΅ΠΌ «Π»ΠΎΠΆΠ½ΡƒΡŽ Ρ‚Ρ€Π΅Π²ΠΎΠ³Ρƒ».

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ошибка I Ρ€ΠΎΠ΄Π°, ΠΈΠ»ΠΈ Π»ΠΎΠΆΠ½ΠΎ-ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ исход классификации, ΠΈΠΌΠ΅Π΅Ρ‚ мСсто, ΠΊΠΎΠ³Π΄Π° ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ наблюдСниС распознано модСлью ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅. Ошибкой II Ρ€ΠΎΠ΄Π°, ΠΈΠ»ΠΈ Π»ΠΎΠΆΠ½ΠΎ-ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ исходом классификации, Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ случай, ΠΊΠΎΠ³Π΄Π° ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ наблюдСниС распознано ΠΊΠ°ΠΊ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅. Поясним это с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ошибок классификации:

[math]y = 1[/math][math]y = 0[/math]
[math]a ( x ) = 1[/math]Π˜ΡΡ‚ΠΈΠ½Π½ΠΎ-ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (True Positive β€” TP)Π›ΠΎΠΆΠ½ΠΎ-ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (False Positive β€” FP)
[math]a ( x ) = 0[/math]Π›ΠΎΠΆΠ½ΠΎ-ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (False Negative β€” FN)Π˜ΡΡ‚ΠΈΠ½Π½ΠΎ-ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (True Negative β€” TN)

Π—Π΄Π΅ΡΡŒ [math]a ( x )[/math] β€” это ΠΎΡ‚Π²Π΅Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π΅, Π° [math]y [/math] β€” истинная ΠΌΠ΅Ρ‚ΠΊΠ° класса Π½Π° этом ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π΅. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ошибки классификации Π±Ρ‹Π²Π°ΡŽΡ‚ Π΄Π²ΡƒΡ… Π²ΠΈΠ΄ΠΎΠ²: False Negative (FN) ΠΈ False Positive (FP). P ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ Ρ‡Ρ‚ΠΎ классификатор опрСдСляСт класс ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (N β€” ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ). T Π·Π½Π°Ρ‡ΠΈΡ‚ Ρ‡Ρ‚ΠΎ класс прСдсказан ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ (соотвСтствСнно F β€” Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ). КаТдая строка Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ ошибок прСдставляСт спрогнозированный класс, Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ столбСц β€” фактичСский класс.

Π‘Π΅Π·ΡƒΠΏΡ€Π΅Ρ‡Π½Ρ‹ΠΉ классификатор ΠΈΠΌΠ΅Π» Π±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ истинно-ΠΏΠΎΠ»ΠΎΒ­ΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΈ истинно ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ классификации, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π΅Π³ΠΎ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° ошибок содСрТала Π±Ρ‹ Π½Π΅Π½ΡƒΠ»Π΅Π²Ρ‹Π΅ значСния Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° своСй Π³Π»Π°Π²Π½ΠΎΠΉ Π΄ΠΈΠ°Β­Π³ΠΎΠ½Π°Π»ΠΈ (ΠΎΡ‚ Π»Π΅Π²ΠΎΠ³ΠΎ Π²Π΅Ρ€Ρ…Π½Π΅Π³ΠΎ Π΄ΠΎ ΠΏΡ€Π°Π²ΠΎΠ³ΠΎ Π½ΠΈΠΆΠ½Π΅Π³ΠΎ ΡƒΠ³Π»Π°):

ΠΠΊΠΊΡƒΡ€Π°Ρ‚Π½ΠΎΡΡ‚ΡŒ (Π°Π½Π³Π». Accuracy) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Π˜Π½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ понятной, ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎΠΉ ΠΈ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΎΠΉ являСтся accuracy β€” доля ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°:

Π­Ρ‚Π° ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° бСсполСзна Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… с Π½Π΅Ρ€Π°Π²Π½Ρ‹ΠΌΠΈ классами, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΊ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² сэмплирования ΠΈ это Π»Π΅Π³ΠΊΠΎ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅.

Допустим, ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ спам-Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π° ΠΏΠΎΡ‡Ρ‚Ρ‹. Π£ нас Π΅ΡΡ‚ΡŒ 100 Π½Π΅-спам писСм, 90 ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… наш классификатор ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ» Π²Π΅Ρ€Π½ΠΎ (True Negative = 90, False Positive = 10), ΠΈ 10 спам-писСм, 5 ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… классификатор Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ» Π²Π΅Ρ€Π½ΠΎ (True Positive = 5, False Negative = 5). Π’ΠΎΠ³Π΄Π° accuracy:

[math] accuracy = \dfrac<5+90> <5+90+10+5>= 86,4 [/math]

Однако Ссли ΠΌΡ‹ просто Π±ΡƒΠ΄Π΅ΠΌ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ всС письма ΠΊΠ°ΠΊ Π½Π΅-спам, Ρ‚ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ Π±ΠΎΠ»Π΅Π΅ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Π°ΠΊΠΊΡƒΡ€Π°Ρ‚Π½ΠΎΡΡ‚ΡŒ:

[math] accuracy = \dfrac<0+100> <0+100+0+10>= 90,9 [/math]

ΠŸΡ€ΠΈ этом, наша модСль ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Π½Π΅ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ Π½ΠΈΠΊΠ°ΠΊΠΎΠΉ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ силой, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ ΠΌΡ‹ Ρ…ΠΎΡ‚Π΅Π»ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ письма со спамом. ΠŸΡ€Π΅ΠΎΠ΄ΠΎΠ»Π΅Ρ‚ΡŒ это Π½Π°ΠΌ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ с ΠΎΠ±Ρ‰Π΅ΠΉ для всСх классов ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΊ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌ показатСлям качСства классов.

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (Π°Π½Π³Π». Precision) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ (precision) называСтся доля ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… класса β€” это доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… Π΄Π°Π½Π½ΠΎΠΌΡƒ классу ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ всСх ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ систСма отнСсла ΠΊ этому классу.

[math] Precision = \dfrac [/math]

ИмСнно Π²Π²Π΅Π΄Π΅Π½ΠΈΠ΅ precision Π½Π΅ позволяСт Π½Π°ΠΌ Π·Π°ΠΏΠΈΡΡ‹Π²Π°Ρ‚ΡŒ всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² ΠΎΠ΄ΠΈΠ½ класс, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π² этом случаС ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ рост уровня False Positive.

ΠŸΠΎΠ»Π½ΠΎΡ‚Π° (Π°Π½Π³Π». Recall) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

ΠŸΠΎΠ»Π½ΠΎΡ‚Π° β€” это доля истинно ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… классификаций. ΠŸΠΎΠ»Π½ΠΎΡ‚Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, ΠΊΠ°ΠΊΡƒΡŽ долю ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², Ρ€Π΅Π°Π»ΡŒΠ½ΠΎ относящихся ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ классу, ΠΌΡ‹ прСдсказали Π²Π΅Ρ€Π½ΠΎ.

[math] Recall = \dfrac [/math]

ΠŸΠΎΠ»Π½ΠΎΡ‚Π° (recall) дСмонстрируСт ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹ΠΉ класс Π²ΠΎΠΎΠ±Ρ‰Π΅.

ИмСя ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ ошибок, ΠΎΡ‡Π΅Π½ΡŒ просто ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρƒ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ класса. Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (precision) равняСтся ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ диагонального элСмСнта ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΈ суммы всСй строки класса. ΠŸΠΎΠ»Π½ΠΎΡ‚Π° (recall) β€” ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ диагонального элСмСнта ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΈ суммы всСго столбца класса. Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ:

Π Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ классификатора рассчитываСтся ΠΊΠ°ΠΊ арифмСтичСскоС срСднСС Π΅Π³ΠΎ точности ΠΏΠΎ всСм классам. Π’ΠΎ ΠΆΠ΅ самоС с ΠΏΠΎΠ»Π½ΠΎΡ‚ΠΎΠΉ. ВСхничСски этот ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ называСтся macro-averaging.

F-ΠΌΠ΅Ρ€Π° (Π°Π½Π³Π». F-score) [ ΠΏΡ€Π°Π²ΠΈΡ‚ΡŒ ]

Precision ΠΈ recall Π½Π΅ зависят, Π² ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ accuracy, ΠΎΡ‚ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ классов ΠΈ ΠΏΠΎΡ‚ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌΡ‹ Π² условиях нСсбалансированных Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ. Часто Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ стоит Π·Π°Π΄Π°Ρ‡Π° Π½Π°ΠΉΡ‚ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ (для Π·Π°ΠΊΠ°Π·Ρ‡ΠΈΠΊΠ°) баланс ΠΌΠ΅ΠΆΠ΄Ρƒ этими двумя ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌΠΈ. ΠŸΠΎΠ½ΡΡ‚Π½ΠΎ Ρ‡Ρ‚ΠΎ Ρ‡Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π°, Ρ‚Π΅ΠΌ Π»ΡƒΡ‡ΡˆΠ΅. Но Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ ΠΆΠΈΠ·Π½ΠΈ максимальная Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π° Π½Π΅ достиТимы ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΈ приходится ΠΈΡΠΊΠ°Ρ‚ΡŒ Π½Π΅ΠΊΠΈΠΉ баланс. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, Ρ…ΠΎΡ‚Π΅Π»ΠΎΡΡŒ Π±Ρ‹ ΠΈΠΌΠ΅Ρ‚ΡŒ Π½Π΅ΠΊΡƒΡŽ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ которая объСдиняла Π±Ρ‹ Π² сСбС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅ нашСго Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°. Π’ этом случаС Π½Π°ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΡ‰Π΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ Ρ‚ΠΎΠΌ ΠΊΠ°ΠΊΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ Π² производство (Ρƒ ΠΊΠΎΠ³ΠΎ большС Ρ‚ΠΎΡ‚ ΠΈ ΠΊΡ€ΡƒΡ‡Π΅). ИмСнно Ρ‚Π°ΠΊΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΎΠΉ являСтся F-ΠΌΠ΅Ρ€Π°.

F-ΠΌΠ΅Ρ€Π° прСдставляСт собой гармоничСскоС срСднСС ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚ΠΎΠΉ. Она стрСмится ΠΊ Π½ΡƒΠ»ΡŽ, Ссли Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π° стрСмится ΠΊ Π½ΡƒΠ»ΡŽ.

Данная Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° ΠΏΡ€ΠΈΠ΄Π°Π΅Ρ‚ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΉ вСс точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅, поэтому F-ΠΌΠ΅Ρ€Π° Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠ°Π΄Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ ΠΏΡ€ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ ΠΈ точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹. Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ F-ΠΌΠ΅Ρ€Ρƒ ΠΏΡ€ΠΈΠ΄Π°Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΉ вСс точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅, Ссли Π²Ρ‹ осознанно ΠΎΡ‚Π΄Π°Π΅Ρ‚Π΅ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· этих ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ ΠΏΡ€ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°:

Π³Π΄Π΅ [math]Ξ²[/math] ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ значСния Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π΅ [math]0\lt Ξ²\lt 1[/math] Ссли Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΎΡ‚Π΄Π°Ρ‚ΡŒ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ точности, Π° ΠΏΡ€ΠΈ [math]Ξ²\gt 1[/math] ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ отдаСтся ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅. ΠŸΡ€ΠΈ [math]Ξ²=1[/math] Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° сводится ΠΊ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ ΠΈ Π²Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚Π΅ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ F-ΠΌΠ΅Ρ€Ρƒ (Ρ‚Π°ΠΊΠΆΠ΅ Π΅Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ [math]F_1[/math] ).

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ: precision, recall ΠΈ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ

ΠŸΠΎΡ‡Π΅ΠΌΡƒ я это написал. Π”ΠΎΠ»Π³ΠΎΠ΅ врСмя я Π±Ρ‹Π» бэкэнд Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠΌ. Вращался срСди ΠΊΠΎΠ»Π»Π΅Π³ ΠΈ прСкрасно ΠΈΡ… ΠΏΠΎΠ½ΠΈΠΌΠ°Π». Но бэкСнд Π½ΡƒΠΆΠ΅Π½ ΠΈ людям, Π·Π°Π½ΠΈΠΌΠ°ΡŽΡ‰ΠΈΠΌΡΡ ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ. Π’ ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ ΠΌΠΎΠΌΠ΅Π½Ρ‚ я ΠΏΠΎΠΏΠ°Π» Π² ΠΈΡ… Π»ΠΎΠ³ΠΎΠ²ΠΎ. И Π²ΠΎΡ‚ Ρ‚ΡƒΡ‚ я поднял, Ρ‡Ρ‚ΠΎ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ понимаю ΠΈΡ… язык. Π”ΡƒΠΌΠ°ΡŽ, Ρ‡Ρ‚ΠΎ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ я оказывался Π² Ρ‚Π°ΠΊΠΎΠΉ ситуации, поэтому сСйчас расскаТу всё понятными словами для Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… людСй.

НСмного ΠΏΡ€ΠΎ машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ML Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ всСго с нСсколькими Π²Π΅Ρ‰Π°ΠΌΠΈ:

ΠŸΡ€ΠΈΠ²Π΅Π΄Ρƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€. Допустим Ρƒ вас Π΅ΡΡ‚ΡŒ яблоня. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Π³ΠΎΠ΄ Π²Ρ‹ Π»ΠΎΠΌΠ°Π΅Ρ‚Π΅ Π³ΠΎΠ»ΠΎΠ²Ρƒ, ΠΎΠΏΡ€Ρ‹ΡΠΊΠΈΠ²Π°Ρ‚ΡŒ Π»ΠΈ Π΅Ρ‘ ΠΎΡ‚ долгоносика. РСшили ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ модСль, Ρ‡Ρ‚ΠΎ ΠΎΠ½Π° Π²Π°ΠΌ прСдсказывала Π½Π°ΡˆΠ΅ΡΡ‚Π²ΠΈΡ долгоносика.

Π”Π°Π½Π½Ρ‹Π΅: Допустим, Π²Ρ‹ Π·Π½Π°Π΅Ρ‚Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ вСсСнниС Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ Π² Π²ΠΈΠ΄Π΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ числа. (НС Π²Π°ΠΆΠ½ΠΎ, Ρ‡Ρ‚ΠΎ это, допустим, просто срСдняя Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π°.) Π’ΠΎ Π΅ΡΡ‚ΡŒ Ρƒ вас Π΅ΡΡ‚ΡŒ ΠΎΠ΄Π½Π° Ρ„ΠΈΡ‡Π° β€” Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π°.

Π Π°Π·ΠΌΠ΅Ρ‚ΠΊΠ° Π£ вас Π΅ΡΡ‚ΡŒ ΠΆΡƒΡ€Π½Π°Π» ΠΏΠΎ Π³ΠΎΠ΄Π°ΠΌ, Π³Π΄Π΅ ΠΎΡ‚ΠΌΠ΅Ρ‡Π΅Π½ΠΎ, Π±Ρ‹Π» долгоносик ΠΈΠ»ΠΈ Π½Π΅Ρ‚. Π’ΠΎ Π΅ΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π΅ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΡΠΎΠΏΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ «ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ» ΠΎΡ‚Π²Π΅Ρ‚. ΠžΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΈ Ρ‚ΠΎΠΉ ΠΆΠ΅ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ нСсколько ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ², ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ (Π·Π° Ρ€Π°Π·Π½Ρ‹Π΅ Π³ΠΎΠ΄Ρ‹).

МодСль ΠŸΡƒΡΡ‚ΡŒ Ρƒ нас Π±ΡƒΠ΄Π΅Ρ‚ модСль с ΠΎΠ΄Π½ΠΈΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ: ΠΏΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π½ΠΎΠΉ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€ΠΎΠΉ. МодСль Π±ΡƒΠ΄Π΅Ρ‚ просто Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ «Π΄Π°», Ссли Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° Π²Ρ‹ΡˆΠ΅ ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ Ρ‡Π΅Ρ€Ρ‚Ρ‹ ΠΈ «Π½Π΅Ρ‚» β€” Ссли Π½ΠΈΠΆΠ΅. МоТно Π±Ρ‹Π»ΠΎ Π±Ρ‹ ΠΏΡ€ΠΈΠ΄ΡƒΠΌΠ°Ρ‚ΡŒ модСль с двумя ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ (ΠΎΠ½Π° Π±Ρ‹ смотрСла Π½Π° ΠΈΠ½Ρ‚Π΅Ρ€Π²Π°Π»), ΠΈΠ»ΠΈ Π΅Ρ‰Ρ‘ слоТнСС, Π½ΠΎ ΠΌΡ‹ сСйчас Π²ΠΎΠ·ΡŒΠΌΡ‘ΠΌ ΡΠ°ΠΌΡƒΡŽ ΠΏΡ€ΠΎΡΡ‚ΡƒΡŽ, для наглядности.

ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡ Если ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ модСль ΠΊ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π°ΠΌ (Ρ„ΠΈΡ‡Π°ΠΌ), Ρ‚ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ прСдсказания.

НСмного кода

Π§Ρ‚ΠΎΠ±Ρ‹ Π±Ρ‹Π»ΠΎ с Ρ‡Π΅ΠΌ ΠΈΠ³Ρ€Π°Ρ‚ΡŒ, Π²ΠΎΡ‚ Π²Π°ΠΌ ΠΊΠΎΠ΄. Π’ΡƒΡ‚ Π΅ΡΡ‚ΡŒ ΠΈ Π΄Π°Π½Π½Ρ‹Π΅, ΠΈ модСль, ΠΈ всё ΠΎ Ρ‡Ρ‘ΠΌ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ.

Если это Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ, Ρ‚ΠΎ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ для Ρ€Π°Π·Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

T β€” это ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’ΠΎ Π΅ΡΡ‚ΡŒ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ, фактичСски, для 10 Ρ€Π°Π·Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Если Ρ€Π°ΡΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ dump() Ρ‚ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ Π²ΠΈΠ΄Π½Π° Π΄Π΅Ρ‚Π°Π»ΡŒΠ½Π°Ρ информация.

БСйчас ΠΌΡ‹ со всСм разбСрёмся.

TP, TN, FP, FN ΠΈ Π΄Ρ€ΡƒΠ³Π΅ Π±ΡƒΠΊΠ²Ρ‹

Когда люди Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ ΠΆΠΎΠ½Π³Π»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ этими Π±ΡƒΠΊΠ²Π°ΠΌΠΈ, с Π½Π΅ΠΏΡ€ΠΈΠ²Ρ‹Ρ‡ΠΊΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ‡Π΅Π½ΡŒ Π»Π΅Π³ΠΊΠΎ Π·Π°ΠΏΡƒΡ‚Π°Ρ‚ΡŒΡΡ ΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡΡ‚ΡŒ Π½ΠΈΡ‚ΡŒ. Π§Ρ‚ΠΎΠ±Ρ‹ всё встало Π½Π° свои мСста, Π½Π°ΠΌ понадобится Π΅Ρ‰Ρ‘ нСсколько Π±ΡƒΠΊΠ² ΠΈ ΠΏΠ°Ρ€Π° ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ.

Π”Π°Π²Π°ΠΉΡ‚Π΅ посмотрим Π½Π° Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ (Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΡƒ, фактичСскиС наблюдСния). Π’Π²Π΅Π΄Ρ‘ΠΌ Π΄Π²Π΅ Π±ΡƒΠΊΠ²Ρ‹:

Π’Π΅ΠΏΠ΅Ρ€ΡŒ посмотрим Π½Π° ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π—Π΄Π΅ΡΡŒ Ρ‚ΠΎΠΆΠ΅ Π΅ΡΡ‚ΡŒ positive ΠΈ negative, Π½ΠΎ ΠΈΡ… сразу ΠΆΠ΅ дСлят Π½Π° Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹:

Π’ΡƒΡ‚ Π²Π°ΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ½ΠΈΠΊΠ½ΡƒΡ‚ΡŒΡΡ простыми ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡΠΌΠΈ:

ΠžΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚Π΅ΡΡŒ Ρ‚ΡƒΡ‚ ΠΈ ΠΏΠΎΠ΄ΡƒΠΌΠ°ΠΉΡ‚Π΅ ΠΌΠΈΠ½ΡƒΡ‚Ρƒ.

Ну ΠΈ, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, ясно Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ TP+FP (это всС ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ «Π΄Π°», ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ ΠΎΡ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ) ΠΈ NT+FN (всС ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ «Π½Π΅Ρ‚»).

Π¦Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ

Π£ нас появились ΠΏΠ΅Ρ€Π²Ρ‹Π΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ. Π”Π°Π²Π°ΠΉΡ‚Π΅ посмотрим, Π½Π° сколько ΠΎΠ½ΠΈ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹.

Аналогично Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ Ρ‚Ρ€ΠΈ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ. НуТно Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΡˆΠ΅.

Accuracy

ΠŸΠ΅Ρ€Π²ΠΎΠ΅, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΡ‚ Π² Π³ΠΎΠ»ΠΎΠ²Ρƒ: Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΏΠΎΠ΄Π΅Π»ΠΈΠΌ всС ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π½Π° всС Π²ΠΎΠΎΠ±Ρ‰Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹.

Вакая ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΡƒΠΆΠ΅ Π»ΡƒΡ‡ΡˆΠ΅, Ρ‡Π΅ΠΌ Π½ΠΈΡ‡Π΅Π³ΠΎ, Π½ΠΎ всё ΠΆΠ΅, ΠΎΠ½Π° ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠ»ΠΎΡ…Π°. Π”Π°ΠΆΠ΅ Π² ΠΌΠΎΡ‘ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ (хотя я Π½Π΅ подгонял ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ числа) Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ, с ΠΎΠ΄Π½ΠΎΠΉ стороны, Ρ€Π°Π·ΡƒΠΌΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, ΠΎΠ΄Π½Π°ΠΊΠΎ, ΠΏΠΎΠ±Π΅ΠΆΠ΄Π°Π΅Ρ‚ ΠΏΠΎ точности просто самая пСссимистичная модСль.

Π’Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΠΎΠΈΠ³Ρ€Π°Ρ‚ΡŒΡΡ с Π΄Π°Π½Π½Ρ‹ΠΌΠΈ ΠΈ ΠΏΠΎΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ, ΠΊΠ°ΠΊ это происходит. Но ΠΏΠΎΠ½ΡΡ‚ΡŒ смысл ΠΎΡ‡Π΅Π½ΡŒ просто Π½Π° Π΄Ρ€ΡƒΠ³ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅. Допустим Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ зСмлСтрясСния (ΠΊΠ°ΠΊΠΎΠ΅-Ρ‚ΠΎ ΠΎΡ‡Π΅Π½ΡŒ Ρ€Π΅Π΄ΠΊΠΎΠ΅ явлСниС). Ясно, Ρ‡Ρ‚ΠΎ ΠΏΠΎ этой ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅ всСгда Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΠ±Π΅ΠΆΠ΄Π°Ρ‚ΡŒ модСль, которая Π΄Π°ΠΆΠ΅ Π½Π΅ пытаСтся Π½ΠΈΡ‡Π΅Π³ΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ, Π° просто Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ всСгда «Π½Π΅Ρ‚». Π’Π΅ ΠΆΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΡ‹Ρ‚Π°Ρ‚ΡŒΡΡ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΊΠΎΠ³Π΄Π°-Ρ‚ΠΎ «Π΄Π°», Π±ΡƒΠ΄ΡƒΡ‚ ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΡˆΠΈΠ±Π°Ρ‚ΡŒΡΡ Π² ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Π°Ρ… ΠΈ сразу ΠΆΠ΅ Ρ‚Π΅Ρ€ΡΡ‚ΡŒ ΠΎΡ‡ΠΊΠΈ.

ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, ΠΏΡ€ΠΎ эту ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ Π²Ρ‹, скорСС всСго, Π΄Π°ΠΆΠ΅ Π½Π΅ ΡƒΡΠ»Ρ‹ΡˆΠΈΡ‚Π΅ Π½ΠΈΠΊΠΎΠ³Π΄Π°. Π― Ρ‚ΡƒΡ‚ Π΅Ρ‘ упомянул Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ Π΅Ρ‘ Π½Π΅ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ, каТущСйся, логичности.

Precision, recall ΠΈ ΠΈΡ… Π΄Ρ€ΡƒΠ·ΡŒΡ

Π›ΠΈΡ‡Π½ΠΎ я Ρ‡Π°Ρ‰Π΅ всСго сталкивался ΠΈΠΌΠ΅Π½Π½ΠΎ с этими словами. ΠŸΡ€ΠΈ Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ, ΠΊΠ°ΠΊ ΠΌΠ½Π΅ каТСтся, это самыС Π½Π΅ΡƒΠ΄Π°Ρ‡Π½Ρ‹Π΅ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹. Π― Π±ΡƒΠ΄Ρƒ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ называния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅, ΠΊΠ°ΠΊ ΠΌΠ½Π΅ каТСтся, Π½Π° ΠΌΠ½ΠΎΠ³ΠΎ Π»ΡƒΡ‡ΡˆΠ΅ ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ ΡΡƒΡ‚ΡŒ.

Recall aka sensitivity, hit rate, or true positive rate (TPR)

МнС каТСтся, hit rate ΠΈ TPR Π»ΡƒΡ‡ΡˆΠ΅ всСго ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ ΡΡƒΡ‚ΡŒ. Π’ этой ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅ ΠΌΡ‹ рассматриваСм Ρ‚ΠΎΠ»ΡŒΠΊΠΎ P-случаи: ΠΊΠΎΠ³Π΄Π° Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… Π½Π°Π±Π»ΡŽΠ΄Π΅Π½ΠΈΡΡ… Π±Ρ‹Π»ΠΎ «Π΄Π°». И считаСм, ΠΊΠ°ΠΊΡƒΡŽ долю ΠΈΠ· этих случаСв модСль прСдсказала ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ.

ВсС случаи «Π½Π΅Ρ‚» ΠΌΡ‹ отбрасываСм.

Π£ recall Π΅ΡΡ‚ΡŒ Π±Ρ€Π°Ρ‚-Π±Π»ΠΈΠ·Π½Π΅Ρ†:

Specificity, selectivity or true negative rate (TNR)

Π’Π°ΠΆΠ½ΠΎ, Ρ‚Π°ΠΊ ΠΆΠ΅, Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ссли T ΠΈ P сильно ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ (ΠΊΠ°ΠΊ Π² ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ с зСмлСтрясСниями), Ρ‚ΠΎ ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ recall ΠΈ ΡΠΏΠ΅Ρ†ΠΈΡ„ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ Π½Π°Π΄ΠΎ ΠΎΡ‡Π΅Π½ΡŒ остороТно.

Precision aka positive predictive value (PPV)

Какая Ρ‡Π°ΡΡ‚ΡŒ Π½Π°ΡˆΠΈΡ… прСдсказаний «Π΄Π°» Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡΠ±Ρ‹Π»Π°ΡΡŒ:

НСдостатки этой ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹: ΠΎΠ½Π° Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½ΠΈΠΊΠ°ΠΊ Π½Π΅ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ прСдсказания «Π½Π΅Ρ‚». Из Π½Π°ΡˆΠΈΡ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ±Π΅ΠΆΠ΄Π°Π΅Ρ‚ модСль, которая ΠΏΠΎΡ‡Ρ‚ΠΈ всСгда Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ «Π½Π΅Ρ‚». Она ΠΊΠ°ΠΊ Π±Ρ‹ сниТаСт риск ΠΏΡ€ΠΎΠΈΠ³Ρ€Π°Ρ‚ΡŒ, выводя Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ своих ΠΎΡ‚Π²Π΅Ρ‚ Π·Π° Ρ€Π°ΠΌΠΊΠΈ рассмотрСния.

Π£ этой ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π΅ΡΡ‚ΡŒ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹ΠΉ Π±Π»ΠΈΠ·Π½Π΅Ρ†

Negative predictive value (NPV)

Какая Ρ‡Π°ΡΡ‚ΡŒ «Π½Π΅Ρ‚»-прСдсказаний ΡΠ±Ρ‹Π»Π°ΡΡŒ.

И Π΅Ρ‰Ρ‘ Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ

ΠŸΠ΅Ρ€Π΅Ρ‡ΠΈΡΠ»ΡŽ ΠΊΡ€Π°Ρ‚ΠΊΠΎ ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ. Π­Ρ‚ΠΎ Π΄Π°Π»Π΅ΠΊΠΎ Π½Π΅ всС ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅, Π° просто Π°Π½Π°Π»ΠΎΠ³ΠΈ Π²Ρ‹ΡˆΠ΅ΠΏΠ΅Ρ€Π΅Ρ‡ΠΈΡΠ»Π΅Π½Π½Ρ‹Ρ…, Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΎΠ².

Miss rate aka false negative rate (FNR)

Fall-out aka false positive rate (FPR)

False discovery rate (FDR)

False omission rate (FOR)

И Ρ‡Ρ‚ΠΎ ΠΆΠ΅ со всСм этим Π΄Π΅Π»Π°Ρ‚ΡŒ

Как Π²Ρ‹ ΡƒΠΆΠ΅ Π²ΠΈΠ΄Π΅Π»ΠΈ, каТдая ΠΈΠ· этих ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ рассматриваСт Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΊΠ°ΠΊΠΎΠ΅-Ρ‚ΠΎ подмноТСство прСдсказаний. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΈΡ… ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ ΡΠΎΠΌΠ½ΠΈΡ‚Π΅Π»ΡŒΠ½Π°.

Однако, ΠΈΡ… ΠΎΡ‡Π΅Π½ΡŒ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ для Π΄Π²ΡƒΡ… Π²Π΅Ρ‰Π΅ΠΉ:

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ я Ρ…ΠΎΡ‚Π΅Π» Π±Ρ‹ ΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ философском ΠΊΠ»ΡŽΡ‡Π΅.

Π”Π°Π²Π°ΠΉΡ‚Π΅ задумаСмся, Π° Ρ‡Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚ «ΠΎΠ΄Π½Π° модСль Π»ΡƒΡ‡ΡˆΠ΅ Π΄Ρ€ΡƒΠ³ΠΎΠΉ»? Π•Π΄ΠΈΠ½ΠΎΠ³ΠΎ ΠΎΡ‚Π²Π΅Ρ‚Π° Ρ‚ΡƒΡ‚ Π½Π΅Ρ‚.

Π’ нашСм ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ с долгоносиком всё зависит ΠΎΡ‚ Π½Π°ΡˆΠΈΡ… ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ΠΎΠ².

Если ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ Π½ΠΈ Π² ΠΊΠΎΠ΅ΠΌ случаС Π½Π΅ ΠΏΠΎΡ‚Π΅Ρ€ΡΡ‚ΡŒ ΡƒΡ€ΠΎΠΆΠ°ΠΉ, Ρ‚ΠΎ Π½Π°ΠΌ Π½Π°Π΄ΠΎ ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ TP любой Ρ†Π΅Π½ΠΎΠΉ. ЀактичСски, Π² ΠΏΡ€Π΅Π΄Π΅Π»ΡŒΠ½ΠΎΠΌ случаС, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹ΠΊΠΈΠ½ΡƒΡ‚ΡŒ Π»ΡŽΠ±Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ просто ΠΎΠΏΡ€Ρ‹ΡΠΊΠΈΠ²Π°Ρ‚ΡŒ Π΄Π΅Ρ€Π΅Π²ΠΎ Ρ…ΠΈΠΌΠΈΠΊΠ°Ρ‚Π°ΠΌΠΈ всСгда.

Π’ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ ΠΆΠ΅ ΠΆΠΈΠ·Π½ΠΈ, ΠΌΡ‹ ΠΈΡ‰Π΅ΠΌ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ компромисс. Π’ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… случаях ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Ρ‡Ρ‘Ρ‚ΠΊΠΎ сформулирован, с ΡƒΡ‡Ρ‘Ρ‚ΠΎΠΌ Ρ†Π΅Π½ Π½Π° Ρ…ΠΈΠΌΠΈΠΊΠ°Ρ‚Ρ‹, стоимости уроТая, Ρ€Π΅ΠΏΡƒΡ‚Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΈ ΠΏΡ€ΠΎΡ‡Π΅Π³ΠΎ.

НС Ρ€Π΅Π΄ΠΊΠΎ, люди ΠΏΡ€ΠΈΠ΄ΡƒΠΌΡ‹Π²Π°ΡŽΡ‚ собствСнныС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ. Но Π΅ΡΡ‚ΡŒ ΠΈ Π³ΠΎΡ‚ΠΎΠ²Ρ‹Π΅, ΠΏΡ€ΠΈΠ³ΠΎΠ΄Π½Ρ‹Π΅ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… случаях.

F1-score

Π­Ρ‚ΠΎ комбинация recall ΠΈ precision:

Но ΠΌΠ½Π΅ каТСтся, ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ этой Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ становится Π³ΠΎΡ€Π°Π·Π΄ΠΎ понятнСй, Ссли Π·Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ Π΅Ρ‘ Ρ‚Π°ΠΊ:

Π’ΠΎ Π΅ΡΡ‚ΡŒ, это гармоничСскоС срСднСС.

ΠœΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ F1-score ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ, Ссли ΠΈ recall, ΠΈ precision достаточно Π΄Π°Π»Π΅ΠΊΠΈ ΠΎΡ‚ нуля. Он позволяСт Π½Π°ΠΉΡ‚ΠΈ Π½Π΅ΠΊΠΎΠ΅ компромиссноС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, фактичСски, ΠΌΠ΅ΠΆΠ΄Ρƒ максимизациСй TP ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ шкалам.

Π­Ρ‚ΠΎ Π½Π΅ СдинствСнная возмоТная ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°. И Ρƒ Π½Π΅Ρ‘, ΠΊΠ°ΠΊ Π²Ρ‹ Π²ΠΈΠ΄ΠΈΡ‚Π΅, Ρ‚ΠΎΠΆΠ΅ Π΅ΡΡ‚ΡŒ Ρ‡Ρ‘Ρ‚ΠΊΠΈΠΉ фокус, Π° Π·Π½Π°Ρ‡ΠΈΡ‚ ΠΈ нСдостатки. Однако, Π΄Π°ΠΆΠ΅ Π΅Ρ‘ достаточно, Ρ‡Ρ‚ΠΎΠ±Ρ‹ срСди Π½Π°ΡˆΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π²Ρ‹ΠΈΠ³Ρ€Π°Π»Π° Ρ‚Π°, Ρƒ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ пограничная Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° Ρ€Π°Π²Π½Π° 4. Π”Π°Π²Π°ΠΉΡ‚Π΅ Π΅Ρ‰Ρ‘ Ρ€Π°Π· взглянСм Π½Π° сравнСниС всСх ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

И Π²ΠΎΡ‚ дСтализация ΠΏΠΎ этой ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ (с T=4):

Π’Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π²Π·ΡΡ‚ΡŒ ΠΌΠΎΠΉ ΠΊΠΎΠ΄, Ρ€Π°ΡΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ dump() ΠΈ ΠΏΠΎΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠΎ всСм модСлям.

НадСюсь, я ΠΏΡ€ΠΎΠ»ΠΈΠ» Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ свСт Π½Π° вопрос.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Анализ ΠΌΠ°Π»Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…

ΠšΠ²Π°Π·ΠΈΠΠ°ΡƒΡ‡Π½Ρ‹ΠΉ Π±Π»ΠΎΠ³ АлСксандра Π”ΡŒΡΠΊΠΎΠ½ΠΎΠ²Π°

ΠšΡ€ΠΈΠ²Ρ‹Π΅ Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π­Ρ‚ΠΎΡ‚ пост ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ Ρ‚Π΅ΠΌΡƒ ΠΎΡ†Π΅Π½ΠΊΠΈ качСства Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ классификации. Рассмотрим ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Β«ΠΏΠΎΠ»Π½ΠΎΡ‚Π°-Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΒ», Gain, Lift, K-S (machine learning curves) ΠΈ Ρ‚Π°Π±Π»ΠΈΡ†Ρƒ для Π°Π½Π°Π»ΠΈΠ·Π° доходности. Π‘Π°ΠΌΠΎΠ΅ Π³Π»Π°Π²Π½ΠΎΠ΅ β€” ΠΌΡ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠΌ всС ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Ρ‡Π΅Ρ€Π΅Π· ΡƒΠΆΠ΅ Π·Π½Π°ΠΊΠΎΠΌΡ‹Π΅ Π½Π°ΠΌ понятия, часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ Π² ML (Π° Π½Π΅ ΠΊΠ°ΠΊ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ: для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΡ€ΠΈΠ²ΠΎΠΉ придумываСтся своя тСрминология).

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠŸΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠ΅ посты Π² Π±Π»ΠΎΠ³Π΅ Π½Π° эту Ρ‚Π΅ΠΌΡƒ:

ΠœΡ‹ ΡƒΠΆΠ΅ описывали ROC-ΠΊΡ€ΠΈΠ²ΡƒΡŽ ΠΈ рассматривали ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒ ΠΏΠΎΠ΄ Π½Π΅ΠΉ (AUC ROC). БСйчас опишСм Π΄Ρ€ΡƒΠ³ΠΈΠ΅ популярныС ΠΊΡ€ΠΈΠ²Ρ‹Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ строят для ΠΎΡ†Π΅Π½ΠΊΠΈ качСства классификации. Π‘ΡƒΠ΄Π΅ΠΌ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ Π·Π°Π΄Π°Ρ‡Π° классификации с двумя классами: ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ (1) ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ (0). Алгоритм Π²Ρ‹Π΄Π°Ρ‘Ρ‚ ΠΎΡ†Π΅Π½ΠΊΡƒ принадлСТности ΠΊ классу 1, ΠΏΡ€ΠΈ Π²Ρ‹Π±ΠΎΡ€Π΅ ΠΏΠΎΡ€ΠΎΠ³Π° всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π΅ Π½ΠΈΠΆΠ΅ ΠΏΠΎΡ€ΠΎΠ³Π°, ΠΌΡ‹ относим ΠΊ классу 1, соотвСтствСнно, сразу становятся ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Ρ‹ всС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства рассмотрСнныС здСсь: Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, ΠΏΠΎΠ»Π½ΠΎΡ‚Π° ΠΈ Ρ‚.ΠΏ. ВсС ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΠ»Π»ΡŽΡΡ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π° модСльной Π·Π°Π΄Π°Ρ‡ΠΈ ΠΈΠ· этого поста с Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌΠΈ плотностями.

ΠšΡ€ΠΈΠ²Π°Ρ Β«ΠΏΠΎΠ»Π½ΠΎΡ‚Π°-Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΒ». Как слСдуСт ΠΈΠ· названия, эта кривая строится Π² ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°Ρ… ΠΏΠΎΠ»Π½ΠΎΡ‚Π° (R = recall) ΠΈ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (P = precision). На рис. 1-2 ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ PR-ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: синим – тСорСтичСская кривая, красными Ρ‚ΠΎΠ½ΠΊΠΈΠΌΠΈ линиями – ΠΊΡ€ΠΈΠ²Ρ‹Π΅, построСнныС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌ с ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ плотностями. Рис. 1 – для Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², рис. 2 – для Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΈΠ· 3000 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Π—Π°ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС PR-кривая Π½Π΅ выпуклая. ΠŸΠ»ΠΎΡ‰Π°Π΄ΡŒ ΠΏΠΎΠ΄ Π½Π΅ΠΉ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π² качСствС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°. Π’ нашСй тСорСтичСской Π·Π°Π΄Π°Ρ‡Π΅ PR-ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒ Ρ€Π°Π²Π½Π° 5/6=0.8(3) ( ΠΏΠΎΠΏΡ€ΠΎΠ±ΡƒΠΉΡ‚Π΅ Π΄ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ ), для Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² послС 100 экспСримСнтов (Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ) Π΅Ρ‘ ΠΎΡ†Π΅Π½ΠΊΠ° Ρ€Π°Π²Π½Π° 0.839 Β± 0.024 (std), для Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΈΠ· 3000 – 0.833 Β± 0.012 (std).

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 1. PR-ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: тСорСтичСская (синяя) ΠΈ эмпиричСскиС (красная) для Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 2. PR-ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: тСорСтичСская (синяя) ΠΈ эмпиричСскиС (красная) для Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈΠ· 3000 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

НиТС прСдставлСн ΠΊΠΎΠ΄ для вычислСния ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΈ ΠΏΠΎΠ΄ PR-ΠΊΡ€ΠΈΠ²ΠΎΠΉ.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

На рис. 3 ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ, ΠΊΠ°ΠΊ эмпиричСская ΠΎΡ†Π΅Π½ΠΊΠ° ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΈ PR-ΠΊΡ€ΠΈΠ²ΠΎΠΉ зависит ΠΎΡ‚ ΠΎΠ±ΡŠΡ‘ΠΌΠ° Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΏΡ€ΠΈ Ρ€Π°Π·Π½ΠΎΠΉ ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΈ классов: ΠΊΠΎΠ³Π΄Π° классы равновСроятны ΠΈ ΠΊΠΎΠ³Π΄Π° Π΅ΡΡ‚ΡŒ дисбаланс классов. Π‘ΠΎΠ»Π΅Π΅ свСтлым ΠΊΠΎΡ€ΠΈΠ΄ΠΎΡ€ΠΎΠΌ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ стандартныС отклонСния ΠΎΡ‚ срСднСго. Π’ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ для Π·Π°Π΄Π°Ρ‡ΠΈ с дисбалансом классов ΠΎΠ½ΠΈ большС.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 3. ΠžΡ†Π΅Π½ΠΊΠ° AUC_PR для Ρ€Π°Π·Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΡ‘ΠΌΠ° Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈ баланса классов.

ΠŸΠ»ΠΎΡ‰Π°Π΄ΡŒ ΠΏΠΎΠ΄ PR-ΠΊΡ€ΠΈΠ²ΠΎΠΉ (AUC_PR) Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ Ρ€Π°Π· Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… с дисбалансом классов, аргумСнтируя это Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ эта кривая Ρ‚ΠΎΡ‡Π½Π΅Π΅ описываСт ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ классификации ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² с большими ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ ROC-кривая β€” Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠ΅ распрСдСлСний ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Ρ€Π°Π·Π½Ρ‹Ρ… классов ΠΏΠΎ ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌ. ΠŸΠΎΠ΄ΡƒΠΌΠ°ΠΉΡ‚Π΅, ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Π° Π»ΠΈ такая аргумСнтация? Как Π±Ρ‹Ρ‚ΡŒ с ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎΠ³Ρ€Π΅ΡˆΠ½ΠΎΡΡ‚ΠΈ ΠΏΡ€ΠΈ ΠΎΡ†Π΅Π½ΠΊΠ΅ ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΈ ΠΏΠΎΠ΄ PR-ΠΊΡ€ΠΈΠ²ΠΎΠΉ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… с дисбалансом? ΠžΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±Ρ€Π°Ρ‰Π°Π΅ΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ баланса классов Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ AUC_PR мСняСтся, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ссли ΠΌΡ‹ ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΡƒΡŽ ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Ρƒ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ· классов ΡƒΠ΄Π°Π»ΠΈΠΌ ΠΈΠ· Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ (AUC_ROC ΠΏΡ€ΠΈ этом практичСски Π½Π΅ мСняСтся), см. рис. 4.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 4. ΠžΡ†Π΅Π½ΠΊΠ° AUC_PR для Ρ€Π°Π·Π½ΠΎΠ³ΠΎ баланса классов.

Gain Curve (Chart) – это кривая Π² ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°Ρ… «доля, отнСсённых Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ ΠΊ классу 1Β», Ρ‚.Π΅. Positive Rate:

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

m β€” число ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, ΠΈ Β«ΠΊΠ°ΠΊΠΎΠΉ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚ класса 1 Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ отнСс ΠΊ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒΒ», Ρ‚.Π΅. ΠΏΠΎΠ»Π½ΠΎΡ‚Π° для класса 1 ΠΈΠ»ΠΈ True Positive Rate:

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ЕстСствСнно, PR ΠΈ TPR зависят ΠΎΡ‚ ΠΏΠΎΡ€ΠΎΠ³Π° Π±ΠΈΠ½Π°Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ, Π° сама кривая строится, ΠΊΠΎΠ³Π΄Π° ΠΏΠΎΡ€ΠΎΠ³ ΠΏΡ€ΠΎΠ±Π΅Π³Π°Π΅Ρ‚ всСвозмоТныС значСния. Π—Π΄Π΅ΡΡŒ Π΅ΡΡ‚ΡŒ нСсколько ΡΡŽΡ€ΠΏΡ€ΠΈΠ·ΠΎΠ². ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ – ΠΈΠ· опрСдСлСния ΠΌΡ‹ ΡƒΠ·Π½Π°Ρ‘ΠΌ Π² этой ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΊΡ€ΠΈΠ²ΡƒΡŽ Π›ΠΎΡ€Π΅Π½Ρ†Π° ΠΈΠ· машинного обучСния, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Ρ‡Π°Ρ‰Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Lift Curve (подробности ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Π² этом Π·Π°ΠΌΠ΅Ρ‡Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΌ постС). ΠšΡΡ‚Π°Ρ‚ΠΈ, здСсь Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ Π³Ρ€Π°Ρ„ΠΈΠΊ с нСбольшим ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ΠΌ (ΠΏΠΎ Y вмСсто TPR – TP) Ρ‚Π°ΠΊΠΆΠ΅ Π½Π°Π·Π²Π°Π½ Β«Lift-ΠΊΡ€ΠΈΠ²ΠΎΠΉΒ», Π° здСсь – CAP (Cumulative Accuracy Profile). Π’Ρ‚ΠΎΡ€ΠΎΠΉ ΡΡŽΡ€ΠΏΡ€ΠΈΠ· Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ дальшС ΠΈΠΌΠ΅Π½Π΅ΠΌ Lift Curve ΠΌΡ‹ Π½Π°Π·ΠΎΠ²Ρ‘ΠΌ Π΄Ρ€ΡƒΠ³ΡƒΡŽ ΠΊΡ€ΠΈΠ²ΡƒΡŽ (Π° ΠΈΠ½ΠΎΠ³Π΄Π° Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ ΠΈ Ρ‚Ρ€Π΅Ρ‚ΡŒΡŽ, Π½ΠΎ ΠΌΡ‹ Π²Ρ‹Π±Ρ€Π°Π»ΠΈ названия, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΠΎΠ³Π»Π°ΡΠΎΠ²Ρ‹Π²Π°ΡŽΡ‚ΡΡ с наибольшим числом источников).

На рис. 5-7 ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ Gain-ΠΊΡ€ΠΈΠ²Ρ‹Π΅ Π² нашСй модСльной Π·Π°Π΄Π°Ρ‡Π΅: тСорСтичСскиС ΠΈ (Ρ‚ΠΎΠ½ΠΊΠΈΠΌΠΈ красными линиями) эмпиричСскиС, вычислСнныС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌ Ρ€Π°Π·Π½Ρ‹Ρ… мощностСй ΠΈ ΠΏΡ€ΠΈ Ρ€Π°Π·Π½ΠΎΠΌ балансС классов.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 5. Gain-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 6. Gain-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 3000 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 7. Gain-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅ с дисбалансом классов: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

На рис. 5-7 Ρ‡Ρ‘Ρ€Π½ΠΎΠΉ диагональю ΠΏΠΎΠΊΠ°Π·Π°Π½Π° Gain-кривая для случайного Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°: понятно, Ρ‡Ρ‚ΠΎ Ссли Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΡƒΡŽ долю PR всСх ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² посчитал ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ классом, Ρ‚ΠΎ ΠΌΡ‹ ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² класса 1, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ посчитал ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ Ρ‚Π°ΠΊΠΆΠ΅ Π±ΡƒΠ΄Π΅Ρ‚ TPR=PR. Π§Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ располоТСна наша кривая ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΠΈ, Ρ‚Π΅ΠΌ Π»ΡƒΡ‡ΡˆΠ΅. ΠžΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ высот Gain-ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΈ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΠΈ часто ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ°ΡŽΡ‚ Π² Π²ΠΈΠ΄Π΅ ΠΊΡ€ΠΈΠ²ΠΎΠΉ Lift Curve (Chart): ΠΎΠ½Π° строится Π² ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°Ρ… PR ΠΈ TPR/PR. На рис. 8-10 ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ Lift-ΠΊΡ€ΠΈΠ²Ρ‹Π΅, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ нарисованным Π²Ρ‹ΡˆΠ΅ Gain-ΠΊΡ€ΠΈΠ²Ρ‹ΠΌ.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 8. Lift-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 9. Lift-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 10. Lift-кривая Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅ с дисбалансом классов: синяя β€” тСорСтичСская, красныС β€” эмпиричСскиС ΠΏΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

Π’ банковской срСдС приняты Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Ρ‚ΠΈΠΏΠ° Gain-Top-10% ΠΈΠ»ΠΈ Lift-Top-10%, это просто значСния TPR ΠΈΠ»ΠΈ TPR/PR, ΠΊΠΎΠ³Π΄Π° 10% ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌΠΈ ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΌΡ‹ относим ΠΊ классу 1 (Ρ‚.Π΅. ΠΏΡ€ΠΈ PR=0.1). Π’Π°ΠΊΠΆΠ΅ ΠΏΠΎΡ‡Π΅ΠΌΡƒ-Ρ‚ΠΎ принято ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ эти ΠΊΡ€ΠΈΠ²Ρ‹Π΅ лишь ΠΏΠΎ Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌ PR = 0.1 (10%), 0.2 (20%), … 1.0 (100%), ΠΌΡ‹ дальшС ΠΏΠΎΠΊΠ°ΠΆΠ΅ΠΌ это Π² Ρ‚Π°Π±Π»ΠΈΡ†Π΅.

ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Gain ΠΈ LIft ΠΊΡ€ΠΈΠ²Ρ‹Ρ… Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Π² Β«Π·Π°Π΄Π°Ρ‡Π΅ ΠΎ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ услуги»: ΠΌΡ‹ ΠΊΠΎΠ½Ρ‚Π°ΠΊΡ‚ΠΈΡ€ΡƒΠ΅ΠΌ с ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°ΠΌΠΈ (ΠΎΠ±Π·Π²Π°Π½ΠΈΠ²Π°Π΅ΠΌ ΠΈΠ»ΠΈ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅ΠΌ Π±Π°Π½Π½Π΅Ρ€Ρ‹ ΠΈ Ρ‚.ΠΏ.), Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° состоит ΠΈΠ· описаний ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², Π° Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ – ΠΎΡ‚ΠΊΠ»ΠΈΠΊ Π½Π° ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅, Ρ‚ΠΎΠ³Π΄Π° Gain-кривая ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, ΠΊΠ°ΠΊ зависит ΠΏΠΎΠΊΡ€Ρ‹Ρ‚ΠΈΠ΅ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Π°ΡƒΠ΄ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΎΡ‚ ΠΌΠ°ΡΡˆΡ‚Π°Π±Π° ΠΊΠΎΠ½Ρ‚Π°ΠΊΡ‚Π°.

Kolomogorov-Smirnov (K-S) chart ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для сравнСния распрСдСлСний ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² класса 1 ΠΈ 0 Π² пространствС PR (Π²Π°ΠΆΠ½ΠΎ: Π° Π½Π΅ ΠΎΡ†Π΅Π½ΠΎΠΊ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹Π΄Π°Ρ‘Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ). Бтроится Π΄Π²Π΅ ΠΊΡ€ΠΈΠ²Ρ‹Π΅: TPR(PR) ΠΈ FPR(PR). ΠŸΠ΅Ρ€Π²Π°Ρ, кстати, знакомая Π½Π°ΠΌ Gain-кривая: доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² класса 1, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ отнёс ΠΊ классу 1 (Π² зависимости ΠΎΡ‚ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ отнёс ΠΊ классу 1). Бмысл Π²Ρ‚ΠΎΡ€ΠΎΠΉ – доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² класса 0, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ отнёс ΠΊ классу 1. На рис. 11 ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΊΡ€ΠΈΠ²Ρ‹Π΅ для модСльной Π·Π°Π΄Π°Ρ‡ΠΈ Π² случаС баланса ΠΈ дисбаланса классов. Максимальная Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΡ€ΠΈΠ²Ρ‹ΠΌΠΈ часто называСтся KS-расстояниСм. Π˜Π½Ρ‚Π΅Ρ€Π΅ΡΠ½ΠΎ, Ρ‡Ρ‚ΠΎ Π² модСльной Π·Π°Π΄Π°Ρ‡Π΅ TPR(ΞΈ), FPR(ΞΈ) Π½Π΅ зависят ΠΎΡ‚ баланса классов, Π° Π²ΠΎΡ‚ K-S chart зависит… ΠΏΠΎΡ‡Π΅ΠΌΡƒ? Π”ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ p 1 = 0.1 Π½Π° KSC максимальная Ρ€Π°Π·Π½ΠΈΡ†Π° TPR β€” FPR достигаСтся Π² Ρ‚ΠΎΡ‡ΠΊΠ΅ 0.3.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 11. K-S chart для модСльной Π·Π°Π΄Π°Ρ‡ΠΈ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 12. K-S chart для модСльной Π·Π°Π΄Π°Ρ‡ΠΈ с дисбалансом классов.

На рис. 13 Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ K-S-расстояниС ΠΌΠΎΠΆΠ΅Ρ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡ‚ΡŒΡΡ с ошибкой, особСнно Π½Π° ΠΌΠ°Π»Ρ‹Ρ… Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°Ρ…. ΠŸΠΎΠ΄ΡƒΠΌΠ°ΠΉΡ‚Π΅, ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΏΠΎΡ€ΠΎΠ³Ρƒ Π±ΠΈΠ½Π°Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ (ΠΊΠ°ΠΊΠΈΠΌ свойствами ΠΎΠ½ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚) соотвСтствуСт максимум TPR – FPR?

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС обучСниСРис. 13. ЭмпиричСскиС (красныС) ΠΈ тСорСтичСскиС (синиС) Π³Ρ€Π°Ρ„ΠΈΠΊΠΈ TPR – FPR Π² Π·Π°Π΄Π°Ρ‡Π΅ с 300 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ (слСва) ΠΈ 3000 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ (справа).

ΠŸΡ€ΠΈ Π°Π½Π°Π»ΠΈΠ·Π΅ доходности (Profit Analysis) ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Ρ‚Π°ΠΊΡƒΡŽ Ρ‚Π°Π±Π»ΠΈΡ†Ρƒ: The Gains Table, для Π΅Ρ‘ построСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΡƒΠΏΠΎΡ€ΡΠ΄ΠΎΡ‡ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΏΠΎ ΡƒΠ±Ρ‹Π²Π°Π½ΠΈΡŽ ΠΎΡ†Π΅Π½ΠΊΠΈ принадлСТности ΠΊ классу 1, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π²Ρ‹Π΄Π°Π» Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, ΠΏΠΎΡ‚ΠΎΠΌ Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° 10 Ρ€Π°Π²Π½Ρ‹Ρ… частСй – Π΄Π΅Ρ†ΠΈΠ»Π΅ΠΉ, ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ Π΄Π΅Ρ†ΠΈΠ»ΡŽ соотвСтствуСт строка Ρ‚Π°Π±Π»ΠΈΡ†Ρ‹.

pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π€ΠΎΡ‚ΠΎ pr кривая машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

По Ρ‚Π°Π±Π»ΠΈΡ†Π΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ экономику, ΡΠ²ΡΠ·Π°Π½Π½ΡƒΡŽ с Π·Π°Π΄Π°Ρ‡Π΅ΠΉ. НапримСр, Ссли Ρ‚Π°Π±Π»ΠΈΡ†Π° соотвСтствуСт описанной Π²Ρ‹ΡˆΠ΅ Π·Π°Π΄Π°Ρ‡Π΅ прСдлоТСния услуги, ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ ΠΊΠΎΠ½Ρ‚Π°ΠΊΡ‚Π° Ρ€Π°Π²Π½Π° 1$, Π° Π΄ΠΎΡ…ΠΎΠ΄ с ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠ° Ρ€Π°Π²Π΅Π½ 5$, Ρ‚ΠΎΠ³Π΄Π° Ссли ΠΏΡ€ΠΎΠΊΠΎΠ½Ρ‚Π°ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с 10% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², Ρ‚ΠΎ Ρ‚Ρ€Π°Ρ‚Ρ‹ = 11 238$, Π΄ΠΎΡ…ΠΎΠ΄ = 2572*5 = 12 860$, Π° ΠΏΡ€ΠΈΠ±Ρ‹Π»ΡŒ = 1 622$.

Бсылки

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ отрисовки Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΊΡ€ΠΈΠ²Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь:

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *