В 8-й главе
описывается применение системно-когнитивного анализа и его программного
инструментария системы "Эйдос" для синтеза семантической
информационной модели, учитывающей влияние различных факторов на суммы
страховых выплат автострахования ОСАГО и КАСКО и использования этой модели для
прогнозирования сумм страховых выплат.
В разделе описываются результаты применения
системно-когнитивного анализа для прогнозирования рисков совершения
дорожно-транспортных происшествий и сумм страховых выплат в системе
обязательного автострахования ОСАГО (по данным ООО Росгосстрах-ЮГ Краснодарского
края)
В соответствии с действующим законодательством страховая
компания, оказывающая услуги обязательного автострахования, обязана оказывать
эти услуги всем обращающимся за этим клиентам и не может отказать кому-либо из
них, при условии, что клиент предоставил все необходимые документы. Вместе с
тем компания имеет ряд законных способов повлиять на контингент обращающихся к
ней клиентов. Среди этих способов необходимо отметить прежде всего
целенаправленную рекламу, ориентированную на определенные группы населения, а
также маркетинговые мероприятия. В результате использования подобных технологий
страховая компания уже сейчас может повлиять на приоритеты и механизм принятия
решений различных категорий потенциальных клиентов в таком направлении, которое
приведет к относительному увеличению доли желательных клиентов и уменьшения
доли нежелательных. Кроме того, возможно в будущем страховые компании получат
большие права по отбору клиентов. Уже сегодня компании имеют право уменьшать
оплату за автострахования безаварийным водителям и повышать для водителей,
совершивших дорожно-транспортные происшествия (ДТП), повлекшие страховые
выплаты со стороны компании.
В связи со всем этим, когда в страховую компанию обращается
очередной клиент то возникает резонные вопросы о том:
1. Какова вероятность совершения ДТП этим водителем
или владельцем автотранспортного средства (конкретно именно этим водителем и
конкретно именно на данном автотранспортном средстве).
2. Какова возможная тяжесть этого ДТП и наиболее вероятная
сумма соответствующей страховой выплаты.
В теории и практике страхования эта задача получила название
"андеррайтинг". Обладание технологией решения этой задачи
уже сегодня позволило бы компании существенно уменьшить риски автострахования и
соответственно, уменьшить страховые выплаты и увеличить свою прибыль.
По-видимому, в перспективе возможность решения этой задачи в реальном времени
непосредственно во время приема клиента на начальной стадии оформления
документов будет играть еще большую роль.
Однако, проблема состоит в том, что не
смотря на все эти достаточно очевидные выгоды и преимущества в реальной практике
большинства страховых компаний системы андеррайтинга не применяются.
На наш взгляд это обусловлено следующими обстоятельствами:
1. Эти системы недостаточно технологичны для их применения
в реальном времени, непосредственно во время обслуживания клиента.
2. Существующие системы разработаны за рубежом или в
мегаполисах (в основном в Москве и Санкт-Петербурге) и очень слабо отражают региональную
специфику (т.е. нелокализованы), вернее вообще ее практически не отражают,
из-за чего и имеют очень низкую достоверность прогнозирования, близкую и статистически
незначимо отличающуюся от вероятности случайного угадывания без использования
этих систем или другой априорной информации.
3. Эти системы не обладают адаптивностью и не учитывают
динамику предметной области, которая чрезвычайно высока, особенно в Южном
Федеральном Округе (ЮФО). В результате даже первоначально хорошо работающие
системы очень быстро теряют адекватность модели и качество прогнозов.
4. Стоимость этих систем настолько высока, что их приобретение
и использование чаще всего мало или вообще нерентабельно.
Целью
данной работы является решение поставленной проблемы путем разработки
адаптивной методики прогнозирования рисков автострахования и сумм страховых
выплат, и, на этой основе, поддержки принятия решений в страховой компании.
Для достижения поставленной цели был выбран метод системно-когнитивного
анализа (СК-анализ). Этот выбор был обусловлен тем, что данный метод является
непараметрическим, позволяет сопоставимо обрабатывать тысячи градаций факторов
и будущих состояний объекта управления при неполных (фрагментированных),
зашумленных данных различной природы, т.е. измеряемых в различных единицах
измерения. Для метода СК-анализа разработаны и методика численных расчетов, и
соответствующий программный инструментарий, а также технология и методика их
применения. Они прошли успешную апробацию при решении ряда задач в различных
предметных областях [56]. Наличие инструментария СК-анализа (базовая система
"Эйдос") позволяет не только осуществить синтез семантической информационной
модели (СИМ), но и периодически проводить адаптацию и синтез ее новых версий,
обеспечивая тем самым отслеживание динамики предметной области и сохраняя
высокую адекватность модели в изменяющихся условиях. Важной особенностью СК-анализа
является возможность единообразной числовой обработки разнотипных по смыслу и
единицам измерения числовых и нечисловых данных. Это обеспечивается тем, что
нечисловым величинам тем же методом, что и числовым, приписываются сопоставимые
в пространстве и времени, а также между собой, количественные значения,
позволяющие обрабатывать их как числовые: на первых двух этапах СК-анализа
числовые величины сводятся к интервальным оценкам, как и информация об объектах
нечисловой природы (фактах, событиях) (этот этап реализуется и в методах
интервальной статистики); на третьем этапе СК-анализа всем этим величинам по
единой методике, основанной на системном обобщении семантической теории
информации А.Харкевича, сопоставляются количественные величины (имеющие смысл
количества информации в признаке о принадлежности объекта к классу), с которыми
в дальнейшем и производятся все операции моделирования (этот этап является
уникальным для СК-анализа).
В работе [56]
приведен перечень этапов системно-когнитивного анализа, которые необходимо
выполнить, чтобы осуществить синтез модели и исследование модели объекта
управления. Учитывая эти этапы СК-анализа выполним декомпозицию цели работы
в последовательность задач, решение
которых обеспечит ее поэтапное достижение:
1. Когнитивная
структуризация предметной области и формальная постановка задачи,
проектирование структуры и состава исходных данных.
2. Получение
исходных данных запланированного состава в той форме, в которой они
накапливаются в поставляющей их организации (обычно в форме базы данных).
3. Разработка
стандартной Excel-формы для представления исходных данных.
4. Преобразование
исходных данных из исходных баз данных в стандартную электронную Excel-форму.
5. Контроль
достоверности исходных данных и исправление ошибок.
6. Разработка и
использование программного интерфейса для преобразования исходных данных из
стандартной Excel-формы в базы данных,
используемые в инструментарии системно-когнитивного анализа (СК-анализ)
– универсальной когнитивной аналитической системе "Эйдос" (система
"Эйдос").
7. Синтез
семантической информационной модели (СИМ).
8. Оптимизация СИМ.
9. Измерение
адекватности СИМ.
10. Задача 1: "Многокритериальная типизация
автомобилей клиентов по типам: "Не совершившие ДТП", "Совершившие
ДТП" и категориям, отражающим суммы страховых выплат.
11. Задача 2: "Разработка методики прогнозирования
риска совершения ДТП и суммы страховой выплаты на основе информации о клиенте и
его автомобиле".
12. Задача 3: "Разработка методики поддержки
принятия решений по выбору контингента клиентов, наиболее предпочтительных
и нежелательных для автострахования".
13. Разработка
принципов оценки экономической эффективности разработанных технологий при их
применении в реальной страховой компании.
14. Исследование
ограничений разработанной технологии и перспектив ее развития.
Кратко рассмотрим решение этих задач.
1. Когнитивная
структуризация предметной области это 1-й этап формальной постановки задачи, на
котором решается, какие параметры будут рассматриваться в качестве причин, а
какие – следствий. На этом этапе было решено в качестве следствий, т.е.
классов, рассматривать: безаварийность, аварийность, сумму страховой выплаты, а
в качестве причин: марку и модель автотранспортного средства, его цвет,
Российское или иностранное производство автомобиля, водительский стаж владельца.
На этапе формальной
постановки задачи, исходя из результатов когнитивной структуризации, было
осуществлено проектирование структуры и состава исходных данных.
2. Затем исходные
данные запланированного состава были
получены в той форме, в которой они накапливаются в поставляющей их
организации (обычно в форме базы данных). В нашем случае этой организацией
выступила компания ООО Росгосстрах-ЮГ Краснодарского края. Здесь необходимо отметить,
что в полученной базе данных представлено 65535
примеров (это максимальное количество строк в листе Excel) застрахованных автотранспортных
средств, из которых 540 участвовали
в различного рода ДТП и по этим случаям были
произведены страховые выплаты. Этого было более чем достаточно для целей
данной работы, за что авторы благодарны руководству данной страховой компании.
3. Была разработана
стандартная Excel-форма для представления исходных данных (рисунок 66).
4. Исходные данные
из Excel-формы, представленной на рисунке 66, были преобразованы средствами
Excel в стандартную для программного интерфейса системы "Эйдос"
электронную Excel-форму (рисунок 67).
|
Рисунок 66. Excel-форма с исходными
данными
|
Рисунок 67. Excel-форма, стандартная
для программного
интерфейса системы "Эйдос"
5. На этапе контроля достоверности исходных данных
было обнаружено, что в исходной базе данных мощность двигателя у некоторых
особо престижных моделей автомобилей доходила до
6. Затем
Excel-форма, приведенная на рисунке 67 средствами Excel была записана в
стандарте DBF-4, dBASE IV (*.dbf), разработан и использован программный
интерфейс для преобразования исходных данных из стандартной Excel-формы
в базы данных, используемые в инструментарии системно-когнитивного анализа
(СК-анализ) – универсальной когнитивной аналитической системе "Эйдос"
(система "Эйдос").
Ниже приводится
исходный текст программы данного программного интерфейса, работающий с
получившимся dbf-файлом:
******************************************************
******** ФОРМИРОВАНИЕ ОПИСАТЕЛЬНЫХ ШКАЛ И ГРАДАЦИЙ ***
******** И ОБУЧАЮЩЕЙ ВЫБОРКИ ИЗ DBF-Excel-файла ***
******** Подставкин Н.А. 05/22/07 11:49am ************
PARAMETERS File_name
***** БЛОК-1. ОТОБРАЖЕНИЕ ИНФОРМАЦИИ О ФУНКЦИЯХ
ПРОГРАММНОГО ИНТЕРФЕЙСА **********************
scr23 = SAVESCREEN(0,0,24,79)
SET CURSOR OFF
SET DATE ITALIAN
SET DECIMALS TO 15
SET ESCAPE On
FOR J=0 TO 24
@J,0 SAY REPLICATE("█",80)
COLOR "gb+/N"
NEXT
SHOWTIME(0,60,.F.,"rg+/n",.F.,.F.)
FOR J=0 TO 24
@J,0 SAY REPLICATE("█",80)
COLOR "gb+/N"
NEXT
**** ГЕНЕРАЦИЯ КЛАССИФИКАЦИОННЫХ И ОПИСАТЕЛЬНЫХ ШКАЛ И
ГРАДАЦИЙ ***
COPY FILE
("Card.dbf") TO ("Card_sh.dbf")
CLOSE ALL
USE Object EXCLUSIVE NEW;ZAP
USE Priz_ob EXCLUSIVE NEW;ZAP
USE Priz_per EXCLUSIVE NEW;ZAP
USE Card EXCLUSIVE NEW
USE Card_sh EXCLUSIVE NEW;ZAP
APPEND BLANK
APPEND BLANK
APPEND BLANK
SELECT Card
N_Rec = RECCOUNT()
M_KodKl = 0
M_KodSh = 0
M_KodGr = 0
N_Grad = 10
* Структура базы
данных: card.dbf 01.05.07 08:56:20
*
============================================================================
* | N
| Имя поля | Тип | Ширина | Дес. | Примечание |
*
============================================================================
* | 1 |
SUMMA | N
| 10 |
2 | |
* | 2 |
STAG | N
| 3 | 0 | |
* | 3 |
POWER | N
| 8 |
0 | |
* | 4 |
PROIZVODST | C |
9 | 0
|
|
* | 5 |
MARKA | C
| 11 |
0 | |
* | 6 |
MARKA_MODE | C |
31 | 0
|
|
* | 7 |
COLOR | C
| 51 |
0 | |
*
============================================================================
* В С Е Г О длина записи: 124
байтов.
|
*
============================================================================
A_FNRus := {}
AADD(A_FNRus,"Сумма страховой выплаты: ")
AADD(A_FNRus,"Стаж владельца")
AADD(A_FNRus,"Мощность двигателя (л.с.)")
AADD(A_FNRus,"Производство")
AADD(A_FNRus,"Марка")
AADD(A_FNRus,"Марка и модель")
AADD(A_FNRus,"Цвет")
@24,0 SAY
REPLICATE("█",80) COLOR "rb/n"
FOR ff=1 TO 7
&& Начало цикла по полям Card.dbf
*** Числовые
столбцы
IF 1 <= ff
.AND. ff <= 3
SELECT Card
INDEX ON STR(999999999-FIELDGET(ff),10)
TO Mrk_funi UNIQUE
DBGOTOP()
F_MaxSH = FIELDGET(ff)
DBGOBOTTOM();DBSKIP(-1)
F_MinSH =
FIELDGET(ff) && Не брать 0, т.к.
для него отдельный класс
Delta = (F_MaxSH-F_MinSH)/N_Grad
SELECT Card_sh
DBGOTO(1);FIELDPUT(ff,F_MaxSH)
DBGOTO(2);FIELDPUT(ff,F_MinSH)
DBGOTO(3);FIELDPUT(ff,Delta)
** Классы
IF ff = 1
SELECT Object
APPEND BLANK
F_MinGR = 0
F_MaxGR = 0
M_Name = A_FNRus[ff]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
REPLACE Kod WITH ++M_KodKl
REPLACE Name WITH M_Name
SELECT Object
APPEND BLANK
F_MinGR = F_MinSH
F_MaxGR = F_MaxSH
M_Name = A_FNRus[ff]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
REPLACE Kod WITH ++M_KodKl
REPLACE Name WITH M_Name
SELECT Object
FOR gr = 1 TO N_Grad
SELECT Object
APPEND BLANK
F_MinGR = F_MinSH+(gr-1)*Delta
F_MaxGR = F_MinSH+(gr )*Delta
M_Name = A_FNRus[ff]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
REPLACE Kod WITH ++M_KodKl
REPLACE Name WITH M_Name
NEXT
ENDIF
**
Признаки числовые столбцы
IF ff = 2 && Только стаж, а мощность не берем,
т.к. у нее бредовые значения
SELECT Priz_ob
APPEND BLANK
REPLACE Kod WITH ++M_KodSh
REPLACE Name WITH A_FNRus[ff]
FOR gr=1 TO N_Grad
SELECT Priz_per
APPEND BLANK
F_MinGR = F_MinSH+(gr-1)*Delta
F_MaxGR = F_MinSH+(gr )*Delta
M_Name = A_FNRus[ff]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
REPLACE Kod WITH ++M_KodGr
REPLACE Kod_ob_pr WITH M_KodSh
REPLACE Name WITH M_Name
SELECT Priz_ob
FIELDPUT(gr+2,M_KodGr)
NEXT
ENDIF
ENDIF
** Признаки
текстовые столбцы
IF 4 <= ff
.AND. ff <= 7
SELECT Card
INDEX ON FIELDGET(ff) TO Mrk_funi UNIQUE
** Признаки
SELECT Priz_ob
APPEND BLANK
REPLACE Kod WITH ++M_KodSh
REPLACE Name WITH A_FNRus[ff]
SELECT Card
SET ORDER TO 1
DBGOTOP()
gr = 0
DO WHILE .NOT. EOF()
M_Name =
A_FNRus[ff]+"-"+ALLTRIM(FIELDGET(ff))
SELECT Priz_per
APPEND BLANK
REPLACE Kod WITH ++M_KodGr
REPLACE Kod_ob_pr WITH M_KodSh
REPLACE Name WITH M_Name
SELECT Priz_ob
FIELDPUT(++gr+2,M_KodGr)
SELECT Card
DBSKIP(1)
ENDDO
ENDIF
NEXT
*WAIT
CLOSE ALL
*** ГЕНЕРАЦИЯ ОБУЧАЮЩЕЙ ВЫБОРКИ *******************************************************
CLOSE ALL
USE Object EXCLUSIVE NEW
INDEX ON Name TO Obj_name
CLOSE ALL
USE Priz_per EXCLUSIVE NEW
INDEX ON Name TO Prpe_nam
CLOSE ALL
USE Object INDEX Obj_name EXCLUSIVE NEW
USE Priz_per INDEX Prpe_nam
EXCLUSIVE NEW
USE Card EXCLUSIVE NEW
USE Card_sh EXCLUSIVE NEW
USE ObInfZag EXCLUSIVE NEW;ZAP
USE ObInfKpr EXCLUSIVE NEW;ZAP
N_Rec = RECCOUNT()
DBGOTOP()
@24,0 SAY
REPLICATE("█",80) COLOR "rb/n"
M_KodIst = 0
SELECT Card
N_Rec = RECCOUNT()
Num = 0
DBGOTOP()
DO WHILE .NOT. EOF()
SELECT Card_sh
DBGOTO(1);F_MaxSH = FIELDGET(1)
DBGOTO(2);F_MinSH = FIELDGET(1)
****** База заголовков
SELECT Card
M_NameIst = STR(FIELDGET(1),15,2)
***** Формирование массива кодов классов
из БД Card
A_Obj := {}
M_Summa = FIELDGET(1)
F_MinGR = 0
F_MaxGR = 0
IF F_MinGR <= M_Summa .AND. M_Summa
<= F_MaxGR
M_Name = A_FNRus[1]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
SELECT Object;SET ORDER TO 1;T=DBSEEK(M_Name)
IF T
IF ASCAN(A_Obj, Kod) = 0
AADD(A_Obj, Kod)
ENDIF
ENDIF
ENDIF
F_MinGR = F_MinSH
F_MaxGR = F_MaxSH
IF F_MinGR <= M_Summa .AND. M_Summa
<= F_MaxGR
M_Name = A_FNRus[1]+": {"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
SELECT Object;SET ORDER TO
1;T=DBSEEK(M_Name)
IF T
IF ASCAN(A_Obj, Kod) = 0
AADD(A_Obj, Kod)
ENDIF
ENDIF
ENDIF
SELECT Card_sh
DBGOTO(1);F_MaxSH = FIELDGET(1)
DBGOTO(2);F_MinSH = FIELDGET(1)
Delta = (F_MaxSH-F_MinSH)/N_Grad
FOR gr=1 TO N_Grad
F_MinGR = F_MinSH+(gr-1)*Delta
F_MaxGR = F_MinSH+(gr )*Delta
IF F_MinGR <= M_Summa .AND. M_Summa
<= F_MaxGR
M_Name = A_FNRus[1]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
SELECT Object;SET ORDER TO
1;T=DBSEEK(M_Name)
IF T
IF ASCAN(A_Obj, Kod) = 0
AADD(A_Obj, Kod)
ENDIF
ENDIF
ENDIF
NEXT
SELECT ObInfZag
APPEND BLANK
REPLACE Kod_ist WITH ++M_KodIst
REPLACE Name_ist WITH M_NameIst
FOR jj=1 TO LEN(A_Obj)
FIELDPUT(jj+2,A_Obj[jj])
NEXT
******
Формирование массива кодов признаков из БД Card
M_KodPr = {}
FOR jj=2 TO
7 && Начало цикла по
полям БД Card
SELECT Card
Fv =FIELDGET(jj)
*IF 2 <= jj .AND. jj <= 3
IF jj =
2 && берем только стаж,
т.к. у мощности бредовые значения
SELECT Card_sh
DBGOTO(1);F_MaxSH = FIELDGET(jj)
DBGOTO(2);F_MinSH = FIELDGET(jj)
Delta = (F_MaxSH-F_MinSH)/N_Grad
FOR gr=1 TO N_Grad
F_MinGR = F_MinSH+(gr-1)*Delta
F_MaxGR = F_MinSH+(gr )*Delta
IF F_MinGR <= Fv .AND. Fv
<= F_MaxGR
M_Name = A_FNRus[jj]+":
{"+ALLTRIM(STR(F_MinGR,11,3))+",
"+ALLTRIM(STR(F_MaxGR,11,3))+"}"
SELECT Priz_per;SET ORDER TO
1;T=DBSEEK(M_Name)
IF T
IF ASCAN(M_KodPr, Kod) = 0
AADD(M_KodPr, Kod)
ENDIF
ENDIF
ENDIF
NEXT
ENDIF
IF jj > 3
M_Name =
A_FNRus[jj]+"-"+FIELDGET(jj)
SELECT Priz_per;SET ORDER TO
1;T=DBSEEK(M_Name)
IF T
IF ASCAN(M_KodPr, Kod) = 0
AADD(M_KodPr, Kod)
ENDIF
ENDIF
ENDIF
NEXT
*******
Запись массива кодов признаков из БД &Fns в БД ObInfKpr
SELECT ObInfKpr
APPEND BLANK
FIELDPUT(1,M_KodIst)
k=2
FOR jj=1 TO LEN(M_KodPr)
IF k <= 12
FIELDPUT(k++,M_KodPr[jj])
ELSE
APPEND BLANK
FIELDPUT(1,M_KodIst)
k=2
FIELDPUT(k ,M_KodPr[jj])
ENDIF
NEXT
p=++Num/N_Rec*100;p=IF(p<=100,p,100)
@24,0 SAY STR(p,3)+"%" COLOR
"w+/r+"
@24,4 SAY
REPLICATE("█",0.76*p) COLOR "rg+/n"
SELECT Card
DBSKIP(1)
ENDDO
@24,0 SAY
REPLICATE("█",80) COLOR "gb+/n"
Mess = " ПРОЦЕСС ГЕНЕРАЦИИ ЗАВЕРШЕН УСПЕШНО !!! "
@24,40-LEN(Mess)/2 SAY Mess
COLOR "rg+/rb"
INKEY(0)
RESTSCREEN(0,0,24,79,scr23)
CLOSE ALL
QUIT
В результате работы
данного программного интерфейса автоматически получаются исходный справочник
классов распознавания, справочник признаков, а также обучающая выборка,
представляющая собой закодированные в соответствии с этими справочниками
страховые случаи (см. таб.48, таб.49, таб.50):
Таблица 48 – СПРАВОЧНИК КЛАССОВ РАСПОЗНАВАНИЯ
22-05-07 12:05:20
г.Краснодар
======================================================================================================
| N |
Код | Н а
и м е
н о в
а н и
е | Степень
| Абсол. | % к кол |
| п/п
|класса| к л а с с а р а с п о з н а в а н и я |
редукции | кол-во | физичес |
| |
| | образа
| | анкет
|
|====================================================================================================|
| 1 |
1 | Сумма страховой выплаты: : {0.000, 0.000}............. | 0.01916 |
64995 | 99.200 |
| 2 |
2 | Сумма страховой выплаты: : {34.000, 573575.000}....... | 0.15524 |
540 | 0.800 |
| 3 |
3 | Сумма страховой выплаты: : {34.000, 57388.100}........ | 0.15300 |
469 | 0.700 |
| 4 |
4 | Сумма страховой выплаты: : {57388.100, 114742.200}.... | 0.13388 |
58 | 0.100 |
| 5 |
5 | Сумма страховой выплаты: : {114742.200, 172096.300}... | 0.05552 |
11 | |
| 6 |
6 | Сумма страховой выплаты: : {172096.300, 229450.400}... | 0.00000 | | |
| 7 |
7 | Сумма страховой выплаты: : {229450.400, 286804.500}... | 0.05630 | 1 | |
| 8 |
8 | Сумма страховой выплаты: : {286804.500, 344158.600}... | 0.00000 | | |
| 9 |
9 | Сумма страховой выплаты: : {344158.600, 401512.700}... | 0.00000 | | |
| 10 |
10 | Сумма страховой выплаты: : {401512.700, 458866.800}... | 0.00000 | | |
| 11 |
11 | Сумма страховой выплаты: : {458866.800, 516220.900}... | 0.00000 | | |
| 12 |
12 | Сумма страховой выплаты: : {516220.900, 573575.000}... | 0.03674 | 1 | |
======================================================================================================
Универсальная
когнитивная аналитическая система НПП
*ЭЙДОС*
Таблица 49 – СПРАВОЧНИК НАИМЕНОВАНИЙ ШКАЛ И ГРАДАЦИЙ ПРИЗНАКОВ
(ФРАГМЕНТ)
22-05-07 12:05:25
г.Краснодар
=================================================================================
| N |
Код | Н а
и м е
н о в
а н и
я |Интегр.|Абсол.|% к кол|
| п/п|
призн| шкал и градаций
признаков |инф-сть|кол-во|физ.анк|
|===============================================================================|
| |[
1]|СТАЖ ВЛАДЕЛЬЦА | |
| |
| 1|
1 |Стаж владельца: {1.000, 5.300}..............| 0.078| 7474 | 11.405|
| 2|
2 |Стаж владельца: {5.300, 9.600}..............| 0.004| 5820 |
8.881|
| 3|
3 |Стаж владельца: {9.600, 13.900}.............| 0.038| 6005 |
9.163|
| 4|
4 |Стаж владельца: {13.900, 18.200}............| 0.193| 7348 | 11.212|
| 5|
5 |Стаж владельца: {18.200, 22.500}............| 0.067| 6022 |
9.189|
| 6|
6 |Стаж владельца: {22.500, 26.800}............| 0.012| 6004 |
9.162|
| 7|
7 |Стаж владельца: {26.800, 31.100}............| 0.038| 7436 | 11.347|
| 8|
8 |Стаж владельца: {31.100, 35.400}............| 0.225| 5952 |
9.082|
| 9|
9 |Стаж владельца: {35.400, 39.700}............| 0.134| 5948 |
9.076|
| 10|
10 |Стаж владельца: {39.700, 44.000}............| 0.039| 7442 | 11.356|
|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~|
| |[
2]|ПРОИЗВОДСТВО | |
| |
| 11|
11 |Производство-Иномарка.......................| 0.068|13569 | 20.705|
| 12|
12 |Производство-Неизвестно.....................| 0.001| 1493 |
2.278|
| 13|
13 |Производство-Россия.........................| 0.030|50473 | 77.017|
|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~|
| |[
3]|МАРКА | | |
|
| 14|
14 |Марка-......................................| 0.001| 1493 |
2.278|
| 15|
15 |Марка-Alfa-Romeo............................| 0.001|
16 | 0.024|
| 16|
16 |Марка-Aro...................................| 0.001|
1 | 0.002|
| 17|
17 |Марка-Asia..................................| 0.001|
12 | 0.018|
| 18|
18 |Марка-Astra.................................| 0.001|
2 | 0.003|
| 19|
19 |Марка-Audi..................................| 0.205|
792 | 1.209|
| 20|
20 |Марка-Austin................................| 0.001|
1 | 0.002|
| 21|
21 |Марка-BMW...................................| 0.043|
697 | 1.064|
| 22|
22 |Марка-Bentley...............................| 0.001|
1 | 0.002|
| 23|
23 |Марка-Buick.................................| 0.001|
1 | 0.002|
| 24|
24 |Марка-Cadillac..............................| 0.001|
4 | 0.006|
|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~|
| |[
4]|МАРКА И МОДЕЛЬ | |
| |
| 114| 114 |Марка и
модель--............................|
0.001| 1493 | 2.278|
| 115| 115 |Марка и
модель-Alfa-Romeo-156...............|
0.001| 2 | 0.003|
| 116| 116 |Марка и модель-Alfa-Romeo-166...............| 0.001|
1 | 0.002|
| 117| 117 |Марка и
модель-Alfa-Romeo-2106..............|
0.001| 11 | 0.017|
| 118| 118 |Марка и
модель-Alfa-Romeo-33................|
0.001| 1 | 0.002|
| 119| 119 |Марка и модель-Alfa-Romeo-75................| 0.001|
1 | 0.002|
| 120| 120 |Марка и
модель-Aro-10.......................|
0.001| 1 | 0.002|
| 121| 121 |Марка и
модель-Asia-2106....................|
0.001| 12 | 0.018|
| 122| 122 |Марка и
модель-Astra-2106...................|
0.001| 2 | 0.003|
| 123| 123 |Марка и
модель-Audi-100.....................|
0.001| 177 | 0.270|
| 124| 124 |Марка и
модель-Audi-200.....................|
0.001| 6 | 0.009|
| 125| 125 |Марка и
модель-Audi-2106....................|
0.001| 58 | 0.089|
| 126| 126 |Марка и
модель-Audi-80......................|
0.271| 250 | 0.381|
| 127| 127 |Марка и
модель-Audi-90......................|
0.001| 6 | 0.009|
| 128| 128 |Марка и
модель-Audi-A2......................|
0.001| 1 | 0.002|
| 129| 129 |Марка и
модель-Audi-A3......................|
0.001| 14 | 0.021|
| 130| 130 |Марка и
модель-Audi-A4......................|
0.001| 82 | 0.125|
| 131| 131 |Марка и модель-Audi-A4
Avant................| 0.001| 2 |
0.003|
| 132| 132 |Марка и
модель-Audi-A6......................|
0.021| 158 | 0.241|
|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~|
| |[
5]|ЦВЕТ | |
| |
| 888| 888 |Цвет-Бежевый (оттенки бежевого и
светло-золо| 0.109| 3664 | 5.591|
| 889| 889 |Цвет-Белый (оттенки
белого).................| 0.057| 3632
| 5.542|
| 890| 890 |Цвет-Бордовый(оттенки бордового и
вишневого)| 0.030| 3594 | 5.484|
| 891| 891 |Цвет-Голубой (оттенки
голубого).............| 0.231| 3696
| 5.640|
| 892| 892 |Цвет-Жёлтый (оттенки жёлтого и
светлозолотис| 0.240| 3676 | 5.609|
| 893| 893 |Цвет-Зеленый (оттенки
светло-зеленого)......| 0.121| 3701
| 5.647|
| 894| 894 |Цвет-Коричневый (оттенки
коричневого).......| 0.018| 3523 | 5.376|
| 895| 895 |Цвет-Красный (оттенки
красного).............| 0.045| 3671
| 5.602|
| 896| 896 |Цвет-Оранжевый (оттенки
оранжевого).........| 0.132| 3640 | 5.554|
| 897| 897 |Цвет-Розовый (оттенки розового).............| 0.064| 3673 |
5.605|
| 898| 898 |Цвет-Светло-серый (оттенки светло-серого
и с| 0.009| 3763 | 5.742|
| 899| 899 |Цвет-Синий (оттенки
синего).................| 0.053| 3708
| 5.658|
| 900| 900 |Цвет-Сиреневый (оттенки сиреневого).........| 0.012| 3512 |
5.359|
| 901| 901 |Цвет-Тёмно-Серый (оттенки
тёмно-серого).....| 0.020| 3708 | 5.658|
| 902| 902 |Цвет-Тёмно-зеленый (оттенки
тёмно-зеленого).| 0.130| 3726 | 5.686|
| 903| 903 |Цвет-Фиолетовый (оттенки
фмолетового).......| 0.052| 3550 | 5.417|
| 904| 904 |Цвет-Хамелеон или несколько цветов без
преоб| 0.026| 3508 | 5.353|
| 905| 905
|Цвет-Чёрный.................................|
0.040| 3590 | 5.478|
=================================================================================
Универсальная
когнитивная аналитическая система НПП *ЭЙДОС*
Таблица 50 – АНКЕТА обучающей выборки N° 1
22-05-07 18:16:12
г.Краснодар
============================================================================
| Код | Наименования классов распознавания |
============================================================================
| 2 | Сумма страховой выплаты: : {34.000,
573575.000} |
| 3 | Сумма страховой выплаты: : {34.000,
57388.100} |
============================================================================
| Код | Градации описательных шкал
(признаки) |
============================================================================
| 10 | Стаж владельца: {39.700, 44.000} |
| 13 | Производство-Россия
|
| 93 | Марка-ВАЗ
|
| 741 | Марка и модель-ВАЗ-1111 |
| 901 | Цвет-Тёмно-Серый (оттенки
тёмно-серого) |
============================================================================
Универсальная
когнитивная аналитическая система НПП *ЭЙДОС*
Таким образом,
данным программным интерфейсом полностью автоматизируется этап СК-анализа,
называемый "Формализация предметной области".
7. Затем
стандартными средствами системы "Эйдос" (режим: _235) был выполнен
синтез семантической информационной модели (СИМ).
8. В системе
"Эйдос" реализовано много различных методов повышения качества
модели: это и исключение из модели статистически малопредставленных классов и
факторов (артефактов), и исключение незначимых факторов, и ремонт (взвешивание)
данных, что обеспечивает не только классическую, но и структурную репрезентативность
исследуемой выборки по отношению к генеральной совокупности, и итерационное
разделение классов на типичную и нетипичную части. Последний метод и был использован
для оптимизация СИМ. В результате категории были разделены на типичные и
нетипичные части и был получен следующий справочник классов (таблица 51):
Таблица 51 – СПРАВОЧНИК КЛАССОВ УЛУЧШЕННОЙ МОДЕЛИ
22-05-07 18:57:05
г.Краснодар
=========================================================================================================
| N |
Код | Н
а и м
е н о
в а н
и е |
Степень | Абсол. | % к кол |
| п/п
|класса| к л а с с а р а с п о з н а в а н и я |
редукции | кол-во | физичес |
| |
| | образа
| | анкет
|
|=======================================================================================================|
| 1 |
1 | Сумма страховой выплаты: : {0.000, 0.000}.................| 0.00000 | | |
| 2 |
16 | Сумма страховой выплаты: : {0.000, 0.000} it={1}..........| 0.11539 |
48368 | 73.800 |
| 3 |
23 | Сумма страховой выплаты: : {0.000, 0.000} it={1,2}........| 0.31439 |
1218 | 1.900 |
| 4 |
22 | Сумма страховой выплаты: : {0.000, 0.000} it={2}..........| 0.25730 |
15409 | 23.500 |
| 5 |
5 | Сумма страховой выплаты: : {114742.200, 172096.300}.......| 0.07006 |
11 | |
| 6 |
6 | Сумма страховой выплаты: : {172096.300, 229450.400}.......| 0.00000 | | |
| 7 |
7 | Сумма страховой выплаты: : {229450.400, 286804.500}.......| 0.07104 | 1 | |
| 8 |
8 | Сумма страховой выплаты: : {286804.500, 344158.600}.......| 0.00000 | |
|
| 9 |
2 | Сумма страховой выплаты: : {34.000, 573575.000}...........| 0.26875 |
235 | 0.400 |
| 10 |
13 | Сумма страховой выплаты: : {34.000, 573575.000} it={1}....| 0.08553 |
236 | 0.400 |
| 11 |
18 | Сумма страховой выплаты: : {34.000, 573575.000} it={1,2}..| 0.13139 |
37 | 0.100 |
| 12 |
19 | Сумма страховой выплаты: : {34.000, 573575.000} it={2}....| 0.07634 |
32 | |
| 13 |
3 | Сумма страховой выплаты: : {34.000, 57388.100}............| 0.27906 |
164 | 0.300 |
| 14 |
14 | Сумма страховой выплаты: : {34.000, 57388.100} it={1}.....| 0.09376 |
231 | 0.400 |
| 15 |
17 | Сумма страховой выплаты: : {34.000, 57388.100} it={1,2}...| 0.13006 |
40 | 0.100 |
| 16 |
21 | Сумма страховой выплаты: : {34.000, 57388.100} it={2}.....| 0.07720 |
34 | 0.100 |
| 17 |
9 | Сумма страховой выплаты: : {344158.600, 401512.700}.......| 0.00000 | | |
| 18 |
10 | Сумма страховой выплаты: : {401512.700, 458866.800}.......| 0.00000 | | |
| 19 |
11 | Сумма страховой выплаты: : {458866.800, 516220.900}.......| 0.00000 | | |
| 20 |
12 | Сумма страховой выплаты: : {516220.900, 573575.000}.......| 0.04636 | 1 | |
| 21 |
4 | Сумма страховой выплаты: : {57388.100, 114742.200}........| 0.18025 |
46 | 0.100 |
| 22 |
15 | Сумма страховой выплаты: : {57388.100, 114742.200} it={1}.| 0.05121 | 9 | |
| 23 |
20 | Сумма страховой выплаты: : {57388.100, 114742.200} it={2}.| 0.06247 | 3 | |
=========================================================================================================
Универсальная
когнитивная аналитическая система НПП *ЭЙДОС*
При этом средняя по всей выборке объемом 65535 страховых
случаев вероятность правильного отнесения страхового случая к тем классам, к
которым он действительно относится, на 2-й итерации составила 88,953% (на 1-й итерации она составляла
всего 23,692%). При дальнейших итерациях эта величина стабилизировалась,
поэтому в этот процесс был остановлен. Достигнутая степень адекватности
(достоверности) модели оценивается нами как довольно высокая и достаточная для
того, чтобы исследование этой модели считать исследованием самой моделируемой
предметной области, и выводы, полученные путем исследования модели считать
относящимися к самой предметной области.
9. Контрольное
измерение адекватности СИМ было проведено на тестовой выборке, в которую вошли 2160 страховых случаев, представляющие
все классы, в т.ч. все с
совершенными ДТП и по остальным классам не более 540 случаев. При этом были
получены результаты, представленные ниже:
|
Из анализа этой
формы можно сделать следующие выводы:
– хорошо представленные
классы можно использовать при прогнозировании, т.к. достоверность идентификации
по этим классам достаточно высокая;
– результаты
прогнозирования по слабо представленным классам учитывать в принятии решений
нецелесообразно;
– применение модели
обеспечивает во много раз более высокую достоверность, чем случайное угадывание
или не использование модели;
– общая вероятность
достоверной идентификации оказалась несколько ниже, чем по всей выборке, по
всей видимости из-за того, что в тестовой выборке не было возможности указать
все страховые случаи по которым не было ДТП, из-за огромного количества таких
случаев.
10. По сути задача 1: "Многокритериальная типизация
автомобилей клиентов по типам: "Не совершившие ДТП", "Совершившие
ДТП" и категориям, отражающим суммы страховых выплат была решена при
синтезе модели на 7-м этапе. Результатом этого этапа и решением 1-й задачи
является матрица информативностей, фрагмент
которой приводится на рисунке 68:
Рисунок 68. Фрагмент матрицы
информативностей
В этой матрице столбцы соответствуют классам распознавания,
строки – градациям факторов, а в клетках на их пересечении приведено количество информации в битах,
которое содержится в факте обнаружения в страховом случае определенной градации
фактора (например, водительского стажа, марки, модели или цвета автомобиля) о
том, что этот случай относится к определенному классу. Приведен лишь фрагмент
этой матрицы, т.к. в ней 905 строк.
11. Задача 2: "Разработка методики прогнозирования
риска совершения ДТП и суммы страховой выплаты на основе информации о клиенте и
его автомобиле", решается по сути автоматически при синтезе модели на 7-м
этапе СК-анализа. В системе "Эйдос" есть стандартный режим _42,
обеспечивающий подсчет для каждого страхового случая (представленного в
распознаваемой выборке) суммарного количества информации, которое содержится в
его признаках о принадлежности данного случая к каждому из классов. Все классы
сортируются (ранжируются) в порядке убывания суммарного количества информации,
содержащегося в описании страхового случая, о принадлежности к ним. Эта
информация представляется в виде экранной формы и файла (рисунок 69):
Рисунок 69. Пример экранной формы с
результатами прогнозирования для тестового страхового случая с номером 174.
На рисунке 69 птичками "Ö" отмечены классы, к которым данный страховой
случай действительно относится. Эта же информация приводится и в файле, в
котором наименования классов приводятся не в сокращенном варианте:
Если в распознаваемой выборке представлено сразу несколько
страховых случаев, то может представлять интерес другая форма вывода информации
о результатах прогнозирования по ним (рисунок 70):
Рисунок 70. Пример карточки
идентификации страховых случаев с классом код 2, "Сумма страховой выплаты:
34-573575 рублей"
По сути, этот класс эквивалентен по смыслу классу:
"Совершит ДТП".
12. Для решения задачи 3: "Разработка
методики поддержки принятия решений по выбору контингента клиентов,
наиболее предпочтительных и нежелательных для автострахования", необходимо
исследовать модель. Это можно сделать используя как возможности системы
"Эйдос", так и просто загрузив матрицу информативности в Excel. В
результате получаем следующие формы (рисунки 71-73):
Рисунок 71. Влияние малого стажа на
аварийность
Из этой формы
видно, каким образом водительский стаж 1-5 лет обуславливает принадлежность
страхового случая к классам оптимизированной модели.
Рассмотрим влияние
водительского стажа на безаварийность (рисунок 72) и цвета автомобиля на
безаварийность (рисунок 73).
|
Рисунок 72. Влияние водительского
стажа на безаварийность
|
Рисунок 73. Влияние цвета автомобиля
на безаварийность
Из рисунка 72
видно, что обывательское представление о том, что чем больше водительский стаж,
тем меньше аварийность, не совсем соответствует действительности. Вернее оно соответствует
действительности на интервалах: {1, 22.5} лет и {22.5, 39.7} лет. А вот стаж
22.5-26 лет как это ни парадоксально, несет информацию о том, что водитель не
относится к безаварийному классу (как и очень малый стаж от 1 до 5 лет, но в
меньшей степени). Правда дальнейшее увеличение стажа до 39.7 лет также постепенно
приводит к меньшей аварийности, но стаж 39.7 - 44 года опять говорит о
склонности к аварийности. Если причины высокой аварийности при очень малом (до
5 лет) и малом (до 9 лет) стаже понятны: это неопытность и лихачество, то
причины аварийности опытных водителей с большим (22-26 лет) и очень большим
стажем (39-44 года) видимо кроются в состоянии здоровья, связанном с кризисом
среднего возраста и с наступлением старости.
Необходимо
отметить, что задача выявления фактически имеющихся зависимостей, и задача
содержательного объяснения причин существования именно обнаруженных
зависимостей, а не каких-либо других, т.е. задача содержательной интерпретации
обнаруженных зависимостей, – это совершенно разные задачи. Авторы
считают, что задача интерпретации должна решаться специалистами в моделируемой
предметной области, в данном случае – специалистами в области автострахования.
Получены также
функции влияния на аварийность и безаварийность марки и модели автомобиля, но
эти формы не приводятся из-за большой размерности (т.е. очень большого количества
моделей и марок). Отметим лишь, что из этих форм следует гипотеза о том, чем
дороже автомобиль, тем больше (при всех прочих равных условиях) вероятность
обращения в страховую компанию при участии в ДТП.
На рисунке 74
приведем форму, показывающую влияние того, произведен ли автомобиль в России
или за рубежом на принадлежность к новым категориям.
|
Рисунок 74. Влияние российского (ряд
3) и зарубежного (ряд 1) производства автомобиля на принадлежность к классам
оптимизированной модели
13. Основной
принцип оценки экономической эффективности разработанной методики (при условии
ее применения в деятельности реальной страховой компании) состоит в том, что данная
методика позволяет создать научно обоснованный образ желаемого клиента (как и образ нежелаемого) и это, в сочетании
с методами формирования контингента клиентов, позволяют улучшить состав
портфеля договоров автострахования, уменьшив в нем долю убыточных и увеличив
долю прибыльных договоров, повысив таким образом рентабельность и прибыль
компании.
14. При
планировании данного исследования авторы ставили цель лишь оценить возможность
применения технологии СК-анализа для решения задачи андеррайтинга. Данное
исследование показало, что это возможно и перспективно. Но для того, чтобы
иметь основания сделать этот вывод не было необходимости проводить
полномасштабное научное исследование. Поэтому, естественно, что представленный
в работе вариант имеет ряд ограничений и недостатков, в преодолении которых и
состоит перспектива ее развития.
В частности можно
было бы увеличить объем обучающей выборки, взять значительно большее количество параметров, характеризующих как
автотранспортное средство, так и его владельца, а также локализовать задачу для других регионов. Например, можно было бы
учитывать является ли автомобиль переднеприводным, заднеприводным или
полноприводным, мощность его двигателя, год изготовления, более детально можно
было бы учитывать страну-производитель и т.д. Владельца вообще можно было бы
исследовать как личность, как это делается в транспортной психологии, например,
применив подход, описанный в [56]. Но для достижения целей данной работы этого
не требовалось и не делалось.
Таким
образом, на основе исследования разработанного упрощенного варианта подсистемы
андеррайтинга можно сделать вывод о возможности полномасштабного решения этой
задачи методом системно-когнитивного анализа.
С одной стороны, существуют так называемые
"факторы риска", которые несут для страховой компании информацию о
том, что данный клиент попадает в определенные "группы риска",
например, имеет повышенную вероятность совершения дорожно-транспортного
происшествия (ДТП), причем не обязательно он при этом формально будет виновен в
его совершении. С другой стороны, согласно действующему законодательству РФ,
страховая компания не имеет права отказать клиенту в заключении страхового
договора, т.е. в любом случае обязана заключить с ним такой договор. Страховая
компания, стараясь создать для себя выгодные условия страхования, имеет право
изменять расчетную стоимость страхового договора в зависимости от прогнозируемой
величины риска и, соответственно, прогнозируемой суммы страховой выплаты.
Однако информационные технологии, обеспечивающие подобное
прогнозирование, доступны далеко не всем страховым компаниям, особенно не
столичным (провинциальным). Тем же компаниям, которым они доступны, они часто
доступны по неоправданно завышенной (монопольной) цене. Качество же прогнозирования
при этом, как правило, оказывается значительно ниже, чем в столичных регионах.
Это обусловлено двумя основными причинами, связанными с тем, что эти технологии
созданы столичными разработчиками:
– на основе прецедентов из своих регионов, а в
провинции зависимости между факторами риска и принадлежностью страховых случаев
к группам риска отличаются, иногда весьма существенно, от имеющих место в
столицах;
– они созданы достаточно давно и за это время в столь
динамичной предметной области, как рынок автострахования, многое изменилось, в
том числе и структурный состав автопарка, и подготовка и возраст водителей, и
объективные условия вождения.
Эти две причины говорят о том, что для повышения эффективности
использования столичных методик прогнозирования в провинции необходимы локализация
этих методик к условиям конкретного региона и их периодическая адаптация
для отслеживания динамики предметной области. Однако ни то, ни другое на
практике в настоящее время не делается.
Поэтому
основной проблемой, решаемой
автостраховой компанией в провинции при заключении договора страхования КАСКО,
является достоверное прогнозирование рисков страхования и сумм страховых выплат
с целью определения прибыльной стоимости договора.
Авторами предлагается радикальное решение: не
просить столичных разработчиков локализовать и периодически адаптировать их
разработки, т.к. стоимость этих работ такова, что вполне может обанкротить
практически любую провинциальную страховую компанию, а разработать собственную
эксклюзивную технологию, решающую эту проблему, тем более что для успеха этого
начинания есть все необходимые предпосылки. В частности, уже созданы технологии
применения системно-когнитивного анализа (СК-анализ) для прогнозирования рисков
автострахования ОСАГО (андеррайтинг) [86], прогнозирования рисков кредитования
физических лиц (скоринг), а также для прогнозирования в других областях [56][1], в
частности экономике, психологии и педагогике, социологии, агрономии, причем,
как правило, созданы совершенно бесплатно.
Данная работа посвящена описанию технологии и методики
синтеза семантической информационной модели, учитывающей влияние различных
факторов на суммы страховых выплат автострахования КАСКО, и использования этой
модели для прогнозирования самого факта необходимости выплат и конкретных величин
сумм страховых выплат. Для решения поставленной проблемы использована уже
хорошо отработанная и положительно зарекомендовавшая себя технология
СК-анализа. Эта технология позволяет также периодически или по мере
необходимости решать задачи локализации и адаптации методики прогнозирования.
Была использована база данных прецедентов по Краснодарскому
краю, содержащая 7194 страховых случая, из которых 1506 не совершили ДТП, а
5688 совершили и по этим случаям были произведены различные страховые выплаты в
сумме от 236 до 1000000 рублей. Эта база данных была получена официально для
проведения научного исследования и не включает каких-либо данных, позволяющих
идентифицировать личности участников (таблица 52).
Таблица 52 – ИСХОДНАЯ БАЗА ДАННЫХ СТРАХОВЫХ СЛУЧАЕВ (ФРАГМЕНТ)
№ |
Summa |
Stag |
Marka |
Marka model |
Color |
God vipuska |
1 |
6000 |
39 |
ВАЗ |
1111 |
Светло-серый
(оттенки светло-серого и серебристого) |
2003 |
2 |
7502,5 |
12 |
ВАЗ |
2106 |
Красный
(оттенки красного) |
1987 |
3 |
3830,45 |
39 |
ВАЗ |
21099 |
Розовый
(оттенки розового) |
2000 |
4 |
3663,24 |
41 |
ВАЗ |
2101 |
Хамелеон
или несколько цветов без преобладания любого |
2004 |
5 |
7018,04 |
38 |
ВАЗ |
2107 |
Голубой
(оттенки голубого) |
2000 |
6 |
19845,62 |
28 |
ВАЗ |
2106 |
Бордовый(оттенки
бордового и вишневого) |
2006 |
7 |
9953,65 |
8 |
ВАЗ |
2106 |
Голубой
(оттенки голубого) |
1986 |
8 |
35778,82 |
13 |
ВАЗ |
2106 |
Красный
(оттенки красного) |
1996 |
9 |
6958,73 |
23 |
ВАЗ |
2106 |
Тёмно-зеленый
(оттенки тёмно-зеленого) |
2000 |
10 |
38215,31 |
29 |
Москвич |
412 |
Белый
(оттенки белого) |
1993 |
11 |
269835,46 |
15 |
ВАЗ |
2106 |
Белый
(оттенки белого) |
2000 |
12 |
73732 |
30 |
ВАЗ |
2121 |
Хамелеон
или несколько цветов без преобладания любого |
2005 |
13 |
17844,35 |
30 |
ГАЗ |
3302 |
Фиолетовый
(оттенки фмолетового) |
1980 |
14 |
14920,39 |
14 |
ВАЗ |
2106 |
Красный
(оттенки красного) |
2002 |
15 |
91573 |
23 |
ВАЗ |
2112 |
Розовый
(оттенки розового) |
2006 |
16 |
8233 |
30 |
ВАЗ |
2106 |
Тёмно-Серый
(оттенки тёмно-серого) |
1999 |
17 |
6045,14 |
27 |
ГАЗ |
3302 |
Синий
(оттенки синего) |
2000 |
18 |
3784 |
0 |
ВАЗ |
2106 |
Бежевый
(оттенки бежевого и светло-золотистого) |
2000 |
19 |
28220,91 |
33 |
ГАЗ |
3302 |
Тёмно-зеленый
(оттенки тёмно-зеленого) |
2000 |
20 |
13569,22 |
39 |
ГАЗ |
3302 |
Синий
(оттенки синего) |
2000 |
21 |
7260,34 |
1 |
ВАЗ |
2109 |
Бордовый(оттенки
бордового и вишневого) |
2000 |
22 |
23140 |
13 |
ВАЗ |
2106 |
Сиреневый
(оттенки сиреневого) |
2000 |
23 |
54203,33 |
19 |
Ford |
FOCUS |
Бордовый(оттенки
бордового и вишневого) |
2000 |
24 |
16645,9 |
16 |
ВАЗ |
2106 |
Сиреневый
(оттенки сиреневого) |
2000 |
25 |
65958,15 |
42 |
ВАЗ |
2105 |
Светло-серый
(оттенки светло-серого и серебристого) |
2000 |
26 |
66615,08 |
18 |
ГАЗ |
3110 |
Белый
(оттенки белого) |
2000 |
27 |
24678,41 |
19 |
ВАЗ |
2106 |
Фиолетовый
(оттенки фмолетового) |
2000 |
28 |
13620,3 |
26 |
Volkswagen |
PASSAT |
Белый
(оттенки белого) |
2000 |
29 |
53805,1 |
3 |
Ford |
ESCORT |
Голубой
(оттенки голубого) |
2000 |
30 |
15188,87 |
30 |
ВАЗ |
2110 |
Красный
(оттенки красного) |
2000 |
31 |
6876,12 |
25 |
ВАЗ |
2106 |
Голубой
(оттенки голубого) |
2000 |
32 |
77103,24 |
35 |
ВАЗ |
2107 |
Жёлтый
(оттенки жёлтого и светлозолотистого) |
2000 |
В качестве классов для прогнозирования были выбраны
следующие (таблица 53).
Таблица 53 – СПРАВОЧНИК КЛАССОВ (ФРАГМЕНТ)
Код |
Наименование |
1 |
СОВЕРШИЛ
ЛИ ДТП - НЕТ |
2 |
СОВЕРШИЛ
ЛИ ДТП - ДА |
3 |
СУММА
ВЫПЛАТЫ: {0.00, 1000.00} |
4 |
СУММА
ВЫПЛАТЫ: {1000.00, 2000.00} |
5 |
СУММА
ВЫПЛАТЫ: {2000.00, 3000.00} |
6 |
СУММА
ВЫПЛАТЫ: {3000.00, 4000.00} |
7 |
СУММА
ВЫПЛАТЫ: {4000.00, 5000.00} |
8 |
СУММА
ВЫПЛАТЫ: {5000.00, 6000.00} |
9 |
СУММА
ВЫПЛАТЫ: {6000.00, 7000.00} |
10 |
СУММА
ВЫПЛАТЫ: {7000.00, 8000.00} |
11 |
СУММА
ВЫПЛАТЫ: {8000.00, 9000.00} |
12 |
СУММА
ВЫПЛАТЫ: {9000.00, 10000.00} |
*** |
*************************************************** |
996 |
СУММА
ВЫПЛАТЫ: {993000.00, 994000.00} |
997 |
СУММА
ВЫПЛАТЫ: {994000.00, 995000.00} |
998 |
СУММА
ВЫПЛАТЫ: {995000.00, 996000.00} |
999 |
СУММА
ВЫПЛАТЫ: {996000.00, 997000.00} |
1000 |
СУММА
ВЫПЛАТЫ: {997000.00, 998000.00} |
1001 |
СУММА
ВЫПЛАТЫ: {998000.00, 999000.00} |
1002 |
СУММА
ВЫПЛАТЫ: {999000.00, 1000000.00} |
В качестве факторов, влияющих на вероятность
совершения ДТП и величину ущерба были, выбраны следующие (таблица 54).
Таблица 54 – ФАКТОРЫ, ВЛИЯЮЩИЕ НА СУММЫ СТРАХОВЫХ ВЫПЛАТ И ИХ
ЗНАЧЕНИЯ (ФРАГМЕНТ)
Код |
Наименование фактора и его
значения |
[ 1] |
СТАЖ ВОДИТЕЛЯ
|
1 |
СТАЖ
ВОДИТЕЛЯ: {0.00, 4.00} |
2 |
СТАЖ
ВОДИТЕЛЯ: {4.00, 8.00} |
3 |
СТАЖ
ВОДИТЕЛЯ: {8.00, 12.00}. |
4 |
СТАЖ
ВОДИТЕЛЯ: {12.00, 16.00} |
5 |
СТАЖ
ВОДИТЕЛЯ: {16.00, 20.00} |
6 |
СТАЖ
ВОДИТЕЛЯ: {20.00, 24.00} |
7 |
СТАЖ
ВОДИТЕЛЯ: {24.00, 28.00} |
8 |
СТАЖ
ВОДИТЕЛЯ: {28.00, 32.00} |
9 |
СТАЖ
ВОДИТЕЛЯ: {32.00, 36.00} |
10 |
СТАЖ
ВОДИТЕЛЯ: {36.00, 40.00} |
11 |
СТАЖ
ВОДИТЕЛЯ: {40.00, 44.00} |
|
|
[ 2] |
МАРКА А/М
|
12 |
МАРКА
А/М-. |
13 |
МАРКА
А/М-Alfa-Romeo. |
14 |
МАРКА
А/М-Asia. |
15 |
МАРКА
А/М-Audi. |
*** |
*************************************************** |
[ 3] |
МАРКА-МОДЕЛЬ А/М
|
83 |
МАРКА-МОДЕЛЬ
А/М--. |
84 |
МАРКА-МОДЕЛЬ
А/М-Alfa-Romeo-156 |
85 |
МАРКА-МОДЕЛЬ
А/М-Alfa-Romeo-2106. |
86 |
МАРКА-МОДЕЛЬ
А/М-Asia-2106. |
87 |
МАРКА-МОДЕЛЬ
А/М-Audi-100 |
88 |
МАРКА-МОДЕЛЬ
А/М-Audi-2106. |
89 |
МАРКА-МОДЕЛЬ
А/М-Audi-80. |
90 |
МАРКА-МОДЕЛЬ
А/М-Audi-90. |
91 |
МАРКА-МОДЕЛЬ
А/М-Audi-A4. |
92 |
МАРКА-МОДЕЛЬ
А/М-Audi-A6. |
93 |
МАРКА-МОДЕЛЬ
А/М-Audi-A8. |
*** |
*************************************************** |
[ 4] |
ЦВЕТ А/М |
482 |
ЦВЕТ
А/М-не указан |
483 |
ЦВЕТ
А/М-Бежевый (оттенки бежевого и светло-золотистого). |
484 |
ЦВЕТ
А/М-Белый (оттенки белого) |
485 |
ЦВЕТ
А/М-Бордовый(оттенки бордового и вишневого). |
486 |
ЦВЕТ
А/М-Голубой (оттенки голубого) |
487 |
ЦВЕТ
А/М-Жёлтый (оттенки жёлтого и светлозолотистого) |
488 |
ЦВЕТ
А/М-Зеленый (оттенки светло-зеленого). |
489 |
ЦВЕТ
А/М-Коричневый (оттенки коричневого) |
490 |
ЦВЕТ
А/М-Красный (оттенки красного) |
491 |
ЦВЕТ
А/М-Оранжевый (оттенки оранжевого) |
492 |
ЦВЕТ
А/М-Розовый (оттенки розового) |
Код |
Наименование фактора и его
значения |
493 |
ЦВЕТ
А/М-Светло-серый (оттенки светло-серого и серебристого). |
494 |
ЦВЕТ
А/М-Синий (оттенки синего) |
495 |
ЦВЕТ
А/М-Сиреневый (оттенки сиреневого) |
496 |
ЦВЕТ
А/М-Тёмно-Серый (оттенки тёмно-серого) |
497 |
ЦВЕТ
А/М-Тёмно-зеленый (оттенки тёмно-зеленого) |
498 |
ЦВЕТ
А/М-Фиолетовый (оттенки фиолетового) |
499 |
ЦВЕТ
А/М-Хамелеон или несколько цветов без преобладания любог |
500 |
ЦВЕТ
А/М-Чёрный |
|
|
[ 5] |
ГОД ВЫПУСКА А/М
|
501 |
ГОД
ВЫПУСКА А/М-0г.в. |
502 |
ГОД
ВЫПУСКА А/М-1953г.в |
503 |
ГОД
ВЫПУСКА А/М-1954г.в |
504 |
ГОД
ВЫПУСКА А/М-1964г.в |
*** |
*************************************************** |
545 |
ГОД
ВЫПУСКА А/М-2006г.в |
546 |
ГОД
ВЫПУСКА А/М-2007г.в |
547 |
ГОД
ВЫПУСКА А/М-2008г.в |
548 |
ГОД
ВЫПУСКА А/М-не указан |
Страховые случаи, представленные в таблице 1, закодированы
с использованием справочников из таблиц 53 и 54, в результате чего получена
обучающая выборка, представленная в таблице 55.
Таблица 55 – ОБУЧАЮЩАЯ ВЫБОРКА (БАЗА ПРЕЦЕДЕНТОВ), ФРАГМЕНТ
Код |
Наименование |
Коды классов |
Коды значений факторов |
|||||||
1 |
2 |
3 |
1 |
2 |
3 |
4 |
5 |
6 |
||
1 |
1 |
2 |
8 |
9 |
10 |
65 |
388 |
493 |
542 |
|
2 |
2 |
2 |
10 |
|
3 |
4 |
65 |
394 |
490 |
526 |
3 |
3 |
2 |
6 |
|
10 |
65 |
398 |
492 |
539 |
|
4 |
4 |
2 |
6 |
|
11 |
65 |
389 |
499 |
543 |
|
5 |
5 |
2 |
10 |
|
10 |
65 |
395 |
486 |
539 |
|
6 |
6 |
2 |
22 |
|
7 |
8 |
65 |
394 |
485 |
545 |
7 |
7 |
2 |
12 |
|
2 |
3 |
65 |
394 |
486 |
525 |
8 |
8 |
2 |
38 |
|
4 |
65 |
394 |
490 |
535 |
|
9 |
9 |
2 |
9 |
|
6 |
65 |
394 |
497 |
539 |
|
10 |
10 |
2 |
41 |
|
8 |
77 |
463 |
484 |
532 |
|
11 |
11 |
2 |
272 |
|
4 |
65 |
394 |
484 |
539 |
|
12 |
12 |
2 |
76 |
|
8 |
65 |
406 |
499 |
544 |
|
13 |
13 |
2 |
20 |
|
8 |
67 |
429 |
498 |
519 |
|
14 |
14 |
2 |
17 |
|
4 |
65 |
394 |
490 |
541 |
|
15 |
15 |
2 |
94 |
|
6 |
65 |
401 |
492 |
545 |
|
16 |
16 |
2 |
11 |
|
8 |
65 |
394 |
496 |
538 |
|
17 |
17 |
2 |
9 |
|
7 |
67 |
429 |
494 |
539 |
|
18 |
18 |
2 |
6 |
|
1 |
65 |
394 |
483 |
539 |
|
19 |
19 |
2 |
31 |
|
9 |
67 |
429 |
497 |
539 |
|
20 |
20 |
2 |
16 |
|
10 |
67 |
429 |
494 |
539 |
|
Формирование справочников классов (таблица 2),
факторов и их значений (таблица 3) и обучающей выборки (4) производится из
исходной базы данных (таблица 1) автоматически с применением
стандартного программного интерфейса между системой "Эйдос" и внешней базой данных (рисунок 75).
Рисунок 75. Экранная форма одного из
7 стандартных программных интерфейсов системы "Эйдос" с внешними
базами данных
На
рисунке 76 приводится экранная форма, объясняющая как пользоваться данным
программным интерфейсом (Help).
Рисунок 76. Экранная форма HELP
данного программного интерфейса системы "Эйдос" с внешними базами
данных
После формализации
предметной области с помощью приведенного программного интерфейса сразу
осуществляется синтез семантической информационной модели (СИМ). В результате
этой операции формируется частотное распределение страховых случаев по классам
прогнозированиями по значениям факторов. Нами это частотное распределение было
проанализировано, в результате чего выяснилось, что оно крайне неравномерно:
есть классы и значения факторов, встретившиеся в базе прецедентов сотни и даже
тысячи раз, а есть встретившиеся менее десяти раз или даже вообще отсутствующие.
Основным принципом
выявления зависимостей в эмпирических данных, на котором основан СК-анализ, я
является многопараметрическая типизация. При этом действительно существующие
зависимости возможно отличить от случайных только при наличии некоторой
статистики. Поэтому нами стандартными средствами системы "Эйдос",
предназначенными для этой цели, были удалены из справочников все классы и
значения факторов, встретившиеся менее 10 раз. При этом размерность
справочников понизилась с 1002 ´ 548, до 95 ´
181. После этого повторно была создана СИМ, которая затем была исследована на
достоверность прогнозирования страховых случаев. В результате была получены
следующие результаты (рисунок 77).
Из рисунка 77 видно, что
в среднем по всей выборке более 85 % страховых
случаев были отнесены моделью к тем классам, к которым они действительно
относятся, и при этом почти 68 % не были отнесены системой к классам, к которым
они на самом деле и не относятся. Более подробные данные об адекватности модели
приведены ниже.
Рисунок 77 – Экранная форма режима
измерения
адекватности СИМ
Всего физических анкет: 7194 (100 % для п.15)
Всего логических анкет: 14521
4. Средняя достоверность
идентификации логических анкет с учетом сходства : 2.729 %
5. Среднее сходство
логических анкет, правильно отнесенных
к классу : 0.996 %
6. Среднее сходство
логических анкет, ошибочно не отнесенных
к классу : 0.162 %
7. Среднее сходство
логических анкет, ошибочно отнесенных
к классу : 0.615 %
8. Среднее сходство
логических анкет, правильно не отнесенных к классу : 2.509%
9. Средняя достоверность
идентификации логических анкет с учетом кол-ва
: 48.314 %
10. Среднее количество
физических анкет, действительно
относящихся к классу: 2593.172 (100 % для п.11 и п.12)
Среднее количество
физических анкет, действительно не относящихся к классу: 4600.828 (100 % для
п.13 и п.14)
Всего физических анкет:
7194.000 (100% для п.15)
11. Среднее количество и
% логических анкет, правильно
отнесенных к классу: 2207.159,
т.е. 85.114 %
12. Среднее количество и
% логических анкет, ошибочно не
отнесенных к классу: 386.013, т.е.
14.886 %
13. Среднее количество и
% логических анкет, ошибочно
отнесенных к классу: 1473.071,
т.е. 32.018 %
14. Среднее количество и
% логических анкет, правильно не
отнесенных к классу: 3127.647, т.е.
67.980 %
15. Средневзвешенная
вероятность случайного угадывания принадлежности объекта к классу ( % ): 36.046
16. Средневзвешенная
эффективность применения модели по сравнению со случайным угадыванием (раз):
32.251
Особенно обратим внимание на то, что использование семантической
информационной модели для прогнозирования повышает вероятность правильного
отнесения страхового случая к классу, по сравнению со случайным угадыванием,
более чем в 32 раза. Из статистики известно, что если эта вероятность выше случайной
даже всего в 2,5 раза, то это уже позволяет с достоверностью 95 % утверждать,
что в в модели выявлены реальные зависимости.
Это довольно высокие показатели адекватности модели, которые
говорят о том, что:
– ее вполне оправданно применять на практике (в промышленном
варианте);
– исследование этой модели можно с высокой степенью
достоверности считать исследованием самой предметной области.
В частности, из созданной модели можно получить информацию
о том, какие характеристики автотранспортного средства являются "факторами
риска", а какие, наоборот, (рисунки 78 и 79).
Рисунок 78. Информационный портрет
страхового случая
"Не
совершит ДТП" (без фильтра по видам факторов)
Рисунок 79. Информационный портрет
страхового случая "Совершит ДТП" (без фильтра по видам факторов)
В системе "Эйдос" имеются многообразные
средства анализа СИМ, однако в данной работе мы их не рассматриваем, т.к. это
подробно сделано в других статьях и книгах [56, 77, 79][2]. Приведем
лишь (рисунок 80) форму, позволяющую автоматически содержательно сравнить
информационные портреты двух классов, приведенные на рисунках 78 и 79.
Рисунок 80. Содержательное сравнение
двух прогнозируемых классов
Основной
вывод, который, как мы считаем, можно
обоснованно сделать на основании данной работы, состоит в том, что
системно-когнитивный анализ и его программный инструментарий – система
"Эйдос" являются адекватным средством для синтеза семантической
информационной модели, учитывающей влияние различных факторов на суммы
страховых выплат автострахования КАСКО и использования этой модели для прогнозирования
сумм страховых выплат, и вполне могут быть применены для решения этих задач на
практике.