В данной главе дан обзор работ /15-16/, в которых приводятся
основные научные результаты по семантической информационной мультимодели, обеспечивающей
как выявление зависимостей между астропризнаками и принадлежностью респондентов
к обобщенным социальным категориям, так и использование знания этих зависимостей
для идентификации респондентов по этим категориям. Исследованная в /15/ мультимодель
включает 172 частные модели на 37 обобщенных категорий, причем каждая из категорий
представлена не менее чем 1000 респондентов при общем объеме выборки 20007 респондентов.
Основным источником данных, подготовленной
для системы "Эйдос", является AstroDatabank (www.astrodatabank.com). Использованная
нами четвертая версия этого банка данных содержит 31012 записей, из которых 23217 составляют
карты рождения известных личностей с описанием их биографии, 6643 карты рождения
людей без имени, отнесенных к определенной категории и 1152 карты мунданных событий,
типа землятресения, авиационных катастроф и т.п. Общий объем банка данных составляет
около 300 Мб. В нем содержатся астрономические параметры в 4 системах домов, поэтому
в данной версии можно экспортировать в использованный нами DBF4 формат астрономические
параметры, включая долготу и склонение планет, а также положение углов домов. Достоинством этого банка данных является то, что,
все события жизни классифицированы, а все профессиональные и иные категории упорядочены.
В результате сортировки исходных данных были получены астрономические и биографические
данные для 20007 уникальных персон и 16360 записей событий, происходивших с ними.
Для них всех были вычислены координаты небесных тел. Для записей с точным временем
вычислялись куспиды домов в системе Плацидуса. В анализе были использованы эфемериды
следующих небесных тел: Солнца, Луны, Меркурия, Венеры, Марса, Юпитера, Сатурна,
Урана, Нептуна и Плутона.
Однако в процессе исследований выяснилось, что данная база
данных обладает рядом недостатков, среди которых хотелось бы отметить крайне неравномерное
распределение респондентов по категориям: из 11000 категорий, к которым относятся
респонденты этой базы лишь 37 представлены 1000 респондентов и более. Поэтому выводы,
полученные различным категориям, обладают разной степенью статистической достоверности:
по хорошо представленным категориям можно
говорить о надежно выявленных эмпирических
законах, а по малопредставленным – об исследовании неких зависимостей, которые
нет возможности классифицировать как случайные или закономерные.
Дело в том, что чем меньше респондентов относится к категории,
тем меньше вариабельность параметров респондентов, отнесенных к категории. В предельном
случае, когда образ категории сформирован на примере одного респондента, вариабельность
полностью отсутствует. В этом случае, по сути, задача распознавания вырождается
(редуцируется) до задачи информационного поиска, т.е. становится тривиальной. Поэтому
достоверность решения этой задачи максимальна и практически равна 100 %. Чем больше
респондентов относится к некоторой категории, тем выше вариабельность параметров
респондентов (астропризнаков) внутри категории, тем сложнее получить обобщенный
образ этой категории и тем сложнее достоверно осуществить идентификацию конкретного
респондента с этим образом. Однако именно это, т.е. определение уровня сходства
конкретного респондента с обобщенным образом, сформированным на основе большого
количества респондентов, относящихся к данной категории, и представляет и научный,
и прагматический интерес.
Таким образом возникает проблема, состоящая в том, что
для повышения статистической достоверности выводов необходимо увеличивать количество
респондентов, относящихся к обобщенным категориям, однако это приводит к понижению
достоверности идентификации респондентов с этими категориями из-за возрастания вариабельности
внутри категорий.
В астросоциологии данная проблема ставится впервые, и в
этом состоит ее научная новизна. Решение данной проблемы позволяет одновременно
повысить и адекватность, и статистическую достоверность идентификации респондентов
с астросоциотипами, что имеет высокую практическую значимость для служб, связанных
с управлением персоналом. В этом и состоит актуальность решения данной проблемы.
Одним из эффективных методов повышения адекватности модели
является сортировка исходных записей базы данных и удаление из нее нетипичных представителей
данных категорий /16/. Рассмотрим этот метод более подробно на одном примере.
Объектом исследования являются модели, отражающие взаимосвязи
между астропризнаками респондентов и принадлежностью этих респондентов к астросоциотипам,
а предметом исследования – частные информационные
семантические модели с 2, 3, 12 и 128 секторами.
Выбор именно этих частных моделей для исследования был
обусловлен тем, что они представляют три группы частных моделей: с малым (2, 3),
средним (12) и большим (128) количеством секторов, что позволяет оценить зависимость
эффективности метода, применяемого для решения проблемы, от количества секторов
в частной модели.
Целью исследования является повышение адекватности идентификации респондентов
в частных моделях по хорошо статистически представленным астросоциотипам.
Данную цель предполагается достичь путем ее декомпозиции в следующую последовательность
задач, являющихся этапами ее достижения:
1.
Разработка дерева
обобщенных категорий, к которым относятся респонденты, представленные в исходной
базе данных.
2.
Расчет распределения
респондентов по категориям.
3.
Удаление из списка
категорий всех, к которым относится менее 1000 респондентов.
4.
Синтез частных моделей
для наиболее представленных социальных категорий с различным количеством секторов.
5.
Выбор метода повышения
адекватности и исследование частных моделей с малым (2, 3), средним (12) и большим
(128) количеством секторов выбранным методом.
Решение задач 1-4 приведено в работе /15/, а решение 5-й
задачи в работе /16/.
Обоснование требований
к методу решения проблемы. Метод должен
обеспечивать возможность работы с частными моделями, созданными в системе "Эйдос-астра"
/3/ и при этом повышать адекватность отдельной заданной модели, т.е. не использовать алгоритмы голосования (коллективы
решающих правил), которые уже были исследованы в /15/.
На сколько можно судить по литературным данным сформулированным
требованиям в принципе удовлетворяют две системы: это SPSS и система "Эйдос".
В системе SPSS можно методами кластерного анализа исследовать
матрицу информативностей и построить дерево классов, отражающее их сходство и различие.
Ясно, что сходство классов тем выше, чем больше респондентов относится одновременно
к обоим этим классам, т.е. чем больше их пересечение по исходным данным, чем выше
корреляция между ними. На основе этого можно попытаться сконструировать такую систему
классов, которые бы имели минимальное пересечение по исходным данным, т.е. провести
ортонормирование системы классов. При этом из системы классов будут удалены те из
них, которые наиболее сильно коррелируют друг с другом. Это теоретически возможно,
но практически осуществимо лишь для очень небольших обучающих выборок и небольших
наборов классов, т.к. после изменения набора классов необходимо соответственно перекодировать
обучающую выборку, и провести пересинтез модели. Для исследуемых нами баз данных
с помощью системы SPSS это практически неосуществимо. Кроме того система SPSS вообще
не обеспечивает многопараметрическую типизацию (обобщение, формирование обобщенных
образов категорий) на основе описаний респондентов.
В системе "Эйдос" /2/ реализованы режимы ортонормирования
семантического пространства классов и семантического пространства атрибутов, а также
режим разделения классов на типичную и нетипичную части, автоматизирующие все необходимые
для этого функции, причем в процессе выполнения этих режимов создаются различные
частные модели и при этом используется многопараметрическая типизация.
По этим причинам для решения сформулированной проблемы
авторами принято решение применить метод разделения классов на типичную и нетипичную
части, реализованный в системе "Эйдос". Необходимо отметить, что этот
метод уже апробирован для решения подобных задач в других предметных областях и
при этом продемонстрировал очень высокую эффективность, но для решения поставленной
проблемы применяется впервые.
Описание метода.
Данный метод представляет собой итерационный
процесс синтеза частных моделей, отличающихся наборами классов (обобщенных категорий).
Цикл итераций начинается с копирования исходной модели в директорию для первой итерации.
В последующих итерациях частная модель копируется из директории с текущей итерацией
в директорию с последующей итерацией. Выход из цикла итераций происходит при достижении
заданной достоверности идентификации или 100% достоверности, заданного количества
итераций или при стабилизации достоверности (ее неизменности в двух итерациях).
В каждой итерации проводится синтез модели и идентификация
респондентов обучающей выборки с обобщенными категориями. Если
респондент не отнесен системой к обобщенной категории, хотя в действительности по
данным обучающей выборки относится к ней, то это означает, что он является нетипичным для этой категории, в которой,
видимо, очень высока вариабельность параметров, и это означает, что надо разделить
эту категорию на несколько таким образом, чтобы вариабельность параметров внутри
каждой из них была минимальной и достаточной для наиболее достоверной идентификации
респондентов. При этом формируется дерево разделения категорий, похожее на формирующееся
при древовидной кластеризации, причем на каждой итерации каждая обобщенная категория
разделяется не более, чем на две категории.
Описание методики
(технологии) применения метода на практике. На практике для применения данного режима системы "Эйдос" (_35)
были выполнены следующие работы:
¾
создана директория Razd_kl для исследования моделей
методом разделения классов на типичную и нетипичную части;
¾
внутри этой директории созданы директории Razd_002,
Razd_003, Razd_012, Razd_128 для исследования частных моделей с 2, 3, 12 и 128 секторами
соответственно;
¾
в каждую из этих директорий скопированы папки с
исходной частной моделью (из директории с мультимоделью, содержащей 172 ранее созданные
частные модели) и папка с системой "Эйдос";
¾
для каждой частной модели: все файлы из директории
с исходной моделью скопированы в директорию с системой "Эйдос";
¾
для каждой частной модели: система "Эйдос"
запускается на исполнение и затем запускается режим _35: "Разделение классов
на типичную и нетипичную части" (при этом задается 7 итераций);
¾
данный режим исполняется и формирует директории
с именами вида: Razd_kl\razd_002\ITER_##, где ## – номер итерации;
¾
в поддиректории TXT каждой директории с итерацией
содержится файл: Razd_kl\razd_002\ITER_02\TXT\NCD_TREE.TXT, содержащий в псевдографическом виде дерево классов для
данной итерации;
¾
в базах данных DOSTITER.DBF содержится информация
о достоверности идентификации по всей обучающей выборке, достигнутая в текущей итерации.
В таблице 16 и на рисунке 31 приведены сводные данные по
достоверности идентификации всех 20007 респондентов обучающей выборки в частных
моделях, полученных из исходных частных моделей с 2, 3, 12 и 128 секторами на различных
итерациях.
Таблица 16. Достоверность идентификации
20007 респондентов на различных итерациях
Номер итерации |
Количество секторов в частной модели |
|||
2 |
3 |
12 |
128 |
|
1 |
66,311 |
72,562 |
72,374 |
73,923 |
2 |
82,678 |
80,240 |
81,702 |
80,022 |
3 |
83,829 |
79,802 |
82,348 |
81,599 |
4 |
82,974 |
79,840 |
82,480 |
82,171 |
5 |
82,515 |
79,927 |
82,474 |
82,528 |
6 |
82,460 |
80,043 |
82,556 |
82,756 |
7 |
82,472 |
80,182 |
82,622 |
82,922 |
Рис. 31. Достоверность идентификации на различных
итерациях в моделях М2, М3, М12 и М128
Из приведенных таблицы и рисунка следует вывод о высокой
эффективности применения выбранного метода разделения классов на типичную и нетипичную
части, который обеспечил уже на 1-й итерации достоверность идентификации обучающей
выборки, включающей 20007 респондентов, 65-75%, а уже на 2-й и 3-й итерациях эта
достоверность достигает 82-83%. Видно также, что наибольший эффект дают уже первые
три итерации, а последующие мало что меняют в эффективности частных моделей.
Главный научный вывод, который можно
обоснованно сделать на основе проведенного исследования состоит в том, что метод разделения классов на типичную и нетипичную части
позволяет получить семантические информационные модели с очень высокой достоверностью
идентификации респондентов, достигающей 83% на огромной тестирующей выборке из 20007
респондентов.
Второй вывод состоит в том, что для получения модели с
высокой достоверностью не играет особой роли количество секторов в исходной модели,
т.е. эффективность метода практически не зависит
от количества секторов в частных моделях.
В работе /16/ приводится дерево категорий
для частной модели с 2 секторами, полученное на 7-й итерации. Из этого дерева категорий можно сделать вывод о том, что
одни категории обладают более высокой внутренней вариабельностью и разделяются в
процессе итераций на большее количество классов, чем другие, которые идентифицируются
с большей достоверностью. Ярким примером категории 2-го типа является SC:A53-Sports.
Примененный метод разделения классов на типичную и нетипичную
части продемонстрировал свою высокую эффективность. Полученные в результате применения
данного метода семантические информационные модели имеют достоверность идентификации
достаточно высокую для того, чтобы применять эти модели на практике в консультирующих
системах.
Необходимо отметить очень высокие затраты машинного времени
и других вычислительных ресурсов на расчеты, связанные с получением новых более
достоверных частных моделей. Этим и объясняется выбор для данного исследования всего
4-х частных моделей, а не всех 172-х, полученных ранее, а также то обстоятельство,
что количество итераций было ограничено 7-ю. В вычислительных экспериментах на моделях
меньшей размерности в других предметных областях и при большем количестве итераций
этим же методом были получены модели со 100% достоверностью /26/.
В работе /15/ была изучена эффективность пяти алгоритмов
голосования по сравнению со случайным угадыванием – таблица 17. Сравнивались
алгоритмы распознавания в мультимоделях, когда за параметр сходства принимается:
А1. СУММАРНАЯ ЧАСТОТА ИДЕНТИФИКАЦИИ
респондента с каждым классом, рассчитанная по всем частным моделям /10-11/.
А2. СРЕДНЕЕ уровней сходства
с этим классом из всех карточек идентификации частных моделей.
А3. Уровень сходства этого
респондента с классом из той частной карточки идентификации, в которой он МАКСИМАЛЬНЫЙ.
А4. Уровень сходства из
карточки идентификации той частной модели, которая показала МАКСИМАЛЬНУЮ достоверность
распознавания ДАННОГО КЛАССА из всех моделей.
А5. СРЕДНЕЕ СУММЫ ПРОИЗВЕДЕНИЙ
уровней сходства с данным классом на достоверность его идентификации в частных моделях.
Таблица 17. Эффективность алгоритмов голосования
по сравнению со случайным угадыванием
Имя категории |
А1 |
А2 |
А3 |
А4 |
А5 |
SC:М- |
5,781 |
9,25 |
3,262 |
2,323 |
10,947 |
SC:A323-Sexuality |
8,409 |
6,167 |
18,271 |
7,645 |
7,708 |
SC:B329-Sexual perversions |
8,81 |
8,222 |
10,883 |
1,996 |
5,389 |
SC:C330- Homosexual m |
10,277 |
15,418 |
6,159 |
9,136 |
9,679 |
SC:B189-Medical:Illness |
11,936 |
6,379 |
8,968 |
10,242 |
3,85 |
SC:A53-Sports |
12,333 |
36,996 |
6,371 |
4,068 |
7,113 |
SC:A42-Medical |
12,758 |
9,25 |
5,139 |
12,432 |
3,997 |
SC:A5-Entertainment |
13,704 |
11,212 |
4,791 |
12,589 |
12,432 |
SC:A9-Relationship |
14,231 |
6,981 |
3,482 |
0,961 |
3,557 |
SC:A29-Parenting |
16,088 |
4,302 |
4,567 |
3,61 |
0,903 |
SC:B21- Number of marriages |
16,088 |
20,555 |
6,491 |
5,609 |
7,175 |
SC:A31-Business |
16,088 |
18,501 |
10,242 |
8,712 |
3,263 |
SC:B26-Personality:Body |
16,088 |
6,981 |
7,255 |
8,094 |
7,631 |
SC:A23-Psychological |
17,618 |
9,487 |
21,763 |
20,483 |
3,652 |
SC:A25-Personality |
19,474 |
16,088 |
9,992 |
3,7 |
5,668 |
SC:A19-Writers |
21,763 |
11,212 |
3,706 |
6,662 |
11,419 |
SC:A129-Death |
21,763 |
8,409 |
2,868 |
5,073 |
7,645 |
SC:A1-Book Collection |
23,127 |
8,604 |
6,049 |
4,509 |
9,922 |
SC:B111-Sports:Basketball |
23,127 |
24,667 |
10,883 |
9,024 |
8,804 |
SC:B14-Entertainment:Actor/ Actress |
24,667 |
16,088 |
8,222 |
6,395 |
9,282 |
SC:A15-Famous |
26,427 |
2,782 |
1,393 |
2,847 |
22,652 |
SC:A55-Art |
28,458 |
8,409 |
8,409 |
10,999 |
4,441 |
SC:B49-Book Collection:Am. Book |
28,458 |
7,551 |
9,024 |
7,604 |
7,604 |
SC:A38-Politics |
30,836 |
7,872 |
11,551 |
3,807 |
6,662 |
SC:B173-Sports:Football |
30,836 |
10,277 |
12,318 |
7,113 |
7,362 |
SC:A99-Financial |
30,836 |
15,418 |
8,604 |
5,867 |
3,034 |
SC:B48-:Top 5% of Profession |
33,636 |
9,737 |
14,799 |
6,483 |
11,674 |
SC:B6-Entertainment:Music |
33,636 |
12,333 |
9,737 |
2,43 |
1,858 |
SC:A68-Childhood |
36,996 |
11,936 |
13,683 |
2,337 |
6,605 |
SC:Ж- |
36,996 |
16,818 |
6,727 |
5,011 |
4,365 |
SC:A108-Education |
41,118 |
11,212 |
13,704 |
9,282 |
17,922 |
SC:B45-Famous:Greatest hits |
46,253 |
17,618 |
3,362 |
10,781 |
9,626 |
SC:B2-Book Collection:Profiles Of W |
46,253 |
6,852 |
4,556 |
7,362 |
6,578 |
SC:A92-Birth |
52,854 |
10 |
6,066 |
13,703 |
3,584 |
SC:?- |
52,854 |
23,127 |
20,555 |
20,555 |
18,271 |
SC:A40-Occult Fields |
74,019 |
13,214 |
26,427 |
26,427 |
2,368 |
SC:B97-Occult Fields:Astrologer |
92,507 |
28,458 |
9,25 |
12,182 |
2,575 |
Среднее значение |
19,336 |
9,668 |
6,364 |
5,396 |
5,147 |
Из анализа данных, приведенных в таблице 17,
видно, что использование мультимодели и алгоритмов голосования дает результаты идентификации
(по большинству категорий), существенно отличающиеся от случайного угадывания (в
лучшую сторону). Из статистики известно, что если достоверность идентификации
выше вероятности случайного угадывания в 2.5 раза, то вывод о том, что
существует закономерность имеет достоверность 95%. Из этого можно сделать три важных
вывода:
1. В обучающей выборке выявлены взаимосвязи
между астрономическими признаками респондентов на момент рождения (астропризнаками)
и обобщенными социальными категориями (астросоциотипами), показывающие, что эта
выборка существенно отличается от случайной.
2. Знание этих выявленных закономерностей позволяет
относить респондентов к обобщенным социальным категориям с достоверностью, значительно
превосходящей вероятность случайного угадывания.
3. Достоверность предыдущих двух выводов, как
статистических высказываний, составляет значительно более 95 %.
Итак, в мультимодели, основанной на солидной
базе прецедентов (20007 респондентов) с огромной статистической представительностью
категорий (не менее 1000 респондентов на категорию), получены результаты идентификации
респондентов тестирующей выборки из 370 респондентов, подобранных таким образом,
чтобы их было не менее 10 на категорию.
Полученные результаты идентификации подтверждают:
1. В созданной с помощью системы "Эйдос-астра"
мультимодели выявлены зависимости между астропризнаками респондентов на момент их
рождения и принадлежностью этих респондентов к обобщенным социальным категориям
(типам).
2. Эти зависимости имеют такую силу, что их
знание, по-видимому, может быть успешно использовано для идентификации респондентов
по категориям.
3. Методы голосования моделей (коллективы решающих
правил) позволяют повысить достоверность полученных результатов идентификации до
21 %, по сравнению с наихудшими частными моделями, поэтому это может представлять
не только чисто научный, но, по-видимому, и практический интерес. Полученные результаты
показывают, что достоверность идентификации с помощью мультимодели часто в 2,5 раза,
а иногда – и в десятки раз превышает вероятность случайного угадывания, значит,
их достоверность, как статистических высказываний, в этих случаях выше 95 %.
4. Выявлены категории, по которым уровень достоверности
идентификации особенно высок или очень низкий. С учетом этого, предлагается при
отнесении респондента системой к категориям второго типа не принимать эти результаты
слишком серьезно.
5. Результаты экспериментального тестирования
показали,
что научные разработки, описанные выше, представляют не только научный, но и практический
интерес, т.к. совпадение прогноза с фактом является довольно высоким и вполне очевидным
как для консультанта, так и для его клиентов.
Рассмотрим, каким образом полученные результаты
могут быть использованы в социологии.