1. Принципы
формализации предметной области и подготовки эмпирических данных.
2.
Иерархическая структура данных и последовательность численных расчетов в
СК-анализе.
3. Обобщенное
описание алгоритмов СК-анализа.
4. Детальные
алгоритмы СК-анализа.
Формализация
предметной области это процесс, состоящий из двух основных этапов:
1.
Конструирование шкал и градаций для описания и кодирования состояний объекта
управления и факторов, влияющих на его поведение.
2. Отнесение
состояний объекта управления и факторов к определенным градациям
соответствующих шкал.
В данной работе
предлагается следующие определения.
Шкала – это способ классификации объектов по наименованиям
или степени выраженности некоторого свойства.
Градация – это положение на шкале (или интервал, диапазон),
соответствующее наименованию или определенной степени выраженности свойства.
Понятие шкалы тесно связано с ключевым понятием когнитивной
психологии: понятием конструкта, более того, практически является синонимом или
формальным аналогом этого понятия.
Конструктом
называется понятие, имеющее полюса, противоположные по смыслу, и ряд
промежуточных градаций, отражающих различную степень выраженности некоторого
качества. Познание состоит в создании (генерировании) новых конструктов и их
использовании для ориентации в предметной области. Таким образом, формализация
предметной области по сути дела представляет собой ее познание, т.е.
когнитивную структуризацию. В приведенной таблице 27 дана характеристика
измерительных шкал согласно [81]. Конечно, наименования могут быть присвоены
градациям всех видов измерительных шкал.
|
Плодотворным
является представление классов, как некоторых областей в фазовом пространстве,
в котором в качестве осей координат выступают некоторые шкалы классов меньшего
уровня общности или признаков. Классы распознавания могут рассматриваться,
также, как градации (конкретные значения, заданные с некоторой точностью, или
диапазоны – зоны), заданные на этих шкалах. Количество шкал, тип шкал и
количество градаций на них в предлагаемой модели задает сам пользователь.
Если
представить эти шкалы как оси координат, то, очевидно, наиболее обобщенным
классам распознавания соответствуют зоны на самих осях. Кроме того возможны
варианты сочетаний по 2 оси, соответствующие областям на координатных плоскостях.
Существуют также области в фазовом пространстве, образованные сочетаниями
градаций сразу n-го количества шкал, где n <= N, где N - размерность
фазового пространства. Естественно, пользователь может исследовать только те
классы, которые его интересуют, сознательно принимая решение не рассматривать
остальных. Но он должен знать, что и остальные классы также могут быть
сформированы и исследованы, а для этого нужно иметь их классификацию, принцип
разработки которой мы только что рассмотрели.
Конкретными
реализациями обобщенных категорий могут быть объекты, их состояния или ситуации
(но применять мы, как правило, будем термин "объекты", всегда имея в
виду и остальные возможные варианты). Синонимами понятия "класс" являются применяющиеся в специальной литературе термины
"объекты", "категории", "образы", "эталоны", "типы", "профили",
"вектора". В данной работе объекты рассматриваются как конкретные
реализации классов, а классы – как обобщенные образы объектов определенной
категории.
Когда классы
распознавания сформированы с ними могут осуществляться три основные операции:
сравнение конкретных объектов, их состояний или ситуаций с классами; сравнение
классов друг с другом; вывод информации о содержании обобщенного образа класса
в форме таблиц или графических диаграмм.
Конкретные
объекты, предъявляемые на входе модели в качестве примеров или реализаций
некоторых обобщенных классов (прецедентов), описываются на языке атрибутов,
т.е. признаков.
Признаки могут
иметь любую природу, в частности:
объективную - физическую, химическую и др. (вес, температура, рост);
социально-экономическую (меновую и потребительную стоимость, степень
амортизации, процент дивидендов); эмоционально-психологическую
(привлекательный, предупредительный, исполнительный, конфликтный и т.п.).
Система
признаков двухуровневая, что позволяет формализовать (шкалировать) не только качественные (да/нет), но и количественные (числовые)
признаки, а также позволяет обрабатывать вопросы со многими, в том числе и
неальтернативными вариантами ответов. Вопрос с вариантами ответов можно рассматривать
как шкалу с градациями. Такое понимание позволяет "ввести в оборот"
хорошо разработанную теорию шкалирования, что является весьма ценным. В
предлагаемой модели нет ограничений на тип и количество шкал, а также на
количество градаций в них (за исключением суммарного общего количества градаций.
Нет в предлагаемой модели и таких искусственных ограничений, как, например,
необходимость одинакового количества градаций во всех шкалах, или необходимость
использовать только шкалы только одного какого-либо типа, и т.п., которые, как
правило, встречаются в других системах.
В принципе
могут быть сконструированы системы признаков, представляемые деревьями трех и
более уровней, однако программно реализовывать их нецелесообразно, т.к. они все сводятся к двухуровневым деревьям (вопросы с вариантами ответов).
Рассмотрим 6
уровней базовых когнитивных операций системного анализа и 5-ти уровневую
иерархическую структуру данных (рисунок 44), на базе которой и реализуются эти
операции.
На 1-м
уровне непосредственно на основе исходной информации, путем
применения БКОСА 2.1 и 2.2 формируется матрица абсолютных частот.
На 2-м уровне на основе матрицы абсолютных частот путем применения
БКОСА 3.1.1, 3.1.2, 3.1.3, 3.2, 3.3 формируется матрица информативностей, являющаяся
основой для выполнения последующих БКОСА и обеспечивающая независимость времени
их выполнения от объема обучающей выборки.
На 3-м
уровне путем выполнения БКОСА 4.1 и 4.2 формируется
оптимизированная матрица информативностей. Оптимизация обеспечивает экономию
труда, времени и других затрат на эксплуатацию содержательной информационной
модели.
На 4-м
уровне с использованием оптимизированной матрицы информативностей
выполняются БКОСА 9.1, 9.2, а также 10.1.1 и 10.2.1. Две последние операции
обеспечивают (соответственно) создание матриц сходства классов и атрибутов,
являющихся, в свою очередь, основой для реализации последующих БКОСА.
На 5-м
уровне на основе матриц сходства путем выполнения БКОСА
10.1.2, 10.2.2, 10.3.1 и 10.4.1 рассчитываются базы данных, когнитивного и кластерно-конструктивного
анализа.
На 6-м
уровне, с использованием баз данных, созданных на 5-м уровне,
реализуются БКОСА 10.1.3, 10.3.2, 10.4.2 и 10.2.3.
|
Рисунок 44. Иерархическая структура данных |
В данном разделе приведены 24 детальных
алгоритма всех 10 базовых когнитивных операций системного анализа (таблица 28),
коды которых полностью соответствуют обобщенной схеме СК-анализа (рисунок 44).
Таблица 28 – БАЗОВЫЕ КОГНИТИВНЫЕ ОПЕРАЦИИ |
|
В таблице 29 приведена структура каждой базовой когнитивной операции,
дана их нумерация в соответствии с обобщенной схемой СК-анализа и нумерация
реализующих их алгоритмов.
Описания базовых когнитивных операций
системного анализа и их реальные детализированные алгоритмы приведены ниже
(рисунки 45 – 68).
Таблица 29 – ДЕТАЛЬНЫЙ СПИСОК БКОСА И ИХ
АЛГОРИТМОВ
|
В базы данных вводятся двухвекторные
(дискретно-интегральные) описания объектов, включающие как их описание на языке
признаков, так и принадлежность к определенным классификационным категориям –
классам.
В ряде случаев, особенно при
проведении политологических исследований, необходимо, чтобы исследуемая выборка
корректно представляла генеральную совокупность не только в смысле традиционно
понимаемой репрезентативности, но и по распределению респондентов по категориям
(т.е. структурно) соответствовала ей. Добиться этого путем подбора объектов для
исследования затруднительно, т.к. каждый объект может относиться одновременно
ко многим классификационным категориям. Данный алгоритм обеспечивает выборку из
исследуемого множества объектов последовательных подмножеств, наиболее близких
по частотному распределению объектов по категориям к заданному распределению.
Данная операция называется также "взвешивание или ремонт данных".
На основе анализа обучающей выборки
обеспечивается накопление в базах данных первичных элементов смысла, т.е. фактов,
состоящих в том, что определенный признак встретился у объекта определенного
класса.
При отсутствии статистики невозможно
отличить закономерные факты от не вписывающихся в общую складывающуюся картину
и искажающих ее, т.е. артефактов. При накоплении же достаточной статистики это
возможно и данный алгоритм позволяет выявить и исключить из дальнейшего анализа
артефакты. Необходимо отметить, что в результате действия данного алгоритма
существенно повышается качество содержательной модели предметной области, в
частности ее валидность.
Непосредственно на основе матрицы
абсолютных частот позволяет вычислить количество информации, содержащейся в
факте наблюдения у некоторого объекта определенного признака о том, что данный
объект принадлежит к определенной классификационной категории.
Рассчитывается среднее количество
информации, которое система управления получает о поведении АОУ из фактов о действии
тех или иных факторов и их значений. Кроме того, если факторы классифицированы
независимым способом по уровням Мерлина, то определяется и значимость этих
уровней.
Рассчитывается среднее количество
информации, которое система управления получает из одного признака, если
известен класс. Если классы относятся к уровням
Мерлина, то определяется и их значимость.
С помощью метода последовательных
приближений (итерационный алгоритм) при заданных граничных условиях снижается
размерность пространства атрибутов без существенного уменьшения его объема и
адекватности модели. Критерий остановки итерационного процесса – достижение
одного из граничных условий.
С помощью метода последовательных
приближений (итерационный алгоритм) при заданных граничных условиях снижается
размерность пространства классов без существенного уменьшения его и
адекватности объема. Критерий остановки итерационного процесса – достижение
одного из граничных условий.
Осуществляется идентификация объектов
обучающей выборки (классификационный вектор которых уже известен) и затем
рассчитывается средневзвешенная погрешность идентификации (интегральная
валидность), а также погрешность идентификации с каждым классом
(дифференциальная валидность). Если модель имеет приемлемый уровень
адекватности, то принимается решение о возможности ее использования в
адаптивном режиме на объектах, не входящих в обучающую выборку, но относящихся
к генеральной совокупности, по отношению к которой эта выборка репрезентативна.
Если же модель недостаточно адекватна, то продолжаются работы по синтезу
адекватной модели путем увеличения количества классов и факторов, а также
корректировки описаний объектов обучающей выборки и увеличения их количества.
Рассчитывается количество информации,
содержащееся в описании идентифицируемого объекта о его принадлежности к
каждому из классов. Все классы ранжируются в порядке убывания количества
информации о принадлежности к ним в описании данного объекта. Таким образом,
вектор объекта разлагается в ряд по векторам классов. Кроме того, все объекты
ранжируются в порядке убывания сходства с каждым классом. Таким образом, вектор
класса разлагается в ряд по векторам объектов.
Координаты вектора класса (т.е.
факторы) ранжируются в порядке убывания их значений. Таким образом, в начале
списка оказываются факторы, оказывающие наиболее сильное влияние на переход АОУ
в состояние, соответствующее данному классу, а в конце списка – препятствующие
этому. Это позволяет выбрать факторы для управляющего воздействия, целью
которого является перевод АОУ в состояние, соответствующее данному классу.
Механизм фильтрации позволяет "изолированно" рассматривать влияние
различных групп факторов: например, факторов, характеризующих объект
управления, управляющую систему или окружающую среду. Абдукция представляет
собой обобщение дедукции на основе нечеткой логики. В данном случае это
означает, что фактор связан с классом не детерминистским образом, а через
количество информации, которое в нем содержится о данном класса.
Классы ранжируются в порядке убывания
влияния данного фактора на переход АОУ в состояния, соответствующие этим
классам. В начале списка оказываются состояния, на переход в которые данный
фактор оказывает наибольшее влияние, а в конце – на переход в которые данный
фактор препятствует. Этот список является развернутой характеристикой смысла фактора.
Сравниваются вектора классов и
формируется диагональная матрица сходства классов, в которой по обоим осям
расположены коды классов а в клетках находятся нормированные коэффициенты,
численно отражающие степень сходства или различия векторов соответствующих
классов.
На основе матрицы сходства классов
для каждого из них формируется ранжированный список остальных, в котором они
расположены в порядке убывания сходства с данным классом. Такие списки
представляют собой бинарные конструкты, а их полюса соответствуют кластерам.
На основе матрицы сходства классов
визуализируются ориентированные графы, вершинам которых соответствуют классы, а
ребрам – степени их сходства или различия. Знак связи обозначается цветом:
красный цвет – сходство, синий – различие, толщина линии соответствует модулю
(силе) связи. Необходимо отметить, что для подобных графов в литературе пока
нет устоявшегося общепринятого названия: в данном исследовании, как и в
предшествующих работах автора, они называются семантическими сетями, в
литературе по когнитивному анализу их называют когнитивными картами, а в
литературе по когнитивному анализу – когнитивными картами или схемами [160 – 164].
Сравниваются вектора факторов и
формируется диагональная матрица сходства факторов, в которой по обоим осям
расположены коды факторов, а в клетках находятся нормированные коэффициенты,
численно отражающие степень сходства или различия векторов соответствующих факторов.
На основе матрицы сходства факторов для каждого из них
формируется ранжированный список остальных, в котором они расположены в порядке
убывания сходства с данным фактором. Такие списки представляют собой бинарные
конструкты, а их полюса соответствуют кластерам.
На основе матрицы сходства факторов визуализируются
ориентированные графы, вершинам которых соответствуют заданные факторы, а
ребрам – степени их сходства или различия. Знак связи обозначается цветом:
красный цвет – сходство, синий – различие, толщина линии соответствует модулю
(силе) связи.
Каждая связь между классами в семантической сети, отражающая
степень их сходства или различия, имеет определенную структуру, описанную в
разделе 3.2.3 исследования. Эта структура включает ряд элементов, каждый из
которых соответствует одному слагаемому обобщенной меры сходства векторов классов.
Из всех составляющих связи между классами выбираются 8
наиболее сильных и отображаются в форме линий, цвет которых означает знак, а
толщина – модуль силы связи. Классы изображаются в форме наиболее значимых
фрагментов их информационных портретов. При этом учитываются корреляции между
факторами.
Каждая связь между факторами в семантической сети, отражающая
степень их сходства или различия, имеет определенную структуру, описанную в
разделе 3.2.3 исследования. Эта структура включает ряд элементов, каждый из
которых соответствует одному слагаемому обобщенной меры сходства векторов факторов.
Из всех составляющих связи между факторами выбираются
16 наиболее сильных и отображаются в форме линий, цвет которых означает знак, а
толщина – модуль силы связи. Факторы отображаются в форме наиболее значимых
фрагментов их семантических портретов. При этом учитываются корреляции между
классами.
Выполняется в несколько этапов:
1) выполняется прогноз развития АОУ в условиях отсутствия
управляющих воздействий, т.е. реализуется БКОСА-7 ("движение по
инерции");
2) если в соответствии с прогнозом по п.1 АОУ
достигает заданного целевого состояния (т.е. прогноз "удовлетворительный"),
то планирование прекращается (переход на п.6); иначе – выполняется п.3;
3) путем решения обратной задачи прогнозирования
(БКОСА-9.1) определяется набор факторов, оптимальный для перевода АОУ в
заданное целевое состояние;
4) если все эти факторы есть возможность использовать
для управления, то на этом планирование прекращается (переход п.6); иначе переход
на п.5;
5) используя результаты кластерно-конструктивного анализа
факторов (БКОСА 10.2.1, 10.2.2, 10.2.3) последовательно ищется замена для
факторов, которые нет возможности использовать и после каждой замены
выполняется прогнозирование (БКОСА-7); если результаты прогнозирования
удовлетворительные – окончание планирования (переход на п.6); иначе принятие
решения о невозможности выработки корректного управляющего воздействия;
6) окончание планирования.
Информационный портрет представляет собой детализацию
вершин семантической сети. Когнитивные диаграммы детально раскрывают структуру
связи между двумя вершинами семантической сети, представленными в форме
информационных портретов. Поэтому для расшифровки структуры вершин семантической
сети и связей между ними, предлагается ввести новое понятие "Семантическая
когнитивная сеть", которая представляет собой систему когнитивных
диаграмм, объединенных в макроструктуру, соответствующую структуре семантической
сети.
1. Разработан численный метод СК-анализа,
включающий:
– иерархическую структуру данных
семантической информационной модели;
– 24 детальных алгоритма 10 базовых
когнитивных операций системного анализа, алгоритмы кластерно-конструктивного и
когнитивного анализа, нечеткой логики и когнитивной графики, обеспечивающие
оригинальную визуализацию результатов интеллектуального анализа данных
(нечеткие графы).
2. Предложенный численный метод СК-анализа обеспечил
конкретизацию моделей БКОСА, достаточную для их реализации в одной программной
системе.
1. Принципы формализации предметной области и подготовки
эмпирических данных.
2. Иерархическая структура данных и последовательность
численных расчетов в СК-анализе
3. Обобщенное описание алгоритмов СК-анализа
4. БКОСА-2.1. "Восприятие и запоминание исходной обучающей
информации".
5. БКОСА-2.2. "Репрезентация. Сопоставление индивидуального
опыта с коллективным (общественным)".
6. БКОСА-3.1.1. "Обобщение (синтез, индукция). Накопление
первичных данных".
7. БКОСА-3.1.2. "Обобщение (синтез, индукция). Исключение
артефактов".
8. БКОСА-3.1.3. "Обобщение (синтез, индукция). Расчет
степени истинности содержательных смысловых связей между предпосылками и
результатами (обобщенных таблиц решений)".
9. БКОСА-3.2. "Определение значимости шкал и градаций
факторов, уровней Мерлина".
10. БКОСА-3.3. "Определение значимости шкал и градаций
классов, уровней Мерлина".
11. БКОСА-4.1. "Абстрагирование факторов (снижение
размерности семантического пространства факторов)".
12. БКОСА-4.2. "Абстрагирование классов (снижение размерности
семантического пространства классов)".
13. БКОСА-5. "Оценка адекватности информационной модели
предметной области".
14. БКОСА-7. "Сравнение, идентификация и прогнозирование.
Распознавание состояний конкретных объектов (объектный анализ)".
15. БКОСА-9.1. "Дедукция и абдукция классов (семантический
анализ обобщенных образов классов, решение обратной задачи
прогнозирования)".
16. БКОСА-9.2. "Дедукция и абдукция факторов (семантический
анализ факторов)".
17. БКОСА-10.1.1. "Классификация обобщенных образов
классов".
18. БКОСА-10.1.2. "Формирование бинарных конструктов
классов".
19. БКОСА-10.1.3. "Визуализация семантических сетей
классов".
20. БКОСА-10.2.1. "Классификация факторов".
21. БКОСА-10.2.2. "Формирование бинарных конструктов
факторов".
22. БКОСА-10.2.3. "Визуализация семантических сетей
факторов".
23. БКОСА-10.3.1. "Содержательное сравнение
классов".
25. БКОСА-10.3.2. "Расчет и отображение многомногозначных
когнитивных диаграмм, в т.ч. диаграмм Вольфа Мерлина".
26. БКОСА-10.4.1. "Содержательное сравнение факторов".
27. БКОСА-10.4.2. "Расчет и отображение многомногозначных
когнитивных диаграмм, в т.ч. инвертированных диаграмм Мерлина".
28. БКОСА-11. "Многовариантное планирование и принятие
решения о применении системы управляющих факторов".
29. Детальные алгоритмы СК-анализа.
1. Луценко Е.В. Теоретические основы и технология адаптивного
семантического анализа в поддержке принятия решений (на примере универсальной
автоматизированной системы распознавания образов "ЭЙДОС-5.1"). -
Краснодар: КЮИ МВД РФ, 1996. - 280с.
2. Луценко Е. В. Автоматизированный системно-когнитив-ный
анализ в управлении активными объектами (системная теория информации и ее
применение в исследовании экономических, социально-психологических,
технологических и организационно-технических систем): Монография (научное издание).
– Краснодар: КубГАУ. 2002. – 605 с.