В данной лекции рассматривается инструментарий автоматизации
СК-анализа в качестве которого выступает универсальная когнитивная аналитическая
система "Эйдос". Данная система является одним из вариантов программной
реализации предложенной математической модели и численного метода СК-анализа. Наличие
данного инструментария, автоматизирующего СК-анализ, позволяет ввести в новый термин:
автоматизированный системно-когнитивный анализ
(АСК-анализ), под которым понимается СК-анализ, оснащенный математическим методом,
методикой численных расчетов и реализующим их программным инструментарием.
Универсальная когнитивная
аналитическая система "Эйдос" является отечественным лицензионным программным
продуктом [31, 45-49], созданным с использованием официально приобретенного лицензионного
программного обеспечения. По системе "Эйдос" и различным аспектам ее практического
применения имеется более 100 публикаций, в т.ч. 5 монографий и одно учебное пособие
[94]. Система "Эйдос" является программным инструментарием, реализующим
математическую модель и методику численных расчетов СК-анализа. Она обеспечивает
реализацию следующих функций:
1. Синтез и адаптация
семантической информационной модели предметной области, включая активный объект
управления и окружающую среду.
2. Идентификация и прогнозирование
состояния активного объекта управления, а также разработка управляющих воздействий
для его перевода в заданные целевые состояния.
3. Углубленный анализ
семантической информационной модели предметной области.
Система "Эйдос"
является специальным программным инструментарием, реализующим предложенные математическую
модель и численный метод (структуры данных и алгоритмы) и решающим проблему данной
работы.
Синтез модели в СК-анализе осуществляется с применением подсистем: "Словари",
"Обучение", "Оптимизация", "Распознавание" и "Анализ".
Он включает следующие этапы:
1) формализация (когнитивная структуризация
предметной области);
2) формирование исследуемой выборки
и управление ею;
3) синтез или адаптация модели;
4) оптимизация модели;
5) измерение адекватности модели
(внутренней и внешней, интегральной и дифференциальной валидности), ее скорости сходимости
и семантической устойчивости.
Данный вид работ осуществляется
с помощью подсистем "Распознавание" и "Анализ". Эти подсистемы
обеспечивают: ввод распознаваемой выборки; пакетное распознавание; вывод результатов распознавания и их оценку, в т.ч. с использованием данных по дифференциальной валидности
модели.
Этот анализ выполняется
в подсистеме "Типология", которая включает:
1. Информационный и семантический
анализ классов и признаков.
2. Кластерно-конструктивный
анализ классов распознавания и признаков, включая визуализацию результатов анализа
в оригинальной графической форме когнитивной графики (семантические сети классов
и признаков).
3. Когнитивный анализ
классов и признаков (когнитивные диаграммы и диаграммы Вольфа Мерлина).
Система "Эйдос"
включает семь подсистем: "Словари", "Обучение", "Оптимизация",
"Распознавание", "Типология", "Анализ", "Сервис"
(таблица 11).
Таблица 11 – ОБОБЩЕННАЯ СТРУКТУРА СИСТЕМЫ "ЭЙДОС" (версии 12.5)
Подсистема |
Режим |
Функция |
Операция |
1. Словари |
1. Классификационные шкалы и градации |
||
2. Описательные шкалы (и градации) |
|||
3. Градации описательных шкал (признаки) |
|||
4. Иерархические уровни систем |
1. Уровни классов |
||
2. Уровни признаков |
|||
5. Программные интерфейсы для импорта данных |
1. Импорт данных из TXT-фалов стандарта DOS-текст |
||
2. Импорт данных из DBF-файлов стандарта проф. А.Н.Лебедева |
|||
3. Импорт из транспонированных DBF-файлов проф. А.Н.Лебедева |
|||
4. Генерация шкал и обучающей выборки RND-модели |
|||
5. Генерация шкал и обучающей выборки для исследования чисел |
|||
6. Транспонирование DBF-матриц исходных данных |
|||
6. Почтовая служба по НСИ |
1. Обмен по классам |
||
2. Обмен по обобщенным признакам |
|||
3. Обмен по первичным признакам |
|||
7. Печать анкеты |
|||
2. Обучение |
1. Ввод–корректировка обучающей выборки |
||
2. Управление обучающей выборкой |
1. Параметрическое задание объектов для обработки |
||
2. Статистическая характеристика, ручной ремонт |
|||
3. Автоматический ремонт обучающей выборки |
|||
3. Пакетное обучение системы распознавания |
1. Накопление абсолютных частот |
||
2. Исключение артефактов (робастная процедура) |
|||
3. Расчет информативностей признаков |
|||
4. Расчет условных процентных распределений |
|||
5. Автоматическое выполнение режимов 1–2–3–4 |
|||
6. Измерение сходимости и устойчивости модели |
1. Сходимость и устойчивость СИМ |
||
2. Зависимость валидности модели от объема обучающей выборки |
|||
4. Почтовая служба по обучающей информации |
|||
3. Оптимизация |
1. Формирование ортонормированного базиса классов |
||
2. Исключение признаков с низкой селективной силой |
|||
3. Удаление классов и признаков, по которым недостаточно данных |
|||
4. Распознавание |
1. Ввод–корректировка распознаваемой выборки |
||
2. Пакетное распознавание |
|||
3. Вывод результатов распознавания |
1. Разрез: один объект – много классов |
||
2. Разрез: один класс – много объектов |
|||
4. Почтовая служба по распознаваемой выборке |
|||
5. Типология |
1. Типологический анализ классов распознавания |
1. Информационные (ранговые) портреты (классов) |
|
2. Кластерный и конструктивный анализ классов |
1 Расчет матрицы сходства образов классов |
||
2. Генерация кластеров и конструктов классов |
|||
3. Просмотр и печать кластеров и конструктов |
|||
4. Автоматическое выполнение режимов: 1,2,3 |
|||
5. Вывод 2d семантических сетей классов |
|||
3. Когнитивные диаграммы классов |
|||
2. Типологический анализ первичных признаков |
1. Информационные (ранговые) портреты признаков |
||
2. Кластерный и конструктивный анализ признаков |
1. Расчет матрицы сходства образов признаков |
||
2. Генерация кластеров и конструктов признаков |
|||
3. Просмотр и печать кластеров и конструктов |
|||
4. Автоматическое выполнение режимов: 1,2,3 |
|||
5. Вывод 2d семантических сетей признаков |
|||
3. Когнитивные диаграммы признаков |
|||
6. Анализ |
1. Оценка достоверности заполнения объектов |
||
2. Измерение адекватности семантической информационной модели |
|||
3. Измерение независимости классов и признаков |
|||
4. Просмотр профилей классов и признаков |
|||
5. Графическое отображение нелокальных нейронов |
|||
6. Отображение Паретто-подмножеств нейронной сети |
|||
7. Классические и интегральные когнитивные карты |
|||
7. Сервис |
1. Генерация (сброс) БД |
1. Все базы данных |
|
2. НСИ |
1. Всех баз данных |
||
2. БД классов |
|||
3. БД первичных признаков |
|||
4. БД обобщенных признаков |
|||
3. Обучающая выборка |
|||
4. Распознаваемая выборка |
|||
5. Базы данных статистики |
|||
2. Переиндексация всех баз данных |
|||
3. Печать БД абсолютных частот |
|||
4. Печать БД условных процентных распределений |
|||
5. Печать БД информативностей |
|||
6. Интеллектуальная дескрипторная информационно–поисковая
система |
|||
7. Резервное копирование основных БД информационной модели |
Структура и взаимодействие
этих подсистем позволяют полностью реализовать все аспекты СК-анализа в удобной
для пользователя форме. Обобщенной структуре соответствуют и структура управления
и дерево диалога системы. Подробнее подсистемы, режимы, функции и операции, реализуемые
системой "Эйдос", описаны в работах [31, 39].
Не смотря на то, что данный раздел посвящен интерфейсу
системы "Эйдос", видеограммы и экранные формы в нем не приводятся, т.к.
они есть в описаниях лабораторных работ. В наименованиях разделов с описаниями подсистем
и режимов системы "Эйдос" указаны коды реализуемых ими базовых когнитивных
операций системного анализа в соответствии с обобщенной схемой СК-анализа (рисунок
6).
Подсистема "Словари" обеспечивает формализацию
предметной области. Она реализует следующие режимы: классификационные шкалы и градации;
описательные шкалы и градации; градации описательных шкал; иерархические уровни
организации систем; автоматический ввод первичных признаков из текстовых файлов;
почтовая служба по нормативно-справочной информации; печать анкеты.
Классификационные шкалы и градации предназначены для ввода
справочника будущих состояний активного объекта управления – классов. Режим: "Классификационные
шкалы и градации" обеспечивает ведение базы данных классификационных шкал и
градаций классов: ввод; корректировку; удаление; распечатку (в текстовый файл);
сортировку; поиск по базе данных.
Описательные шкалы и градации предназначены для ввода справочников
факторов, влияющих на поведение активного объекта управления – признаков. В этом
режиме обеспечивается ввод, удаление, корректировка, копирование наименований описательных
шкал и связанных с ними градаций. Характерной особенностью системы "Эйдос"
является возможность использования неальтернативных градаций, которых может быть
различное количество по различным шкалам (в широких пределах). Справочник позволяет
работать непосредственно с градациями (с учетом связей со шкалами), видеть их общее
количество, а также просматривать и распечатывать процентное распределение ответов
респондентов по.
Уровни организации систем (уровни Вольфа Мерлина) являются
независимым способом классификации классов и факторов, что позволяет легко создавать
и анализировать различные их подмножества как сами по себе, так и в сопоставлении
друг с другом. В.С.Мерлин предложил интегральную концепцию индивидуальности, в которой
рассматривал взаимодействие и взаимообусловленность различных уровней свойств личности:
от генетически предопределенных, до социально-обусловленных и отражающих
сиюминутное состояние. В системе "Эйдос" предусмотрен аппарат, позволяющий
классифицировать факторы таким образом, что становится возможным исследовать различные
уровни их организации и взаимообусловленности. Уровни организации классов предназначены для
классификации будущих состояний активного объекта управления, как целевых и нежелательных
с точки зрения самого объекта управления и управляющей системы, а также различных
вариантов сочетаний этих вариантов. Возможны и
другие виды классификации.
Система "Эйдос" обеспечивает решение задач атрибуции
анонимных и псевдонимных текстов (установления вероятного авторства), датировки
текстов, определения их принадлежности к определенным традициям, школам или течениям
мысли [31, 34]. При этом различные структуры, из которых состоят тексты, рассматриваются
как их атрибуты. В системе "Эйдос" реализован специальный режим, обеспечивающий
автоматическое выявление и ввод этих атрибутов текстов непосредственно из текстовых
файлов.
Технология работы в системе "Эйдос" не предусматривает
одновременной работы многих пользователей с одними и теми же базами данных в режиме
корректировки записей. Поэтому возможна эффективная организация распределенной работы
по многомашинной технологии без использования ЛВС. Для обеспечения необходимой тождественности
справочников на различных компьютерах служит режим "Почтовая служба по НСИ".
Классификационные шкалы и градации в экономических, социально-психологических
и политологических исследованиях часто представляют собой опросники (анкеты). Для
их распечатки в файл (в поддиректорию "TXT") служит режим: "Печать
анкеты". В системе "Эйдос" все текстовые и графические входные и
выходные формы автоматически сохраняются в виде файлов, удобных для использования
в различных приложениях под Windows.
Данная подсистема
обеспечивает ввод и корректировку обучающей выборки, управление ею, синтез и адаптацию
модели на основе данных обучающей выборки, экспорт и импорт данных с других компьютеров.
Для ввода-корректировки обучающей выборки служит соответствующий режим, имеющий
двухоконный интерфейс, позволяющий ввести в обучающую выборку двухвекторные описания
объектов. Левое окно служит для ввода классификационной характеристики объекта.
В этом окне каждому объекту соответствует одна строка с прокруткой. В правом
окне вводится описательная характеристика объекта на языке признаков. Каждому объекту
соответствует окно с прокруткой. Переход между окнами осуществляется по нажатию
клавиши "TAB". Количество объектов в обучающей выборке не ограничено.
Имеется практический опыт проведения расчетов с объемами обучающей выборки до 7000
объектов, суммарным количеством градаций описательных шкал до 3900 и количеством
классов до 1500. Реализована также возможность автоматического формирования объектов
обучающей выборки путем кодирования текстовых файлов.
В системе реализован ряд программных интерфейсов, обеспечивающих автоматическое
формирование классификационных и описательных шкал и градаций, а также обучающей
выборки:
– импорт данных из файлов стандарта "Текст DOS";
– импорт данных из DBF-файлов, стандарта проф. А.Н.Лебедева;
– импорт данных из транспонированных DBF-файлов, стандарта профессора А.Н.Лебедева;
– генерация случайной модели;
– генерация учебной модели для исследования свойств натуральных чисел.
Данный режим предназначен для управления обучающей выборкой путем параметрического
задания подмножеств анкет для обработки, объединения классов, автоматического ремонта
обучающей выборки ("ремонт или взвешивание данных"). Параметрическое выделение
подмножества анкет для обработки может осуществляться логически и физически (рекомендуется
2-й вариант), это осуществляется путем сравнения с анкетой-маской. В ней задаются
коды тех классов и признаков, которые обязательно должны
присутствовать во всех анкетах обрабатываемого подмножества. Режим: "Статистическая
характеристика обучающей выборки. Ручной ремонт" предназначен для выявления
слабо представленных классов (по которым недостаточно данных) и объединения нескольких
классов в один. При этом производится переформирование справочника классов и автоматическое
перекодирование анкет обучающей выборки. В режиме
"Автоматический ремонт обучающей выборки (ремонт или взвешивание данных)" реализуется
БКОСА-2.2: задается
частотное распределение объектов по категориям, характерное для генеральной совокупности
(или другое), затем автоматически осуществляется
формирование последовательных подмножеств анкет обучающей выборки (с увеличивающимся
числом анкет), на каждом этапе максимально
соответствующих заданному частотному распределению генеральной совокупности.
При этом используется метод последовательных приближений по минимаксному критерию:
максимизация корреляции и минимизация максимального отклонения. Соответствующие
графики представлены на рисунке 20.
|
Рисунок 20. Автоматический ремонт обучающей выборки |
Система рекомендует оптимальное (по этим
двум критериям) подмножество и позволяет исключить остальные анкеты из рассмотрения.
На рисунке 21 приведены графики частотных распределений объектов генеральной совокупности
и выбранного подмножества обучающей выборки по категориям (классам), а также отклонение
между этими распределениями.
|
Рисунок 21. Автоматический ремонт обучающей выборки |
При достижении минимакса можно говорить об обеспечении
структурной репрезентативности [31].
Данный режим обеспечивает:
расчет матрицы абсолютных частот, поиск и исключение из дальнейшего анализа артефактов,
расчет матрицы информативностей, расчет матрицы условных процентных распределений,
пакетный режим автоматического выполнения вышеперечисленных 4-х режимов, а также
исследовательский режим, обеспечивающий измерение скорости сходимости и семантической
устойчивости сформированной содержательной информационной модели.
В данном режиме осуществляется последовательное считывание
всех анкет обучающей выборки и использование описаний объектов для формирования
статистики встреч признаков в разрезе по классам. На экране в наглядной форме отображается
стадия этого процесса, который может занимать значительное время при больших размерностях
задачи и объеме обучающей выборки. Кроме того на качественном уровне красным отображается
заполнение матрицы абсолютных частот данными: классы соответствуют столбцам, а признаки
– строкам. Поэтому значительная фрагментарность данных легко обнаруживается еще
на этой стадии. Данный режим обеспечивает полную "развязку по данным"
и независимость времени исполнения процессов
синтеза модели и ее анализа от объема обучающей выборки. Кроме того в данном
режиме выявляются 4 типа формально-обнаружимых ошибок в исходных данных и по ним
формируется файл отчета.
В данном режиме на основе исследования частотного распределения
частот встреч признаков в матрице абсолютных частот, делаются выводы:
– об отсутствии статистики и невозможности обнаружения
и исключения артефактов;
– о наличии статистики и возможности выявления артефактов
(если частоты встреч признаков растут пропорционально объему обучающей выборки,
то это нормально, артефактами считаются признаки, по которым эта закономерность
нарушается).
На основе этих выводов рекомендуется частота, которая признается
незначимой и характерной для артефактов и осуществляется переформирование баз данных
с исключенными артефактами.
В этом режиме непосредственно на основе матрицы абсолютных
частот с применением системного обобщения формулы Харкевича, предложенного в рамках
СТИ (3.28), рассчитывается матрица информативностей, определяются значимость признаков,
степень сформированности обобщенных образов классов, а также обобщенный
критерий сформированности модели Харкевича (3.63) для всей матрицы информативностей
в целом. На экране монитора наглядно отображается стадия выполнения процесса и структура
заполнения матрицы информативностей значимыми данными (на качественном уровне).
На основе матрицы абсолютных частот рассчитывается и матрица условных процентных
распределений.
Автоматическое
выполнение режимов 1-2-3-4. В данном пакетном
режиме последовательно выполняются ранее перечисленные режимы обучения системы (кроме
режима исключения артефактов).
Для измерения сходимости и устойчивости модели СК-анализа
задаются параметры, определяющие исследование скорости сходимости:
– порядок выборки анкет (физический, случайный, в порядке
возрастания соответствия генеральной совокупности, в порядке убывания степени многообразия,
вносимого анкетой в модель);
– количество и коды признаков, по которым исследуется сходимость
модели;
– интервал сглаживания для расчета скользящей погрешности.
В данном режиме организован цикл по объектам обучающей
выборки, в котором после учета каждой анкеты в матрице абсолютных частот перерассчитывается
матрица информативностей и в отдельной базе данных запоминаются информативности
для заданных признаков. Это позволяет измерять и графически отображать скорость
сходимости и семантическую устойчивость модели. В работах
[31, 49], на примере прогнозирования фондового рынка, подробно рассматриваются вопросы
сходимости и семантической устойчивости содержательной информационной модели.
Почтовая служба по обучающей информации обеспечивает экспорт и импорт баз данных обучающей выборки
при решении задач в системе "Эйдос" по многомашинной технологии.
В данной подсистеме различными способами корректно реализуется
контролируемое существенное снижение размерности семантических пространств классов
и атрибутов при несущественном уменьшении их объема.
Формирование ортонормированного базиса классов реализуется
с применением одного из трех итерационных алгоритмов оптимизации, относящиеся к
методу последовательных приближений:
1) исключение из модели заданного количества наименее сформированных
классов;
2) исключение заданного процента количества классов от
оставшихся (адаптивный шаг);
3) исключение классов, вносящих заданный процент степени
сформированности от оставшегося суммарного (адаптивный шаг).
Критерий остановки процесса последовательных приближений
– срабатывание хотя бы одного из заданных ограничений:
а) достигнуто заданное минимальное количество классов в
модели;
б) достигнута заданная полнота описания признака.
Прокрутка окна вправо позволяет просмотреть дополнительные
характеристики, позволяющие оценить степень сформированности образов классов и ортонормированность
пространства классов.
С этой целью реализовано три итерационных алгоритма оптимизации,
относящиеся к методу последовательных приближений:
– путем исключения из модели заданного количества наименее
значимых признаков;
– путем исключения заданного процента количества признаков
от оставшихся (адаптивный шаг);
– путем исключения признаков, вносящих заданный процент
значимости от оставшейся суммарной (адаптивный шаг).
Критерий остановки процесса исключения признаков с низкой
селективной силой – срабатывание одного из заданных ограничений:
а) достигнуто заданное минимальное количество признаков
в модели;
б) достигнуто заданное минимальное количество признаков
на класс (полнота описания класса).
В данном режиме реализована возможность удаления из модели
всех классов и признаков, по которым или вообще нет данных, или их недостаточно
в соответствии с заданным критерием. Этот режим сходен с режимом выявления и исключения
артефактов.
Данный режим исполняется после синтеза модели. Верификация
модели осуществляется путем копирования обучающей выборки в распознаваемую, пакетного
распознавания и последующего анализа в режиме "Измерение валидности системы
распознавания" подсистемы "Анализ". Он показывает средневзвешенную
погрешность идентификации (интегральная валидность) и погрешность идентификации
в разрезе по классам. При этом объект считается отнесенным к классу, с которым у
него наибольшее сходство. Необходимо отметить, что остальные классы, находящиеся
по уровню сходства на второй и последующих позициях не учитываются. Это обусловлено тем, что их учет привел бы к завышению оценки валидности модели.
Классы, по которым дифференциальная валидность неприемлемо
низка считаются не сформированными. Причинами этого может быть очень высокая вариабельность
объектов, отнесенных к данным классам (тогда имеет смысл разделить их на несколько),
а также недостаток достоверной классификационной и описательной информации по этим
классам (некорректная работа экспертов).
Данная подсистема реализует режимы ввода и корректировки
распознаваемой выборки; пакетного распознавания; вывода результатов и межмашинного
обмена данными. Ввод-корректировка распознаваемых анкет осуществляется в двухоконном
интерфейсе: в левом окне показаны заголовки идентифицируемых объектов, в которых
отображаются их коды и условные наименования, а в правом окне – описания объектов
на языке признаков. В левом окне каждому объекту соответствует строка, а в правом
– окно с прокруткой. Переход между окнами происходит по нажатию клавиши "TAB".
В данном режиме каждая анкета распознаваемой выборки последовательно идентифицируется
с каждым классом. Вывод результатов распознавания (идентификации и прогнозирования)
возможен в двух разрезах:
а) информация о сходстве каждого объекта со всеми классами;
б) информация о сходстве каждого класса со всеми объектами.
Система генерирует
обобщающий отчет по итогам идентификации, в котором в каждой строке дана информация
о классе, с которым распознаваемый объект имеет наивысший уровень сходства (в процентах).
Качество результата идентификации – это эвристическая оценка качества, учитывающая
максимальную величину сходства, различие между первым и вторым классами по уровню
сходства и в (меньшей степени) общий вид распределения классов по уровням сходства
с данным объектом. Каждой строке обобщающего отчета соответствует карточка результатов
идентификации (прогнозирования), которая по сути дела представляет собой результат
разложения вектора объекта в ряд по векторам классов. Эти карточки распечатываются
в файл с полными наименованиями классов и содержат классы, с уровнем сходства выше
заданного.
Почтовая служба
по распознаваемым анкетам обеспечивает запись
на дискету распознаваемой выборки и считывание распознаваемой выборки с дискеты
с добавлением к имеющейся на текущем компьютере. Этот режим служит для объединения
информации по идентифицируемым объектам, введенной на различных компьютерах.
Подсистема "Типология" обеспечивает
типологический анализ классов и признаков.
Типологический
анализ классов включает: информационные
(ранговые) портреты; кластерно-конструктивный и когнитивный анализ классов.
Информационный
портрет класса представляет собой список признаков в порядке убывания количества
информации о принадлежности к данному классу. Такой список представляет собой результат решения обратной задачи идентификации
(прогнозирования). Фильтрация (F6) позволяет выделить из информационного портрета
класса диапазон признаков (по кодам или уровням Мерлина) и, таким образом, исследовать
влияние заданных признаков на переход активного объекта управления в состояние,
соответствующее данному классу.
Кластерный и конструктивный анализ классов обеспечивает: расчет матрицы сходства классов; генерацию
кластеров и конструктов; просмотр и печать кластеров и конструктов; пакетный режим,
обеспечивающий автоматическое выполнение первых трех режимов при установках параметров
"по умолчанию"; визуализацию результатов кластерно-конструктивного анализа
в форме семантических сетей и когнитивных диаграмм.
В данном режиме
непосредственно на основе оптимизированной матрицы информативностей рассчитывается
матрица сходства классов. На экране в наглядной форме отображается информация о
текущей стадии
выполнения этого процесса.
В данном режиме
пользователем задаются параметры для генерации кластеров и конструктов классов,
позволяющие исключить из форм центральную часть конструктов (оставить только полюса),
а также сформировать кластеры и конструкты для заданных (кодами или уровнями Мерлина)
подматриц. В данном режиме обеспечивается отображение отчета по конструктам и вывод
его в виде текстового файла. Реализован режим быстрого поиска заданного конструкта
и быстрый выход на него по заданному классу.
В данном пакетном
режиме автоматически выполняются вышеперечисленные 3 режима с параметрами "по
умолчанию". Выполнение пакетного режима целесообразно в самом начале проведения
типологического анализа для общей оценки его результатов. Более детальные результаты
получаются при выполнении отдельных режимов с конкретными значениями параметров.
В данном режиме
пользователем в диалоге с системой "Эйдос" задаются коды от 3 до 12 классов
(ограничение связано с тем, что больше классов не помещается на мониторе при используемом
разрешении), а затем на основе данных матрицы сходства классов отображается ориентированный
граф, в вершинах которого находятся классы, а ребра соответствуют знаку (красный
– "+", синий – "-") и величине (толщина линии) сходства/различия
между ними. Посередине каждой линии уровень сходства/различия соответствующих классов
отображается в числовой форме (в процентах). Такие графы в данной работе называются
2d-семантическими сетями классов (2d означает "двухмерные").
В системе "Эйдос"
реализован двухоконный интерфейс ввода задания на формирование когнитивных
диаграмм и пример такой диаграммы. Переход между окнами осуществляется по клавише "ТАВ", выбор класса для
когнитивной диаграммы – по нажатию клавиши "Enter". В верхней левой части
верхнего окна отображаются коды выбранных классов. Генерация и вывод когнитивной
диаграммы для заданных классов выполняется по нажатию клавиши F5. Отображаемые диаграммы
всегда записываются в виде графических файлов в соответствующие поддиректории. Имеются
также пакетные режимы генерации диаграмм: генерацию когнитивных диаграмм для полюсов
конструктов (F6), генерация всех возможных
когнитивных диаграмм (F7), а также генерация диаграмм Вольфа
Мерлина (F8). При задании всех этих режимов имеется возможность задания большого
количества параметров, определяющих вид диаграмм и содержание отображаемой на них
информации.
Типологический
анализ атрибутов обеспечивает: формирование
и отображение семантических портретов атрибутов (признаков), а также кластерно-конструктивный
и когнитивный анализ атрибутов.
В данном режиме обеспечивается формирование семантического
портрета заданного признака и его отображение в текстовой и графической формах. Окно для просмотра текстового отчета имеет прокрутку
вправо, что позволяет отобразить количественные характеристики. Графическая диаграмма
выводится по нажатию клавиши F5, и может быть непосредственно распечатана или записана
в виде графического файла в соответствующую поддиректорию.
Кластерный и
конструктивный анализ атрибутов обеспечивает:
расчет матрицы сходства признаков; генерация кластеров и конструктов признаков:
просмотр и печать результатов кластерно-конструктивного анализа; автоматическое
выполнение перечисленных режимов;
отображение результатов кластерно-конструктивного анализа в форме семантических
сетей и когнитивных диаграмм.
Стадия выполнения расчета матрицы сходства
признаков наглядно отображается на мониторе.
В данном режиме имеется возможность задания
ряда параметров, детально определяющих обрабатываемые данные и форму вывода результатов
анализа и отображаются результаты кластерно-конструктивного анализа. Имеются также
многочисленные возможности манипулирования данными (различные варианты поиска, сортировки
и фильтрации).
Автоматическое выполнение режимов 1-2-3. Автоматически реализуются три вышеперечисленные режима.
Результаты кластерно-конструктивного анализа
признаков отображаются для заданных признаков в наглядной графической форме семантических
сетей.
Это новый вид когнитивных диаграмм, не
встречающийся в литературе. Частным случаем этих диаграмм являются инвертированные
диаграммы Вольфа Мерлина (терм. авт.). При их генерации имеется возможность задания
ряда параметров, определяющих обрабатываемые данные и форму отображения результатов.
В подсистеме "Анализ" реализованы режимы:
– оценки анкет по шкале лживости;
– измерения внутренней интегральной и
дифференциальной валидности модели;
– измерения независимости классов и признаков
(стандартный анализ c2);
– генерации большого количества разнообразных
2d & 3d графических форм на основе данных матриц абсолютных частот, условных
процентных распределений и информативностей (2d & 3d означает: "двухмерные
и трехмерные");
– генерации и графического отображения
нелокальных нейронов, нейронных сетей, классических и интегральных когнитивных карт.
В данном режиме исследуются корреляции
между ответами в каждой анкете, эти корреляции сравниваются с выявленными на основе
всей обучающей выборки и все анкеты ранжируются в порядке уменьшения типичности
обнаруженных в них корреляций. Считается, что если корреляции в анкете соответствуют
"среднестатистическим", которые принимаются за "норму", то анкета
отражает обнаруженные макрозакономерности, если же нет, то возникает подозрение
в том, что она заполнена некорректно.
В режиме "Измерение независимости объектов и признаков" реализован стандартный анализ c2, а также рассчитываются коэффициенты Пирсона, Чупрова и Крамера, популярные
в экономических, социологических и политологических исследованиях. В системе задание
на расчет матриц сопряженности вводится в специальный бланк, который служит также
для отображения обобщающих результатов расчетов. На основе этого задания рассчитываются
и записываются в форме текстовых файлов одномерные и двумерные матрицы сопряженности
для заданных подматриц.
В отличие от матриц сопряженности, выводимых
в известной системе SPSS, здесь они выводятся с текстовыми пояснениями на том языке, на котором сформированы классификационные
и описательные шкалы, с констатацией того, обнаружена ли статистически-значимая связь на заданном уровне значимости.
Необходимо также отметить, что в системе "Эйдос" не используются табулированные
теоретические значения критерия c2 для различных степеней свободы, а необходимые теоретические значения непосредственно
рассчитываются системой, причем со значительно
большей точностью, чем они приведены в таблицах (при этом численно берется
обратный интеграл вероятностей).
Режим "Просмотр профилей классов и признаков". Система "Эйдос" текущей версии 12.5 позволяет генерировать и выводить
более 54 различных видов 2d & 3d графических форм, каждая из которых выводится
в форме, определяемой задаваемыми в диалоге параметрами.
Подсистема "Сервис". Реальная эксплуатация ни одной программной
системы невозможна либо без тщательного сопровождения эксплуатации и без наличия
в системе развитых средств обеспечения надежности эксплуатации. В системе
"Эйдос" для этого служит подсистема "Сервис" в которой:
– автоматически ведется архивирование баз данных и по желанию
пользователя создаются резервные копии основных баз данных семантической
информационной модели;
– создаются отсутствующие базы данных и индексные массивы;
– распечатываются в текстовые файлы служебные формы, являющиеся основой содержательной
информационной модели (базы абсолютных частот, условных процентных распределений
и информативностей).
В подсистему "Сервис" входит также интеллектуальная дескрипторная
информационно-поисковая система, автоматически генерирующая нечеткие дескрипторы
и имеющая интерфейс нечетких запросов на любом естественном языке, использующем
кириллицу или латиницу (т.е. не только русском). Отчет по результатам запроса содержит
информационные объекты базы данных системы, ранжированные в порядке уменьшения
степени соответствия запросу.
Система "Эйдос"
(текущей версии 12.5) включает базовую систему (система "Эйдос" в узком
смысле слова), а также две системы окружения:
– систему комплексного
психологического тестирования "Эйдос-Y",
разработанную совместно с С.Д.Некрасовым [39];
– систему анализа и прогнозирования
ситуация на фондовом рынке "Эйдос-фонд", разработанную совместно с Б.Х.Шульман
[49].
Данные системы окружения
представляют собой программные интерфейсы базовой системы "Эйдос" с базами
данных психологических тестов и биржевыми базами данных соответственно, а также
выполняют ряд самостоятельных функций по предварительной обработке информации.
Кроме того в саму базовую
систему "Эйдос" включены программные интерфейсы с двумя универсальными
стандартами баз исходных данных.
От экспертных систем
система "Эйдос" отличается тем, что для ее обучения от экспертов требуется
лишь само их решение о принадлежности того или иного объекта или его состояния к
определенному классу, а не формулирование правил (продукций) или весовых коэффициентов,
позволяющих прийти к такому решению (система генерирует их сама, т.е. автоматически).
Дело в том, что часто эксперт не может или не хочет вербализовать, тем более формализовать
свои способы принятия решений. Система "Эйдос" генерирует обобщенную таблицу
решений непосредственно на основе эмпирических данных и их оценки экспертами.
От систем статистической
обработки информации система "Эйдос" отличается прежде всего своими целями,
которые состоят в следующем: формирование обобщенных образов исследуемых классов
распознавания и признаков по данным обучающей выборки (т.е. обучение); исключение
из системы признаков тех из них, которые оказались наименее ценными для решения
задач системы; вывод информации по обобщенным образам классов распознавания и признаков
в удобной для восприятия и анализа текстовой и графической форме (информационные
или ранговые портреты); сравнение распознаваемых формальных описаний объектов с
обобщенными образами классов распознавания (распознавание); сравнение обобщенных
образов классов распознавания и признаков друг с другом (кластерно-конструктивный
анализ); расчет частотных распределений классов распознавания и признаков, а также
двумерных матриц сопряженности на основе критерия c2
и коэффициентов Пирсона, Чупрова и Крамера; результаты кластерно-конструктивного
и информационного анализа выводятся в форме семантических сетей и когнитивных диаграмм.
Система "Эйдос" в универсальной форме автоматизирует базовые когнитивные
операции системного анализа, т.е. является инструментарием СК-анализа. Таким образом,
система "Эйдос" выполняет за исследователя-аналитика ту работу, которую
при использовании систем статистической обработки ему приходится выполнять вручную,
что чаще всего просто невозможно при реальных размерностях данных. Поэтому система
"Эйдос" и называется универсальной когнитивной аналитической системой.
Система "Эйдос"
обеспечивает генерацию и запись в виде файлов более 54 видов 2d & 3d графических
форм и 50 видов текстовых форм, перечень которых приведен в таблице 12.
При применении системы
в самых различных предметных областях обеспечивается достоверность распознавания
обучающей выборки: на уровне 90% (интегральная валидность), которая существенно
повышается после Парето-оптимизации системы признаков (т.е. после исключения
признаков с низкой селективной силой), удаления из модели артефактов, а также классов
и признаков, по которым недостаточно данных. Система "Эйдос" версии 12.5
обеспечивает синтез модели, включающей десятки тысяч классов и признаков при неограниченном
объеме обучающей выборки, причем признаки могут быть не только качественные (да/нет),
но и количественные, т.е. числовые. В некоторых режимах анализа модели имеются ограничения
на ее размерность, которые на данном этапе преодолеваются путем оптимизации модели.
Реализована возможность разработки супертестов, в том числе интеграции стандартных
тестов в свою среду, (при этом не играет роли известны ли методики интерпретации,
т.е. "ключи" этих тестов). В системе имеется научная графика, обеспечивающая
высокую степень наглядности, а также естественный словесный интерфейс при обучении
Системы и запросах на распознавание.
Исходные тексты системы
"Эйдос" и систем окружения "Эйдос-Y"
и "Эйдос-фонд" в формате "Текст-DOS" имеют объем около 2.5 Мб;
их распечатка 6-м шрифтом составляет около 800 страниц.
Таблица 12 – ПЕРЕЧЕНЬ ТЕКСТОВЫХ ФОРМ |
|
Универсальная когнитивная
аналитическая система "Эйдос" представляет собой программную систему, и для ее эксплуатации, как
и для эксплуатации любой программной системы, необходима определенная инфраструктура.
Без инфраструктуры эксплуатации любая программная система остается лишь файлом,
записанным на винчестере. В зависимости от масштабности решаемых задач управления
и специфики предметной области данная структура может быть как довольно малочисленной,
так и более развитой. Однако в любом случае ее основные функциональные и структурные
характеристики остаются примерно одними и теми же. Кратко рассмотрим эту инфраструктуру
на примере гипотетической организации, производящей определенные виды продукции.
Основная цель: обеспечивать информационную и аналитическую поддержку
деятельности организации, направленную на производство запланированного объема продукции
заданного качества, достижение высокой эффективности управления и устойчивого поступательного
развития.
Данная основная
цель предполагает выполнение информационных и аналитических работ с различными объектами
деятельности, находящимися на различных структурных уровнях как самой организации,
так и ее окружения: персональный уровень; уровень коллективов (подразделений); уровень
организации в целом; окружающая среда (непосредственное, региональное, международное
окружение). Для достижения основной цели для каждого класса объектов должны регулярно
выполняться следующие работы: оценка (идентификация) текущего состояния с накоплением
данных (мониторинг); прогнозирование развития (оперативное, тактическое и стратегическое);
выработка рекомендаций по управлению. Необходимо
особо подчеркнуть, что основная цель может быть достигнута только при условии соблюдения
вполне определенной наукоемкой технологии, основы которой изложены в данном исследовании.
Задачи, решаемые для достижения цели работы представлены
на рисунке 22:
|
1. Мониторинг: оценка и идентификация текущего (фактического, актуального)
состояния объекта управления; накопление данных идентификации в базах данных в течение
длительного времени.
2. Анализ: выявление причинно-следственных зависимостей путем анализа
данных мониторинга.
3. Прогнозирование: оперативное, тактическое и стратегическое прогнозирование
развития объекта управления и окружающей среды путем использования закономерностей,
выявленных на этапе анализа данных мониторинга.
4. Управление: анализ взаимодействия объекта управления с окружающей средой
и выработка рекомендаций по управлению.
Таким образом, по
мнению авторов, управление является высшей, существующей на данный момент формой использования
информации для достижения определенных целей, т.е. по сути формой использования
знаний..
Для достижения основной
цели и решения задач управления необходимо выполнять работы по следующим направлениям:
регулярное получение исходной информации о состоянии объекта управления; обработка
исходной информации на компьютерах; анализ обработанной информации, прогнозирование
развития объекта управления, выработка рекомендаций по оказанию управляющих воздействий
на объект управления; разработка и применение (или предоставление рекомендаций заказчикам)
различных методов оказания управляющих воздействий на объект управления.
Для этого необходима
определенная организационная структура: научно-методический отдел включает: научно-методический
сектор; сектор разработки программного обеспечения; сектор внедрения и сопровождения
программного обеспечения; сектор организационного и юридического обеспечения; отдел
мониторинга: сектор исследования объекта управления; сектор по работе с
независимыми экспертами; сектор по взаимодействию с поставляющими информацию организациями;
сектор по анализу информации общего пользования; отдел обработки информации:
сектор ввода исходной информации (операторы); сектор сетевых технологий и Internet; сектор внедрения, эксплуатации и сопровождения программных систем; сектор
технического обслуживания компьютерной техники; сектор ведения архивов баз данных
по проведенным исследованиям; аналитический отдел имеет структуру,
обеспечивающую компетентный профессиональный анализ результатов обработки данных
мониторинга по объектам, которые приняты для контроля и управления.
Для выполнения работ
по этим направлениям необходимо определенное обеспечение деятельности: техническое,
программное, информационное, организационное, юридическое и кадровое. Детально подобная
структура и виды обеспечения ее деятельности описаны в работе [39].
Применение АСК-анализа
обеспечивает выявление информационных зависимостей между факторами различной природы
и будущими состояниями объекта управления, т.е. позволяет осуществить синтез содержательной
информационной модели, а фактически – осуществить синтез АСУ. Применение АСК-анализа
в составе АСУ обеспечивает ее эксплуатацию в режиме непрерывной адаптации модели
(на детерминистских этапах), а когда это необходимо (т.е. после прохождения точек
бифуркации) – и ее нового синтеза.
Ниже приведена технология
системы "Эйдос" как инструментария АСК-анализа:
Шаг 1–й: формализация предметной области (БКОСА-1): разработка описательных и классификационных шкал и градаций,
необходимых для формализованного описания предметной области. Описательные шкалы
описывают факторы различной природы, влияющие на поведение АОУ, а классификационные
– все его будущие состояния, в том числе целевые.
Шаг 2–й: формирование обучающей выборки (БКОСА-2): информация о состоянии среды и объекта управления, а также
вариантах управляющих воздействий поступает на вход системы. Работа по преобразованию
этой информации в формализованный вид (т.е. кодирование) осуществляется специалистами,
обслуживающими систему с использованием описательных и классификационных шкал. Вся
эта информация представляется в виде специальных кодированных бланков, используемых
также для ввода информации в компьютер. В результате ее формируется так называемая
"обучающая выборка".
Шаг 3–й: обучение (БКОСА-3): обучающая выборка обрабатывается обучающим алгоритмом,
на основе чего им формируются решающие правила (обобщенные образы состояний АОУ,
отражающие весь спектр будущих возможных состояний объекта управления) и определяется
ценность факторов для решения задач подсистем идентификации, мониторинга, прогнозирования
и выработки управляющих воздействий.
Шаг 4–й: оптимизация (БКОСА-4): факторы, не имеющие особой прогностической ценности, корректным
способом удаляются из системы.
Данный процесс осуществляется с помощью итерационных алгоритмов, при этом обеспечивается
выполнение ряда ограничений, таких как результирующая размерность пространства факторов,
его информационная избыточность и т.п.
Шаг 5–й: верификация модели (БКОСА-5): выполняется после каждой адаптации или пересинтеза модели.
На этом шаге обучающая выборка копируется в распознаваемую и осуществляется ее автоматическая
классификация (в режиме распознавания). Затем рассчитываются так называемые внутренняя
дифференциальная и интегральная валидности, характеризующие качество решающих правил.
Шаг-6: принятие решения об эксплуатации модели или ее пересинтезе. Если результаты верификации модели удовлетворяют разработчиков
РАСУ АО, то она переводится из пилотного (экспериментального) режима, при котором
управляющие решения генерировались, но не исполнялись, в режим экспериментальной
эксплуатации, а затем и опытно–производственной эксплуатации, когда они реально
начинают использоваться для управления. Иначе, т.е. если же модель признана недостаточно
адекватной, то необходимо осуществить ее пересинтез, начиная с шага 1. При этом
используются следующие приемы: расширение набора факторов, т.к. значимые факторы
могли не войти в модель; увеличение объема обучающей выборки, т.к. существенные
примеры могли не войти в обучающую выборку; исключение артефактов, т.к. в модель
могли вкрасться существенно искажающие ее не подтверждающиеся данные; пересмотр
экспертных оценок и, если необходимость этого возникает систематически, то и переформирование
экспертного совета, т.к. причиной этого могла быть некомпетентность экспертов; объединение
некоторых классы, т.к. по ним недостаточно данных; разделение некоторых классов,
т.к. по ним слишком высокая вариабельность объектов по признакам, и т.д.
Шаг 7-й: идентификация и прогнозирование состояния АОУ (БКОСА-7).
Шаг 8-й: оценка качества идентификации состояния АОУ. Если качество идентификации высокое, то состояние АОУ
рассматривается как типовое, а значит причинно-следственные взаимосвязи между факторами
и будущими состояниями данного объекта управления считаются адекватно отраженными
в модели и известными (т.е. если качество идентификации высокое, то считается, что
объект относится к генеральной совокупности, по отношению к которой обучающая выборка
репрезентативна). Поэтому в этом случае осуществляется переход на Шаг-9 (выработка
управляющего воздействия и последующий анализ). Иначе – считается, что на вход системы
идентификации попал объект, не относящийся к генеральной совокупности, адекватно
представленной обучающей выборкой. Поэтому в этом случае информация о нем поступает
на Шаг-13, начиная с которого запускается процедура пересинтеза модели, что приводит
к расширению генеральной совокупности, представленной обучающей выборкой.
Шаг 9-й: выработка решения об управляющем воздействии (БКОСА-9) путем решения обратной задачи прогнозирования [31].
Шаг 10–й типологический анализ классов и факторов (БКОСА-10): кластерно-конструктивный и когнитивный анализ, семантические
сети, когнитивные диаграммы состояний АОУ и факторов [31].
Шаг 11-й: многофакторное планирование и принятие решения о применении
системы управляющих факторов (БКОСА-11).
Шаг 12-й: оценка адекватности принятого решения об управляющих воздействиях: если АОУ перешел в заданное целевое состояние, то осуществляется
переход на вход адаптации содержательной информационной модели (Шаг- 2): в подсистеме
идентификации предусмотрен режим дополнения распознаваемой выборки к обучающей,
чтобы в последующем, когда станут известны результаты управления, этой верифицированной
(т.е. достоверной) оценочной информацией дополнить обучающую выборку и переформировать
решающие правила (обучающая обратная связь). Иначе, т.е. если АОУ не перешел в заданное
целевое состояние, переход на вход пересинтеза модели (Шаг-1), при этом могут быть
изменены и описательные, и классификационные (оценочные) шкалы, что позволяет качественно
расширить сферу адекватного функционирования РАСУ АО.
Шаг 13–й (неформализованный поиск нетипового решения об управляющем
воздействии и подготовка данных для пересинтеза модели, как в случае, если решения
оказалось удачным, так и в противном случае).
Таким образом, предложена технология применения системы "Эйдос"
как инструментария применения АСК-анализа, основанного на системной теории информации,
ориентированной на синтез рефлексивных АСУ АО. В процессе эксплуатации системы "Эйдос"
успешно решаются все задачи АСК-анализа: формирование обобщенных образов состояний
АОУ на основе обучающей выборки (обучение); идентификация состояний АОУ на основе
его параметров (распознавание); определение влияния входных параметров на перевод
АОУ в различные будущие состояния (обратная задача прогнозирования); прогнозирование
поведения АОУ в условиях полного отсутствия управляющих воздействий; прогнозирование
поведения АОУ при различных вариантах многофакторных управляющих воздействий.
Кроме того, выявленные
в результате работы рефлексивной АСУ причинно-следственные зависимости между факторами
различной природы и будущими состояниями объекта управления позволяют, при условии
неизменности этих закономерностей в течение достаточно длительного времени, построить
АСУ с постоянной моделью классического типа.