В СССР ВАК с
1975 и до самого распада СССР подчинялась не Министерству образования и науки,
а непосредственно Совету министров СССР. Однако с тех пор существует устойчивая
тенденция постепенного снижения статуса ВАК. Сегодня ВАК уже не просто входит в
Минобрнауки, а является всего лишь одним из подразделений одной из его
структур: Рособрнадзора. Снижение статуса ВАК неизбежно приводит к снижению как
статуса, так и адекватности присваиваемых им ученых степеней и научных званий.
Этот процесс обесценивания традиционных ученых степеней и званий, присваиваемых
ВАК, дошел до того, что несколько лет назад отменили надбавки к заработной
плате за них. Теперь вместо них каждым вузом и НИИ разрабатывается свои
локальные, т.е. несопоставимые друг с другом наукометрические методики оценки
результатов научной и педагогической деятельности. При всем разнообразии этих
методик, общим для всех них является несоразмерно большая роль, которая отводится
в них индексу Хирша. Значение индекса Хирша начинает играть важную роль при
защитах, при рассмотрении конкурсных дел на замещение должностей, а также при
определении величины ежемесячного материального поощрения за результаты научной
и педагогической деятельности. Сам по себе, этот индекс теоретически вполне
обоснован. Однако, в связи с практикой его применения в наших условиях, в коллективном
сознании научного сообщества возникла своеобразная мания, которую авторы
называют «Хиршамания». Эта мания характеризуется повышенным нездоровым
интересом к самому значению индекса Хирша, а также к некорректному
манипулированию его значением, т.е. к искусственному неадекватному
преувеличению этого значения, а также рядом негативных последствий этого
интереса. В данной работе делается попытка сконструировать количественную меру
для оценки степени некорректного манипулирования значением индекса Хирша, а
также предлагается научно-обоснованная модификация индекса Хирша, нечувствительная
(устойчивая) к манипулированию им. Приводится методика всех численных расчетов,
которая достаточно проста, чтобы ее мог применить любой автор
Высшая
аттестационная комиссия (ВАК) – это своего рода отдел технического контроля
(ОТК), оценивающий «качество продукции» не только Министерства образования и
науки, но и всех других министерств и ведомств, в которых есть свои вузы и НИИ.
В качестве продукции вузов и НИИ выступают не только их разработки, но и сами
ученые. ВАК, как и ОТК, обеспечивает обратную связь, информируя управляющую систему
о результатах ее работы. Из теории управления известно, что если информация
обратной связи неадекватна, то и управляющие решения, принимаемые на ее основе,
также будут неадекватными. Понятно, что оценивающая структура не должна
находится в подчинении у той структуры, качество работы которой она оценивает.
В противном случае нетрудно догадаться, как она будет оценивать. В СССР
ВАК с 1975 и до самого распада СССР подчинялась не Министерству образования и
науки, а непосредственно Совету министров СССР, что соответствует этой логике.
Однако с тех пор существует устойчивая
тенденция постепенного снижения статуса ВАК. Сегодня ВАК уже не просто
входит в Минобрнауки, а является всего лишь одним из подразделений одной из его
структур: Рособрнадзора. Снижение статуса ВАК неизбежно приводит к
снижению как статуса, так и адекватности присваиваемых им ученых степеней и научных
званий. Этот процесс обесценивания традиционных ученых степеней и
званий, присваиваемых ВАК, дошел до того, что несколько лет назад отменили
надбавки к заработной плате за них. Теперь вместо традиционных ученых степеней
и званий, присваиваемых ВАК практически
каждым вузом и НИИ разрабатывается свои локальные,
т.е. несопоставимые друг с другом наукометрические методики оценки результатов
научной и педагогической деятельности. При всем разнообразии этих методик
общим для всех них является несоразмерно большая роль, которая отводится в них
индексу Хирша. Значение индекса Хирша начинает играть важную роль при защитах,
при рассмотрении конкурсных дел на замещение должностей, а также при определении
величины ежемесячного материального поощрения за результаты научной и
педагогической деятельности. Сам по себе этот индекс теоретически вполне обоснован. Однако в связи с практикой применения индекса Хирша в
наших условиях в сознании научного сообщества возникла своеобразная мания, которую
авторы называют «Хиршамания» [1]. Эта мания характеризуется повышенным
нездоровым интересом к самому значению индекса Хирша, а также к некорректному
манипулированию его значением, т.е. к искусственному неадекватному преувеличению
этого значения, а также рядом негативных последствий этого интереса.
Возникают
естественные вопросы:
1. Возможно
ли как-то количественно оценить степень манипулирования индексом Хирша, т.е.
то, в какой степени его значение «целенаправленно организовано»?
2. Возможно
ли получить гипотетическое значение индекса Хирша каким оно было бы в случае
отсутствия манипулирования им?
В данной
работе делается попытка найти конкретные ответы на эти вопросы путем:
–
конструирования количественной меры для оценки степени некорректного
манипулирования значением индекса Хирша;
– разработки
научно-обоснованной модификации индекса Хирша, нечувствительной (устойчивая) к
попыткам манипулированию им.
Кроме
собственно самих идей предлагается также методика всех численных расчетов,
достаточно простая, чтобы ее мог применить каждый автор.
Если
ранжировать все публикации ученого в порядке убывания числа их цитирований («ранжированный
список публикаций»), то индекс Хирша h – это просто номер публикации в
этом списке, процитированной h раз. За этой публикацией идут публикации,
процитированные менее h раз, а до нее – более h раз.
Таким
образом, индекс Хирша является абсциссой точки пересечения графика числа
цитирований для ранжированного списка публикаций с биссектрисой первого
квадранта (рис. 1).
Пусть f(h) -
число цитирований публикации ранга h (т.е. публикации с номером h в
ранжированном списке публикаций). Тогда для индекса Хирша h0
справедливы неравенства
f(h) >
h при h < h0 и f(h) < h при h > h0.
Рисунок 1.
Распространенное в Internet пояснение к понятию:
«индекс Хирша»[1]
Из
приведенного выше нехитрого алгоритма вычисления значения индекса Хирша вполне
понятно, как получить максимальное значение индекса Хирша h при минимальном
числе публикаций h+1. Для этого достаточно опубликовать h+1 статей, в каждой из
которых сослаться на все остальные [2].
Наверное приведенный выше простой и доступный способ сформировать любое
заданное значение индекса Хирша первым приходит всем авторам на ум. И это дает
нам в руки первый наиболее простой критерий манипулирования индексом Хирша: «Чем более пологим является линейный тренд
числа цитирований, построенный по ранжированному списку публикаций, тем более
вероятно, что был применен описанный выше способ максимизации индекса Хирша при
малом числе публикаций».
Максимальный теоретически возможный угол наклона линейного тренда,
достижимый лишь асимптотически, равен 90°, а минимальный, естественно, равен
нулю: 0°. Количественно этот 1-й частный критерий по сути должен быть какой-то
простой функцией от коэффициента наклона линейного тренда ранжированного
списка. Естественным было нормировать 1-й частный критерий
манипулирования индексом Хирша таким образом, чтобы при наклоне тренда 90° он
имел минимальное значение равное 0 (нет манипулирования), а при наклоне 0° имел
максимальное значение, равное 1 (полное манипулирование).
Уравнение линейного тренда выгладит следующим образом:
С учетом всех этих соображений предлагается следующее выражение для 1-го
частного критерия манипулирования индексом Хирша K1 при малом числе публикаций:
,
где:
k – коэффициент при x в линейном тренде ранжированного списка публикаций;
ArcTg(k) – арктангенс коэффициента наклона – угол наклона линейного
тренда ранжированного по числу цитирований списка публикаций (в градусах).
Понятно, что чем более пологим является линейный тренд графика числа
цитирований, тем ближе коэффициент b в линейном тренде к значению индекса Хирша
h:
Предлагается следующее выражение для 2-го частного критерия
манипулирования индексом Хирша K2
при малом числе публикаций:
,
где:
b – свободный член в линейном тренде графика числа цитирований;
he – эмпирическое значение индекса Хирша, т.е. полученное
непосредственно из ранжированного списка публикаций и построенного по нему
графика числа цитирований.
Естественным было нормировать 2-й частный критерий манипулирования
индексом Хирша таким образом, чтобы при эмпирическом индексе Хирша he=0
он был равен нулю (нет манипулирования), при свободном члене b равном эмпирическому индексу Хирша he
он был равен 1 (полное манипулирование), и при увеличении разницы между ними
стремился к нулю (уменьшение степени манипулирования) (таблица 1 и рисунок 2):
Таблица 1 – Зависимость 2-го частного критерия манипулирования индексом
Хирша от эмпирического значения индекса Хирша
при постоянном свободном члене b=7
B |
H |
2-й частный критерий |
B |
H |
2-й частный критерий |
B |
H |
2-й частный критерий |
7 |
0 |
0,000000 |
7 |
13 |
0,700000 |
7 |
26 |
0,424242 |
7 |
1 |
0,250000 |
7 |
14 |
0,666667 |
7 |
27 |
0,411765 |
7 |
2 |
0,444444 |
7 |
15 |
0,636364 |
7 |
28 |
0,400000 |
7 |
3 |
0,600000 |
7 |
16 |
0,608696 |
7 |
29 |
0,388889 |
7 |
4 |
0,727273 |
7 |
17 |
0,583333 |
7 |
30 |
0,378378 |
7 |
5 |
0,833333 |
7 |
18 |
0,560000 |
7 |
31 |
0,368421 |
7 |
6 |
0,923077 |
7 |
19 |
0,538462 |
7 |
32 |
0,358974 |
7 |
7 |
1,000000 |
7 |
20 |
0,518519 |
7 |
33 |
0,350000 |
7 |
8 |
0,933333 |
7 |
21 |
0,500000 |
7 |
34 |
0,341463 |
7 |
9 |
0,875000 |
7 |
22 |
0,482759 |
7 |
35 |
0,333333 |
7 |
10 |
0,823529 |
7 |
23 |
0,466667 |
7 |
36 |
0,325581 |
7 |
11 |
0,777778 |
7 |
24 |
0,451613 |
7 |
37 |
0,318182 |
7 |
12 |
0,736842 |
7 |
25 |
0,437500 |
7 |
38 |
0,311111 |
Рисунок 2. Зависимость 2-го частного критерия манипулирования
индексом Хирша от эмпирического значения индекса Хирша
при постоянном свободном члене b=7
Если считать, что оба эти частные критерия K1 и K2
имеют равный вес 0.5, то можно предложить следующее выражение для 1-го интегрального
критерия манипулирования индексом Хирша при малом числе публикаций:
.
Все обозначения, использованные в данном выражении, описаны выше.
Данный 1-й интегральный критерий принимает значение равное 0 при
отсутствии манипулирования и равное 1 при максимальном, т.е. полном
манипулировании. Ниже приведена его вербальная формулировка:
«Чем ближе к нулю коэффициент наклона линейного тренда числа
цитирований, построенного по ранжированному списку публикаций и чем ближе
свободный член в линейном тренде к эмпирическому значению индекса Хирша, тем
более вероятно, что был применен описанный выше способ максимизации индекса
Хирша при малом числе публикаций».
Конечно, понятно, что часть цитирований могут естественными, не
организованными автором, и они вместе тоже могут формировать достаточно пологий
тренд, т.е. понятно, что максимальное значение индекса манипулирования еще не
означает самого факта манипулирования, а лишь является его признаком.
Аналогично и заимствования сами по себе не означают плагиата, т.к. могут быть
снабжены ссылками на источники, а могут быть и заимствованиями из работ самого
автора, которые уже по главам порезаны на рефераты и разошлись по всему
интернету.
Для того, чтобы применить этот интегральный критерий к публикациям
какого-либо автора выполняем следующие действия:
1. Открываем сайт РИНЦ: http://elibrary.ru/.
2. В меню слева выбираем «Авторский указатель», задаем сортировку по числу цитирований по убыванию без фильтра по
региону. В результате получаем (на момент написания статьи) (рисунок 3):
Рисунок 3. Экранная форма РИНЦ: «Авторский указатель»,
сортировка по числу цитирований по убыванию
без фильтра по региону
3. Выбираем автора, по которому собираемся анализировать индекс Хирша
(Новоселов К.С.), кликаем по числу его работ (левее гистограммки: ),
выделяем блоком вместе с заголовком
таблицы первые его 100 публикаций (или все, если их меньше 100),
копируем его в буфер обмена и вставляем
в MS Excel (используем копировать: Ctrl+C, и вставить: Crtl+V или эти
пункты в меню, выскакивающему по клику на правой кнопке мыши).
4. Выделяем блоком весь лист отменяем объединение ячеек.
5. Переносим колонку D с числом цитирований в колонку C
(если они не в колонке C).
6. Начиная с колонки D вставляем следующие значения и формулы для
построения графика цитирований и расчета трендов (рисунок 4):
|
|
Рисунок 4. Значения и формулы для построения графика
цитирований и расчета трендов
В колонке D просто подряд пронумерованы строки c 1 до 100. В колонке
F в подряд идущих строках проставлены номера строк, в которых в колонке C
приведено число цитирований: 4, 7, 10, 13 и т.д. с шагом 3. В колонке E
приведены формулы ссылок на ячейки с числом цитирований из колонки C.
Все это сделано для того, чтобы значения числа цитирований для различных публикаций
шли в подряд идущих строках, а не в каждой третьей строке, начиная с 4-й, как
это сделано в РИНЦ. Отметим, что и в РИНЦ шаг 3 между строками с числом
цитирований может нарушаться, хотя это происходит и редко. Например, у автора:
Новоселов К.С. в 64-й публикации (193-я строка в списке РИНЦ) дано не совсем
стандартное описание. Поэтому для 65-й публикации вместо 196 строки указана
201-я, в которой фактически находится число цитирований 65-й публикации. Далее
и до 10-й публикации они опять идут с стандартным шагом 3. Чтобы не пропустить подобные ситуации рекомендуется проверять значения
числа цитирований не только в первых, но и в последних строках списка.
7. Строим график по числу цитирований. Для этого выделяем блоком ячейки в
колонке E, в которых есть число цитирований (удобнее это делать снизу
вверх), и строим график (рисунок 5):
Рисунок 5.
График числа цитирований, простроенный по списку
публикаций Новоселова К.С., ранжированному по числу цитирований в порядке
убывания
8. Строим линейный тренд графика числа цитирований с выводом формулы
тренда и критерия качества аппроксимации – коэффициента детерминации R2
(рисунок 6):
Рисунок 6.
График числа цитирований публикаций Новоселова К.С. с линейным трендом
9. Для расчета частных критериев и интегрального критерия в MS Excel
используем формулы, приведенные на рисунке 7:
Рисунок 7. Формулы для расчета частных критериев и 1-го
интегрального критерия манипулирования индексом Хирша
при малом числе публикаций
Значения коэффициентов k и b из уравнения линейной регрессии,
приведенного на рисунке 6, вручную
вносим в ячейки J2 и J5 соответственно (выделены на рисунке 7
желтым цветом). В результате получим значения частных критериев и интегрального
критерия манипулирования индексом Хирша для данного автора (рисунок 8),
рассчитанные по приведенным выше формулам.
Из рисунка 8 видно, что все эти значения очень близки к нулю, что
означает полное отсутствие манипулирования
в данном случае.
Рисунок 8. Значения частных критериев и 1-го интегрального критерия манипулирования
индексом Хирша для автора:
Новоселов К.С.
Рассмотрим применение предлагаемого интегрального критерия на примере 2-го
автора, рейтинг, Ф.И.О. и место работы которого мы не указываем из
этических соображений.
На рисунке 9 приведен график числа
цитирований с линейным трендом этого 2-го автора, а в таблице 2 результаты
расчета частных критериев и интегрального критерия :
Рисунок 9.
График числа цитирований публикаций 2-го автора
с линейным трендом
Таблица 2 – Результаты расчетов частных критериев и 1-го
интегрального критерия манипулирования индексом Хирша при малом числе
публикаций для 2-го автора
Коэфф. K |
Градусы |
1-й частный критерий |
-0,1778 |
-10,081832 |
0,887979642 |
|
|
|
Коэфф. B |
Эмп. инд. Хирша |
2-й частный критерий |
16,568 |
14 |
0,915990578 |
|
|
|
1-й инт.критерий |
|
0,90198511 |
Из таблицы 2 видно, что доля манипулирования индексом Хирша в данном
случае значительно выше, т.к. значение 1-го интегрального критерия близко к
0,9.
Из приведенных графиков и таблиц мы видим, что для лидера рейтинга РИНЦ
по числу цитирований предлагаемый 1-й критерий манипулирования индексом Хирша
дает значительно меньшую величину, чем у 2-го автора. Видно, что этот результат
получается за счет того, что у лидера
различие между числом цитирований наиболее и наименее цитируемых работ первой
сотни работ. значительно
больше, чем у обычного автора.
Если у автора большое число публикаций, то очевидно, использовать способ
формирования максимального значения индекса Хирша, который использовался при
малом числе публикаций, т.е. ссылаться во всех публикациях на все, не представляется возможным по ряду
причин. Понятно, что статья, у которой в списке литературы приведено десятки
источников и в основном автора самой этой статьи, будет выглядеть несколько
странно[2]. Во многих журналах просто есть ограничение и на суммарное число
источников в списке литературы и на число источников автора публикации. Но
цитирование всех публикаций данного автора в каждой его публикации не только
невозможно технически[3], но и не имеет особого смысла,
т.к. увеличение числа цитирований статей, находящихся в ранжированном списке
далеко от значения индекса Хирша, не окажет влияния на его значение ни в
ближайшее время, ни в перспективе (за исключением может быть каких-то научных
«бестселлеров», которые сразу становятся очень цитируемыми и сохраняют
популярность длительное время).
Поэтому многие авторы, у которых большое количество публикаций, приходят к тому, чтобы увеличивать число ссылок не на все публикации, а только на те, которые оказывают самое непосредственное влияние на значение индекса Хирша, т.е. на публикации в окрестности индекса Хирша в ранжированном списке публикаций. В результате вблизи значения индекса Хирша, причем как текущего, так и перспективного с точки зрения этих авторов, формируется характерная «ступенька» или «полочка», которую предлагается называть: «горб Хирша», показанная на рисунке 10 красным цветом. К росту этого «горба Хирша» приводит и привязка ссылок к публикациям, которую осуществляют администраторы системы Science Index, которые привязывают не все публикации подряд, а в первую очередь те, которые в наибольшей степени влияют на значение индекса Хирша. Так совместными усилиями авторов и администраторов этот горб и выращивается.
В результате такого манипулирования индекс Хирша приобретает вместо
значения h некоторое большее значение h2. При этом площадь под кривой числа
цитирований, соответствующая суммарному числу цитирований автора, увеличивается
совершенно незначительно, а значение индекса Хирша за счет этого возрастает
довольно заметно, т.е. затраты на это повышение оказываются весьма
эффективными.
Вот как выглядит подобная «полочка» на реальном графике числа
цитирований, построенном по данным РИНЦ[4] 3-го автора (рисунок 11):
Рисунок 10.
Результат манипулирования индексом Хирша при большом числе публикаций:
характерная «полочка» в окрестности
индекса Хирша («горб Хирша») в ранжированном списке публикаций (теория)
Рисунок 11.
Результат манипулирования индексом Хирша
при большом числе публикаций: характерная «полочка» в окрестности
индекса Хирша («горб Хирша») в ранжированном списке публикаций
3-го автора (факт)
Идея второго критерия манипулирования индексом Хирша, применяемого при
большом числе публикаций, основана на том, что при цитирования статей в
окрестностях текущего значения индекса Хирша площадь под кривой числа
цитирований, соответствующая суммарному числу цитирований автора, увеличивается
очень незначительно. А это в свою очередь означает, что, по-видимому, если аппроксимировать эту кривую с использованием
метода наименьших квадратов (МНК), то эта аппроксимация окажется малочувствительной
или устойчивой к появлению в результате манипулирования этой небольшой
«полочки».
Это позволяет сформулировать гипотезу о том, что значение индекса Хирша, определенное не по
классическому алгоритму, а посчитанное на основе аппроксимации кривой числа
цитирований, окажется менее чувствительным и более устойчивым к попыткам
манипулирования, чем классический индекс Хирша.
Но откуда взять эту аппроксимацию кривой числа цитирований и как
определить значение индекса Хирша на ее основе? В общем виде все это довольно
просто. Непосредственно из самого определения классического индекса Хирша
следует, что если аппроксимации кривой числа цитирований выражается в виде уравнения:
то теоретическим значением
индекса Хирша h будет корень уравнения:
.
Такого рода уравнения обычно легко решаются численно итерационным
методом, реализованным в частности, в MS Excel.
Сам вид функции f() предлагается
определять с использованием аппарата аппроксимации трендов функциями различных видов
в MS Excel.
В принципе можно было бы каждый
раз выбирать для аппроксимации тот вид монотонной[5] функции, который обеспечивает наивысший коэффициент
детерминации R2, т.е. наиболее хорошее приближение (наилучший тренд). В данном случае для аппроксимации графика числа
цитирований ранжированного списка публикаций уместно использовать лишь монотонно
возрастающие или убывающие функции: линейную, логарифмическую, степенную,
экспоненциальную, но не полиномиальную, т.к. она может иметь точки перегиба и
даже нарушения монотонности и является чувствительной к особенностям графика,
обусловленными манипулированием индексом Хирша.
Но можно выбрать какой-то один вид функции, который чаще других
обеспечивает наилучшее приближение. В результате многочисленных численных
экспериментов по аппроксимации кривых числа цитирований различных авторов,
проведенных по данным РИНЦ, было выявлено, что наилучшее приближение с
коэффициентом детерминации около 0,9 и выше, как правило обеспечивается трендом
в виде степенной функции:
.
Поэтому предлагается находить теоретическое значение индекса Хирша h
путем решения уравнения:
.
При этом само уравнение тренда предлагается формировать в MS Excel
непосредственно на основе данных РИНЦ, как описано выше в разделе 2.3 при
формировании линейной регрессии (примеры приведены ниже).
Решение этого уравнения легко находится аналитически:
.
И это дает нам в руки второй более сложный второй критерий
манипулирования индексом Хирша:
«Чем больше отличаются друг от друга
эмпирический индекс Хирша, определенный по классическому алгоритму, и теоретический
индекс Хирша, найденный путем решения наилучшего уравнения тренда, тем больше
вероятность того, что классический индекс Хирша получен в результате манипулирования
(хотя возможны и другие варианты: шум и несовершенство алгоритма)».
Аналитически 2-й интегральный критерий манипулирования индексом Хирша,
т.е. относительное превышение эмпирического значения индекса Хирша над
теоретическим, может быть выражен по-разному. Авторы предлагают измерять это
превышение в долях от теоретического значения, как более близкого к истинному:
где:
he – классическое эмпирическое значение индекса Хирша;
ht – теоретическое значение индекса Хирша.
Как и в разделе 2.3 примеры рассмотрим на примере тех же авторов:
– Новоселов Константин Сергеевич, имеющий 1-й рейтинг по числу
цитирований по данным РИНЦ[6];
– 2-й и 3-й авторы, рейтинг и Ф.И.О. и место работы которых мы не
указываем из этических соображений.
Новоселов
Константин Сергеевич.
На графике числа цитирований, приведенном на рисунке 5, построим тренд в
виде степенной функции (рисунок 12):
Рисунок 12.
График числа цитирований публикаций
Новоселова К.С. и тренд в виде степенной функции
Мы видим, что уравнение тренда имеет вид:
С очень хорошим качеством аппроксимации: R2 = 0,9747.
Для нахождения теоретического значения индекса Хирша необходимо решить
уравнение тренда:
Для решения этого уравнения воспользуемся on-line сервисом
Вольфрам-математики по адресу: http://www.wolframalpha.com/. Введя решаемое уравнение (заменив в нем запятые на точки, добавив знаки
операций и скобки) в окно сервиса, представленное на рисунке 13, получим:
h=62.7, что после округления с точностью до целых совпадает с эмпирическим значением
h=63:
Рисунок 13. Выходной экран on-line сервиса Вольфрам-математики с решением
уравнения тренда графика числа цитирований публикаций Новоселова К.С.
Найденное on-line решение точно совпадает с полученным
аналитически:
При решении в MS Excel по этой формуле со значениями коэффициентов:
a=59907; b=-1,6581 получаем или h=62.7087300333721,
что совпадает по всем знакам после запятой с решением, полученным on-line с
помощью Вольфрам-математики.
В разделе 3.3. мы видели, что 2-й интегральный критерий манипулирования
индексом Хирша рассчитывается по формуле:
где:
he – классическое эмпирическое значение индекса Хирша;
ht – теоретическое значение индекса Хирша.
Для Новоселова К.С. это дает значение, весьма близкое к нулю (десятые
доли процента):
.
Фрагменты Excel-файла, в которых проводятся расчеты по приведенным выше
формулам, приведены на рисунках 14 (результаты расчетов) и 15 (формулы):
Рисунок 14. Фрагмент Excel-файла с расчетами,
представленными в таблице 3 (результаты расчетов)
Рисунок 15. Фрагмент Excel-файла с расчетами,
представленными в таблице 3 (расчетные формулы)
Для 2-го
автора график числа
цитирований публикаций и тренд в виде степенной функции представлены на рисунке
16:
Рисунок 16.
График числа цитирований публикаций 2-го автора
и тренд в виде степенной функции
Таблица 3 – Эмпирический и теоретический индексы Хирша и 2-й инт. критерий
манипулирования индексом Хирша для 2-го автора
Эмпирический индекс Хирша |
|
he= |
14 |
Теоретический индекс Хирша |
|
a= |
70,91 |
b= |
-0,6818 |
ht= |
12,6017994 |
2-й инт.критерий |
|
|
0,11095245 |
Для 2-го автора 2-й интегральный критерий имеет значение порядка 10%.
Для 3-го
автора график числа цитирований публикаций и тренд в виде
степенной функции представлены на рисунке 17:
Рисунок 17.
График числа цитирований публикаций 3-го автора (вырастившего внушительный «горб
Хирша»)
и тренд в виде линейной функции
Для 3-го автора использован линейный тренд, т.к. он дает приближение с
более высоким коэффициентом детерминации, чем степенная функция. Для 3-го
автора эмпирическое значение индекса Хирша равно 44, а теоретическое 40, что
дает значение 2-го интегрального критерия манипулирования индексом Хирша: I2=(44-40)/40=0.1.
Это значит, что в данном случае манипулирование привело к увеличению индекса
Хирша примерно на 10%.
Интересно, что у некоторых авторов теоретическое значение индекса Хирша
получается не меньше, а больше эмпирического, т.е. эмпирическое значение
«недооценено».
Рассмотрим сводную таблицу 4, в которой приведем все просчитанные в
данной статье частные и интегральные критерии по всем авторам:
Таблица 4 – Частные и интегральные критерии по всем авторам
Автор |
1-й частный критерий |
2-й частный критерий |
1-й интегральный критерий |
Эмпирический индекс Хирша |
Теоретический индекс Хирша |
2-й интегральный критерий |
Новоселов К.С. |
0,01646 |
0,04518 |
0,03082 |
63 |
62,70873 |
0,00464 |
2-й автор |
0,88797 |
0,91599 |
0,90198 |
14 |
12,60179 |
0,11095 |
3-й автор |
0,60787 |
0,78171 |
0,69479 |
44 |
40 |
0,10000 |
Мы видим, что и частные критерии, и оба интегральных
критерия манипулирования индексом Хирша дают согласованные, совпадающие по
смыслу результаты, т.е. когда мы не видим манипулирования по 1-му частному
критерию, то не видим его и по 2-му, т.е. эмпирический индекс Хирша практически
совпадает с теоретическим. Возможно это объясняется тем, что авторы, не
занимавшиеся манипулированием индексом Хирша, когда у них было мало публикаций,
не начинают занимаются этим и когда публикаций у них становится большое
количество. Это повышает степень обоснованности и достоверности этих критериев.
Итак, на основе
вышеизложенного можно считать, что:
1) существует
некое неизвестное «истинное значение индекса Хирша»;
2) есть
«эмпирическое (классическое) значение индекса Хирша», которое является истинным
значением, измененным в результате совместного действия факторов
манипулирования (рассматривались в данной статье) а также естественного шума и
несовершенства алгоритма Хирша (в данной статье эти факторы только
упоминаются);
3) есть
«теоретическое значение индекса Хирша», – это решение уравнения наилучшего
тренда графика числа цитирований ранжированного списка публикаций.
«Теоретическое
значение индекса Хирша» – это новое научное понятие из области
наукометрии, которое авторы предлагают ввести в научный оборот и практику
наукометрии по следующим причинам:
– теоретическое
значение индекса Хирша является устойчивым к манипулированию и другим факторам,
искажающим истинное значение индекса Хирша и может обоснованно считаться
значительно более близким к истинному значению индекса Хирша, чем классическое
эмпирическое значение;
– технология
получения теоретического значения индекса Хирша (путем решение уравнения
наилучшего тренда графика числа цитирований ранжированного списка публикаций)
проста и доступна авторам и организациям.
В статье
предлагаются два убедительных количественных частных критерия манипулирования
индексом Хирша при малом числе статей и основанный на них аддитивный
интегральный критерий, основанные на линейном тренде графика числа цитирований
ранжированного списка публикаций.
Степень
различия между эмпирическим
и теоретическим значениями индекса Хирша можно считать устойчивым интегральным критерием манипулирования индексом Хирша
при любом числе публикаций.
Предлагается:
1. Применить
результаты данной статьи при расчетах в РИНЦ и строить рейтинги авторов,
журналов и организаций (подразделений) не только на основе эмпирического
классического индекса Хирша, но и на основе теоретического индекса Хирша, а
также по критериям манипулирования.
2. Не придавать излишне и неоправданно большого значения классическому
эмпирическому значению индекса Хирша при оценках и принятии решений.
Адекватная
и технологичная оценка результативности, эффективности и качества научной
деятельности конкретных ученых и научных коллективов является актуальной
проблемой для информационного общества и общества, основанного на знаниях.
Решение этой проблемы является предметом наукометрии и ее целью. Современный
этап развития наукометрии существенно отличается от предыдущих появлением в открытом,
а также платном on-line доступе огромного объема детализированных данных по
большому числу показателей как об отдельных авторах, так и о научных
организациях и вузах. В мире, это известные библиографические базы данных: Web
of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH,
Chemical Abstracts, Springer, Agris или GeoRef. В России это прежде всего
Российский индекс научного цитирования (РИНЦ). РИНЦ – это национальная
информационно-аналитическая система, аккумулирующая более 9 миллионов
публикаций российских ученых, а также информацию о цитировании этих публикаций
из более 6000 российских журналов. Данных очень много, это так называемые
«Большие данные» ("Big Data"). Но проблема состоит в том, чтобы
осмыслить эти большие данные, точнее, выявить смысл значений наукометрических
показателей) и тем самым преобразовать их в большую информацию («great
information»), а затем применить эту информацию для достижения цели наукометрии,
т.е. преобразовать ее в большие знания («great knowledge») о конкретных ученых
и научных коллективах. Решение этой проблемы предлагается путем создания
«Наукометрической интеллектуальной измерительной системы» на основе применения
автоматизированного системно-когнитивного анализа и его программного
инструментария – интеллектуальную систему «Эйдос». Приводится численный пример
создания и применения Наукометрической интеллектуальной измерительной системы,
на основе небольшого объема реальных наукометрических данных, находящихся в
открытом бесплатном on-line доступе в РИНЦ.
Адекватная и
технологичная оценка результативности, эффективности и качества научной
деятельности конкретных ученых и научных коллективов была важной всегда, но
особенно актуальной она стала в информационном обществе и обществе, основанном
на знаниях.
Однако
реализация этой оценки на практике является как научной, так и чисто
технологической проблемой, не решенной и в настоящее время [1].
Решение этой
проблемы является предметом наукометрии и ее целью. В современной наукометрии
огромное количество проблем и нерешенных вопросов, по которым идет интенсивная
очень содержательная и богатая идеями научная дискуссия [1]. По мнению авторов
источником подавляющего большинства этих проблем является принципиально новая
особенность современной наукометрии, существенно качественно отличающая ее от
предыдущих этапов ее развития, которая заключается в появлении в открытом (а также платном) on-line доступе огромного объема
детализированных данных по большому числу накометрических показателей как об
отдельных авторах, так и о научных организациях и вузах.
В мире
наукометрические данные содержатся в известных библиографических базах данных:
Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH,
Chemical Abstracts, Springer, Agris, GeoRef и др. В России также есть много
библиографических баз данных из которых выделяется Российский индекс научного
цитирования (РИНЦ) (http://elibrary.ru/).
Так что
исходных наукометрических данных уже очень и очень много, это так называемые
«Большие данные» ("Big Data"). А большие данные [34] – это само по
себе большие проблемы, которые «часто разделяют на три основные группы: объем,
скорость, неоднородность (так называемые «3 V»: Volume, Velocity, Variety[7]) [2]».
Первые две из этих проблем скорее относятся к аппаратному обеспечению
поддержки больших данных и обеспечения доступа к ним, но третья проблема
касается уже научно-методологических, математических, алгоритмических и программных
(инструментальных) средств обработки больших данных.
В работе [2]
третья проблема характеризуется следующим образом: «проблема неоднородности
состоит в том, что данные зачастую происходят из разных источников и бывают в
разных форматах и разного качества. Их невозможно просто сложить вместе и
обработать – требуются сложная работа, чтобы привести их в пригодный для анализа вид».
Здесь
говорится о малопригодности этих данных для анализа в сыром виде, но ничего не
говорится о цели этого анализа и его методах и способах. Поэтому авторы
предлагают разбить третью проблему на две части: в первой части конкретнее описать
технические причины малопригодности сырых больших данных для обработки; а во
второй части описать цель этой обработки.
Авторская формулировка третьей проблемы обработки
больших наукометрических данных («Big
scientometric data»):
–
наукометрические показатели, содержащиеся в библиографических базах данных,
зашумлены, фрагментированы (не полны), представлены в разных типах
измерительных шкал (номинальных, порядковых и количественных) и в разных
единицах измерения, зависят друг от друга, т.е. описывают нечисловые [35] и/или
нелинейные объекты, вследствие чего не подчиняются нормальному распределению
[36];
– цель обработки больших наукометрических
данных состоит в том, чтобы осмыслить эти зашумленные,
фрагментированные взаимозависимые большие данные, измеряемые в разных типах
шкал и в разных единицах измерения, точнее, выявить смысл в значениях
наукометрических показателей, и тем самым преобразовать их в большую информацию
(«great information»), а затем применить эту информацию для достижения цели
наукометрии, т.е. преобразовать ее в
большие знания («great knowledge») о результатах, эффективности и качестве
научной деятельности конкретных ученых и научных коллективов.
Из
вышеприведенной авторской формулировки проблемы обработки больших
наукометрических данных вытекают следующие требования к методу их обработки,
также состоящие из двух частей, обеспечивающих соответственно решение технических
аспектов проблемы и достижение цели обработки. Этот метод должен обеспечивать:
– корректную
сопоставимую обработку числовых и нечисловых данных, представленных в разных
типах измерительных шкал и разных единицах измерения и являться устойчивым к
шуму в исходных данных непараметрическим методом, обеспечивающим создание
моделей больших размерностей при неполных и зашумленных исходных данных о
сложном нелинейном динамическом объекте моделирования, имеющим программный
инструментарий;
–
преобразование данных в информацию, а ее в знания о результатах, эффективности
и качестве научной деятельности конкретных ученых и научных коллективов и
решение на этой основе задач многопараметрической типизации и системной идентификации,
а также задач исследования моделируемого объекта путем создания и анализа его
модели.
Факторный
анализ – один из наиболее популярных методов выявления причинно-следственных
зависимостей в исходных данных [37]. Он является параметрическим методом,
требующим абсолютно точных исходных данных, полных повторностей всех возможных
сочетаний значений независимых друг от друга факторов, которых должно быть не
более 5-6, измеряемых в числовых шкалах и одних единицах измерения. Факторный
анализ не обеспечивает преобразование исходных данных в информацию, а ее в
знания и решение задач многопараметрической типизации и системной
идентификации, а также исследования моделируемого объекта путем исследования
его модели. Таким образом, факторный анализ не удовлетворяет практически ни
одному из требований, предъявляемы к методу обработки.
Всем
обоснованным выше требованиям к методу решения поставленной проблемы
соответствует автоматизированный системно-когнитивный анализ (АСК-анализ) [13]
и его программного инструментарий – интеллектуальная система «Эйдос» [14].
Метод АСК-анализа является
устойчивым к шуму и неполноте в исходных данных непараметрическим методом и обеспечивает
создание моделей больших размерностей сложных нелинейных объектов моделирования
на основе корректной сопоставимой обработки числовых и нечисловых данных о них,
представленных в различных типах измерительных шкал и разных единицах измерения
[15] и имеет программный инструментарий – интеллектуальную систему «Эйдос».
Этот метод обеспечивает преобразование данных в информацию, а ее в знания о
результатах, эффективности и качестве научной деятельности конкретных ученых и
научных коллективах и решение на этой основе задач многопараметрической типизации
и системной идентификации, а также исследования моделируемого объекта путем
исследования его модели.
Поэтому метод
АСК-анализа и будет использован для решения поставленной в статье проблемы.
По сути
проблема состоит в поиске или разработке адекватных частных критериев
результатов научной деятельности и методов интеграции этих частных критериев
для оценки результатов как отдельных ученых, так и научных коллективов. В настоящее
время практика наукометрии, или, может быть, даже точнее сказать
«псевдонаукометрии», сильно опережает теорию, так как и сами частные критерии,
и методы их интеграции и применения вызывают большую и хорошо обоснованную критику
[1, 3-11].
Ясно, что
разные значения частных наукометрических критериев характеризует разное
качество результатов научной деятельности, что и заложено в наукометрических
методиках. Но не понятно, откуда их разработчики этих методик взяли именно сами
эти значения. Скорее всего они сделали это на основе экспертных оценок, т.е. на
основе интуиции, опыта и профессиональной компетенции.
Конечно,
разработчики частных наукометрических критериев старались сконструировать их
таким образом, чтобы они адекватно отражали определенные признаки степени
успешности научной деятельности. Но возникает закономерный и существенный
вопрос о том, на сколько или в какой степени это действительно удалось им
сделать. Это вопрос о том, на сколько те или иные частные наукометрические
критерии действительно «работают» и выполняют свою функцию индикаторов
результатов научной деятельности.
Какими
способами это можно проверить и кто это проверял?
По-видимому,
способом проверки адекватности частных наукометрических критериев является сравнение
результатов оценки результатов научной
деятельности ученых по этим частным критериям с экспертными оценками этих же
результатов. Если эти оценки совпадают, то критерии адекватны, если же нет,
то значит они не работают и не пригодны для тех целей, для которых были
разработаны.
Мысли о
подобной проверке высказывались (см., например, [55]), но никто не осуществлял
попыток такой проверки. В данной работе фактически впервые это также будет сделано.
Но даже если
частные наукометрические критерии не выполняют своей функции, которая
планировалась при их конструировании, то можно узнать в количественной форме,
какую функцию они фактически выполняют и использовать их в этом качестве. Это
же касается и критериев, которые работают. Что имеется в виду?
Авторы
предлагают на основе экспертных оценок оценивать не сами частные критерии, а
значения интегральных критериев для различных категорий авторов, отличающихся
результативностью научной деятельности, и на основе этого строить модель,
определяющую смысл различных значений частных критериев, т.е. количество
информации в их значениях о различных результатах научной деятельности.
Суть
предлагаемого подхода в том, что частные наукометрические критерии
рассматриваются не сами по себе, как это обычно делается, а сначала на основе эмпирических данных об
общих наукометрических показателях различных ученых (в нашем случае данных
РИНЦ) и экспертных оценок результатов их деятельности создается и верифицируется модель, в которой рассчитывается, какое
количество информации содержится в частных критериях о значениях интегральных
критериев (результативности деятельности ученого), а затем эта модель применяется для оценки результатов
деятельности других ученых, данные о которых не входили в обучающую выборку.
Естественно, эти другие ученые должны входить в генеральную совокупность, по
отношению к которой обучающая выборка репрезентативна, для чего они, например,
должны относиться к тому же направлению науки. Для оценки результатов деятельности
ученого с помощью модели рассчитывается суммарное количество информации,
которое содержится в его наукометрических показателях о различных результатах деятельности, и
считается, что у него скорее всего наиболее ценны те результаты, о которых в
его наукометрических показателях содержится наибольшее суммарное количество
информации. Эта оценка с помощью аддитивного интегрального критерия является сопоставимой количественной оценкой
результатов научной деятельности различных ученых. В идеале наукометрическая
интеллектуальная измерительная система должна оценивать ученых на основе их
наукометрических показателей и модели так же, как эксперты на основе своей
интуиции, опыта и профессиональной компетенции.
В этом и
состоит суть предлагаемой наукометрической интеллектуальной измерительной
системы [12], в которой значения частных наукометрических критериев будут
рассчитываться непосредственно на основе эмпирических данных и экспертных
оценок значений интегральных критериев по научно обоснованной методике на
основе применения АСК-анализа [13] и системы «Эйдос» [14].
Системный анализ представляет собой современный метод научного
познания, общепризнанный метод решения проблем [13, 16, 19, 20]. Однако
возможности практического применения системного анализа ограничиваются
отсутствием программного инструментария, обеспечивающего его автоматизацию.
Существуют разнородные программные системы, автоматизирующие отдельные этапы
или функции системного анализа в различных конкретных предметных областях.
Автоматизированный системно-когнитивный анализ
(АСК-анализ) представляет собой системный анализ, структурированный по базовым
когнитивным операциям (БКО), благодаря чему удалось разработать для него
математическую модель, методику численных расчетов (структуры данных и
алгоритмы их обработки), а также реализующую их программную систему – систему
«Эйдос» [13, 16, 17]. Система «Эйдос» разработана в постановке, не зависящей от предметной
области, и имеет ряд программных интерфейсов с внешними данными различных типов
[17]. АСК-анализ может быть применен как инструмент, многократно усиливающий
возможности естественного интеллекта во всех областях, где используется естественный
интеллект. АСК-анализ был успешно применен для решения задач идентификации,
прогнозирования, принятия решений и исследования моделируемого объекта путем
исследования его модели во многих предметных областях, в частности в экономике,
технике, социологии, педагогике, психологии, медицине, экологии, ампелографии,
геофизике, энтомологии, криминалистике и многих других [13, 14][8].
Известно, что системный анализ является одним из общепризнанных в науке
методов решения проблем и многими учеными рассматривается вообще как метод
научного познания. Однако, как впервые заметил еще в 1984 году проф. И.П.
Стабин, на практике применение системного анализа наталкивается на проблему
[24]. Суть этой проблемы в том, что обычно системный анализ успешно применяется
в сравнительно простых случаях, в которых в принципе можно обойтись и без него,
тогда как в действительно сложных ситуациях, когда он действительно чрезвычайно
востребован и у него нет альтернатив, сделать это удается гораздо реже. Проф.
И.П. Стабин предложил и путь решения этой проблемы, который он видел в
автоматизации системного анализа [24].
Однако путь от идеи до создания программной системы долог и сложен,
т.к. включает ряд этапов:
– выбор теоретического математического метода;
– разработка методики численных расчетов, включающей структуры данных в
оперативной памяти и внешних баз данных (даталогическую и инфологическую
модели) и алгоритмы обработки этих данных;
– разработка программной системы, реализующей эти математические методы
и методики численных расчетов.
Перегудов Ф.И. и Тарасенко Ф.П. в своих основополагающих работах 1989 и
1997 годов [19, 20] подробно рассмотрели математические методы, которые в
принципе могли бы быть применены для автоматизации отдельных этапов системного
анализа. Однако даже самые лучшие математические методы не могут быть применены
на практике без реализующих их программных систем, а путь от математического
метода к программной системе долог и сложен. Для этого необходимо разработать
численные методы или методики численных расчетов (алгоритмы и структуры
данных), реализующие математический метод, а затем разработать программную
реализацию системы, основанной на этом численном методе.
В числе первых попыток реальной автоматизации системного анализа
следует отметить докторскую диссертацию проф. Симанкова В.С. (2001) [25]. Эта
попытка была основана на высокой детализации этапов системного анализа и
подборе уже существующих программных систем, автоматизирующих эти этапы. Идея
была в том, что чем выше детализация системного анализа, чем мельче этапы, тем
проще их автоматизировать. Эта попытка была реализована, однако, лишь для
специального случая исследования в области возобновляемой энергетики, т.к.
системы оказались различных разработчиков, созданные с помощью различного
инструментария и не имеющие программных интерфейсов друг с другом, т.е. не
образующие единой автоматизированной системы. Эта попытка, безусловно, явилась
большим шагом по пути, предложенному проф. И.П. Стабиным, но и ее нельзя признать
обеспечившей достижение поставленной цели, сформулированной Стабиным И.П. (т.е.
создание автоматизированного системного анализа), т.к. она не привела к созданию
единой универсальной программной системы, автоматизирующий системный анализ,
которую можно было бы применять в различных предметных областях.
Необходимо отметить работы Дж. Клира по системологии и автоматизации
решения системных задач, которые внесли большой вклад в автоматизацию
системного анализа путем создания и применения универсального решателя
системных задач (УРСЗ), реализованного в рамках оригинальной экспертной системы
[26, 27]. Однако в экспертной системе применяется продукционная модель знаний,
для получения которых от эксперта необходимо участие инженера по знаниям
(когнитолога). Этим обусловлены следующие недостатки экспертных систем:
– они генерируют знания каждый раз, когда они необходимы для решения
задач, и это может занимать значительно большее время, чем при использовании
декларативной формы представления знаний;
– продукционные модели обычно построены на бинарной логике (if then
else), что вызывает возможность логического конфликта продукций в процесс
логического вывода, что приводит к необратимому останову логического процесса
при противоречивых исходных данных;
– эксперты - люди чаще всего заслуженные и их время и знания стоят
очень дорого; поэтому привлечение экспертов для извлечения готовых знаний на
длительное время проблематично и обычно эксперт просто физически не может
сообщить очень большой объем знаний, а иногда и не хочет этого делать по тем
или иным причинам («ноу-хау», нарушение морально-этических норм или даже ГК или
УК, конфликт интересов) и сознательно сообщает неадекватные знания;
– чаще всего эксперты формулируют свои знания неформализуемым путем на
основе своей интуиции, опыта и профессиональной компетенции, т.е. не могут
сформулировать свои знания в количественной форме, а пользуются для их
формализации порядковыми или даже номинальными шкалами, поэтому экспертные
знания являются не очень точными и для их формализации необходим инженер по
знаниям (когнитолог).
Автоматизированный системно-когнитивный анализ разработан профессором
Е.В. Луценко и предложен в 2002 году [13], хотя разработан он был значительно
раньше, причем с программным инструментарием: системой «Эйдос» [17]. Основная
идея, позволившая сделать это, состоит в рассмотрении системного анализа как
метода познания (отсюда и «когнитивный» от «cognitio» – знание, познание,
лат.). Эта идея позволила структурировать системный анализ не по этапам, как
пытались сделать ранее, а по базовым когнитивным операциям системного анализа
(БКОСА), т.е. таким операциям, к комбинациям которых сводятся остальные. Эти
операции образуют минимальную систему, достаточную для описания системного
анализа, как метода познания, т.е. конфигуратор. Понятие конфигуратора
предложено В.А. Лефевром [28]. В 2002 году Е.В. Луценко был предложен когнитивный
конфигуратор [13], включающий 10 базовых когнитивных операций.
1) присвоение имен;
2) восприятие (описание конкретных объектов в форме онтологий, т.е. их
признаками и принадлежностью к обобщающим категориям - классам);
3) обобщение (синтез, индукция);
4) абстрагирование;
5) оценка адекватности модели;
6) сравнение, идентификация и прогнозирование;
7) дедукция и абдукция;
8) классификация и генерация конструктов;
9) содержательное сравнение;
10) планирование и поддержка принятия управленческих решений.
Каждая из этих операций оказалась достаточно элементарна для
формализации и программной реализации.
– формализуемая когнитивная концепция и следующий из нее когнитивный
конфигуратор;
– теоретические основы, методология, технология и методика АСК-анализа;
– математическая модель АСК-анализа, основанная на системном обобщении
теории информации;
– методика численных расчетов, в универсальной форме реализующая
математическую модель АСК-анализа, включающая иерархическую структуру данных и
24 детальных алгоритма 10 БКОСА;
– специальное инструментальное программное обеспечение, реализующее
математическую модель и численный метод АСК-анализа – Универсальная когнитивная
аналитическая система "Эйдос".
1) когнитивно-целевая структуризация предметной области;
2) формализация предметной области (конструирование классификационных и
описательных шкал и градаций и подготовка обучающей выборки);
3) синтез системы моделей предметной области (в настоящее время система
«Эйдос» поддерживает 3 статистические модели и 7 системно-когнитивных моделей
(моделей знаний);
4) верификация (оценка достоверности) системы моделей предметной
области;
5) повышение качества системы моделей;
6) решение задач идентификации, прогнозирования и поддержки принятия
решений;
7) исследование моделируемого объекта путем исследования его моделей
является корректным, если модель верно отражает моделируемый объект и включает:
кластерно-конструктивный анализ классов и факторов; содержательное сравнение
классов и факторов; изучение системы детерминации состояний моделируемого
объекта; нелокальные нейроны и интерпретируемые нейронные сети прямого счета;
классические когнитивные модели (когнитивные карты); интегральные когнитивные модели
(интегральные когнитивные карты), прямые обратные SWOT-диаграммы; когнитивные
функции и т.д.
Суть метода АСК-анализа состоит в последовательном повышении степени
формализации модели и преобразовании данных в информацию, а ее в знания и
решении на основе этих знаний задач идентификации (распознавания, классификации
и прогнозирования), поддержки принятия решений и исследования моделируемой
предметной области (рисунки 1 и 2):
Рисунок 1. О
соотношении содержания понятий:
«данные», «информация» и «знания» в АСК-анализе
Рисунок 2.
Последовательность преобразования данных
в информацию, а ее в знания и решения задач
в АСК-анализе и системе «Эйдос»
Математическая
модель АСК-анализ основана на теории информации, точнее на системной теории
информации (СТИ), предложенной Е.В. Луценко [13, 16][9]. Это значит,
что в
АСК-анализе все факторы рассматриваются с одной единственной точки зрения:
сколько информации содержится в их значениях о переходе объекта, на который они
действуют, в определенное состояние, и при этом сила и направление влияния всех
значений факторов на объект измеряется в одних общих для всех факторов единицах
измерения: единицах количества информации [8, 9].
Это
напоминает подход Дугласа Хаббарда [15], но, в отличие от него, имеет открытый
универсальный программный инструментарий (систему «Эйдос»), разработанный в
постановке, не зависящей от предметной области [13, 14]. К тому же на систему
«Эйдос» уже в 1994 году было три патента РФ [13, 14[10]], а первые
акты ее внедрения датируются 1987 годом [13, 14][11], тогда как
основная работа Дугласа Хаббарда [29] появилась лишь в 2009 году. Это означает,
что идеи АСК-анализа не только появились, но и были доведены до программной
реализации в универсальной форме и применены в различных предметных областях на
22 с лишним года раньше появления
работ Дугласа Хаббарда.
Поэтому
АСК-анализ обеспечивает корректную сопоставимую обработку числовых и нечисловых
данных, представленных в разных типах измерительных шкал и разных единицах
измерения [13, 23]. Метод АСК-анализа является устойчивым непараметрическим
методом, обеспечивающим создание моделей больших размерностей при неполных и
зашумленных исходных данных о сложном нелинейном динамичном объекте управления.
Этот метод является чуть ли не единственным на данный момент, обеспечивающим
многопараметрическую типизацию и системную идентификацию методов,
инструментарий которого (интеллектуальная система «Эйдос») находится в полном
открытом бесплатном доступе [13, 14][12].
Система Эйдос
обеспечивает:
1.
Многопараметрическую типизацию, т.е. формирование обобщенных образов классов на
основе конкретных примеров объектов, которые к ним относятся.
2. Системную
идентификацию, т.е. определение степени сходства образа конкретного объекта с
обобщенными образами классов (сравнение конкретных объектов с обобщенными образами
классов).
3.
Формирование кластеров классов (сравнение обобщенных образов классов друг с
другом).
4.
Формирование конструктов кластеров (сравнение кластеров друг с другом и
формирование конструктов).
5.
Исследование моделируемой предметной области путем исследования ее модели.
Метод системно-когнитивного анализа и его программный инструментарий
интеллектуальная система "Эйдос" были успешно применены при
проведении 6 докторских и 7 кандидатских диссертационных работ в ряде различных
предметных областей по экономическим, техническим, психологическим и медицинским
наукам.
АСК-анализ был успешно применены при выполнении десятка грантов РФФИ и
РГНФ различной направленности за длительный период - с 2002 года по настоящее
время (2016 год).
По проблематике АСК-анализа издано 24 монографии, получено 29 патентов
на системы искусственного интеллекта, их подсистемы, режимы и приложения,
опубликовано более 236 статей в изданиях, входящих в Перечень ВАК РФ (по данным
РИНЦ). В одном только Научном журнале
КубГАУ (входит в Перечень ВАК РФ с 26-го марта 2010 года) автором АСК-анализа
Луценко Е.В. опубликовано 208, общим объёмом 373,621 у.п.л., в среднем 1,796
у.п.л. на одну статью.
По этим публикациям, грантам и диссертационным работам видно, что
АСК-анализ уже был успешно применен в следующих предметных областях и научных
направлениях: экономика (региональная, отраслевая, предприятий, прогнозирование
фондовых рынков), социология, эконометрика, биометрия, педагогика (создание
педагогических измерительных инструментов и их применение), психология
(личности, экстремальных ситуаций, профессиональных и учебных достижений,
разработка и применение профессиограмм), сельское хозяйство (прогнозирование
результатов применения агротехнологий, принятие решений по выбору рациональных
агротехнологий и микрозон выращивания), экология, ампелография, геофизика
(глобальное и локальное прогнозирование землетрясений, параметров магнитного поля
Земли, движения полюсов Земли), климатология (прогнозирование Эль-Ниньо и Ла-Нинья), возобновляемая энергетика, мелиорация и управление мелиоративными
системами, криминалистика, энтомология и ряд других областей.
АСК-анализ вызывает большой интерес во всем мире. Сайт автора
АСК-анализа [16] посетило около 500 тыс. посетителей с уникальными
IP-адресами со всего мира. Еще около 500 тыс. посетителей открывали статьи по
АСК-анализу в Научном журнале КубГАУ.
Необходимо отметить, что в развитии различных теоретических основ и
практических аспектов АСК-анализа приняли участие многие ученые: д.э.н., к.т.н., проф. Луценко Е.В.,
Засл. деятель науки РФ, д.т.н., проф. Лойко В.И., к.ф.-м.н.,
Ph.D., проф., Трунев А.П. (Канада),
д.э.н., д.т.н., к.ф.-м.н., проф. Орлов А.И., к.т.н., доц. Коржаков В.Е.,
д.э.н., проф. Барановская Т.П., д.э.н., к.т.н., проф. Ермоленко В.В., к.пс.н.
Наприев И.Л., к.пс.н., доц. Некрасов С.Д., к.т.н., доц. Лаптев В.Н., к.пс.н,
доц. Третьяк В.Г., к.пс.н., Щукин Т.Н., д.т.н., проф. Симанков В.С., д.э.н.,
проф. Ткачев А.Н., д.т.н., проф. Сафронова Т.И., д.э.н., доц. Горпинченко К.Н.,
к.э.н., доц. Макаревич О.А., к.э.н., доц. Макаревич Л.О., к.м.н. Сергеева Е.В.
(Фомина Е.В.), Бандык Д.К. (Белоруссия), Чередниченко Н.А., к.ф.-м.н. Артемов
А.А., д.э.н., проф. Крохмаль В.В., д.т.н., проф. Рябцев В.Г., к.т.н., доц. Марченко
А.Ю., д.т.н., проф. Фролов В.Ю., д.ю.н, проф. Швец С.В., Засл. деятель науки Кубани, д.б.н., проф. Трошин Л.П.,
Засл. изобр. РФ, д.т.н., проф. Серга Г.В., Сергеев А.С., д.б.н., проф.
Стрельников В.В. и другие.
В заключение
отметим, что программный инструментарий АСК-анализа – интеллектуальная система
«Эйдос» находится в полном открытом бесплатном доступе на сайте автора (вместе
с исходными текстами) по адресу: http://lc.kubagro.ru/aidos/_Aidos-X.htm.
Рассмотрим численный пример решения поставленной проблемы в
соответствии с приведенными выше в разделе 3.3.2 и на рисунке 2 этапами
АСК-анализа:
1) когнитивно-целевая структуризация предметной области;
2) формализация предметной области (конструирование классификационных и
описательных шкал и градаций и подготовка обучающей выборки);
3) синтез системы моделей предметной области (в настоящее время система
«Эйдос» поддерживает 3 статистические модели и 7 системно-когнитивных моделей
(моделей знаний);
4) верификация (оценка достоверности) системы моделей предметной
области;
5) повышение качества системы моделей;
6) решение задач идентификации, прогнозирования и поддержки принятия
решений;
7) исследование моделируемой предметной области путем исследования ее
модели.
Содержание этого этапа АСК-анализа, единственного неформализованного и не
реализованного в системе «Эйдос», состоит в том, что необходимо определиться что
мы будем рассматривать в качестве факторов, а что в качестве результатов их
влияния.
В данном случае ясно, что на основе значений общих наукометрических
показателей авторов необходимо оценивать результаты их научной деятельности.
Таким образом данный этап выполнен.
На этом этапе АСК-анализа создаются классификационные и описательные
шкалы и градации, а затем с их использованием кодируются исходные данные и в
результате чего формируются база событий и обучающая выборка (рис. 2). По сути
этап формализации предметной области является нормализацией базы исходных данных, в результате чего степень
формализации исходных данных возрастает до уровня, необходимого и достаточного
для их обработки на компьютере в программной системе.
Исходные данные любезно предоставлены в удобной для проведения
исследования форме Глуховым Виктором Алексеевичем, – к.т.н., зам. директора по
научной работе ИНИОН РАН, руководителем Фундаментальной библиотеки, г. Москва.
Необходимо отметить, что все эти исходные данные находятся в полном открытом
бесплатном доступе на сайте РИНЦ http://elibrary.ru/ в авторском указателе и представляют собой ни что иное, как «Общие
показатели» по каждому автору.
Исходные данные представляются в форме Excel-таблицы, в которой каждая
строка описывает один объект обучающей выборки. В первой колонке этой таблицы
содержится идентифицирующая информация об объекте обучающей выборки, затем идут
колонки, являющиеся классификационными шкалами, а затем колонки, являющиеся
описательными шкалами.
Классификационные и описательные шкалы могут быть текстового и числового
типа. Если они текстового типа, то значениями градаций шкал являются уникальные
текстовые наименования в них. Если шкалы числового типа, то в них ищется минимальное
и максимальное числовое значение, а затем диапазон изменения числовой величины
делится на заданное пользователем (в диалоге) число интервальных числовых
значений, которые и являются градациями шкал. Градации классификационных шкал
являются классами и по ним проводится группировка строк базы исходных данных и
обобщение. Градации описательных шкал являются значениями факторов,
характеризующих объекты обучающей выборки. Требования к файлу исходных данных
приведены на рис. 3:
Рисунок 3. Требования к файлу исходных данных
Сами исходные данные приведены в таблице 1.
Таблица 1 – Исходные данные
Примечание: Изображения таблицы исходных данных представлены с разрешением 600 dpi и
при увеличении изображения хорошо читабельны.
В соответствии с идеей решения проблемы, поставленной в данном
исследовании, исходные данные, представленные в таблице 1 дополняются экспертными оценками
результативности научной деятельности авторов.
Выбор ученых для исследования был осуществлен по нескольким направлениям
науки («Экономика», "Математика", "Технические науки" и др.)
таким образом, чтобы в выборку попали и очень известные ученые, известные
своими научными результатами, и менее известные.
В качестве экспертов выступали сотрудники ведущих НИИ и вузов страны.
Имена экспертов не сообщаются из этических соображений.
Взвешивание экспертных оценок производилось с учетом «научного веса»
эксперта, соответствующего его ученой степени и научному званию.
Все показатели в таблице исходных данных делятся на первичные и расчетные
на их основе. Обычно эти расчетные показатели даются в процентах.
Классификационные и описательные шкалы и градации приведены в таблицах 2
и 3:
Таблица 2 – Классификационные шкалы и
градации
Код |
Наименование шкалы и градации |
1 |
СТЕПЕНЬ-ЗВАНИЕ-1/4-1-Канд.наук |
2 |
СТЕПЕНЬ-ЗВАНИЕ-2/4-2-Докт.наук |
3 |
СТЕПЕНЬ-ЗВАНИЕ-3/4-3-Чл.корр. |
4 |
СТЕПЕНЬ-ЗВАНИЕ-4/4-4-Акад.РАН |
5 |
НАУЧНЫЕ ДОСТИЖЕНИЯ-1/3-1-Низкие |
6 |
НАУЧНЫЕ ДОСТИЖЕНИЯ-2/3-2-Средние |
7 |
НАУЧНЫЕ ДОСТИЖЕНИЯ-3/3-3-Высокие |
Таблица 3 – Описательные шкалы и градации
Код |
Наименование шкалы и градации |
1 |
CITED-1/4-{1.0000000, 39.0000000} |
2 |
CITED-2/4-{39.0000000, 91.0000000} |
3 |
CITED-3/4-{91.0000000, 237.0000000} |
4 |
CITED-4/4-{237.0000000,
9704.0000000} |
5 |
PUBLICATIONS-1/4-{13.0000000,
33.0000000} |
6 |
PUBLICATIONS-2/4-{33.0000000,
80.0000000} |
7 |
PUBLICATIONS-3/4-{80.0000000,
170.0000000} |
8 |
PUBLICATIONS-4/4-{170.0000000,
320.0000000} |
9 |
GRANTS-1/4-{1.0000000, 1.0000000} |
10 |
GRANTS-2/4-{1.0000000, 4.0000000} |
11 |
GRANTS-3/4-{4.0000000, 8.0000000} |
12 |
GRANTS-4/4-{8.0000000, 51.0000000} |
13 |
NUMOFITEMS-1/4-{5.0000000,
20.0000000} |
14 |
NUMOFITEMS-2/4-{20.0000000,
34.0000000} |
15 |
NUMOFITEMS-3/4-{34.0000000,
62.0000000} |
16 |
NUMOFITEMS-4/4-{62.0000000,
265.0000000} |
17 |
СУММАРНОЕ ЧИСЛО ЦИТИРОВАНИЙ
АВТОРА-1/4-{12.0000000, 113.0000000} |
18 |
СУММАРНОЕ ЧИСЛО ЦИТИРОВАНИЙ
АВТОРА-2/4-{113.0000000, 203.0000000} |
19 |
СУММАРНОЕ ЧИСЛО ЦИТИРОВАНИЙ
АВТОРА-3/4-{203.0000000, 674.0000000} |
20 |
СУММАРНОЕ ЧИСЛО ЦИТИРОВАНИЙ
АВТОРА-4/4-{674.0000000, 12391.0000000} |
21 |
ИНДЕКС ХИРША-1/4-{1.0000000,
4.0000000} |
22 |
ИНДЕКС ХИРША-2/4-{4.0000000,
6.0000000} |
23 |
ИНДЕКС ХИРША-3/4-{6.0000000,
7.0000000} |
24 |
ИНДЕКС ХИРША-4/4-{7.0000000,
45.0000000} |
25 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА В
РИНЦ-1/4-{5.0000000, 25.0000000} |
26 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА В
РИНЦ-2/4-{25.0000000, 43.0000000} |
27 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА В
РИНЦ-3/4-{43.0000000, 77.0000000} |
28 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА В
РИНЦ-4/4-{77.0000000, 369.0000000} |
29 |
ЧИСЛО
САМОЦИТИРОВАНИЙ-1/4-{2.0000000, 20.0000000} |
30 |
ЧИСЛО
САМОЦИТИРОВАНИЙ-2/4-{20.0000000, 55.0000000} |
31 |
ЧИСЛО
САМОЦИТИРОВАНИЙ-3/4-{55.0000000, 114.0000000} |
32 |
ЧИСЛО
САМОЦИТИРОВАНИЙ-4/4-{114.0000000, 507.0000000} |
33 |
ЧИСЛО САМОЦИТИРОВАНИЙ
(%)-1/4-{0.2824859, 6.8181818} |
34 |
ЧИСЛО САМОЦИТИРОВАНИЙ (%)-2/4-{6.8181818,
13.0494505} |
35 |
ЧИСЛО САМОЦИТИРОВАНИЙ
(%)-3/4-{13.0494505, 37.5000000} |
36 |
ЧИСЛО САМОЦИТИРОВАНИЙ
(%)-4/4-{37.5000000, 69.0265487} |
37 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ-1/4-{2.0000000, 23.0000000} |
38 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ-2/4-{23.0000000, 33.0000000} |
39 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ-3/4-{33.0000000, 52.0000000} |
40 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ-4/4-{52.0000000, 343.0000000} |
41 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ (%)-1/4-{32.5000000, 60.0000000} |
42 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ (%)-2/4-{60.0000000, 72.7272727} |
43 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ (%)-3/4-{72.7272727, 77.7777778} |
44 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ (%)-4/4-{77.7777778, 103.2258065} |
45 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ ЖУРНАЛАХ-1/4-{1.0000000,
1.0000000} |
46 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ-2/4-{1.0000000, 2.0000000} |
47 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ-3/4-{2.0000000, 4.0000000} |
48 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ-4/4-{4.0000000, 222.0000000} |
49 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ (%)-1/4-{1.2987013, 2.3809524} |
50 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ (%)-2/4-{2.3809524, 4.3478261} |
51 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ (%)-3/4-{4.3478261, 9.3023256} |
52 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ
ЖУРНАЛАХ (%)-4/4-{9.3023256, 62.7118644} |
53 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК-1/4-{6.0000000, 14.0000000} |
54 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК-2/4-{14.0000000, 24.0000000} |
55 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК-3/4-{24.0000000, 43.0000000} |
56 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК-4/4-{43.0000000, 219.0000000} |
57 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК (%)-1/4-{15.0000000, 38.0952381} |
58 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК (%)-2/4-{38.0952381, 51.7441860} |
59 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК (%)-3/4-{51.7441860, 60.8108108} |
60 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ ВАК (%)-4/4-{60.8108108, 100.0000000} |
61 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ-1/4-{1.0000000, 3.0000000} |
62 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ-2/4-{3.0000000, 7.0000000} |
63 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ-3/4-{7.0000000, 11.0000000} |
64 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ПЕРЕВОДНЫХ
ЖУРНАЛАХ-4/4-{11.0000000, 71.0000000} |
65 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ (%)-1/4-{1.3513514, 5.0505051} |
66 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ (%)-2/4-{5.0505051, 10.0000000} |
67 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ПЕРЕВОДНЫХ
ЖУРНАЛАХ (%)-3/4-{10.0000000, 22.9508197} |
68 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛАХ (%)-4/4-{22.9508197, 52.0000000} |
69 |
ЧИСЛО ЦИТИРОВАНИЙ
СОАВТОРАМИ-1/4-{2.0000000, 29.0000000} |
70 |
ЧИСЛО ЦИТИРОВАНИЙ
СОАВТОРАМИ-2/4-{29.0000000, 88.0000000} |
71 |
ЧИСЛО ЦИТИРОВАНИЙ
СОАВТОРАМИ-3/4-{88.0000000, 193.0000000} |
72 |
ЧИСЛО ЦИТИРОВАНИЙ
СОАВТОРАМИ-4/4-{193.0000000, 1322.0000000} |
73 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ
(%)-1/4-{3.9548023, 15.3310105} |
74 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ
(%)-2/4-{15.3310105, 30.4812834} |
75 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ
(%)-3/4-{30.4812834, 46.6666667} |
76 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ
(%)-4/4-{46.6666667, 78.3018868} |
77 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ-1/4-{3.0000000, 13.0000000} |
78 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ-2/4-{13.0000000, 23.0000000} |
79 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ-3/4-{23.0000000, 48.0000000} |
80 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ-4/4-{48.0000000, 312.0000000} |
81 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ (%)-1/4-{21.8750000, 47.5000000} |
82 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ (%)-2/4-{47.5000000, 59.2592593} |
83 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ (%)-3/4-{59.2592593, 68.4931507} |
84 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА,
ПРОЦИТИРОВАННЫХ ХОТЯ БЫ ОДИН РАЗ (%)-4/4-{68.4931507, 84.9710983} |
85 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5
ЛЕТ-1/4-{1.0000000, 9.0000000} |
86 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5
ЛЕТ-2/4-{9.0000000, 14.0000000} |
87 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5
ЛЕТ-3/4-{14.0000000, 35.0000000} |
88 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5
ЛЕТ-4/4-{35.0000000, 231.0000000} |
89 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ
(%)-1/4-{7.6923077, 20.0000000} |
90 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ
(%)-2/4-{20.0000000, 30.4347826} |
91 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ
(%)-3/4-{30.4347826, 52.5000000} |
92 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ
(%)-4/4-{52.5000000, 71.4285714} |
93 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ-1/4-{6.0000000, 77.0000000} |
94 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ-2/4-{77.0000000, 156.0000000} |
95 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ-3/4-{156.0000000, 401.0000000} |
96 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ-4/4-{401.0000000, 6281.0000000} |
97 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ (%)-1/4-{25.0000000, 52.3489933} |
98 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ (%)-2/4-{52.3489933, 62.8099174} |
99 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ (%)-3/4-{62.8099174, 73.0263158} |
100 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ (%)-4/4-{73.0263158, 91.1504425} |
101 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ-1/4-{1.0000000, 4.0000000} |
102 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ-2/4-{4.0000000, 17.0000000} |
103 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ-3/4-{17.0000000, 36.0000000} |
104 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ-4/4-{36.0000000, 1486.0000000} |
105 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ (%)-1/4-{0.4926108, 2.1739130} |
106 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ (%)-2/4-{2.1739130, 3.3112583} |
107 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ (%)-3/4-{3.3112583, 11.0795455} |
108 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ
ЖУРНАЛОВ (%)-4/4-{11.0795455, 70.8333333} |
109 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК-1/4-{5.0000000, 56.0000000} |
110 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК-2/4-{56.0000000, 100.0000000} |
111 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК-3/4-{100.0000000, 279.0000000} |
112 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК-4/4-{279.0000000, 4871.0000000} |
113 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК (%)-1/4-{15.2173913, 35.5963303} |
114 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК (%)-2/4-{35.5963303, 40.5612245} |
115 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК (%)-3/4-{40.5612245, 53.7087912} |
116 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ ВАК (%)-4/4-{53.7087912, 90.2654867} |
117 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ-1/4-{1.0000000, 2.0000000} |
118 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ-2/4-{2.0000000, 12.0000000} |
119 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ-3/4-{12.0000000, 50.0000000} |
120 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ-4/4-{50.0000000, 744.0000000} |
121 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ (%)-1/4-{0.1373626, 0.8710801} |
122 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ (%)-2/4-{0.8710801, 4.1666667} |
123 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ (%)-3/4-{4.1666667, 14.8016050} |
124 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ
ПЕРЕВОДНЫХ ЖУРНАЛОВ (%)-4/4-{14.8016050, 44.2477876} |
125 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-1/4-{3.0000000, 20.0000000} |
126 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-2/4-{20.0000000, 33.0000000} |
127 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-3/4-{33.0000000, 49.0000000} |
128 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-4/4-{49.0000000, 322.0000000} |
129 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-1/4-{25.0000000, 55.5555556} |
130 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-2/4-{55.5555556, 65.2173913} |
131 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-3/4-{65.2173913, 77.7777778} |
132 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-4/4-{77.7777778, 97.1428571} |
133 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-1/4-{6.0000000, 75.0000000} |
134 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-2/4-{75.0000000, 157.0000000} |
135 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-3/4-{157.0000000, 401.0000000} |
136 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ-4/4-{401.0000000, 6276.0000000} |
137 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-1/4-{43.3673469, 55.1860040} |
138 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-2/4-{55.1860040, 63.5135135} |
139 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-3/4-{63.5135135, 75.3333333} |
140 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С
НЕНУЛЕВЫМ ИМПАКТ-ФАКТОРОМ (%)-4/4-{75.3333333, 95.8333333} |
141 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ОПУБЛИКОВАНЫ СТАТЬИ-1/4-{0.1430000, 0.2840000} |
142 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ОПУБЛИКОВАНЫ СТАТЬИ-2/4-{0.2840000, 0.4240000} |
143 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ОПУБЛИКОВАНЫ СТАТЬИ-3/4-{0.4240000, 0.5170000} |
144 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ОПУБЛИКОВАНЫ СТАТЬИ-4/4-{0.5170000, 2.8530000} |
145 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-1/4-{9.0000000, 53.0000000} |
146 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-2/4-{53.0000000, 121.0000000} |
147 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-3/4-{121.0000000, 379.0000000} |
148 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-4/4-{379.0000000, 6552.0000000} |
149 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-1/4-{28.8770053, 46.2809917} |
150 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-2/4-{46.2809917, 53.1073446} |
151 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-3/4-{53.1073446, 64.4226482} |
152 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
ИЗ ВСЕХ ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-4/4-{64.4226482, 91.3043478} |
153 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-1/4-{3.0000000, 12.0000000} |
154 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-2/4-{12.0000000, 37.0000000} |
155 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-3/4-{37.0000000, 97.0000000} |
156 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ-4/4-{97.0000000, 1618.0000000} |
157 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-1/4-{1.1869436, 7.1022727} |
158 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-2/4-{7.1022727, 12.3145401} |
159 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-3/4-{12.3145401, 23.2057416} |
160 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА,
ОПУБЛИКОВАННЫХ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%)-4/4-{23.2057416, 52.9411765} |
161 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ПРОЦИТИРОВАНЫ СТАТЬИ-1/4-{0.1740000, 0.3240000} |
162 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ПРОЦИТИРОВАНЫ СТАТЬИ-2/4-{0.3240000, 0.4140000} |
163 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ПРОЦИТИРОВАНЫ СТАТЬИ-3/4-{0.4140000, 0.5750000} |
164 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР
ЖУРНАЛОВ, В КОТОРЫХ БЫЛИ ПРОЦИТИРОВАНЫ СТАТЬИ-4/4-{0.5750000, 2.4470000} |
165 |
ЧИСЛО ПУБЛИКАЦИЙ, ПРОЦИТИРОВАВШИХ
РАБОТЫ АВТОРА-1/4-{11.0000000, 66.0000000} |
166 |
ЧИСЛО ПУБЛИКАЦИЙ, ПРОЦИТИРОВАВШИХ
РАБОТЫ АВТОРА-2/4-{66.0000000, 152.0000000} |
167 |
ЧИСЛО ПУБЛИКАЦИЙ, ПРОЦИТИРОВАВШИХ
РАБОТЫ АВТОРА-3/4-{152.0000000, 461.0000000} |
168 |
ЧИСЛО ПУБЛИКАЦИЙ, ПРОЦИТИРОВАВШИХ
РАБОТЫ АВТОРА-4/4-{461.0000000, 8939.0000000} |
169 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
В РИНЦ-1/4-{7.0000000, 59.0000000} |
170 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
В РИНЦ-2/4-{59.0000000, 109.0000000} |
171 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
В РИНЦ-3/4-{109.0000000, 298.0000000} |
172 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА
В РИНЦ-4/4-{298.0000000, 10043.0000000} |
173 |
ЧИСЛО СОАВТОРОВ-1/4-{2.0000000,
16.0000000} |
174 |
ЧИСЛО СОАВТОРОВ-2/4-{16.0000000,
27.0000000} |
175 |
ЧИСЛО СОАВТОРОВ-3/4-{27.0000000,
73.0000000} |
176 |
ЧИСЛО СОАВТОРОВ-4/4-{73.0000000,
6205.0000000} |
177 |
INDICATORYEAR-1/4-{2014.0000000,
2015.0000000} |
178 |
INDICATORYEAR-2/4-{2015.0000000,
2015.0000000} |
179 |
INDICATORYEAR-3/4-{2015.0000000,
2015.0000000} |
180 |
INDICATORYEAR-4/4-{2015.0000000, 2015.0000000} |
181 |
ИНДЕКС ХИРША БЕЗ УЧЕТА
САМОЦИТИРОВАНИЙ-1/4-{1.0000000, 3.0000000} |
182 |
ИНДЕКС ХИРША БЕЗ УЧЕТА
САМОЦИТИРОВАНИЙ-2/4-{3.0000000, 5.0000000} |
183 |
ИНДЕКС ХИРША БЕЗ УЧЕТА
САМОЦИТИРОВАНИЙ-3/4-{5.0000000, 7.0000000} |
184 |
ИНДЕКС ХИРША БЕЗ УЧЕТА САМОЦИТИРОВАНИЙ-4/4-{7.0000000,
45.0000000} |
185 |
ИНДЕКС ХИРША С УЧЕТОМ ТОЛЬКО СТАТЕЙ
В ЖУРНАЛАХ-1/4-{1.0000000, 3.0000000} |
186 |
ИНДЕКС ХИРША С УЧЕТОМ ТОЛЬКО СТАТЕЙ
В ЖУРНАЛАХ-2/4-{3.0000000, 4.0000000} |
187 |
ИНДЕКС ХИРША С УЧЕТОМ ТОЛЬКО СТАТЕЙ
В ЖУРНАЛАХ-3/4-{4.0000000, 6.0000000} |
188 |
ИНДЕКС ХИРША С УЧЕТОМ ТОЛЬКО СТАТЕЙ
В ЖУРНАЛАХ-4/4-{6.0000000, 27.0000000} |
189 |
ГОД ПЕРВОЙ
ПУБЛИКАЦИИ-1/4-{1955.0000000, 1971.0000000} |
190 |
ГОД ПЕРВОЙ
ПУБЛИКАЦИИ-2/4-{1971.0000000, 1986.0000000} |
191 |
ГОД ПЕРВОЙ ПУБЛИКАЦИИ-3/4-{1986.0000000,
1997.0000000} |
192 |
ГОД ПЕРВОЙ
ПУБЛИКАЦИИ-4/4-{1997.0000000, 2006.0000000} |
193 |
ЧИСЛО ССЫЛОК НА САМУЮ ЦИТИРУЕМУЮ
ПУБЛИКАЦИЮ-1/4-{2.0000000, 10.0000000} |
194 |
ЧИСЛО ССЫЛОК НА САМУЮ ЦИТИРУЕМУЮ
ПУБЛИКАЦИЮ-2/4-{10.0000000, 34.0000000} |
195 |
ЧИСЛО ССЫЛОК НА САМУЮ ЦИТИРУЕМУЮ
ПУБЛИКАЦИЮ-3/4-{34.0000000, 75.0000000} |
196 |
ЧИСЛО ССЫЛОК НА САМУЮ ЦИТИРУЕМУЮ
ПУБЛИКАЦИЮ-4/4-{75.0000000, 1293.0000000} |
197 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ-1/4-{1.0000000, 6.0000000} |
198 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ-2/4-{6.0000000, 16.0000000} |
199 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ-3/4-{16.0000000, 27.0000000} |
200 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ-4/4-{27.0000000, 341.0000000} |
201 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ (%)-1/4-{2.5000000, 14.2857143} |
202 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ (%)-2/4-{14.2857143, 27.7777778} |
203 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ (%)-3/4-{27.7777778, 62.5000000} |
204 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО
РИНЦ (%)-4/4-{62.5000000, 96.3276836} |
205 |
NUMOFLIBRARYITEMS-1/4-{5.0000000,
24.0000000} |
206 |
NUMOFLIBRARYITEMS-2/4-{24.0000000,
43.0000000} |
207 |
NUMOFLIBRARYITEMS-3/4-{43.0000000,
77.0000000} |
208 |
NUMOFLIBRARYITEMS-4/4-{77.0000000,
370.0000000} |
209 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ,
ВХОДЯЩИХ В ЯДРО РИНЦ-1/4-{1.0000000, 15.0000000} |
210 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ,
ВХОДЯЩИХ В ЯДРО РИНЦ-2/4-{15.0000000, 71.0000000} |
211 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ,
ВХОДЯЩИХ В ЯДРО РИНЦ-3/4-{71.0000000, 113.0000000} |
212 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ,
ВХОДЯЩИХ В ЯДРО РИНЦ-4/4-{113.0000000, 2019.0000000} |
213 |
LIBRARYCITED-1/4-{12.0000000,
114.0000000} |
214 |
LIBRARYCITED-2/4-{114.0000000,
203.0000000} |
215 |
LIBRARYCITED-3/4-{203.0000000,
674.0000000} |
216 |
LIBRARYCITED-4/4-{674.0000000,
12513.0000000} |
217 |
ИНДЕКС ХИРША ПО ЯДРУ
РИНЦ-1/4-{1.0000000, 1.0000000} |
218 |
ИНДЕКС ХИРША ПО ЯДРУ
РИНЦ-2/4-{1.0000000, 3.0000000} |
219 |
ИНДЕКС ХИРША ПО ЯДРУ
РИНЦ-3/4-{3.0000000, 4.0000000} |
220 |
ИНДЕКС ХИРША ПО ЯДРУ
РИНЦ-4/4-{4.0000000, 17.0000000} |
Обучающая выборка представляет собой исходные данные, представленные в
табл. 1, закодированные с помощью классификационных и описательных шкал и
градаций (табл. 2 и 3).
Обучающая выборка в форме базы событий приведена в табл. 4.
Таблица 4 – Обучающая выборка (база событий)
Примечание: Изображения таблицы исходных данных представлены с разрешением 600 dpi и
при увеличении изображения хорошо читабельны.
Синтез и верификация модели осуществляется в режиме 3.5 системы «Эйдос»
(рис. 4):
Рисунок 4. Экранные формы режима синтеза
и верификации модели системы «Эйдос»
В соответствии с последовательностью преобразования данных в информацию,
а ее в знания и решения задач в АСК-анализе и системе «Эйдос», приведенной на
рис. 2, в режиме 3.5 созданы и проверены на достоверность следующие модели,
отличающиеся частными критериями:
Частные
модели ABS, PRC#, INF#, отличаются друг друга частными критериями знаний [15]
(табл. 5).
Таблица 5 –
Частные критерии знаний, используемые
в настоящее время в АСК-анализе и системе «Эйдос-Х++»
Наименование модели знаний |
Выражение для частного критерия |
|
через |
через |
|
ABS, частный критерий: абсолютная
частота встречаемости i-го признака
в j-м классе |
--- |
|
PRC1, частный критерий: относительная
частота встречи i-го признака в j-м классе, где Nj – суммарное количество признаков по j-му классу. |
--- |
|
PRC2, частный критерий: относительная
частота встречи i-го признака в j-м классе, где Nj – суммарное количество объектов по j-му классу. |
|
|
INF1, частный критерий: количество знаний по А. Харкевичу, 1-й вариант расчета относительных частот: Nj – суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го класса обнаружен признак, то это i-й признак |
|
|
INF2, частный критерий: количество знаний по А. Харкевичу, 2-й вариант расчета относительных частот: Nj – суммарное количество объектов по j-му классу. Относительная частота того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак. |
|
|
INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами |
--- |
|
INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета относительных частот: Nj – суммарное количество признаков по j-му классу[13] |
|
|
INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета относительных частот: Nj – суммарное количество объектов по j-му классу |
|
|
INF6, частный критерий: разность условной и безусловной относительных частот, 1-й вариант расчета относительных частот: Nj – суммарное количество признаков по j-му классу |
|
|
INF7, частный критерий: разность условной и безусловной относительных частот, 2-й вариант расчета относительных частот: Nj – суммарное количество объектов по j-му классу |
|
|
Обозначения:
i – значение прошлого параметра;
j - значение
будущего параметра;
Nij – количество встреч j-го значения будущего
параметра при i-м значении
прошлого параметра;
M – суммарное число значений всех прошлых параметров;
W - суммарное число значений всех будущих параметров;
Ni – количество встреч i-м значения прошлого
параметра по всей выборке;
Nj – количество встреч j-го значения будущего
параметра по всей выборке;
N – количество встреч j-го значения будущего
параметра при i-м значении
прошлого параметра по всей выборке;
Iij – частный критерий знаний: количество знаний в факте
наблюдения i-го значения
прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;
Ψ – нормировочный коэффициент (Е.В. Луценко,
2002), преобразующий количество информации в формуле А.Харкевича в биты и
обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;
Pi
– безусловная
относительная частота встречи i-го
значения прошлого параметра в обучающей выборке;
Pij
– условная
относительная частота встречи i-го
значения прошлого параметра при j-м значении
будущего параметра.
Все эти
способы метризации с применением 7 частных критериев знаний (табл. 5)
реализованы в системно-когнитивном анализе и интеллектуальной системе «Эйдос» и
обеспечивают сопоставление градациям всех видов шкал числовых значений, имеющих
смысл количества информации в градации о принадлежности объекта к классу.
Поэтому является корректным применение интегральных критериев, включающих
операции умножения и суммирования, для обработки числовых значений, соответствующих
градациям шкал. Это позволяет единообразно и сопоставимо обрабатывать
эмпирические данные, полученные с помощью любых типов шкал, применяя при этом
все математические операции.
На рис. 5 приведены фрагменты созданных моделей ABS, PRC2, INF1:
Рисунок 5. Экранные формы просмотра моделей:
ABS, PRC2, INF1 (фрагменты)
Различные результаты верификации (оценки достоверности) моделей приведены
на рис. 5 – 9:
Рисунок 5. Экранная форма режима оценки достоверности моделей при разных
интегральных критериях (сокращенный вариант)
Сами модели отличаются друг от друга частными критериями, а результаты
классификации в них – интегральными критериями.
Рисунок 6. Экранная форма режима оценки достоверности моделей при разных
интегральных критериях (полный вариант)
Рисунок 7. Экранная форма режима оценки достоверности
идентификации объектов с разными классами
в различных моделях и при разных интегральных критериях
Из этой формы видно, что в любой из моделей одни классы идентифицируются
лучше, а другие хуже.
Рисунок 8. Экранная форма режима оценки достоверности
идентификации объектов с разными классами
в различных моделях и при разных интегральных критериях
Из этой формы видно, что одни объекты идентифицируются с классами лучше,
а другие хуже.
Рисунок 9. Экранная форма режима оценки достоверности
идентификации классов в различных моделях
и при разных интегральных критериях
Из этой формы видно, что одни классы идентифицируются лучше в одной
модели, а другие в другой.
При оценке достоверности моделей используется F-критерий Ван Ризбергена[14], сходный критерий, предложенный проф. Е.В. Луценко в 1994 году, а также
эффективность классификации в модели по сравнению со случайным угадыванием.
Рисунок 10. Экранная форма режима помощи по оценке достоверности
По результатам оценки достоверности созданных моделей можно сделать вывод
о том, что по F-критерию Ван Ризбергена их достоверность достаточно высока, а
значит оценки и решения на их основе будут хорошо совпадать с оценками
экспертов (в области репрезентативности моделей).
Рассмотрим решение задач классификации, поддержки принятия решений и
исследования предметной области путем исследования ее модели.
Мы видим, что по F-критерию достоверности моделей Ван Ризбергена
достоверность созданных моделей достаточно высока, чтобы решение этих задач на
основе моделей можно было бы считать корректным.
В соответствии с математической моделью АСК-анализа, реализованной в
системе «Эйдос», объект распознаваемой выборки считается относящимся к тому
классу, о принадлежности к которому в его системе признаков содержится
максимальное количество информации. Таким образом в системе «Эйдос» используется
аддитивный интегральный критерий.
Интегральный
критерий «Сумма знаний» представляет собой суммарное
количество знаний, содержащееся в системе факторов различной природы,
характеризующих сам объект управления, управляющие факторы и окружающую среду,
о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный
критерий представляет собой аддитивную функцию от частных критериев знаний [13]
и имеет вид:
В этом
выражении круглыми скобками обозначено скалярное произведение. В координатной
форме указанное выражение имеет вид:
где: M –
количество градаций описательных шкал (значений факторов);
– вектор состояния j–го класса;
– вектор состояния
распознаваемого объекта, включающий все виды факторов, характеризующих сам
объект, управляющие воздействия и окружающую среду (массив–локатор), т.е.:
В текущей версии системы «Эйдос-Х++» значения
координат вектора состояния распознаваемого объекта принимались равными либо 0,
если признака нет, или n, если он
присутствует у объекта с интенсивностью n, т.е. представлен n раз (например,
буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).
Интегральный
критерий «Семантический резонанс знаний» представляет
собой нормированное суммарное количество знаний, содержащееся в системе
факторов различной природы, характеризующих сам объект управления, управляющие
факторы и окружающую среду, о переходе объекта в будущие целевые или
нежелательные состояния.
Интегральный
критерий представляет собой аддитивную функцию от частных критериев знаний [21]
и имеет вид:
где:
M – количество градаций описательных шкал
(признаков);
– средняя
информативность по вектору класса;
– среднее по
вектору объекта;
– среднеквадратичное отклонение частных
критериев знаний, рассчитанное по вектору класса;
– среднеквадратичное отклонение по вектору
распознаваемого объекта.
– вектор состояния j–го класса;
– вектор состояния
распознаваемого объекта, включающий все виды факторов, характеризующих сам
объект, управляющие воздействия и окружающую среду (массив–локатор), т.е.:
Приведенное
выражение для интегрального критерия «Семантический резонанс знаний» получается
непосредственно из выражения для критерия «Сумма знаний» после замены координат
перемножаемых векторов их стандартизированными значениями:
Свое
наименование интегральный критерий сходства «Семантический резонанс знаний»
получил потому, что по своей математической форме является корреляцией двух
векторов: состояния j–го класса и состояния распознаваемого объекта.
Таким
образом, в АСК-анализе и системе «Эйдос» используется одно общее математическое
выражение для частных критериев, как способствующих, так и препятствующих
переходу объекта моделирования в некоторое состояние, а также вообще не
влияющих на это, и аддитивный интегральный критерий, что обеспечивает
сопоставимость измерений и результатов системной идентификации.
На рис. 11 и 12 приведены экранные формы с результатами классификации
некоторых авторов на основе их общих наукометрических показателей РИНЦ с
использованием наиболее достоверных из созданных моделей:
Рисунок 11. Экранная форма с результатами классификации автора:«Чл.-кор.
РАН Клейнер Г.Б.»
Рисунок 12. Экранная форма с результатами классификации автора:«Канд.
наук Лабскер Л.Г.»
В результатах классификации Чл.-кор. РАН Г.Б. Клейнера отметим его очень
высокий уровень сходства по значениям наукометрических показателям с
академиками РАН («без 5 минут академик»).
В результатах классификации канд.наук Л.Г. Лабскера отметим, что по
значениям его наукометрических показателей он имеет более высокий уровень
сходства с докторами наук, чем с кандидатами («не защитившийся доктор»).
Задача поддержки принятия решений является обратной по отношению к задаче
прогнозирования (классификации): при прогнозировании по значениям факторов
определяется будущее состояние, а при принятии решений, наоборот, по целевому
будущему состоянию определяется, какие значения факторов его обуславливают.
В системе «Эйдос» есть возможность вывести значения наукометрических
показателей, наиболее характерных для любого заданного результата научной
деятельности. Например, на рис. 13 приведен информационный портрет результата
«Научные достижения – высокие»:
Конечно, это звучит несколько цинично, но в соответствии с созданными
моделями получается, что для того, чтобы эксперты оценили результаты научной
деятельности автора как высокие, ему нужно иметь следующие наукометрические
показатели (приведены в порядке убывания силы влияния на этот результат
оценки):
– очень большое количество публикаций в РИНЦ;
– очень большое число самоцитирований;
– очень большое суммарное число цитирований;
– очень большое или большое значение индекса Хирша.
Рисунок 13. Информационный портрет результата:
«Научные достижения – высокие»
К
самоцитированию следует относиться положительно.
Странным является отрицательное отношение к самоцитированию отдельных
авторов, публикующихся по вопросам оценки эффективности научной деятельности.
Анализ предшественников может быть нужен в начале цикла исследований, когда нет
собственных публикаций и, как следствие, самоцитирование невозможно. После
получения новых самостоятельных результатов исследователь (или
исследовательский коллектив) опережает других, и его новые работы опираются на
ранее созданную им самим базу, а не на работы со стороны. Другими словами, для
дальнейших статей «посторонних предшественников» попросту нет. А вот ссылок на
собственные предыдущие работы объективно становится много. Необходимо указать
связи новых результатов с ранее полученными тем же автором (исследовательским
коллективом). Чем больше сделано, тем больше связей надо указать,
следовательно, тем больше ссылок на собственные работы.
Таким образом, самоцитирование – это хорошо. Это значит, что ученый
строит свою область. А отсутствие самоцитирования означает, что для автора эта
статья - первая по новой для него тематике. Либо он – начинающий, либо
"срывает яблоки из чужих садов". Типовая ситуация – научный деятель
берет чужую работу и изучает, конспектирует или пересказывает ее своими словами
– получается собственное произведение.
В качестве примера можно рассмотреть статью [38] по выбору средних в
соответствии со шкалами измерения. В ней систематизированы публикации,
порожденные работами 70-х годов одного из авторов настоящей статьи. Но из
обзора [38] было неясно, в каких работах получены основополагающие результаты,
а какие публикации являются всего лишь комментариями. Пришлось опубликовать
отдельную статью на эту тему [39].
Второй пример – статья [40]. Ее авторы взяли работу [51] одного из
авторов настоящей статьи, заменили условие дифференцируемости на условие
непрерывности – и получили новый научный результат. Поясним сложившуюся
традицию в простых и понятных терминах: один человек построил дом, другой покрасил
дверь в нем. И теперь надо ссылаться на второго из них (как на получившего
более продвинутые результаты), в лучшем случае добавляя "который развил
(или улучшил) первоначальные соображения первого".
Критика научного журнала за самоцитирование выглядит особенно нелепо,
поскольку противоречит естественному процессу научных исследований. Вполне
естественно, что авторы, работающие по одной и той же тематике, имеют тенденцию
публиковаться в одном и том же журнале и ссылаться друг на друга.
Рассмотрим некоторые
возможности исследования моделируемой предметной области путем исследования ее
модели, предоставляемые системой «Эйдос». Результаты, полученные путем
исследования модели, вполне корректно считать результатами исследования самой
моделируемой предметной области, так как модель достоверна, т.е. хорошо и
правильно отражает моделируемую предметную область.
Каждое значение
наукометрического показателя имеет некоторую ценность для решения задачи
классификации авторов по обобщающим категориям (классам). В системе «Эйдос» в качестве количественной
меры ценности значения показателя используется его вариабельность в наиболее
достоверной базе знаний. В качестве меры вариабельности используется
среднеквадратичное отклонение (но с тем же успехом могли бы быть использованы и
другие меры, например среднее отклонение модуля отклонения от среднего).
На рис. 14 приведена накопительная кривая ценности всех значений всех
показателей, ранжированных в порядке убывания ценности в модели INF1:
Рисунок 14. Накопительная кривая ценности всех значений всех
показателей, ранжированных в порядке убывания ценности в модели INF1
Из рис. 14 видно, что 50% значений наукометрических показателей
обеспечивает более 70% суммарной ценности, а 50% ценности обеспечивается 30%
наиболее ценных значений показателей.
Ценность показателя считается в системе «Эйдос» как
среднее ценностей его градаций.
В табл. 6 приведен список всех использованных в созданных моделях
наукометрических показателей, ранжированный в порядке убывания ценности:
Таблица 6 – Общие наукометрические показатели РИНЦ
в порядке убывания их ценности для классификации
(исходная модель INF1)
№ |
Код |
Наименование
шкалы |
Значимость
шкалы |
|||
Бит |
Бит |
% |
% |
|||
1 |
28 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ
ВАК |
0,192 |
0,192 |
2,664 |
2,664 |
2 |
14 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ
ВАК |
0,184 |
0,376 |
2,561 |
5,225 |
3 |
52 |
NUMOFLIBRARYITEMS |
0,180 |
0,556 |
2,494 |
7,719 |
4 |
34 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С НЕНУЛЕВЫМ
ИМПАКТ-ФАКТОРОМ |
0,179 |
0,735 |
2,488 |
10,207 |
5 |
7 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА В РИНЦ |
0,176 |
0,911 |
2,440 |
12,647 |
6 |
48 |
ГОД ПЕРВОЙ ПУБЛИКАЦИИ |
0,175 |
1,086 |
2,434 |
15,081 |
7 |
24 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ЖУРНАЛОВ |
0,175 |
1,261 |
2,429 |
17,510 |
8 |
10 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ЖУРНАЛАХ |
0,171 |
1,432 |
2,378 |
19,888 |
9 |
55 |
ИНДЕКС ХИРША ПО ЯДРУ РИНЦ |
0,168 |
1,600 |
2,335 |
22,223 |
10 |
18 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ |
0,167 |
1,767 |
2,320 |
24,543 |
11 |
20 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА, ПРОЦИТИРОВАННЫХ ХОТЯ БЫ
ОДИН РАЗ |
0,164 |
1,931 |
2,277 |
26,820 |
12 |
8 |
ЧИСЛО САМОЦИТИРОВАНИЙ |
0,160 |
2,091 |
2,218 |
29,038 |
13 |
44 |
ЧИСЛО СОАВТОРОВ |
0,159 |
2,250 |
2,207 |
31,245 |
14 |
42 |
ЧИСЛО ПУБЛИКАЦИЙ, ПРОЦИТИРОВАВШИХ РАБОТЫ АВТОРА |
0,157 |
2,407 |
2,184 |
33,429 |
15 |
4 |
NUMOFITEMS |
0,153 |
2,560 |
2,119 |
35,548 |
16 |
49 |
ЧИСЛО ССЫЛОК НА САМУЮ ЦИТИРУЕМУЮ ПУБЛИКАЦИЮ |
0,149 |
2,709 |
2,065 |
37,613 |
17 |
32 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С НЕНУЛЕВЫМ
ИМПАКТ-ФАКТОРОМ |
0,147 |
2,855 |
2,035 |
39,648 |
18 |
53 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО РИНЦ |
0,146 |
3,001 |
2,031 |
41,678 |
19 |
5 |
СУММАРНОЕ ЧИСЛО ЦИТИРОВАНИЙ АВТОРА |
0,144 |
3,146 |
2,004 |
43,682 |
20 |
54 |
LIBRARYCITED |
0,144 |
3,290 |
2,004 |
45,685 |
21 |
23 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%) |
0,141 |
3,431 |
1,956 |
47,641 |
22 |
31 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ПЕРЕВОДНЫХ ЖУРНАЛОВ
(%) |
0,139 |
3,570 |
1,926 |
49,567 |
23 |
12 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ ЖУРНАЛАХ |
0,138 |
3,707 |
1,912 |
51,479 |
24 |
3 |
GRANTS |
0,136 |
3,843 |
1,884 |
53,363 |
25 |
50 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО РИНЦ |
0,134 |
3,977 |
1,867 |
55,231 |
26 |
35 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЖУРНАЛОВ С НЕНУЛЕВЫМ
ИМПАКТ-ФАКТОРОМ (%) |
0,134 |
4,112 |
1,866 |
57,097 |
27 |
37 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА ИЗ ВСЕХ
ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ |
0,134 |
4,245 |
1,854 |
58,951 |
28 |
27 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ ЖУРНАЛОВ (%) |
0,131 |
4,377 |
1,822 |
60,773 |
29 |
47 |
ИНДЕКС ХИРША С УЧЕТОМ ТОЛЬКО СТАТЕЙ В ЖУРНАЛАХ |
0,129 |
4,505 |
1,785 |
62,558 |
30 |
6 |
ИНДЕКС ХИРША |
0,126 |
4,631 |
1,749 |
64,308 |
31 |
41 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР ЖУРНАЛОВ, В КОТОРЫХ
БЫЛИ ПРОЦИТИРОВАНЫ СТАТЬИ |
0,125 |
4,757 |
1,742 |
66,050 |
32 |
17 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ПЕРЕВОДНЫХ ЖУРНАЛАХ
(%) |
0,124 |
4,881 |
1,728 |
67,778 |
33 |
46 |
ИНДЕКС ХИРША БЕЗ УЧЕТА САМОЦИТИРОВАНИЙ |
0,124 |
5,005 |
1,715 |
69,494 |
34 |
22 |
ЧИСЛО ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ |
0,121 |
5,126 |
1,680 |
71,174 |
35 |
16 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ПЕРЕВОДНЫХ ЖУРНАЛАХ |
0,121 |
5,246 |
1,675 |
72,849 |
36 |
9 |
ЧИСЛО САМОЦИТИРОВАНИЙ (%) |
0,120 |
5,366 |
1,671 |
74,520 |
37 |
13 |
ЧИСЛО ПУБЛИКАЦИЙ В ЗАРУБЕЖНЫХ ЖУРНАЛАХ (%) |
0,120 |
5,486 |
1,664 |
76,184 |
38 |
33 |
ЧИСЛО ПУБЛИКАЦИЙ В ЖУРНАЛАХ С НЕНУЛЕВЫМ
ИМПАКТ-ФАКТОРОМ (%) |
0,118 |
5,604 |
1,639 |
77,823 |
39 |
30 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ПЕРЕВОДНЫХ ЖУРНАЛОВ |
0,115 |
5,719 |
1,592 |
79,415 |
40 |
2 |
PUBLICATIONS |
0,114 |
5,833 |
1,586 |
81,001 |
41 |
26 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ ЗАРУБЕЖНЫХ ЖУРНАЛОВ |
0,113 |
5,946 |
1,570 |
82,571 |
42 |
43 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА В РИНЦ |
0,113 |
6,059 |
1,564 |
84,136 |
43 |
25 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ЖУРНАЛОВ (%) |
0,108 |
6,167 |
1,506 |
85,641 |
44 |
1 |
CITED |
0,105 |
6,272 |
1,457 |
87,098 |
45 |
11 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ЖУРНАЛАХ (%) |
0,104 |
6,376 |
1,441 |
88,539 |
46 |
19 |
ЧИСЛО ЦИТИРОВАНИЙ СОАВТОРАМИ (%) |
0,104 |
6,480 |
1,440 |
89,980 |
47 |
36 |
СРЕДНЕВЗВЕШЕННЫЙ ИМПАКТ-ФАКТОР ЖУРНАЛОВ, В КОТОРЫХ
БЫЛИ ОПУБЛИКОВАНЫ СТАТЬИ |
0,104 |
6,583 |
1,440 |
91,420 |
48 |
29 |
ЧИСЛО ЦИТИРОВАНИЙ ИЗ РОССИЙСКИХ ЖУРНАЛОВ ИЗ ПЕРЕЧНЯ
ВАК (%) |
0,102 |
6,685 |
1,411 |
92,830 |
49 |
21 |
ЧИСЛО ПУБЛИКАЦИЙ АВТОРА, ПРОЦИТИРОВАННЫХ ХОТЯ БЫ
ОДИН РАЗ (%) |
0,097 |
6,782 |
1,344 |
94,174 |
50 |
51 |
ЧИСЛО ПУБЛИКАЦИЙ, ВХОДЯЩИХ В ЯДРО РИНЦ (%) |
0,087 |
6,869 |
1,204 |
95,378 |
51 |
40 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА, ОПУБЛИКОВАННЫХ ЗА
ПОСЛЕДНИЕ 5 ЛЕТ (%) |
0,085 |
6,953 |
1,179 |
96,557 |
52 |
15 |
ЧИСЛО ПУБЛИКАЦИЙ В РОССИЙСКИХ ЖУРНАЛАХ ИЗ ПЕРЕЧНЯ
ВАК (%) |
0,083 |
7,037 |
1,154 |
97,711 |
53 |
38 |
ЧИСЛО ЦИТИРОВАНИЙ ПУБЛИКАЦИЙ АВТОРА ИЗ ВСЕХ
ПУБЛИКАЦИЙ ЗА ПОСЛЕДНИЕ 5 ЛЕТ (%) |
0,081 |
7,117 |
1,124 |
98,835 |
54 |
39 |
ЧИСЛО ЦИТИРОВАНИЙ РАБОТ АВТОРА, ОПУБЛИКОВАННЫХ ЗА
ПОСЛЕДНИЕ 5 ЛЕТ |
0,081 |
7,198 |
1,119 |
99,954 |
55 |
45 |
INDICATORYEAR |
0,003 |
7,201 |
0,046 |
100,000 |
Отметим, что в разных моделях, и даже в одной модели при изменении
параметров ее синтеза, приведенные характеристики значимости наукометрических
критериев и их рейтинг изменяются.
Из табл. 6 можно сделать научно-обоснованный вывод о том, что индекс
Хирша не всегда является наиболее значимым наукометрическим показателем и его
роль в современных наукометрических методиках может быть несколько
преувеличена. Об этом авторы из общетеоретических соображений писали ранее в
своих работах [3, 4, 7, 9, 11, 55].
В соответствии с пониманием соотношения содержания понятий: «данные,
информация, знания», представленным на рис. 1 и 2, знания – это информация,
полезная для достижения целей, т.е. используемая для управления (т.к. управление
– это деятельность по достижению цели).
Поэтому если мы используем созданные модели для достижения целей, то они
становятся моделями знаний (когнитивными моделями). Таким образом, если мы
выберем целевое состояние и на основе созданных моделей оценим влияние
различных значений факторов по степени их влияния на способствование и достижение
и препятствование достижению этого целевого состояния, то это будет
использование данных моделей как моделей знаний. По сути это и делается в
количественном автоматизированном SWOT- и PEST-анализе средствами системы
«Эйдос» [31] (рис. 15, 16):
Рисунок 15. Табличная выходная форма количественного автоматизированного
SWOT- и PEST-анализа средствами системы «Эйдос»
Рисунок 16. Графическая выходная форма количественного автоматизированного
SWOT- и PEST-анализа средствами системы «Эйдос»
Когнитивные функции предложены проф. Е.В. Луценко в 2005 году [32] и
наглядно отражают какое количество информации содержится в значениях аргумента
о значении функции [16, 32, 33] (рис. 17 и 18):
Рисунок 17. Экранная форма режима визуализации
когнитивных функций
Программный модуль визуализации когнитивных функций разработан по
постановке проф. Е. В. Луценко разработчиком интеллектуальных систем Д. К.
Бандык из Белоруссии[15].
В когнитивных функциях количество информации в значениях аргумента о
значениях функции отображается цветом (красным максимальное, синим
минимальное), линией соединены значения функции о которых в значении аргумента
содержится максимальное количество информации, ширина линии (аналог доверительного
интервала) отражает степень неопределенности значения функции, которое тем
ниже, чем больше информации о нем в значении функции (рис. 18–21):
Рисунок 18. Когнитивная функция, отражающая взаимосвязь суммарного числа
цитирований автора и его ученой степени-звания
Рисунок 19. Когнитивная функция, отражающая взаимосвязь
индекса Хирша автора и его ученой степени-звания
Рисунок 20. Когнитивная функция, отражающая зависимость научных достижений
автора от доли (%) его цитирований из российских журналов
Из когнитивной функции, представленной на рис. 20, видно, что у авторов с
высокими научными достижениями доля цитирований из зарубежных научных изданий
выше, чем у авторов с другими научными достижениями.
Рисунок 21. Когнитивная функция, отражающая зависимость научных достижений
автора от года первой публикации
Из этой функции на рисунке 21 мы видим, что высокие научные достижения
тесно связаны с длительной научной работой.
Приведено лишь несколько примеров когнитивных функций, т.к. в каждой
модели (которых 10) генерируется 110 когнитивных функций, отражающих
описательных шкал, которых 55, на классификационные шкалы, которых 2.
Результаты сравнения классов по системе характерных для них значений
общих наукометрических показателей РИНЦ приведены на рис. 22:
Рисунок 22. Результаты сравнения классов по системе характерных для них
значений общих наукометрических показателей РИНЦ
Из когнитивной диаграммы, приведенной на рисунке 22, мы видим, что как и
ожидалось, для академиков и членов-корреспондентов РАН характерны высокие
научные достижения, средние достижения характерны для докторов наук, а низкие
для кандидатов наук. Мы видим также, что академики и члены-корреспонденты
образуют с авторами высоких научных достижений один кластер, с низкой
вариабельностью внутри него, а доктора и кандидаты наук образуют противоположный
кластер с более высокой вариабельностью объектов, внутри него. Кластер высоких
научных достижений противоположен по характерным для него значениям общих
наукометрических показателей кластеру средних и низких научных достижений, и
они образуют полюса конструкта: «Уровень научных достижений».
Отметим также, что приведенная когнитивная диаграмма формируется системой
«Эйдос» автоматически на основе созданных моделей.
Предлагается:
1. Построить
с применением результатов данной статьи наукометрическую интеллектуальную
измерительную систему на основе баз данных РИНЦ и экспертных оценок и включить
ее в состав программного обеспечения РИНЦ.
2. Применить
результаты данной статьи при расчетах в РИНЦ и строить рейтинги авторов,
журналов и организаций (подразделений) не только на основе эмпирического
классического индекса Хирша, но и на основе теоретического индекса Хирша [4], а
также по критериям манипулирования, по общему числу цитирований [9] и другим
показателям.
3. Не придавать излишне и неоправданно большого значения классическому
эмпирическому значению индекса Хирша при оценках и принятии решений.
Проблемы идентификации авторов и литературных
источников по библиографическим описаниям в списках литературы в последнее
время приобретает все большее значение научное и практическое значение. Это
связано в частности с политикой Министерства образования и науки Российской
Федерации в области оценки качества результатов научной деятельности, которая
предполагает использование количества ссылок на публикации авторов и индекса
Хирша. В России создаются соответствующие аналитические инструменты и сервисы
для оценки результатов научной деятельности, функционально
аналогичные известным зарубежным библиографическим базам данных Scopus, Web of
Science и другим. В настоящее время наиболее известным в России сервисом
подобного назначения является Российский индекс научного цитирования (РИНЦ): http://elibrary.ru/. Однако, как
показывает опыт, часто ссылки в списках литературы публикаций сделаны с
нарушением ГОСТ 7.1—2003, а также с
ошибочными выходными данными, например, неверно указанными номерами страниц,
наименованием издательства и т.п. На практике это приводит к тому, что
программная система библиографической базы не может определить, на какую статью
сделана данная ссылка и кто авторы этой статьи. В результате для этих авторов
теряется цитирование, что приводит к занижению их индексов Хирша и оценки
результатов их научной деятельности руководством. Понятно, что эти
отрицательные последствия желательно преодолеть. Данная статья посвящена изложению
подхода, который позволяет решить эту проблему путем применения АСК-анализа и
интеллектуальной системы «Эйдос», представляющих собой современную
инновационную интеллектуальную технологию (готовую к внедрению).
СОДЕРЖАНИЕ
1. Описание проблемы и идея ее решения
3. Описание предлагаемого решения проблемы
3.2. Скачивание и
инсталляция системы «Эйдос»
3.4.
Синтез и верификация статистических и
интеллектуальных моделей
3.5. Частные критерии и
виды моделей системы «Эйдос»
3.7. Интегральные
критерии системы «Эйдос»
3.8. Результаты
верификации моделей
4. Решение задач идентификации текстов и их авторов в наиболее достоверной модели
4.1. Присвоение наиболее
достоверной модели статуса текущей и решение
в ней задач идентификации
4.2.
Отображение результатов идентификации
6. Некоторые недостатки и перспективы
6.1. Повышение
быстродействия алгоритмов
Проблемы
идентификации авторов и литературных источников по библиографическим описаниям
в списках литературы в последнее время приобретает все большее значение научное
и практическое значение. Это связано в частности с политикой Министерства
образования и науки Российской Федерации в области оценки качества результатов
научной деятельности, которая предполагает использование количества ссылок на
публикации авторов и индекса Хирша. В России создаются соответствующие аналитические инструменты и сервисы для
оценки результатов научной деятельности,
функционально аналогичные известным зарубежным библиографическим базам данных
Scopus, Web of Science и другим. В настоящее время наиболее известным в России
сервисом подобного назначения является Российский индекс научного цитирования
(РИНЦ): http://elibrary.ru/. Однако, как
показывает опыт, часто ссылки в списках литературы публикаций сделаны с
нарушением ГОСТ 7.1—2003, а также с
ошибочными выходными данными, например, неверно указанными номерами страниц,
наименованием издательства и т.п. На практике это приводит к тому, что
программная система библиографической базы не может определить на какую статью,
из находящихся в ней, сделана данная ссылка и кто авторы этой статьи. В
результате для этих авторов теряется цитирование, что приводит к занижению их
индексов Хирша и оценки результатов их научной деятельности чиновниками. Понятно,
что эти отрицательные последствия желательно преодолеть.
Традиционно
данная проблема решается с помощью алгоритма шинглов[16]. Данная
статья посвящена изложению идеи решения этой проблему путем
применения Автоматизированного системно-когнитивного анализа (АСК-анализ) и его
программного инструментария – интеллектуальной системы «Эйдос», которые
представляют собой современную инновационную интеллектуальную технологию
(готовую к внедрению). В ней рассматривается алгоритм, основанный на
вычислении количества информации в словах библиографической ссылки о
том, что это ссылка на данную статью и данных авторов, а также ценность
слов для идентификации статей и авторов (т.е. вариабельность количества информации
в словах по статьям и авторам).
Предлагаемый
алгоритм имеет ряд отличий от алгоритма шинглов, за счет чего может иметь
определенные преимущества перед ним. Рассмотрим эти различия подробнее.
Этапы алгоритма шинглов1, которые проходит текст,
подвергшийся сравнению:
– канонизация текста;
– разбиение на шинглы;
– вычисление хэшей шинглов;
– случайная выборка 84 значений контрольных сумм;
– сравнение, определение результата.
Рассмотрим,
каким образом реализуются или не реализуются (т.к. в этом нет необходимости)
подобные этапы в АСК-анализе и его программном инструментарии – системе «Эйдос»
(таблица 1):
Таблица 1 –
Сравнение алгоритма шинглов и алгоритма
АСК-анализа, реализованного в системе «Эйдос»
Алгоритм шинглов |
Алгоритм
АСК-анализа, реализованный в системе «Эйдос» |
Канонизация
текста |
|
Канонизация текста приводит оригинальный текст к единой нормальной форме. Текст очищается от
предлогов, союзов, знаков препинания, HTML тегов, и прочего
ненужного «мусора», который не должен
участвовать в сравнении. В большинстве случаев также предлагается удалять из
текста прилагательные, так как они не несут смысловой нагрузки. |
Так как
вычисляется количество информации в словах библиографической ссылки о
том, что это ссылка на данную статью и данных авторов, а также ценность
слов для идентификации статей и авторов (т.е. вариабельность количества
информации в словах по статьям и авторам), то в этапе канонизации текста нет
необходимости. |
Также на этапе канонизации текста можно приводить существительные
к именительному падежу, единственному числу, либо оставлять от них только
корни. |
Лемматизация
текста[17] на основе морфологического анализа, т.е. приведение слов к их
исходной форме. Это целесообразно, но в настоящее время не реализовано. |
Разбиение на шинглы |
|
Шинглы (англ. – «чешуйки») – выделенные из статьи
подпоследовательности слов. Необходимо из сравниваемых текстов выделить
подпоследовательности слов, идущих друг за другом по 10 штук (длина шингла).
Выборка происходит внахлест, а не встык. Таким образом, разбивая текст на
подпоследовательности, мы получим набор шинглов в количестве равному количеству
слов минус длина шингла плюс один. |
Система «Эйдос»
обеспечивает использование в качестве признаков текста последовательностей
подряд идущих слов по 2, 3,…, N слов, т.е. шинглов, но это не имеет смысла
делать при решении проблемы идентификации текстов и авторов по нестандартным
и некорректным библиографическим описаниям, т.к. в них
как раз эти последовательности могут быть нарушены, что приведет к понижению
достоверности идентификации алгоритма шинглов. Кроме того использование
таких подпоследовательностей само требует затрат вычислительных ресурсов, а
также резко увеличивает количество признаков текста, размерность моделей и
время идентификации. |
Вычисление хэшей
шинглов |
|
Принцип алгоритма шинглов заключается в сравнении случайной
выборки контрольных сумм шинглов (подпоследовательностей) двух текстов между
собой. |
Тексты
сравниваются не по случайному подмножеству своих признаков, а по всем признакам, в качестве которых
выступают слова. Считается идентифицированными тот источник и те авторы, о
которых в словах ссылки содержится максимальное количество информации. Это
может обеспечить более высокую достоверность алгоритма. |
Проблема
быстродействия алгоритма |
|
Проблема алгоритма заключается в количестве сравнений, ведь
это напрямую отражается на производительности. Увеличение количества шинглов
для сравнения характеризуется экспоненциальным
ростом операций, что критически отразится на производительности. |
Проблема
алгоритма заключается в количестве сравнений, ведь это напрямую отражается на
производительности. Увеличение количества слов в библиографических ссылках,
используемых для сравнения, приводит к линейному
росту числа операций сравнения. |
Таким
образом, есть надежда, что предлагаемый алгоритм будет иметь более высокую
достоверность и быстродействие, чем алгоритм шинглов.
Автор на
протяжении многих лет периодически возвращался к проблематике атрибуции
анонимных и псевдонимных текстов, идентификации текстов и их авторов [1, 2]. С
2006 года на базе системы «Эйдос» проводятся лабораторные работы, в которых
изучается применение интеллектуальных технологий для решения этих задач [3]
(см. лаб.работы №1 и №6).
В новой
версии системы «Эйдос-Х++» этой теме посвящена лабораторная работа 3.02
(рисунок 1):
Рисунок 1.
Экранная формы выбора лабораторной работы
3-го типа
На рисунке 2
приведен Help этой лабораторной работы:
Рисунок 2.
Экранная формы Help лабораторной работы 3.02
Кроме того
есть опыт анализ проблематики научного журнала в динамике с использованием
технологии обработки текстов в интеллектуальной системе «Эйдос» [4].
АСК-анализ
представляет собой современную инновационную (т.е. полностью готовую к
внедрению и использованию) широко и успешно апробированную интеллектуальную
технологию [5, 6, 7, 8].
АСК-анализ включает следующие этапы:
1.
Когнитивная структуризация предметной области (неформализованный этап). На этом
этапе решается, что мы хотим прогнозировать и на основе чего. В нашей задаче мы
хотим прогнозировать продолжительность жизни пациента после перенесенного им
инфаркта на основе анализа эхокардиограммы.
2.
Формализация предметной области. На этом
этапе разрабатываются классификационные и описательные шкалы и градации, а
затем с их использованием исходные данные кодируются и представляются в форме
баз событий, между которыми могут быть выявлены причинно-следственные связи.
3. Синтез
и верификация моделей (оценка достоверности,
адекватности). Повышение качества модели. Выбор наиболее достоверной модели для
решения в ней задач.
4. Решение
задач идентификации и прогнозирования.
5. Решение
задач принятия решений и управления.
6. Решение
задач исследования моделируемой предметной области путем
исследования ее модели.
На рисунке 3
приведены автоматизированные в системе «Эйдос» этапы АСК-анализа, которые
обеспечивают последовательное повышение степени формализации модели путем преобразования
исходных данных в информацию, а далее в знания:
Рисунок 3.
Этапы последовательного преобразования данных в информацию, а ее в знания в
системе "Эйдос"
Подробно этот
процесс описан в работах [9, 10]. Суть этого процесса в следующем:
1. Информация рассматривается как
осмысленные исходные данные.
2. Смысл, согласно концепции
Шенка-Абельсона [11] считается известным, когда выявлены причинно-следственные
связи.
3. Анализ – это операция выявления смысла
из исходных данных.
4.
Причинно-следственные связи существуют не между элементами исходных данных, а
между реальными событиями, которые они отражают (моделируют), т.е. причинно-следственные
связи – это характеристика реальной области, а не абстрактных моделей. Иначе
говоря, анализ самих исходных данных невозможен, а возможен только анализ
событий, описанных этими исходными данными.
5. Поэтому
перед анализом исходных данных необходимо предварительно преобразовать их в
базы событий, т.е. в эвентологические базы.
6. Это
преобразование осуществляется с помощью справочников событий, факторов и их
значений, т.е. с помощью классификационных и описательных шкал и градаций,
которые также необходимо разработать.
7.
Формализация предметной области представляет собой разработку справочников
классификационных и описательных шкал и градаций и преобразование с их помощью
баз исходных данных в базы событий (т.е. обучающую выборку), и является первым
автоматизированным в системе «Эйдос» этапом АСК-анализа.
8. Затем
следуют остальные перечисленные выше этапы АСК-анализа:
– синтез и
верификация моделей и выбор наиболее достоверной из них;
– решение в
ней задач идентификации, прогнозирования, принятия решений и исследования
предметной области, т.е. преобразование информации в знания.
Этап синтеза
и верификации моделей завершает процесс анализа исходных данных и
преобразования их в информацию, а ее в знания.
В АСК-анализе
есть несколько режимов, обеспечивающих решение задачи принятия решений для управления или достижения целей, которая представляет собой
обратную задачу прогнозирования: это и режим 4.2.1, позволяющий формировать
информационные портреты классов, а также режим 4.4.8, поддерживающий количественный
автоматизированный SWOT и –PEST анализ, включая построение SWOT и –PEST матриц
и диаграмм [12], а также режим 4.4.10, визуализирующий нейросетевую интерпретацию
модели знаний системы «Эйдос» [13]. Эти режимы обеспечивают преобразование
информации в знания, т.к. знания представляют собой информацию,
полезную для достижения целей, т.е. по сути технологию, в частности ноу-хау
[5]. Наличие цели является ключевым моментом для преобразования информации
в знания. А постановка целей (целеполагание) не мыслима без мотивации, которая
в настоящее время является слабо формализованным этапом.
Итак, в
процессе анализа исходные данные
представляются в форме базы событий, между которыми выявляются
причинно-следственные связи, и, таким образом, исходные данные преобразуются в
информацию, представляющую собой осмысленные данные (смысл есть знание
причинно-следственных связей), а затем информация используется для достижения
целей (управления), т.е. преобразуется в знания.
Формализация
предметной области включает разработку классификационных и описательных шкал и
градаций и преобразование с их использованием исходных данных (таблица 2) в
обучающую выборку. Этот этап полностью
автоматизируется программным интерфейсом системы «Эйдос» с внешними табличными
базами исходных данных (режим 2.3.2.2).
Но перед
выполнением этого этапа АСК-анализа, естественно, необходимо сначала скачать и
установить систему «Эйдос».
Для
скачивания и инсталляции системы «Эйдос» необходимо по адресу: http://lc.kubagro.ru/aidos/_Aidos-X.htm открыть и
выполнить следующую инструкцию[18]:
ИНСТРУКЦИЯ
по скачиванию и установке системы «Эйдос» (объем около 100 Мб)
Система не требует инсталляции, не меняет никаких
системных файлов и содержимого папок операционной системы, 1. Скачать самую новую на текущий момент полную версию
системы «Эйдос-Х++» (около 100
Мб) с сайта разработчика по ссылкам: 2. Разархивировать этот архив в любую папку с правами на
запись с коротким латинским именем и путем доступа, . 3. Запустить систему. Файл запуска: _AIDOS-X.exe. 4. Задать имя: 1 и пароль: 1 (потом их можно поменять в режиме 1.2). 5. Перед тем как запустить новый режим НЕОБХОДИМО ЗАВЕРШИТЬ предыдущий (Help можно не закрывать). Окна закрываются в порядке, обратном порядку их открытия. |
Разработана программа: «_START_AIDOS.exe», полностью снимающая с пользователя системы «Эйдос-Х++» заботу о проверке наличия и скачивании обновлений. Эту программу надо просто скачать по ссылке: http://lc.kubagro.ru/_START_AIDOS.exe, поместить в папку с исполнимым модулем системы и всегда запускать систему с помощью этого файла.
Если библиотеки (*.DLL) системы «Эйдос-Х++» расположены в папке, на которую прописан путь поиска (скачиваются по п.1), то вместо выполнения пунктов 1,2,3 можно просто запускать файл: «_START_AIDOS.exe» и он сам все скачает, развернет и даже запустит систему «Эйдос-Х++».
При запуске программы _START_AIDOS.exe система «Эйдос-Х++» не должна быть запущена, т.к. она содержится в файле обновлений и при его разархивировании возникнет конфликт, если система будет запущена.
1. Программа _START_AIDOS.exe определяет дату исполнимого модуля системы «Эйдос» в текущей папке: _AIDOS-X.exe и дату обновлений на FTP-сервере разработчика не скачивая их, и, если исполнимый модуль системы «Эйдос» в текущей папке устарел, то скачивает минимальные обновления Downloads.exe объемом около 5 Мб. Если же в текущей папке вообще нет исполнимого модуля системы «Эйдос»: _AIDOS-X.exe, то программа _START_AIDOS.exe скачивает полную инсталляцию системы «Эйдос» объемом около 100 Мб в виде самораспаковывающегося архива Update.exe. Процесс скачивания отображается в виде диалогового с соответствующим сообщением.
2. После завершения процесса скачивания появляется диалоговое окно с сообщением, что надо сначала разархивировать систему, заменяя все файлы (опция: «Yes to All» или «OwerWrite All»), и только затем закрыть данное окно.
3. Потом программа _START_AIDOS.exe запускает скачанные обновления на разархивирование. После окончания разархивирования окно архиватора с отображением стадии процесса исчезает.
4. После закрытия диалогового окна с инструкцией (см. п.2), происходит запуск обновленной версии системы «Эйдос» на исполнение.
5. Если Вы собираетесь работать с текстами, то необходимо скачать базу данных для лемматизации “Lemma.DBF” по ссылке: http://lc.kubagro.ru/Lemma.rar и разархивировать ее в папку с системой «Эйдос-Х++» (архив имеет размер около 10 Мб, сама база около 200 Мб). База для лемматизации сделана на основе словаря Зализняка и статьи: https://habrahabr.ru/company/realweb/blog/265375/ Сейчас эта база входит в комплект поставки. Если Вы не собираетесь работать с текстами, то эта база не нужна и можно удалить ее и индексный массив Lemma.ntx из директории с системой. На работу остальных функций системы это не повилияет, а размер директории с системой заметно сократится.
Примечания: 1. Если _START_AIDOS.exe запускается в папке с уже ранее установленной системой устаревшей версии, то при разархивировании будут возникать конфликты при попытке разархивирования библиотек (DLL-файлов), которые используются самим модулем_START_AIDOS.exe. Поэтому, если мы хотим их обновить, надо выйти из этого модуля и разархивировать скачанный архив Update.exe, запустив его вручную. Если этого не делать, то просто останутся предыдущие версии библиотек. Так что достаточно один раз сделать это вручную или поместить библиотеки в папку, на которую прописан путь доступа. 2. Если Вам не нужны лабораторные работы, то можно удалить папку: ..:\Aidos-X\AID_DATA\LabWorks\. На работу остальных функций системы это не повлияет, а размер директории с системой заметно сократится.
|
Лицензия: Автор отказывается от какой бы то ни было ответственности за Ваш выбор или не выбор системы «Эйдос» и последствия применения или не применения Вами системы «Эйдос». Проще говоря, пользуйтесь если понравилось, а если не понравилось – не пользуйтесь: решайте сами и сами же несите ответственность за Ваше решение. |
По этим ссылкам всегда размещена наиболее полная на
момент скачивания незащищенная от несанкционированного копирования портативная
(portable) версия системы (не требующая инсталляции) с исходными текстами,
находящаяся в полном открытом бесплатном доступе (объем около
50 Мб). Обновление имеет объем около 3 Мб.
Далее
запускаем систему "Эйдос" из папки "Aidos-X" файлом
_aidos-x.exe. Система попросит ввести логин и пароль (рисунок 9). Необходимо
ввести: логин – 1, пароль – 1.
Далее
запускаем систему "Эйдос" из папки "Aidos-X" файлом
_aidos-x.exe. Система попросит ввести логин и пароль (рисунок 4).
Рисунок 4.
Экранная форма авторизации в системе "Эйдос"
Здесь
необходимо ввести: логин – 1, пароль – 1. В результате откроется главное окно
системы (рисунок 5):
Рисунок 5 –
Главное окно системы "Эйдос"
В последующем
имя и пароль можно изменить в режиме 1.2.
В качестве
исходных данных для примера решения задачи идентификации текстов и авторов,
рассмотренного в данной статье, использована выборка из баз данных Научного
журнала КубГАУ [14, 4] за весь период его существования с 2003 года по
настоящее время (точнее по 100-й номер). За это время в журнале издано 3949
статей.
Файл выборки
организован следующим образом (таблица 2):
Таблица 2 –
Исходные данные (фрагмент)
Объект |
Статья |
Автор |
Библиографическая ссылка |
10301001 |
IDA10301001 |
Кацко_И_А, Креймер_А_С |
Кацко И. А. Принятие решения о
структуре системы автономного энергоснабжения с использованием когнитивного
подхода / И. А. Кацко, А. С. Креймер // Политематический сетевой электронный
научный журнал Кубанского государственного аграрного университета (Научный
журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С.
1 – 2. IDA [article ID]: 0010301001 – Режим доступа:
http://ej.kubagro.ru/2003/01/01.pdf, 0,063 у.п.л., импакт-фактор РИНЦ=0,346 |
10301002 |
IDA10301002 |
Богатырев_Н_И, Креймер_А_С |
Богатырев Н. И. Имитационное
моделирование ветроэнергетической установки / Н. И. Богатырев, А. С. Креймер
// Политематический сетевой электронный научный журнал Кубанского
государственного аграрного университета (Научный журнал КубГАУ) [Электронный
ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С. 3 – 8. IDA [article ID]:
0010301002 – Режим доступа: http://ej.kubagro.ru/2003/01/02.pdf, 0,313
у.п.л., импакт-фактор РИНЦ=0,346 |
10301004 |
IDA10301004 |
Хисамов_Ф_Г |
Хисамов Ф. Г. Методика оптимизации
структуры перспективных аппаратных средств криптографической защиты
информации в автоматизированных системах управления / Ф. Г. Хисамов //
Политематический сетевой электронный научный журнал Кубанского государственного
аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар:
КубГАУ, 2003. – №01(001) С. 9 – 15. IDA [article ID]: 0010301004 – Режим
доступа: http://ej.kubagro.ru/2003/01/04.pdf, 0,375 у.п.л., импакт-фактор
РИНЦ=0,346 |
10301005 |
IDA10301005 |
Луценко_Е_В |
Луценко Е. В. Численный расчет
эластичности объектов информационной безопасности на основе системной теории
информации / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С. 16 –
27. IDA [article ID]: 0010301005 – Режим доступа:
http://ej.kubagro.ru/2003/01/05.pdf, 0,688 у.п.л., импакт-фактор РИНЦ=0,346 |
10301006 |
IDA10301006 |
Федоренко_М_А |
Федоренко М. А. Исследование порога
целесообразности применения самолета АН-2 на работах в аграрном секторе / М.
А. Федоренко // Политематический сетевой электронный научный журнал
Кубанского государственного аграрного университета (Научный журнал КубГАУ)
[Электронный ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С. 28 – 40. IDA
[article ID]: 0010301006 – Режим доступа:
http://ej.kubagro.ru/2003/01/06.pdf, 0,75 у.п.л., импакт-фактор РИНЦ=0,346 |
10301007 |
IDA10301007 |
Безродный_О_К, Лойко_В_И |
Безродный О. К. Система
инвестиционного управления автодорожной отраслью региона / О. К. Безродный,
В. И. Лойко // Политематический сетевой электронный научный журнал Кубанского
государственного аграрного университета (Научный журнал КубГАУ) [Электронный
ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С. 41 – 54. IDA [article ID]:
0010301007 – Режим доступа: http://ej.kubagro.ru/2003/01/07.pdf, 0,813
у.п.л., импакт-фактор РИНЦ=0,346 |
10301008 |
IDA10301008 |
Луценко_Е_В, Третьяк_В_Г |
Луценко Е. В. Анализ
профессиональных траекторий специалистов c применением системы «Эйдос» / Е.
В. Луценко, В. Г. Третьяк // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ)
[Электронный ресурс]. – Краснодар: КубГАУ, 2003. – №01(001) С. 55 – 58. IDA
[article ID]: 0010301008 – Режим доступа: http://ej.kubagro.ru/2003/01/08.pdf,
0,188 у.п.л., импакт-фактор РИНЦ=0,346 |
В данной
работе исследовано две выборки статей: полная, включающая 3949 статей, и
сокращенная, представляющая собой 100 статей, выбранных из полной случайным
образом. Программа, осуществившая выборку 100 статей из полной, приведена ниже
(язык xBase++):
=========================================================
FUNCTION
Main()
CLOSE ALL
USE Inp_data
EXCLUSIVE NEW;N_Obj = RECCOUNT()
aNumRec :=
{} // Массив номеров записей, которые
останутся в БД Inp_data.dbf
N_Rec =
100 // Количество записей,
которые останутся в БД Inp_data.dbf
SELECT
Inp_data
DELETE ALL
//
Сформировать массив кодов случайных объектов обучающей выборки без повторов из
N элементов
DO WHILE
LEN(aNumRec) < N_Rec // В
массиве еще нет aNumRec элементов?
// Случайный номер записи от 1 до N_Rec
mRndRec = 1+INT(RANDOM()%N_Obj)
IF ASCAN(aNumRec, mRndRec) = 0 // Номер этого объекта еще не
разыгрывался?
AADD (aNumRec, mRndRec)
ENDIF
ENDDO
ASORT(aNumRec)
FOR j=1 TO
LEN(aNumRec)
DBGOTO(aNumRec[j])
RECALL
NEXT
PACK
LB_Warning(
aNumRec, 'Удаление записей из БД "Inp_data.dbf"' )
LB_Warning( 'В
базе даннных: "Inp_data.dbf" осталось '+ALLTRIM(STR(N_Rec))+'
случайных записей', 'Удаление записей из БД "Inp_data.dbf"' )
CLOSE ALL
RETURN NIL
=========================================================
Далее везде,
где это специально не оговорено, рассматривается модель, основанная на 100
статьях.
Для
преобразования исходных данных в базы данных системы "Эйдос"
необходимо файл MS Excel, который содержит базу исходных данных, скопировать в
папку: ..Aidos-X\AID_DATA\Inp_data и присвоить ему имя: «Inp_data.xls». Само
преобразование осуществляется в универсальном программном интерфейсе импорта
данных из внешних баз данных в систему «Эйдос» (режима 2.3.2.2), Help которого
приведен на рисунке 6:
Рисунок 6.
Help режима 2.3.2.2 системы «Эйдос»
Экранная
форма задания параметров режима 2.3.2.2 приведена на рисунке 7:
Рисунок 7 –
Экранная форма Универсального программного интерфейса импорта данных в систему
"Эйдос" (режим 2.3.2.2.)
В экранной
форме, приведенной на рисунке 7, необходимо задать настройки, показанные на
рисунке:
- "Задайте тип файла исходных данных
Inp_data": "XLS - MS Excel-2003";
- "Задайте диапазон столбцов классификационных
шкал": "Начальный столбец классификационных шкал" – 2,
"Конечный столбец классификационных шкал" – 3;
- "Задайте диапазон столбцов описательных
шкал": "Начальный столбец описательных шкал" – 4, "Конечный
столбец описательных шкал" – 4;
- "Задание параметров формирования сценариев или способа
интерпретации текстовых полей": "Применить сценарный метод
АСК-анализа и спец.интерпретацию TXT-полей";
- «Параметры интерпретации текстовых полей Inp_data»: В
качестве классов рассматривать элементы значений полей – слова, В качестве
признаков рассматривать элементы значений полей – слова.
Затем
кликнуть кнопку "ОК". Далее открывается окно, где размещена
информация о размерности модели (рисунок 8).
Рисунок 8.
Информация о размерности модели системы "Эйдос"
В этом окне
необходимо нажать кнопку "Выйти на создание модели".
Далее
открывается окно, отображающее стадию процесса импорта данных из внешней БД
"Inp_data.xls" в систему "Эйдос" (рисунок 9), а также
прогноз времени завершения этого процесса. В том окне необходимо дождаться
завершения формализации предметной области и нажать кнопку "ОК".
Рисунок 9.
Процесс импорта данных из внешней БД "Inp_data.xls"
в систему "Эйдос"
Для просмотра
классификационных шкал и градаций необходимо запустить режим 2.1 (рисунок 10):
Рисунок 10.
Классификационные шкалы и градации (фрагменты)
Для просмотра
описательных шкал и градаций необходимо запустить режим 2.2 (рисунок 11):
Рисунок 11.
Описательные шкалы и градации (фрагмент)
Для просмотра
обучающей выборки необходимо запустить режим 2.3.1. (рисунок 12):
Рисунок 12.
Обучающая выборка (фрагмент)
Тем самым
создаются все необходимые и достаточные предпосылки для выявления силы и
направления причинно-следственных связей между значениями факторов и
результатами их совместного системного воздействия (с учетом нелинейности
системы [15]).
Далее
запускаем режим 3.5, в котором происходит выбор моделей для синтеза и
верификации (рисунок 13) и нажмем кнопку "ОК". После успешного
завершения, также необходимо нажать кнопку "ОК" (рисунок 14).
Рисунок 13.
Выбор моделей для синтеза и верификации
В данном
режиме имеется много различных методов верификации моделей, в том числе и
поддерживающие бутстрепный метод. Но мы используем параметры по умолчанию,
приведенные на рисунке 13.
В результате
выполнения режима 3.5 (рисунок 14) созданы все модели, со всеми частными
критериями, перечисленные на рисунке 13, но ниже мы приведем лишь некоторые из
них (таблицы 3-5).
Предварительно
рассмотрим частные и интегральные критерии, применяемые в настоящее время в
системе «Эйдос».
Рисунок 14. Синтез
и верификация статистических моделей
и моделей знаний
Отметим, что
синтез и верификация всех 10 моделей на выборке 100 статей заняли около
полутора часов (процессор i7).
Рассмотрим
решение задачи идентификации на примере модели INF1, в которой рассчитано
количество информации по А.Харкевичу, которое мы получаем о принадлежности
идентифицируемого объекта к каждому из классов, если знаем, что у этого объекта
есть некоторый признак. Это так называемые частные
критерии сходства, приведенные в таблице 3.
Таблица 3 –
Частные критерии знаний, используемые в настоящее время
в АСК-анализе и системе «Эйдос-Х++»
Наименование модели знаний |
Выражение для частного критерия |
|
через |
через |
|
INF1, частный критерий: количество знаний по А.Харкевичу, 1-й
вариант расчета относительных частот:
Nj – суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го
класса обнаружен признак, то это i-й признак |
|
|
INF2, частный критерий: количество знаний по А.Харкевичу, 2-й
вариант расчета относительных частот: Nj
– суммарное количество объектов по j-му
классу. Относительная частота того, что если предъявлен объект j-го класса,
то у него будет обнаружен i-й признак. |
|
|
INF3, частный критерий: Хи-квадрат: разности между фактическими и
теоретически ожидаемыми абсолютными частотами |
--- |
|
INF4, частный критерий: ROI - Return On Investment, 1-й вариант
расчета относительных частот: Nj –
суммарное количество признаков по j-му
классу |
|
|
INF5, частный критерий: ROI - Return On Investment, 2-й вариант
расчета относительных частот: Nj –
суммарное количество объектов по j-му
классу |
|
|
INF6, частный критерий: разность условной и безусловной
относительных частот, 1-й вариант расчета относительных частот: Nj – суммарное количество признаков
по j-му классу |
|
|
INF7, частный критерий: разность условной и безусловной
относительных частот, 2-й вариант расчета относительных частот: Nj – суммарное количество объектов по j-му классу |
|
|
Обозначения:
i –
значение прошлого параметра;
j
- значение будущего параметра;
Nij –
количество встреч j-го значения будущего параметра при i-м значении прошлого параметра;
M
– суммарное число значений всех прошлых
параметров;
W -
суммарное число значений всех будущих
параметров.
Ni –
количество встреч i-м значения прошлого параметра по всей
выборке;
Nj –
количество встреч j-го значения будущего параметра по
всей выборке;
N
– количество встреч j-го
значения будущего параметра при i-м
значении прошлого параметра по всей выборке.
Iij – частный
критерий знаний: количество знаний в факте наблюдения i-го значения прошлого параметра о том, что объект перейдет в
состояние, соответствующее j-му значению
будущего параметра;
Ψ
– нормировочный коэффициент (Е.В.Луценко, 1979, впервые опубликовано в 1993
году [15]), преобразующий количество информации в формуле А.Харкевича в биты и
обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;
Pi – безусловная относительная частота встречи i-го значения прошлого параметра в обучающей выборке;
Pij – условная относительная частота встречи i-го значения прошлого параметра при j-м значении будущего параметра.
По сути,
частные критерии представляют собой просто формулы для преобразования матрицы
абсолютных частот (таблица 4)[19] в матрицы
условных и безусловных процентных распределений (таблицы 5 и 6) и матрицы
знаний (проф. В.И.Лойко, 2014).
Таблица 4 –
Матрица абсолютных частот (модель ABS) (фрагмент)
Таблица 5 –
Матрица информативностей (модель INF1) в битах (фрагмент)
Таблица 6 –
Матрица знаний (модель INF3) (фрагмент)
Для любой из
моделей системой «Эйдос» рассчитывается ценность[20] градации
описательной шкалы, т.е. признака, для идентификации или прогнозирования. Количественной
мерой ценности признака в той или иной модели является вариабельность по
классам частного критерия для этого признака (таблица 3) Мер вариабельности может быть много, но
наиболее известными является среднее модулей отклонения от среднего, дисперсия
и среднеквадратичное отклонение. Последняя мера и используется в АСК-анализе и
системе «Эйдос».
В системе
«Эйдос» ценность признаков нарастающим итогов выводится в графической форме.
При большом объеме обучающей выборки можно без
ущерба для достоверности модели удалить из нее малозначимые признаки
(Парето-оптимизация). Для этого в системе «Эйдос «также есть соответствующие инструменты.
Как
показывает опыт, в результате такого удаления из текста малозначимых признаков
(нормализации текста) из него прежде всего будут удалены различные предлоги,
междометия и слова, состоящие из очень малого числа букв (от 1 до 3), а также
отдельно стоящие символы типа наклонной черты (флеш) и т.п.
Но если нам
известно, что объект обладает не одним, а несколькими признаками, то как
посчитать их общий вклад в сходство с
теми или иными классами? Для этого в системе «Эйдос» используется 2 аддитивных
интегральных критерия: «Сумма знаний» и «Семантический резонанс знаний».
Интегральный критерий
«Семантический резонанс знаний» представляет собой суммарное количество знаний, содержащееся в системе
факторов различной природы, характеризующих сам объект управления, управляющие
факторы и окружающую среду, о переходе объекта в будущие целевые или
нежелательные состояния.
Интегральный критерий
представляет собой аддитивную функцию от частных критериев знаний,
представленных в help режима 3.3:
В выражении круглыми скобками
обозначено скалярное произведение. В координатной форме это выражение имеет
вид:
,
где: M – количество градаций
описательных шкал (признаков);
– вектор
состояния j–го класса;
– вектор состояния распознаваемого объекта, включающий все виды факторов,
характеризующих сам объект, управляющие воздействия и окружающую среду
(массив–локатор), т.е.:
В текущей версии системы
«Эйдос-Х++» значения координат вектора состояния распознаваемого объекта
принимались равными либо 0, если признака нет, или n, если он присутствует у
объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове
«молоко» представлена 3 раза, а буква «м» - один раз).
Интегральный критерий
«Семантический резонанс знаний» представляет собой нормированное
суммарное количество знаний, содержащееся в системе факторов различной природы,
характеризующих сам объект управления, управляющие факторы и окружающую среду,
о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий
представляет собой аддитивную функцию от частных критериев знаний,
представленных в help режима 3.3 и имеет вид:
где:
M –
количество градаций описательных шкал (признаков);
– средняя
информативность по вектору класса;
– среднее по
вектору объекта;
– среднеквадратичное
отклонение частных критериев знаний вектора класса;
– среднеквадратичное
отклонение по вектору распознаваемого объекта.
– вектор
состояния j–го класса;
– вектор состояния распознаваемого объекта, включающий все виды факторов,
характеризующих сам объект, управляющие воздействия и окружающую среду
(массив–локатор), т.е.:
В текущей версии системы
«Эйдос-Х++» значения координат вектора состояния распознаваемого объекта
принимались равными либо 0, если признака нет, или n, если он присутствует у
объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове
«молоко» представлена 3 раза, а буква «м» - один раз).
Приведенное выражение для
интегрального критерия «Семантический резонанс знаний» получается
непосредственно из выражения для критерия «Сумма знаний» после замены
координат перемножаемых векторов их стандартизированными значениями:
Свое наименование интегральный
критерий сходства «Семантический резонанс знаний» получил потому, что по своей
математической форме является корреляцией двух векторов: состояния j–го класса
и состояния распознаваемого объекта.
Результаты
верификации (оценки достоверности) моделей, отличающихся частными критериями
(таблица 3) с двумя приведенными выше интегральными критериями приведены на
рисунке 15:
Рисунок 15.
Результаты верификации моделей
Наиболее
достоверной в данном приложении оказались модели INF4 при интегральном критерии
«Резонанс знаний» (на рисунке 15 эта модель выделена красным цветом). Данная
модель обеспечивает 100% достоверность идентификации статьи и ее авторов по
библиографическому описанию этой статьи (достоверность отнесения объекта к
классу, к которому он действительно относится), и 98% достоверность не
отнесения статьи и ее авторов к тем классам, к которым они не относятся.
Для оценки
достоверности моделей в АСК-анализе и системе «Эйдос» используется метрика,
предложенная автором, сходная с F-критерием[21] и дающая те
же результаты ранжирования моделей по их качеству (рисунок 16):
Рисунок 16.
Виды прогнозов и принцип определения достоверности моделей по авторскому
варианту метрики, сходной с F-критерием
Кроме того в
системе «Эйдос» используют уточненную F-меру, учитывающую не только сам факт
идентификации или не идентификации, но и уровень сходства-различия при этом.
Также
обращает на себя внимание, что статистические модели, как правило, дают более
низкую средневзвешенную достоверность идентификации и не идентификации, чем
модели знаний, и практически никогда – более высокую. Этим и оправдано
применение моделей знаний.
В
соответствии со схемой этапов последовательного преобразования данных в
информацию, а ее в знания в системе "Эйдос", приведенной на рисунке
3, присвоим статус текущей модели INF4, наиболее достоверной модели по данным
верификации (рисунок 15). Для этого в режиме 5.6 системы «Эйдос» зададим
эту модель и кликнем по кнопке Ok (рисунок 17):
Рисунок 17. Экранные формы режима присвоения модели статуса текущей
Затем
произведем идентификацию и авторов в текущей модели. Для этого запустим режим
4.1.2 системы «Эйдос» (рисунок 18):
Рисунок 18.
Экранная форма режима идентификации текстов и их авторов
Из рисунка 18
видно, что идентификация 100 статей в наиболее достоверной модели INF4 заняла 8
минут, т.е. 4.8 секунды на одну статью.
Режим 4.1.3
системы «Эйдос» обеспечивает отображение результатов идентификации в различных
формах:
1. Подробно наглядно: "Объект – классы".
2. Подробно наглядно: "Класс – объекты".
3. Итоги наглядно: "Объект – классы".
4. Итоги наглядно: "Класс – объекты".
5. Подробно сжато: "Объект – классы".
6. Обобщенная форма по достоверности моделей при разных
интегральных критериях.
7. Обобщенный статистический анализ результатов идентификации
по моделям и интегральным критериям.
8. Статистический анализ результатов идентификации по
классам, моделям и интегральным критериям.
9. Распознавание уровня сходства при разных моделях и интегральных
критериях.
10.
Достоверность
идентификации классов при разных моделях и интегральных критериях.
Рассмотрим
некоторые из них.
На рисунке 19
приведен пример идентификации статьи и ее авторов в наиболее достоверной модели
INF4:
Рисунок 19.
Экранная форма результатов идентификации
статьи и ее авторов
На рисунке 20
приведены результаты идентификации автора данной статьи по библиографическим
описаниям его статей.
Рисунок 20.
Результаты идентификации автора данной статьи
по библиографическим описаниям его статей
Результаты
решения проблемы, поставленной в статье, приведенные на рисунках 19 и 20 можно
признать очень хорошими.
Однако
возникает закономерный вопрос о том, а будет ли вообще работать предлагаемый
алгоритм и инструментарий на больших базах данных и о том, как он будет
работать. Для ответа на этот вопрос был проведен численный эксперимент на
выборке 3949 статьи. Результат идентификации статей приведен на рисунках 21.
|
|
|
|
|
|
|
|
Рисунок 21.
Экранные формы с результатами идентификации статей
в модели INF1: 3949 статей, 19989 слов
Из рисунка 21
мы видим, что все 10 статей, выбранных для идентификации случайным образом,
идентифицированы по их стандартному библиографическому описанию абсолютно
верно, причем со значительным, в разы, превышением уровня сходства с правильной
статьей по сравнению со следующей за ней наиболее сходной. Это означает, что
поставленная в статье задача успешно решена. Если же различие в уровне сходства
наиболее сходной статьи и следующей за ней незначительное, то информацию об
этих статьях необходимо предоставить для принятия решения специалисту.
Рассмотрим
теперь идентификацию статей с нестандартными
и некорректными библиографическими описаниями в модели INF1, созданной на основе 3949 библиографических описаний
статей.
Для
формирования некорректных библиографических ссылок возьмем стандартную ссылку
на статью автора (1-я строка таблицы 7) и будем, начиная с конца
библиографического описания, последовательно удалять из него элементы
описания и создавать новые строки с неполными библиографическими описаниями.
Две последних строки получены не путем удаления элементов библиографического
описания, что приводит к неполноте описания, а путем добавления лишних
элементов (шума, выделено желтым фоном): наклонной черты после имени
автора и неверного указания страниц. Как показывает опыт, в настоящее время
подобные описания не идентифицируются программным обеспечением РИНЦ.
В результате
получим таблицу 7:
Таблица 7 –
Распознаваемая выборка с некорректными
(неполными ) библиографическими описаниями
№ |
Объект |
Статья |
Автор |
Библиографическая ссылка |
1 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 –
185. – Шифр Информрегистра: 04208000120031, IDA [article ID]: 0370803012 –
Режим доступа: http://ej.kubagro.ru/2008/03/12.pdf, 1,938 у.п.л.,
импакт-фактор РИНЦ=0,346 |
2 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я: задачи
1-3) / Е. В. Луценко // Политематический сетевой электронный научный журнал
Кубанского государственного аграрного университета (Научный журнал КубГАУ)
[Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 – 185. –
Шифр Информрегистра: 04208000120031, IDA [article ID]: 0370803012 – Режим
доступа: http://ej.kubagro.ru/2008/03/12.pdf, 1,938 у.п.л. |
3 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 –
185. – Шифр Информрегистра: 04208000120031, IDA [article ID]: 0370803012 |
4 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 –
185. – Шифр Информрегистра: 04208000120031 |
5 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 –
185. |
6 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) |
7 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном обобщении
теории множеств на основе системной теории информации (Часть 1-я: задачи 1-3)
/ Е. В. Луценко // Политематический сетевой электронный научный журнал
Кубанского государственного аграрного университета (Научный журнал КубГАУ)
[Электронный ресурс]. – Краснодар: КубГАУ, 2008. |
8 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В.
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) |
9 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Неформальная
постановка и обсуждение задач, возникающих при системном обобщении теории
множеств на основе системной теории информации (Часть 1-я: задачи 1-3) |
10 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В. /
Неформальная постановка и обсуждение задач, возникающих при системном
обобщении теории множеств на основе системной теории информации (Часть 1-я:
задачи 1-3) / Е. В. Луценко // Политематический сетевой электронный научный
журнал Кубанского государственного аграрного университета (Научный журнал
КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №03(037) С. 154 –
185. – Шифр Информрегистра: 04208000120031, IDA [article ID]: 0370803012 –
Режим доступа: http://ej.kubagro.ru/2008/03/12.pdf, 1,938 у.п.л.,
импакт-фактор РИНЦ=0,346 |
11 |
370803012 |
IDA370803012 |
Луценко_Е_В |
Луценко Е. В. / Неформальная постановка и обсуждение
задач, возникающих при системном обобщении теории множеств на основе системной
теории информации (Часть 1-я: задачи 1-3) / Е. В. Луценко // Политематический
сетевой электронный научный журнал Кубанского государственного аграрного
университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар:
КубГАУ, 2008. – №03(037) С. 1154 – 2185.
– Шифр Информрегистра: 04208000120031, IDA [article ID]: 0370803012 – Режим доступа:
http://ej.kubagro.ru/2008/03/12.pdf, 1,938 у.п.л., импакт-фактор РИНЦ=0,346 |
Распознаваемую
выборку из некорректных (неполных и зашумленных) библиографических описаний
введем в систему «Эйдос» с помощью универсального программного интерфейса с внешними
базами данных 2.3.2.2 при параметрах, показанных на рисунке 22:
Рисунок 22.
Экранная форма универсального программного интерфейса
с внешними базами данных для ввода распознаваемой выборки
В результате
получена распознаваемая выборка, которую можно просмотреть в режиме 4.1.2
(рисунок 23).
Рисунок 23.
Экранная форма распознаваемой выборки
некорректных библиографических описаний
Процесс
распознавания проведем в режиме 4.2.1 в модели INF1, созданной на основе
библиографических описаний всех 3949 статей (рисунок 24):
Рисунок 24.
Экранная форма отображения стадии процесса идентификации нестандартных и
некорректных библиографических описаний
Как видно из
рисунка 24, процесс идентификации 11 статей в этой модели занял примерно три с
половиной часа или около 20 минут на одно описание.
Результаты
распознавания приведены на рисунках 25:
Рисунок 25.
Экранная форма отображения результатов идентификации
нестандартных и некорректных библиографических описаний
Из рисунков
25 видно, что в модели INF1, созданной на основе 3949 статей Научного журнала
КубГАУ за 2003-2014 годы, верно идентифицированы все тестовые
библиографические описания из таблицы 7: и стандартное из строки 1, и все
10 нестандартные и некорректные (неполные и зашумленные), приведенные в строках
2-11.
На основе
выше изложенного можно сделать обоснованный вывод о том, что АСК-анализ и его
программный инструментарий интеллектуальная система «Эйдос», обеспечивают
решение задачи идентификации текстов и авторов на основе библиографических
описаний публикаций, в том числе нестандартных и некорректных, неполных и
зашумленных. При этом обеспечивается очень высокий уровень достоверности
идентификации объектов с классами, к которым он действительно принадлежат (100%)
и очень высокий уровень достоверности не идентификации объектов с классами, к
которым они действительно не принадлежат (около 98%).
Конечно,
предлагаемый подход не лишен и некоторых недостатков и ограничений, в
преодолении которых состоят некоторые перспективы его развития.
Основной
недостаток предлагаемых решений, выявленный на приведенных в данной статье
примерах, состоит в довольно значительных затратах вычислительных ресурсов,
внешней памяти и времени на создание моделей, их верификацию и решение в этих
моделях задач идентификации. Особенно это заметно на примере со 3949 статей,
19989 слов.
Таким
образом, как обычно возникает вопрос о том, что делать в этих условиях.
Прежде всего,
возникает мысль о том, что в больших библиографических базах типа РИНЦ, Скопус
и т.п., предлагаемые в данной статье решения целесообразно применять не ко
всем статьям и авторам, а лишь к тем, которые не удалось идентифицировать с
помощью более простых и быстродействующих алгоритмов, уже реализованных
в программном обеспечении этих систем. Иначе говоря применять их в тех случаях,
в которых ранее было необходимо участие человека.
Следующая
очевидная мысль состоит в том, что необходимо оптимизировать предлагаемые
решения алгоритмы и решения специально для их реализации в программном
обеспечении больших библиографических баз данных, таких как РИНЦ, Скопус и др.
Для того, чтобы это сделать необходимо предварительно разобраться с причинами
возникновения этой ситуации. Мы видим две такие основные причины:
Во-первых, это
универсальность и независимость от предметной области алгоритма, реализованного
в системе «Эйдос». В процессе синтеза и верификации моделей в системе
производится расчет большого количества различных выходных форм, которые не
нужны при решении задач, поставленных в статье.
Во-вторых, это
отсутствие морфологического анализатора в текущей версии системы «Эйдос», в
результате чего слова не приводятся к начальной форме и используются все
словоформы, реально встретившиеся в библиографических ссылках. Это на порядок
увеличивает размерность моделей и время их создания и использования для решения
задач.
Соответственно,
представляется, что есть два основных пути повышения быстродействия предложенных
алгоритмов при их использовании для решения задач идентификации литературных
источников и авторов на основе библиографических описаний:
1)
оптимизация алгоритма специально для очень больших библиографических баз
данных, типа РИНЦ и Скопус;
2) лемматизация
текста[22] на основе
морфологического анализа, т.е. приведение слов к их исходной форме, и
сокращение за счет этого размерностей баз данных на порядок и такое же повышение
быстродействия алгоритма.
Кроме того,
на взгляд автора, для повышения быстродействия алгоритмов обработки матриц
чрезвычайно перспективным является применение в системе «Эйдос» технологии CUDA[23] или другой
функционально аналогичной, но более универсальной и менее зависимой от
аппаратного обеспечения технологии, обеспечивающей высокопроизводительные
параллельные неграфические вычисления на графических
процессорах, обладающих огромными
вычислительными ресурсами, на порядки превосходящими ресурсы центрального
процессора.
Отметим, что быстродействие работы
предложенных алгоритмов на работах одного автора, которых редко бывает больше
200-400, является вполне достаточным для его использования модератором.
Описанная в
статье технология может быть применена для решения задач выявления взаимосвязей
между динамикой Internet-контента и событиями в области экономики, политики, культуры и
в других областях. Особенное значение это приобретает в условиях жесткого
информационного противоборства, если не сказать информационной войны, ведущих
центров влияния в мире.
Например, в работе [16] тотальная ложь
рассматривается как стратегическое информационное оружие общества периода
глобализации и дополненной реальности. Рассматривается возможность применения в
современном обществе принципа наблюдаемости, как общепринятого в физике
критерия реальности. Показано, в каких случаях применение данного принципа в исследованиях
общества приводит к общественным иллюзиям, а когда дает адекватные результаты.
Предлагаются понятие: «Степень виртуализации общества» и количественная шкала
для ее измерения, а также вводится понятие «Общественный умвельт» под которым
понимается область общества, существенно отличающаяся от остальных своими
фундаментальными закономерностями.
В работах
[17] и [18] рассматриваются применение технологий нейролингвистического
программирования (НЛП) для астротурфинга[24] и манипулирования
сознанием больших масс людей и различных целевых групп населения.
Язык
программирования Аляска xBase++, на котором написана система «Эйдос-Х++»
позволяет реализовать все существующие в настоящее время возможности
взаимодействия с Internet-ресурсами, но для этого необходима библиотека
Xb2net.dll, которая у автора есть только в демо-версии (функционально-ограниченная).
Адекватная и технологичная оценка результативности,
эффективности и качества научной деятельности конкретных ученых и научных коллективов
является актуальной проблемой для информационного общества и общества,
основанного на знаниях. Решение этой проблемы является предметом наукометрии и
ее целью. Современный этап развития наукометрии существенно отличается от
предыдущих появлением в открытом, а также платном on-line доступе огромного
объема детализированных данных по большому числу показателей как об отдельных
авторах, так и о научных организациях и вузах. В мире, это известные библиографические
базы данных: Web of Science, Scopus, Astrophysics Data System, PubMed,
MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris или GeoRef. В России это
прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ – это
национальная информационно-аналитическая система, аккумулирующая более 9
миллионов публикаций российских ученых, а также информацию о цитировании этих
публикаций из более 6000 российских журналов. Данных очень много, это так
называемые «Большие данные» ("Big Data"). Основным первичным
наукометрическим показателем, на основе которого строятся все остальные, такие,
например, как индекс Хирша, является число
цитирований работ автора, размещенных в библиографической базе данных. Это
число цитирований определяется программным обеспечением РИНЦ путем так
называемой «привязки», которая представляет собой грамматический разбор и поиск
в базах данных работ автора, релевантных (соответствующих) ссылкам на них из
источников литературы в работах различных авторов. Однако проблема состоит в том, что, как показывает опыт, авторы допускают
очень большое количество некорректных и просто неполных ссылок в списках
литературы, очень далеких от ГОСТ. В настоящее время программное обеспечение
РИНЦ не может автоматически привязать эти некорректные ссылки и это требует
вмешательства человека. Но централизованно, силами специалистов РИНЦ, это
сделать не представляется возможным из-за огромного объема работ, а распределенная
работа большого числа специалистов на местах все равно требует централизованной
модерации. В результате работа по привязке ссылок к литературным источникам
ведется очень медленно и огромный объем ссылок оказывается непривязанными. Это
ведет к занижению накометрических показателей как отдельных авторов, так и
научных коллективов, что нельзя признать приемлемым. Решение этой проблемы предлагается путем применения
автоматизированного системно-когнитивного анализа (АСК-анализ) и его
программного инструментария – интеллектуальной системы «Эйдос». Приводится
численный пример интеллектуальной привязки реальных некорректных ссылок к
работам автора на основе небольшого объема реальных наукометрических данных,
находящихся в открытом бесплатном on-line доступе в РИНЦ
Адекватная и
технологичная оценка результативности, эффективности и качества научной
деятельности конкретных ученых и научных коллективов является актуальной
проблемой для информационного общества и общества, основанного на знаниях.
Решение этой проблемы является предметом наукометрии и ее целью.
Современный
этап развития наукометрии существенно отличается от предыдущих появлением в
открытом, а также платном on-line доступе огромного объема детализированных
данных по большому числу показателей как об отдельных авторах, так и о научных
организациях и вузах. В мире, это известные библиографические базы данных: Web
of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH,
Chemical Abstracts, Springer, Agris или GeoRef.
В России это
прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ – это
национальная информационно-аналитическая система, аккумулирующая более 9
миллионов публикаций российских ученых, а также информацию о цитировании этих
публикаций из более 6000 российских журналов. Данных очень много, это так
называемые «Большие данные» ("Big Data").
Основным
первичным наукометрическим показателем, на основе которого строятся все
остальные, такие, например, как индекс Хирша, является число цитирований работ автора,
размещенных в библиографической базе данных. Это число цитирований определяется
программным обеспечением РИНЦ путем так называемой «привязки», которая
представляет собой грамматический разбор и поиск в базах данных работ автора,
релевантных (соответствующих) ссылкам на них из источников литературы в работах
различных авторов.
Однако проблема состоит в том, что, как
показывает опыт, авторы допускают очень большое количество некорректных и
просто неполных ссылок в списках литературы, очень далеких от ГОСТ.
В настоящее
время программное обеспечение РИНЦ не может автоматически привязать
эти некорректные ссылки и это требует вмешательства человека.
Но
централизованно, силами специалистов РИНЦ, это сделать не представляется
возможным из-за огромного объема работ, а распределенная работа большого числа
специалистов на местах все равно требует централизованной модерации. В результате
работа по привязке ссылок к литературным источникам ведется очень медленно и
огромный объем ссылок оказывается непривязанными. Это ведет к занижению
накометрических показателей как отдельных авторов, так и научных коллективов,
что нельзя признать приемлемым.
Решение этой
проблемы предлагается путем применения автоматизированного
системно-когнитивного анализа (АСК-анализ) и его программного инструментария –
интеллектуальной системы «Эйдос». Приводится численный пример интеллектуальной
привязки реальных некорректных ссылок к работам автора на основе небольшого
объема реальных наукометрических данных, находящихся в открытом бесплатном
on-line доступе в РИНЦ.
Системный анализ представляет собой современный метод научного
познания, общепризнанный метод решения проблем [5, 6, 7]. Однако возможности
практического применения системного анализа ограничиваются отсутствием
программного инструментария, обеспечивающего его автоматизацию. Существуют
разнородные программные системы, автоматизирующие отельные этапы или функции
системного анализа в различных конкретных предметных областях.
Автоматизированный системно-когнитивный анализ
(АСК-анализ) представляет собой системный анализ, структурированный по базовым
когнитивным операциям (БКО), благодаря чему удалось разработать для него
математическую модель, методику численных расчетов (структуры данных и
алгоритмы их обработки), а также реализующую их программную систему – систему
«Эйдос» [1-3, 7].
Система «Эйдос» разработана в постановке, не зависящей от предметной области, и
имеет ряд программных интерфейсов с внешними данными различных типов [3].
АСК-анализ может быть применен как
инструмент, многократно усиливающий возможности естественного интеллекта во
всех областях, где используется естественный интеллект. АСК-анализ был успешно
применен для решения задач идентификации, прогнозирования, принятия решений и
исследования моделируемого объекта путем исследования его модели во многих
предметных областях, в частности в экономике, технике, социологии, педагогике,
психологии, медицине, экологии, ампелографии, геофизике, энтомологии, криминалистике
и др. [8, 9].
Известно, что системный анализ является одним из общепризнанных в науке
методов решения проблем и многими учеными рассматривается вообще как метод
научного познания. Однако, как впервые заметил еще в 1984 году проф. И.П.
Стабин, на практике применение
системного анализа наталкивается на проблему [10]. Суть этой проблемы в том,
что обычно системный анализ успешно применяется в сравнительно простых случаях,
в которых в принципе можно обойтись и без него, тогда как в действительно
сложных ситуациях, когда он действительно чрезвычайно востребован и у него нет
альтернатив, сделать это удается гораздо реже. Проф. И.П. Стабин предложил и
путь решения этой проблемы, который он видел в автоматизации системного анализа
[10].
Однако путь от идеи до создания программной системы долог и сложен,
т.к. включает ряд этапов:
– выбор теоретического математического метода;
– разработка методики численных расчетов, включающей структуры данных в
оперативной памяти и внешних баз данных (даталогическую и инфологическую
модели) и алгоритмы обработки этих данных;
– разработка программной системы, реализующей эти математические методы
и методики численных расчетов.
Перегудов Ф.И. и Тарасенко Ф.П. в своих основополагающих работах 1989 и
1997 годов [5, 6] подробно рассмотрели математические методы, которые в
принципе могли бы быть применены для автоматизации отдельных этапов системного
анализа. Однако даже самые лучшие математические методы не могут быть применены
на практике без реализующих их программных систем, а путь от математического
метода к программной системе долог и сложен. Для этого необходимо разработать
численные методы или методики численных расчетов (алгоритмы и структуры
данных), реализующие математический метод, а затем разработать программную
реализацию системы, основанной на этом численном методе.
В числе первых попыток реальной автоматизации системного анализа следует
отметить докторскую диссертацию проф. Симанкова В.С. (2001) [11]. Эта попытка
была основана на высокой детализации этапов системного анализа и подборе уже
существующих программных систем, автоматизирующих эти этапы. Идея была в том,
что чем выше детализация системного анализа, чем мельче этапы, тем проще их
автоматизировать. Эта попытка была реализована, однако, лишь для специального
случая исследования в области возобновляемой энергетики, т.к. системы оказались
различных разработчиков, созданные с помощью различного инструментария и не
имеющие программных интерфейсов друг с другом, т.е. не образующие единой
автоматизированной системы. Эта попытка, безусловно, явилась большим шагом по
пути, предложенному проф. И.П. Стабиным, но и ее нельзя признать обеспечившей
достижение поставленной цели, сформулированной Стабиным И.П. (т.е. создание
автоматизированного системного анализа), т.к. она не привела к созданию единой
универсальной программной системы, автоматизирующий системный анализ, которую
можно было бы применять в различных предметных областях.
Необходимо отметить работы Дж. Клира по системологии и автоматизации
решения системных задач, которые внесли большой вклад в автоматизацию
системного анализа путем создания и применения универсального решателя системных
задач (УРСЗ), реализованного в рамках оригинальной экспертной системы [12, 13].
Однако в экспертной системе применяется продукционная модель знаний, для
получения которых от эксперта необходимо участие инженера по знаниям
(когнитолога). Этим обусловлены следующие недостатки экспертных систем:
– они генерируют знания каждый раз, когда они необходимы для решения
задач, и это может занимать значительно большее время, чем при использовании
декларативной формы представления знаний;
– продукционные модели обычно построены на бинарной логике (if then
else), что вызывает возможность логического конфликта продукций в процесс
логического вывода, что приводит к необратимому останову логического процесса;
– эксперты - люди чаще всего заслуженные и их время и знания стоят
очень дорого; поэтому привлечение экспертов для извлечения готовых знаний на
длительное время проблематично и обычно эксперт просто физически не может
сообщить очень большой объем знаний, а иногда и не хочет этого делать и сообщает
неадекватные знания;
– чаще всего эксперты формулируют свои знания неформализуемым путем на
основе своей интуиции, опыта и профессиональной компетенции, т.е. не могут
сформулировать свои знания в количественной форме, а пользуются для их
формализации порядковыми или даже номинальными шкалами, поэтому экспертные
знания являются не очень точными и для их формализации необходим инженер по
знаниям (когнитолог).
Автоматизированный системно-когнитивный анализ разработан профессором Е.В.
Луценко и предложен в 2002 году [1], хотя разработан он был значительно раньше,
причем с программным инструментарием: системой «Эйдос» [1, 3, 7]. Основная
идея, позволившая сделать это, состоит в рассмотрении системного анализа как
метода познания (отсюда и «когнитивный» от «cognitio» – знание, познание,
лат.). Эта идея позволила структурировать системный анализ не по этапам, как
пытались сделать ранее, а по базовым когнитивным операциям системного анализа
(БКОСА), т.е. таким операциям, к комбинациям которых сводятся остальные. Эти
операции образуют минимальную систему, достаточную для описания системного
анализа, как метода познания, т.е. конфигуратор. Понятие конфигуратора
предложено В.А. Лефевром [14]. В 2002 году Е.В. Луценко был предложен когнитивный
конфигуратор [1], включающий 10 базовых когнитивных операций.
1) присвоение имен;
2) восприятие (описание конкретных объектов в форме онтологий, т.е. их
признаками и принадлежностью к обобщающим категориям - классам);
3) обобщение (синтез, индукция);
4) абстрагирование;
5) оценка адекватности модели;
6) сравнение, идентификация и прогнозирование;
7) дедукция и абдукция;
8) классификация и генерация конструктов;
9) содержательное сравнение;
10) планирование и поддержка принятия управленческих решений.
Каждая из этих операций оказалась достаточно элементарна для
формализации и программной реализации.
– формализуемая когнитивная концепция и следующий из нее когнитивный
конфигуратор;
– теоретические основы, методология, технология и методика АСК-анализа;
– математическая модель АСК-анализа, основанная на системном обобщении
теории информации;
– методика численных расчетов, в универсальной форме реализующая
математическую модель АСК-анализа, включающая иерархическую структуру данных и
24 детальных алгоритма 10 БКОСА;
– специальное инструментальное программное обеспечение, реализующее
математическую модель и численный метод АСК-анализа – Универсальная когнитивная
аналитическая система "Эйдос" [3].
1) когнитивно-целевая структуризация предметной области;
2) формализация предметной области (конструирование классификационных и
описательных шкал и градаций и подготовка обучающей выборки);
3) синтез системы моделей предметной области (в настоящее время система
«Эйдос» поддерживает 3 статистические модели и 7 системно-когнитивных моделей
(моделей знаний);
4) верификация (оценка достоверности) системы моделей предметной
области;
5) повышение качества системы моделей;
6) решение задач идентификации, прогнозирования и поддержки принятия
решений;
7) исследование моделируемого объекта путем исследования его моделей
является корректным, если модель верно отражает моделируемый объект и включает:
кластерно-конструктивный анализ классов и факторов; содержательное сравнение
классов и факторов; изучение системы детерминации состояний моделируемого
объекта; нелокальные нейроны и интерпретируемые нейронные сети прямого счета;
классические когнитивные модели (когнитивные карты); интегральные когнитивные
модели (интегральные когнитивные карты), прямые обратные SWOT-диаграммы;
когнитивные функции и т.д.
Математическая
модель АСК-анализ основана на теории информации, точнее на системной теории
информации (СТИ), предложенной Е.В. Луценко [1, 2, 3][25]. Это значит,
что в
АСК-анализе все факторы рассматриваются с одной единственной точки зрения:
сколько информации содержится в их значениях о переходе объекта, на который они
действуют, в определенное состояние, и при этом сила и направление влияния всех
значений факторов на объект измеряется в одних общих для всех факторов единицах
измерения: единицах количества информации [8, 9].
Это
напоминает подход Дугласа Хаббарда [15], но, в отличие от него, имеет открытый
универсальный программный инструментарий (систему «Эйдос»), разработанный в
постановке, не зависящей от предметной области [1-3]. К тому же на систему
«Эйдос» уже в 1994 году было три патента РФ [3, 16[26]], а первые
акты ее внедрения датируются 1987 годом [1, 3][27], тогда как основная
работа Дугласа Хаббарда [15] появилась лишь в 2009 году. Это означает, что идеи
АСК-анализа не только появились, но и были доведены до программной реализации в
универсальной форме и применены в различных предметных областях на 22 с лишним
года раньше появления работ Дугласа
Хаббарда.
Поэтому
АСК-анализ обеспечивает корректную сопоставимую обработку числовых и нечисловых
данных, представленных в разных типах измерительных шкал и разных единицах
измерения [8, 9]. Метод АСК-анализа является устойчивым непараметрическим
методом, обеспечивающим создание моделей больших размерностей при неполных и
зашумленных исходных данных о сложном нелинейном динамичном объекте управления.
Этот метод является чуть ли не единственным на данный момент, обеспечивающим
многопараметрическую типизацию и системную идентификацию методов,
инструментарий которого (интеллектуальная система «Эйдос») находится в полном
открытом бесплатном доступе [3, 16][28] на сайте
разработчика по адресу: http://lc.kubagro.ru/aidos/_Aidos-X.htm.
На рисунке 1
приведена карта мира с отображением мест и времени запуска системы «Эйдос» за
период с 9 декабря 2016 года по 10 января 2017 года[29].
Из этой карты
мира видно, что в настоящее время, к сожалению, система «Эйдос» больше
востребована в Европе и США, чем в России.
Рисунок 1.
Карта мира с отображением мест и времени запуска системы «Эйдос» за период с 9
декабря 2016 года по 20 июня 2017 года
Метод системно-когнитивного анализа и его программный инструментарий
интеллектуальная система "Эйдос" были успешно применены при
проведении 6 докторских и 7 кандидатских диссертационных работ в ряде различных
предметных областей по экономическим, техническим, психологическим и медицинским
наукам.
АСК-анализ был успешно применены при выполнении десятков грантов РФФИ и
РГНФ различной направленности за длительный период - с 2002 года по настоящее
время (2016 год).
По проблематике АСК-анализа издана 22 монография, получено 29 патентов
на системы искусственного интеллекта, их подсистемы, режимы и приложения,
опубликовано более 200 статей в изданиях, входящих в Перечень ВАК РФ (по данным
РИНЦ). В одном только Научном журнале КубГАУ
(входит в Перечень ВАК РФ с 26-го марта 2010 года) автором АСК-анализа
проф.Е.В.Луценко опубликовано 200 статей, общим объёмом 350,683 у.п.л., в
среднем 1,753 у.п.л. на одну статью.
По этим публикациям, грантам и диссертационным работам видно, что АСК-анализ
уже был успешно применен в следующих предметных областях и научных
направлениях: экономика (региональная, отраслевая, предприятий, прогнозирование
фондовых рынков), социология, эконометрика, биометрия, педагогика (создание
педагогических измерительных инструментов и их применение), психология
(личности, экстремальных ситуаций, профессиональных и учебных достижений,
разработка и применение профессиограмм), сельское хозяйство (прогнозирование
результатов применения агротехнологий, принятие решений по выбору рациональных
агротехнологий и микрозон выращивания), экология, ампелография, геофизика
(глобальное и локальное прогнозирование землетрясений, параметров магнитного поля
Земли, движения полюсов Земли), климатология (прогнозирование Эль-Ниньо и Ла-Нинья), возобновляемая энергетика, мелиорация и управление мелиоративными
системами, криминалистика, энтомология и ряд других областей.
АСК-анализ вызывает большой интерес во всем мире. Сайт автора
АСК-анализа [16] посетило около 500 тыс. посетителей с уникальными
IP-адресами со всего мира. Еще около 500 тыс. посетителей открывали статьи по
АСК-анализу в Научном журнале КубГАУ.
Необходимо отметить, что в развитии различных теоретических основ и
практических аспектов АСК-анализа приняли участие многие ученые: д.э.н., к.т.н., проф. Луценко Е.В.,
Засл. деятель науки РФ, д.т.н., проф. Лойко В.И., к.ф.-м.н.,
Ph.D., проф., Трунев А.П. (Канада),
д.э.н., д.т.н., к.ф.-м.н., проф. Орлов А.И., к.т.н., доц. Коржаков В.Е.,
д.э.н., проф. Барановская Т.П., д.э.н., к.т.н., проф. Ермоленко В.В., к.пс.н.
Наприев И.Л., к.пс.н., доц. Некрасов С.Д., к.т.н., доц. Лаптев В.Н., к.пс.н,
доц. Третьяк В.Г., к.пс.н., Щукин Т.Н., д.т.н., проф. Симанков В.С., д.э.н.,
проф. Ткачев А.Н., д.т.н., проф. Сафронова Т.И., д.э.н., доц. Горпинченко К.Н.,
к.э.н., доц. Макаревич О.А., к.э.н., доц. Макаревич Л.О., к.м.н. Сергеева Е.В.
(Фомина Е.В.), Бандык Д.К. (Белоруссия), Чередниченко Н.А., к.ф.-м.н. Артемов
А.А., д.э.н., проф. Крохмаль В.В., д.т.н., проф. Рябцев В.Г., к.т.н., доц. Марченко
А.Ю., д.т.н., проф. Фролов В.Ю., д.ю.н, проф. Швец С.В., Засл. деятель науки Кубани, д.б.н., проф. Трошин Л.П.,
Засл. изобр. РФ, д.т.н., проф. Серга Г.В., Сергеев А.С., д.б.н., проф. Стрельников
В.В. и другие.
Казалось бы
что здесь сложного?
Ссылка на
работу должна совпадать с библиографическим описанием самой работы и нет
никакой проблемы найти ее в базе данных по точному совпадению тестов ссылки и
описания работы. Точно также делается в любой информационно-поисковой системе
(ИПС): отчет формируется из записей базы данных, в которых все значения полей
точно совпадают со значениями, заданными в
запросе.
Но дело в
том, что обычно (как правило) текст ссылки отличается от текста
библиографического описания работы и точное их совпадение наблюдается крайне
редко. Поэтому подход, реализуемый в ИПС с точным поиском в данном случае
практически неприменим.
Но есть ИПС с
поиском по неполному запросу. В таких ИПС для каждой записи базы данных
определяется степень ее соответствия с запросу. Эта степень соответствия
считается равной числу полей запроса и записи, значения которых совпали. Для
таких ИПС необходим предварительный грамматический разбор как описания самой
работы, так и ссылки на нее. При этом разборе определяются значения полей
библиографических описаний работы (источника) и ссылки на нее. После этого
происходит сравнение значений этих полей. Конечно в этом случае и сам
грамматический разбор является проблемой. При ошибке в разборе поиск работы
ведется уже не там, например при определении сборника статей конференции как
журнала поиск ведется уже в журналах и не дает результата. Но главное не в
этом, а в том, что вес или роль всех полей библиографического описания считается
одинаковым, тогда как в действительности он разный. Так, например, год издания
и Ф.И.О. автора значительно важнее какого-нибудь слова в названии.
Есть ИПС с
нечетким поиском по нечеткому запросу. В таких ИПС, как и в ИПС по неполному
запросу, когда значения некоторых полей могут отсутствовать, для каждого поля
определяется его вес и уже после этого для всех записей базы данных определяется
степень их соответствия запросу уже не просто по числу совпавших полей, но уже
по суммарному весу совпавших полей. В таких ИПС возникает проблема адекватного
определения веса полей при идентификации записей. Обычно этот вес определяется
экспертным путем, т.е. «на основе опыта, интуиции и профессиональной
компетенции»[30], а в систему
вводится вручную. Конечно, при реальных объемах данных РИНЦ как определение
этих весов, так и их ввод в систему вручную совершенно невозможен из-за
огромных объемов данных. Получается, что необходимо и это автоматизировать.
Автоматизированные
системы, которые обеспечивают автоматическое определение весов признаков и
нечеткую идентификацию с их использованием называются системами распознавания
образов. Такие системы могут рассматриваться как дальнейшее обобщение ИПС с
неполным и нечетким запросом.
Универсальная
когнитивная аналитическая система «Эйдос» [3] является такой системой. Более
того, система «Эйдос» обеспечивает широкие возможности применения
интеллектуальных технологий для обработки нечисловых данных, в частности текстов
и у авторов имеется большой опыт решения задач в этой области [17-24].
Предлагается
решение поставленной в работе проблемы путем преобразования данных в
информацию, а ее в знания (рисунки 2 и 3) [25, 26][31].
Рисунок 2. О
соотношении содержания понятий:
«Данные», «Информация» и «Знания»
Рисунок 3.
Этапы преобразования данных в информацию, а ее в знания
Данные – это
информация, записанная на каком-либо носителе или находящаяся в каналах связи и
представленная на каком-то языке или в системе кодирования и рассматриваемая безотносительно
к ее смысловому содержанию.
Исходные
данные об объекте управления обычно представлены в форме баз данных, чаще всего
временных рядов, т.е. данных, привязанных ко времени. В соответствии с
методологией и технологией автоматизированного системно-когнитивного анализа
(АСК-анализ), развиваемой проф. Е.В.Луценко, для управления и принятия решений
использовать непосредственно исходные данные не представляется возможным.
Точнее сделать это можно, но результат управления при таком подходе оказывается мало чем
отличающимся от случайного. Для реального же решения задачи управления
необходимо предварительно преобразовать данные в информацию, а ее в знания о
том, какие воздействия на корпорацию к каким ее изменениям обычно, как показывает
опыт, приводят.
Информация есть
осмысленные данные.
Смысл данных,
в соответствии с концепцией смысла Шенка-Абельсона, состоит в том, что известны
причинно-следственные зависимости между событиями, которые описываются этими
данными. Таким образом, данные преобразуются в информацию в результате
операции, которая называется «Анализ данных», которая состоит из двух этапов:
1. Выявление
событий в данных (разработка классификационных и описательных шкал и градаций и
преобразование с их использованием исходных данных в обучающую выборку, т.е. в
базу событий – эвентологическую базу).
2. Выявление
причинно-следственных зависимостей между событиями.
В случае
систем управления событиями в данных являются совпадения определенных значений
входных факторов и выходных параметров объекта управления, т.е. по сути, случаи
перехода объекта управления в определенные будущие состояния под действием
определенных сочетаний значений управляющих факторов. Качественные значения
входных факторов и выходных параметров естественно формализовать в форме лингвистических
переменных. Если же входные факторы и выходные параметры являются числовыми, то
их значения измеряются с некоторой погрешностью и фактически представляют собой
интервальные числовые значения, которые также могут быть представлены или
формализованы в форме лингвистических переменных (типа: «малые», «средние»,
«большие» значения экономических показателей).
Какие же
математические меры могут быть использованы для количественного измерения силы
и направления причинно-следственных зависимостей?
Наиболее
очевидным ответом на этот вопрос, который обычно первым всем приходит на ум,
является: «Корреляция». Однако, в статистике это хорошо известно, что это совершенно
не так. Для преобразования исходных
данных в информацию необходимо не только выявить события в этих данных, но и
найти причинно-следственные связи между этими событиями. В АСК-анализе
предлагается 7 количественных мер причинно-следственных связей, основной из
которых является семантическая мера целесообразности информации по А.Харкевичу.
Знания – это
информация, полезная для достижения
целей.
Значит для
преобразования информации в знания необходимо:
1. Поставить
цель (классифицировать будущие состояния моделируемого объекта на целевые и
нежелательные).
2. Оценить
полезность информации для достижения этой цели (знак и силу влияния).
Второй пункт,
по сути, выполнен при преобразовании данных в информацию. Поэтому остается
выполнить только первый пункт, т.к. классифицировать будущие состояния объекта
управления как желательные (целевые) и нежелательные.
Знания могут
быть представлены в различных формах, характеризующихся различной степенью
формализации:
– вообще неформализованные знания, т.е. знания
в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);
– знания,
формализованные в естественном вербальном языке;
– знания,
формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и
отношений между ними (базы данных);
– знания в
форме технологий, организационных, производственных, социально-экономических и
политических структур;
– знания,
формализованные в виде математических моделей и методов представления знаний в
автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая,
продукционная, нейросетевая, нечеткая и другие).
Таким образом,
для решения сформулированной проблемы необходимо осознанно и целенаправленно
последовательно повышать степень формализации исходных данных до уровня, который
позволяет ввести исходные данные в интеллектуальную систему, а затем:
–
преобразовать исходные данные в информацию;
–
преобразовать информацию в знания;
–
использовать знания для решения задач управления, принятия решений и
исследования предметной области.
Рассмотрим
численный пример, основанный на реальных данных РИНЦ и иллюстрирующий
применение АСК-анализа и системы «Эйдос» для решения поставленной в работе
проблемы.
При этом
выполним описанные выше этапы АСК-анализа и этапы преобразования данных в
информацию, а ее в знания.
Исходные
данные для численного примера взяты с сайта РИНЦ: http://elibrary.ru/ по автору:
«Елепов Б.С.»
Эти данные
состоят из двух файлов:
– Обучающая
выборка.doc (6 страниц, 111 источников);
– Тестовая выборка.doc
(27 страниц, 588 ссылок на источники).
Ниже
приведены фрагменты этих файлов.
Фрагмент
файла обучающей выборки (работы автора)
РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ
ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ
СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В.,
Шевченко Л.Б., Паршиков Р.М. отчет о НИР
ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ
НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина
Л.В., Подкорытова Н.И. Вестник Российской академии естественных наук.
Западно-Сибирское отделение. 2016. № 18. С. 198-205.
ГОСУДАРСТВЕННАЯ
ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ
АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ: НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С.,
Лаврик О.Л. Труды ГПНТБ СО РАН. 2015. № 8. С. 7-14.
ИНТЕГРАЦИЯ
ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО
НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л.,
Федотов А.М., Шокин Ю.И. Теория и практика общественно-научной информации.
2014. № 22. С. 21-32.
ФОРМЫ ПРЕДСТАВЛЕНИЯ
ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА: ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С.,
Лаврик О.Л. Труды ГПНТБ СО РАН. 2014. № 7. С. 14-22.
ИССЛЕДОВАНИЯ СИБИРСКОГО
ОТДЕЛЕНИЯ РАН В ОБЛАСТИ НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ
Бусыгина Т.В., Елепов Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в
интересах устойчивого развития. 2013. Т. 21. № 4. С. 463-473.
БИБЛИОТЕКИ И МИРЪ Елепов
Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2013. № 4. С. 7-18.
Фрагмент файла тестовой выборки
(ссылки на работы автора)
Алексеев
A.G, Елепов Б.С., Котов В.Е., Метляев Ю.В. о программе работ по созданию сети
информационно-вычислительных систем (центров) в Сибирском отделении АН СССР.
-Новосибирск, 1987. -27 с. -(Препр./ВЦ Сиб. отд-ния АН СССР; N 734).
Алексеев А.С., Елепов Б.С., Бобров JI.K.
Развитие инфраструктуры информации Сибирского отделения РАН//Информационные
ресурсы. Интеграция. Технология: 3-я междунар. конф. ?НТИ-97?, Москва, 26 -28
нояб.
Алексеев А.С., Елепов Б.С., Бобров Л.К.
Развитие инфраструктуры информации Сибирского отделения РАН//Информационные
ресурсы. Интеграция. Технология./Междунар. конф. НТИ-
Алексеев А.С., Елепов Б.С., Котов В.Е.,
Метляев Ю.В. О программе работ по созданию сети информационно-вычислительных
систем (Центров) в Сибирском отделении АН СССР. - Новосибирск, 1987. - 27 с. -
(Препринт / РАН. Сиб. отд-ние. ВЦ; 743).
Алексеев А.С., Елепов Б.С., Котов В.Е.,
Метляев Ю.В. О программе работ по созданию сети информационно-вычислительных
систем (центров) в Сибирском отделении АН СССР. -Новосибирск, 1987, -27 с.
-(Препр./ВЦ Сиб. отд-ния АН СССР; N 734)
Древнерусские книжные памятники в Сибири:
цифровое решение проблемы сохранности и доступности/В. Н. Алексеев
//Библиосфера. -2007. -№ 1. -С. 9 -15.
Алексеев В. Н., Дергачева-Скоп Е. И., Елепов
Б. С., Шабанов А. В. Древнерусские книжные памятники в Сибири: цифровое решение
проблемы сохранности и доступности//Библиосфера. 2007. № 1. С. 9-14.
Алексеев, В. Н. Древнерусские книжные
памятники в Сибири: Цифровое решение проблемы сохранности и доступности / В. Н.
Алексеев, Е. И. Дергачева-Скоп, Б. С. Елепов, А. В. Шабанов // Библиосфера. - №
1. - 2007
Аристов Ю.И., Глазнев И.С., Алексеев В.Н.,
Гордеева Л.Г., Сальникова И.В., Шилова И.А., Кундо Л.П., Елепов Б.С., // Библиосфера.
2009. Т. 5. № 1. С. 26.
Открытое письмо/Арский Ю.М., Елепов Б.С.,
Зайцев В.Н. и др.//Поиск. -1999.-№43 (545). С. 3.
На этом этапе
АСК-анализа мы должны решить, что мы хотим определять и на основе чего.
В данном
случае мы хотим по словам, входящим в библиографические описания ссылок на
литературные источники определять сами эти источники (идентифицировать их), и,
таким образом, привязывать ссылки к источникам.
В системе
«Эйдос» реализована возможность лемматизации, но мы не будем ей пользоваться,
т.к. она хотя и сокращает размерности моделей и ускоряет обработку, но приводит
к некоторой потере информации и понижению достоверности идентификации.
Как видно из
рисунка 3 этот этап АСК-анализа состоит в разработке справочников
классификационных и описательных шкал и градаций и кодировании с их помощью
исходных данных, в результате чего формируется база событий или обучающая выборка.
По сути этот этап представляет собой нормализацию исходных данных, т.е. их
преобразование в такую форму, которую удобно обрабатывать на компьютере.
Для небольших
задач это можно сделать и вручную. Но гораздо удобнее воспользоваться
специально созданными для этого программными интерфейсами системы «Эйдос» с
внешними базами данных. В системе «Эйдос» есть довольно много таких интерфейсов
(рисунок 4):
Рисунок 4.
Программные интерфейсы системы «Эйдос»
с внешними данными различных типов
Для наших
целей подходят интерфейсы 2.3.2.2 и особенно 2.3.2.1. Рассмотрим стандарты
представления исходных, достоинства и ограничения этих интерфейсов.
Этот
программный интерфейс предназначен для ввода данных из табличных файлов MS
Excel или dbf. В таблице 1 приведен фрагмент исходных данных, подготовленных
для интерфейса 2.3.2.2:
Таблица 1 –
Исходные данные в стандарте интерфейса 2.3.2.2 (фрагмент)
Объект |
Классы |
Признаки |
1-РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ
ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ
КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А.,
Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР |
1-РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ
ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ
КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук
Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР |
РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ
ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ
КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук
Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР |
2-ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ
РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И.
Вестник Российской академии естественных наук. Западно-Сибирское отделение.
2016. № 18. С. 198-205. |
2-ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ
РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И.
Вестник Российской академии естественных наук. Западно-Сибирское отделение.
2016. № 18. С. 198-205. |
ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ
РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И.
Вестник Российской академии естественных наук. Западно-Сибирское отделение.
2016. № 18. С. 198-205. |
3-ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ
БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ:
НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН.
2015. № 8. С. 7-14. |
3-ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ
БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ:
НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН.
2015. № 8. С. 7-14. |
ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ
БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ:
НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН.
2015. № 8. С. 7-14. |
4-ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО
ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО
ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин
Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32. |
4-ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО
ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО
ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин
Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32. |
ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ
РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО
ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин Ю.И. Теория и
практика общественно-научной информации. 2014. № 22. С. 21-32. |
5-ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА:
ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО
РАН. 2014. № 7. С. 14-22. |
5-ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА:
ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО
РАН. 2014. № 7. С. 14-22. |
ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА:
ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО
РАН. 2014. № 7. С. 14-22. |
6-ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ
НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов
Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого
развития. 2013. Т. 21. № 4. С. 463-473. |
6-ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ
НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов
Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого
развития. 2013. Т. 21. № 4. С. 463-473. |
ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ
НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов
Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого
развития. 2013. Т. 21. № 4. С. 463-473. |
7-БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды
ГПНТБ СО РАН. 2013. № 4. С. 7-18. |
7-БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды
ГПНТБ СО РАН. 2013. № 4. С. 7-18. |
БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды
ГПНТБ СО РАН. 2013. № 4. С. 7-18. |
На рисунке 5
приведена экранная форма управления интерфейсом 2.3.2.2 с параметрами для ввода
данных из таблицы:
Рисунок 5.
Экранная форма управления интерфейсом 2.3.2.2
с параметрами для ввода данных из таблицы 1.
Данный режим
формирует классификационные и описательные шкалы и градации и обучающую выборку
на основе исходных данных, подобных представленным в таблице 1. Работоспособные
модели были созданы.
Как классы
рассматривалось библиографическое описание целиком, а как признаки этого
описания – слова и числа, из которых оно состоит.
Однако авторы
отказались от этого варианта, т.к., как оказалось, некоторые библиографические
описания содержали более 255 символов, т.е. по длине были больше, чем
максимальный размер поля базы данных, и, поэтому, были обрезаны до 255 символов.
Поэтому данный вариант в данной статье не рассматривается. Отметим лишь, что в
системе «Эйдос» есть встроенная лабораторная работа №3.02 (рисунки 6 и 7),
которая как раз предназначена для изучения студентами этого подхода. Этому же посвящены
работы автора [17-23] и ряд других.
Рисунок 6.
Helps по встроенным лабораторным работам системы «Эйдос»
Рисунок 7.
Help по встроенной лабораторной работе 3.02 системы «Эйдос»
По этой
причине для формализации предметной области был выбран интерфейс 2.3.2.1,
который фактически не имеет ограничения на размер текстовых файлов обучающей
выборки (эти файлы должны быть не более 2 Гб).
Но для импорта исходных данных для
обучающей выборки и распознаваемой выборки из текстовых файлов вида, приведенного
в разделе 3.1, необходимо сначала разбить эти файлы на абзацы и каждый абзац
записать в виде отдельного файла в папки:
– c:\Aidos-X\AID_DATA\Inp_data\ для
обучающей выборки (источников);
– c:\Aidos-X\AID_DATA\Inp_rasp\ для
распознаваемой выборки (тестовой выборки или выборки ссылок на источники).
Экранная форма служебного режима
2.3.2.9, предназначенного для этого разбиения, приведена на рисунке 8:
Рисунок 8. Экранная форма управления
режимом 2.3.2.9.
Для работы этого режима необходимо с
помощью MS Word преобразовать файл исходных данных в текстовый файл с кодировкой
DOS-текст и поместить его в папку: c:\Aidos-X\AID_DATA\Inp_data\, а затем запустить
режим 2.3.2.1.
В результате работы режима с файлом
исходных данных, фрагмент которого приведен в разделе 3.1, а полностью он приведен
по ссылке: http://ej.kubagro.ru/2017/01/upload/01.zip, получим 111 текстовых файлов в папке: c:\Aidos-X\AID_DATA\Inp_data\ (рисунок
10):
Рисунок 10.
Текстовые файлы с библиографическими описаниями
литературных источников обучающей выборки (работа автора),
сформированные режимом 2.3.2.9
Ниже
приведено содержимое файла: «000001 - Обучающая выборка.txt»:
РАЗРАБОТКА МОДЕЛИ
ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В
УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов
С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР
Отметим, что
файл: «000111 - Обучающая выборка.txt» пустой, т.к. в файле исходных данных:
«Обучающая выборка.txt» в конце был пустой абзац из одной строки.
Экранная
форма управления интерфейсом 2.3.2.1 с параметрами для ввода данных из
текстовых файлов, показанных на рисунке 10, и формирования классификационных и
описательных шкал и градаций и обучающей выборки, приведена на рисунке 11:
Рисунок 11.
Экранная форма интерфейса 2.3.2.1 с параметрами для ввода
данных из текстовых файлов и формирования классификационных
и описательных шкал и градаций и обучающей выборки
В результате
работы данного режима сформированы классификационные и описательные шкалы и
градации и обучающая выборка, приведенные на рисунках 12, 13 и 14.
Рисунок 12.
Классификационная шкала и ее градации, т.е. классы
Рисунок 13.
Описательная шкала и ее градации, т.е. признаки – слова
Рисунок 14.
Обучающая выборка (фрагмент)
Полностью
классификационные и описательные шкалы и градации и обучающая выборка приведены
по ссылке: http://ej.kubagro.ru/2017/01/upload/01.zip.
Таким образом
режим 2.3.2.1 полностью выполнил все операции этапа АСК-анализа «Формализация
предметной области» и создал все необходимые условия и предпосылки для
выполнения следующего его этапа: «Синтез и верификация модели предметной
области».
После
выполнения формализации предметной области для преобразования исходных данных в
информацию остается только осмыслить эти данные, т.к. выявить
причинно-следственные связи между словами и литературными источниками (см.
рисунок 2). Эти причинно следственные связи как раз и отражены в статистических
и системно-когнитивных моделях, создаваемых и проверяемых на достоверность на
следующем этапе АСК-анализа.
В системе
«Эйдос» используется 3 статистических модели (см. рисунок 2) и 7
системно-когнитивных моделей. Различные модели системно-когнитивные модели
отличаются частными критериями знаний.
Для решения
задач идентификации (классификации, прогнозирования, распознавания,
диагностики) в каждой системно-когнитивной модели могут применяться два
интегральных критерия.
Для
выполнения этого этапа АСК-анализа запустим режим 3.5 системы «Эйдос», при
опциях, указанных на рисунке 15:
Рисунок 15.
Экранная форма режима 3.5 системы «Эйдос»
Процесс
синтеза и верификации 10 моделей,
представляющих собой матрицы размерностью 111
на 857, шел на компьютере с
процессором i7 26 минут 18 секунд (рисунок 16):
Рисунок 16.
Экранная форма прогноза времени исполнения режима 3.5
Ясно, что
синтез модели ABS и 1-й системно-когнитивной модели на ее основе при тех же
исходных данных и на том же компьютере займет значительно меньшее время (около
26 секунд).
В системе
«Эйдос» есть режим для просмотра статистических и системно когнитивных моделей
(режим 5.5). На рисунке 17 приведен фрагмент модели INF3:
Рисунок 17.
Фрагмент модели INF3
Полностью все
статистические и системно когнитивные модели приведены по ссылке: http://ej.kubagro.ru/2017/01/upload/01.zip. Здесь же
они не приводятся, т.к. каждая из них занимает 128 листов.
Достоверность
созданных моделей оценивалось путем идентификации во всех созданных моделях
библиографических описаний всех 111 источников обучающей выборки. При этом использовалась
стандартная мера адекватности моделей: F-критерий Ван Ризбергена и его
мультиклассовое нечеткое обобщение L-мера проф.Е.В.Луценко, предложенная
автором [27].
На рисунке 18
приведена форма по достоверности моделей, которая отображается в режиме
4.1.3.6:
Рисунок 18.
Экранная форма по достоверности моделей (начало)
Из этой формы
мы видим, что наиболее достоверной по F-критерию является модель INF5 с
интегральным критерием «Резонанс знаний» (соответствующая колонка выделена
ярко-голубым цветом). Эта модель обеспечивает 100% истинно-положительных
решений, 9868 истинно-отрицательных решений и 2122 ложно-положительных решений
(«ложные срабатывания») при 0% ложно-отрицательных решений. Точность модели получается
равной 0,049, а полнота 1,000, сама F-мера равна 0,094.
Казалось бы
результаты так себе… Но не надо спешить с выводами.
Дело в том,
что в стандартной F-мере при ложно-положительном решении к соответствующему
сумматору всегда прибавляется 1, а если мы посмотрим на рисунке 19 на степень
сходства объекта распознаваемой выборки с классом (т.е. ссылки с источником)
при истинно-положительных решениях (отмечено «птичкой») и при
ложно-положительных решениях, то мы увидим, что при ложно-положительных
решениях уровень сходства всегда значительно ниже, чем при
истинно-положительных.
Рисунок 19.
Результаты идентификации объектов с классами
в самой достоверной модели INF5
Такая же
картина наблюдается и во всех других приложениях, опыт создания которых очень
велик[32].
Поэтому
автором было предложено мультиклассовое нечеткое обобщение стандартной F-меры
Ван Ризбергена, которая была названа L-мера проф.Е.В.Луценко [27], которая
кроме различия уровня сходства объектов с классами (нечеткость) учитывает также
то, что один объект может принадлежать одновременно к различным классам
(мультиклассовость).
На рисунке 20
показано продолжение экранной формы по достоверности моделей, показывающая ее
часть с L-мерой (соответствующая колонка выделена ярко-зеленым цветом):
Рисунок 20.
Экранная форма по достоверности моделей (продолжение)
Видно, что с
учетом уровня сходства результаты идентификации значительно лучше, чем по
F-критерию: L-мера = 0,710, при этом точность модели 0,550, а полнота 1,000,
что уже более менее приемлемо.
Однако, количество
ложно-положительных решений («ложных срабатываний» или ошибочных идентификаций)
слишком велико (2122) и не смотря на то, что они имеют очень низкие уровни
сходства их сумма (64,209) все же почти равна сумме уровней сходства
истинно-положительных решений (78,444).
Ясно, что при
увеличении числа распознаваемых объектов сумма уровней сходства ложно
положительных решений может даже превысить сумму уровней сходства истинно-положительных
решений.
Чтобы
преодолеть эти проблемы предлагается
обобщение предложенного в работе [27] L-критерия проф.Е.В.Луценко, учитывающее
уровень сходства объектов с классами и дающее оценку достоверности моделей не зависящую от числа объектов распознаваемой
выборки.
Автором
работы (Е.В.Луценко) предлагается инвариантное относительно объемов данных
обобщение нечеткой мультиклассовой L-меры [27] достоверности моделей,
адекватное для оценки достоверности моделей, построенных на больших данных.
Понятно, что для
того, чтобы устранить зависимость от числа объектов распознаваемой выборки в
L-мере, достаточно вместо сумм уровней сходства истинно и ложно положительных
и отрицательных решений использовать средние, посчитанные путем деления
этих сумм на количество объектов соответствующих категорий, т.е. на
число истинно и ложно идентифицированных и не идентифицированных объектов.
Это и сделано
в новой версии системы «Эйдос» от 12.01.2017. Соответствующая мера
достоверности моделей названа: L2-мера, а предложенная в работе [27],
соответственно: L1-мера. Подробному описанию L2-меры и исследованию зависимости
F-меры, L1- и L2-меры от объемов данных планируется посвятить одну из следующих
работ.
В Help режимов 4.1.3.6, 4.1.3.7 и 4.1.3.8
кратко описаны F-мера, а также L1-мера и L2-мера (рисунок 21):
Рисунок 21.
Экранная форма Help режимов 4.1.3.6, 4.1.3.7 и 4.1.3.8
На рисунке 22
приведена экранная форма по достоверности моделей, включающая и L1-меру, и
L2-меру.
Рисунок 22.
Экранная форма по достоверности моделей
(продолжение)
Из этой формы
видно, что средний уровень сходства распознаваемых объектов с классами при
истинно-положительных решениях равен 0,285, при ложно-положительных решениях
всего 0,005, что дает точность модели 0,982 при полноте 1,000 и L2-мере=0,991,
что уже вполне прилично.
Все это
означает, что если учитывать уровень сходства объектов с классами в формах
идентификации, подобных представленной на рисунке 19, то можно добиться
достаточно высокой достоверности идентификации.
Отметим
также, что система «Эйдос» сама находит максимумы в колонках с различными
критериями качества моделей и отмечает соответствующие строки тем же фоном, что
и эти колонки.
Продолжим
выполнение этапов АСК-анализа и преобразование данных в информацию, а ее в
знания в соответствии с последовательностью, представленной на рисунке 23.
Для этого:
– выберем
наиболее достоверную модель;
– присвоим ей
статус текущей модели;
– введем
распознаваемую выборку из текстовых файлов в систему «Эйдос»;
– проведем
пакетное распознавание распознаваемой выборки в текущей модели.
Выбор наиболее
достоверной модели осуществляется не сложно. После синтеза и верификации
моделей, т.е. после выполнения режима 3.5, просто запускаем режим 4.1.3.6 и
смотрим какая модель находится в строке, выделенной желтым фоном. Это и есть
наиболее достоверная модель по L2-критерию проф.Е.В.Луценко. В нашем случае это
модель INF5. Частный критерий этой модели приведен в разделе 3.4.1.
Чтобы
присвоить модели INF5 запускаем режим 5.6 и задаем эту модель (рисунки 23):
Рисунок 23.
Экранные форма режима 5.6, обеспечивающего присвоение
заданной модели статуса текущей модели (задание и исполнение)
Для этого запишем в MS Word тестовый файл со ссылками
на источники как обычный текст кодировки DOS в папку: ..\Aidos-X\AID_DATA\Inp_rasp\. Каждая ссылка
должна быть в отдельном абзаце.
Затем запустим служебный режим 2.3.2.9, позволяющий
разбить текстовые файлы на абзацы и каждый абзац записать в виде отельного файла (рисунок 24):
Рисунок 24. Экранные форма режима 2.3.2.9
После исполнения этого режима в папке
..\Aidos-X\AID_DATA\Inp_rasp\ появляется 588 файлов, часть которых показана на
рисунке 25. После формирования этих файлов исходный файл удаляется из
директории.
Затем запускаем режим 2.3.2.1, который , собственно, и
вводит данные из этих файлов в распознаваемую выборку (рисунок 26). На рисунке
27 приведена экранная форма с фрагментом этой распознаваемой выборки.
Как уже указывалось выше, такой подход выбран потому,
что на размеры этих файлов по сути нет ограничения (2Гб), т.е. это могут быть и
статьи, и даже монографии или каике-то проекты и отчеты.
Рисунок 25. Файлы тестовой выборки (фрагмент)
Рисунок 26. Экранная форма программного интерфейса
ввода данных
из текстовых файлов
Рисунок 27. Экранная форма с отображением фрагмента
распознаваемой выборки
Далее запускаем режим 4.1.2, реализующий пакетное распознавание.
На рисунке 28 приведена экранная форма с отображением стадии и прогнозом
времени исполнения:
Рисунок 28. Экранная форма с отображением стадии
и прогнозом времени исполнения
Из этой формы мы видим, что идентификация 588 объектов
в текущей модели заняла 13 минут 41 секунду, т.е. около 1,4 секунды на объект.
В системе
«Эйдос» есть довольно много выходных форм с выводом различных результатов
распознавания (рисунок 29).
Некоторые из
них (4.1.3.6, 4.1.3.7, 4.1.3.8, 4.1.3.9, 4.1.3.10, 4.1.3.11) посвящены анализу
достоверности моделей и достоверности распознавания в разрезе по классам и
объектам распознаваемой выборки.
Другие
(4.1.3.1, 4.1.3.2, 4.1.3.3, 4.1.3.4, 4.1.3.5) непосредственно содержат
результаты распознавания.
Рисунок 29.
Выходные формы системы «Эйдос»
по результатам распознавания (режим 4.1.3)
Рассмотрим
лишь те из них, которые имеют самое непосредственное отношение к проблеме,
решаемой в данной работе.
Запустим
режим 4.1.3.2. На экране появится экранная форма, приведенная на рисунке 30.
Если покликать
мышкой слева по классам или воспользоваться стрелками перемещения курсора, то
мы увидим два основных варианта этой формы, приведенные на рисунке 30-а и 30-б.
а)
б)
Рисунок 30.
Стандартные экранные формы по результатам распознавания,
отражающие сходство распознаваемых объектов с заданными классами
На экранной
форме 30-а мы видим (справа), что в распознаваемой выборке нет объектов имеющих
сколько-нибудь заметное сходство с классом, указанным слева.
На экранной
форме 30-б, напротив, мы видим (справа), что в распознаваемой выборке есть
объекты с кодами: 344, 346 и 345, имеющие сходство около 70% с классом, указанным
слева.
Однако с
такой формой при решении проблемы, поставленной в работе, работать неудобно.
Можно, конечно, посмотреть на содержимое файлов обучающей выборки, с
библиографическими описаниями работ, и распознаваемой выборки, содержащей самые
разнообразные, в основном некорректные ссылки на них. Но есть и выходные формы,
которые уже содержат эту информацию.
Чтобы
получить эти формы кликнем по кнопке «Печать ALL» на экранной форме,
приведенной на рисунке 30. Появится запрос на порог уровня сходства объектов
распознаваемой выборки с классами:
Этот порог
используется для того, чтобы принять решение о том, в какой тип форм включать
информацию объектах распознаваемой выборки: в те, которые содержат информацию о
идентифицированных объектах, или в отчет об неидентифицированных объектах.
В результате
формируются выходные формы, информация о которых приведена на рисунке 31:
Рисунок 31.
Экранная форма с информацией о выходных формах,
генерируемых по нажатию на кнопе «Печать ALL» в режиме 4.1.3.2.
Ниже
приведена 1-я страница одной из кратких выходных форм, содержащих только коды
классов и объектов распознаваемой выборки с уровнями сходства:
Ниже
приведена 1-я страница одной из подробных выходных форм, содержащих не только
коды классов и объектов распознаваемой выборки с уровнями сходства, но и полный
текст из соответствующих текстовых файлов:
Отметим, что
объем этой выходной формы в модели, используемой в данной работе, составляет 47
листов.
Все ссылки,
для которых не оказалось источников с уровнем сходства выше заданного порога
оказались вообще неидентифицированными (непривязанными) и ниже приводится
фрагмент отчета по таким ссылкам:
Продолжим
выполнение этапов АСК-анализа и кратко рассмотрим некоторые (не все)
возможности исследования моделируемой предметной области путем исследования ее
модели. Это корректно, если модель имеет достаточно высокую достоверность. В
нашем случае по L2-критерию проф.Е.В.Луценко это именно так.
Система «Эйдос»
обеспечивает автоматизированный прямой и обратный SWOT-анализ [28]. Ниже (в
рисунках 32, 33, 34 и 35) приводится несколько выходных форм соответствующих режимов
в модели INF3:
Рисунок 32.
Экранная форма управления режимом 4.4.8
(автоматизированный SWOT-анализ классов)
Рисунок 33.
SWOT-диаграмма 2-й работы обучающей выборки
Рисунок 34.
Экранная форма управления режимом 4.4.9
(автоматизированный SWOT-анализ значений факторов)
Рисунок 35.
SWOT-диаграмма значения фактора: «Елепов»
Модель
представления знаний системы «Эйдос» представляет собой декларативную нечеткую
модель, имеющую сходство с фреймовой и нейросетевой моделями.
По сравнению
с фреймовой моделью модель системы «Эйдос» имеет существенно упрощенную программную
реализацию, связанную с тем, что все фреймы (классы) имеют общую систему слотов
и шпаций, т.е. описательных шкал и градаций. В тоже время это практически не
уменьшает функциональных возможностей модели представления знаний системы
«Эйдос» по сравнению с фреймовой моделью.
По сравнению
с нейросетевой моделью модель системы «Эйдос» обладает тремя основными
преимуществами [29]: 1) она является интерпретируемой, т.е. понятен и хорошо
теоретически обоснован смысл весовых коэффициентов на рецепторах (градациях
описательных шкал); 2) она является нейронной сетью прямого счета, т.е. ее
процесс обучения гораздо проще, чем по алгоритму обратного распространения
ошибки; 3) она является нелокальной, т.е. все нейроны (классы) связаны со
всеми, что позволяет моделировать нелинейные системы [30].
На рисунке 36
приведена экранная форма управления отображением нелокальных нейронов (режим
4.4.10):
Рисунок 36.
Экранная форма управления отображением
нелокальных нейронов (режим 4.4.10 системы «Эйдос»)
Пример
отображения нелокального нейрона системы «Эйдос» приведен на рисунке 37):
Рисунок 37.
Изображение нелокального нейрона (класса)
с указанием весовых коэффициентов на рецепторах (словах)
Пояснения по
рисунку приведены на нем самом.
Необходимо
отметить, что в системе «Эйдос» нет принципиальных ограничений на количество
нейронов в модели знаний и на количество рецепторов в них (ограничения
накладываются только объемом свободной внешней памяти и быстродействием
компьютеров). Проводились численные эксперименты с формированием в системе
«Эйдос» моделей знаний, содержащих 10000 нейронов, каждый из которых имел 10000
рецепторов, а программные средства системы «Эйдос» работы с базами знаний
тестировались на размерностях баз знаний до 100000 нейронов с 100000 рецепторов
каждый. Правда надо отметить, что такие базы знаний создавались по полчаса и
имели размеры на диске около 200 Гб.
В режиме
4.2.2.1 создается матрица или подматрица сходства классов (таблица 2):
Таблица 2 –
Матрица сходства классов в модели INF5 (фрагмент)
KOD_CLS |
NAME_CLS |
N1 |
N2 |
N3 |
N4 |
N5 |
1 |
ИМЕНА ФАЙЛОВ-000001 - Обучающая выборка |
100,000 |
1,289 |
-1,282 |
-1,879 |
-1,229 |
2 |
ИМЕНА ФАЙЛОВ-000002 - Обучающая выборка |
1,289 |
100,000 |
-0,269 |
-1,836 |
-1,228 |
3 |
ИМЕНА ФАЙЛОВ-000003 - Обучающая выборка |
-1,282 |
-0,269 |
100,000 |
-1,057 |
0,693 |
4 |
ИМЕНА ФАЙЛОВ-000004 - Обучающая выборка |
-1,879 |
-1,836 |
-1,057 |
100,000 |
3,544 |
5 |
ИМЕНА ФАЙЛОВ-000005 - Обучающая выборка |
-1,229 |
-1,228 |
0,693 |
3,544 |
100,000 |
6 |
ИМЕНА ФАЙЛОВ-000006 - Обучающая выборка |
-1,747 |
-1,699 |
-0,874 |
-0,585 |
-1,232 |
7 |
ИМЕНА ФАЙЛОВ-000007 - Обучающая выборка |
-0,821 |
0,254 |
0,697 |
-0,914 |
0,532 |
8 |
ИМЕНА ФАЙЛОВ-000008 - Обучающая выборка |
0,737 |
-0,986 |
-0,228 |
-0,642 |
-0,716 |
9 |
ИМЕНА ФАЙЛОВ-000009 - Обучающая выборка |
-2,103 |
0,222 |
0,066 |
-2,298 |
-1,495 |
10 |
ИМЕНА ФАЙЛОВ-000010 - Обучающая выборка |
-2,366 |
-1,840 |
-1,686 |
-2,575 |
-1,702 |
11 |
ИМЕНА ФАЙЛОВ-000011 - Обучающая выборка |
-1,381 |
-1,340 |
-0,997 |
-1,483 |
-1,000 |
12 |
ИМЕНА ФАЙЛОВ-000012 - Обучающая выборка |
0,020 |
-0,775 |
0,285 |
-0,852 |
0,265 |
13 |
ИМЕНА ФАЙЛОВ-000013 - Обучающая выборка |
1,582 |
-0,877 |
5,231 |
-0,966 |
0,048 |
14 |
ИМЕНА ФАЙЛОВ-000014 - Обучающая выборка |
-1,262 |
-0,388 |
0,413 |
-1,361 |
-0,897 |
15 |
ИМЕНА ФАЙЛОВ-000015 - Обучающая выборка |
-1,411 |
-0,621 |
-1,068 |
-1,565 |
-1,014 |
16 |
ИМЕНА ФАЙЛОВ-000016 - Обучающая выборка |
-1,775 |
-1,724 |
-1,313 |
-1,605 |
-1,290 |
17 |
ИМЕНА ФАЙЛОВ-000017 - Обучающая выборка |
-1,077 |
-1,070 |
-0,712 |
-1,185 |
-0,764 |
18 |
ИМЕНА ФАЙЛОВ-000018 - Обучающая выборка |
-1,138 |
-1,123 |
-0,432 |
-1,251 |
-0,474 |
19 |
ИМЕНА ФАЙЛОВ-000019 - Обучающая выборка |
8,878 |
-1,339 |
-0,569 |
-1,485 |
-0,611 |
20 |
ИМЕНА ФАЙЛОВ-000020 - Обучающая выборка |
-2,152 |
-2,097 |
-1,595 |
-2,062 |
-1,566 |
21 |
ИМЕНА ФАЙЛОВ-000021 - Обучающая выборка |
0,312 |
-1,070 |
-0,773 |
-1,191 |
-0,764 |
22 |
ИМЕНА ФАЙЛОВ-000022 - Обучающая выборка |
6,748 |
-1,358 |
-1,021 |
-1,657 |
-0,955 |
23 |
ИМЕНА ФАЙЛОВ-000023 - Обучающая выборка |
-1,957 |
-1,894 |
-1,454 |
-1,825 |
-1,426 |
24 |
ИМЕНА ФАЙЛОВ-000024 - Обучающая выборка |
-1,428 |
-0,531 |
0,805 |
-0,440 |
-1,049 |
25 |
ИМЕНА ФАЙЛОВ-000025 - Обучающая выборка |
-1,379 |
-1,346 |
-1,045 |
-1,474 |
-1,024 |
26 |
ИМЕНА ФАЙЛОВ-000026 - Обучающая выборка |
-2,064 |
-1,988 |
-1,529 |
-2,225 |
-1,500 |
27 |
ИМЕНА ФАЙЛОВ-000027 - Обучающая выборка |
-0,501 |
-0,587 |
0,233 |
-1,586 |
-1,070 |
28 |
ИМЕНА ФАЙЛОВ-000028 - Обучающая выборка |
-1,263 |
-1,251 |
-0,822 |
-1,362 |
-0,824 |
29 |
ИМЕНА ФАЙЛОВ-000029 - Обучающая выборка |
-1,532 |
-1,258 |
-0,430 |
-1,667 |
-0,503 |
30 |
ИМЕНА ФАЙЛОВ-000030 - Обучающая выборка |
-1,708 |
-1,354 |
-0,793 |
-1,603 |
-1,238 |
31 |
ИМЕНА ФАЙЛОВ-000031 - Обучающая выборка |
-0,843 |
-0,811 |
-0,624 |
-0,908 |
-0,612 |
32 |
ИМЕНА ФАЙЛОВ-000032 - Обучающая выборка |
-0,915 |
-0,734 |
-0,542 |
-1,005 |
-0,550 |
33 |
ИМЕНА ФАЙЛОВ-000033 - Обучающая выборка |
-1,411 |
-1,407 |
-0,493 |
-1,554 |
-0,552 |
34 |
ИМЕНА ФАЙЛОВ-000034 - Обучающая выборка |
0,764 |
1,925 |
-0,479 |
-1,391 |
-0,859 |
35 |
ИМЕНА ФАЙЛОВ-000035 - Обучающая выборка |
-1,640 |
-0,677 |
-0,949 |
-1,775 |
-1,209 |
36 |
ИМЕНА ФАЙЛОВ-000036 - Обучающая выборка |
-1,149 |
-1,116 |
-0,735 |
-1,259 |
6,952 |
37 |
ИМЕНА ФАЙЛОВ-000037 - Обучающая выборка |
-1,592 |
-1,543 |
-1,181 |
-1,724 |
-1,160 |
38 |
ИМЕНА ФАЙЛОВ-000038 - Обучающая выборка |
-1,180 |
-0,478 |
-0,176 |
0,668 |
-0,821 |
39 |
ИМЕНА ФАЙЛОВ-000039 - Обучающая выборка |
-1,786 |
-1,800 |
-1,258 |
-1,718 |
-1,331 |
40 |
ИМЕНА ФАЙЛОВ-000040 - Обучающая выборка |
-1,763 |
-1,526 |
-1,096 |
-1,276 |
-1,269 |
41 |
ИМЕНА ФАЙЛОВ-000041 - Обучающая выборка |
-1,869 |
-1,866 |
-1,105 |
-1,835 |
-0,855 |
42 |
ИМЕНА ФАЙЛОВ-000042 - Обучающая выборка |
-1,030 |
-0,984 |
-0,363 |
-1,089 |
-0,403 |
43 |
ИМЕНА ФАЙЛОВ-000043 - Обучающая выборка |
-1,386 |
-0,607 |
-0,075 |
-1,670 |
-1,043 |
44 |
ИМЕНА ФАЙЛОВ-000044 - Обучающая выборка |
-1,666 |
-1,635 |
-1,007 |
-1,858 |
-1,244 |
45 |
ИМЕНА ФАЙЛОВ-000045 - Обучающая выборка |
-1,834 |
-1,786 |
-0,108 |
-1,981 |
-0,624 |
46 |
ИМЕНА ФАЙЛОВ-000046 - Обучающая выборка |
-1,164 |
-1,689 |
0,009 |
-1,444 |
-0,276 |
47 |
ИМЕНА ФАЙЛОВ-000047 - Обучающая выборка |
-1,529 |
-1,473 |
-1,133 |
-1,624 |
-1,112 |
48 |
ИМЕНА ФАЙЛОВ-000048 - Обучающая выборка |
-1,547 |
-1,491 |
-0,831 |
-1,660 |
-1,108 |
49 |
ИМЕНА ФАЙЛОВ-000049 - Обучающая выборка |
-1,371 |
-1,343 |
-0,647 |
-1,495 |
-0,990 |
50 |
ИМЕНА ФАЙЛОВ-000050 - Обучающая выборка |
-1,466 |
-1,517 |
-0,927 |
-1,675 |
-0,475 |
51 |
ИМЕНА ФАЙЛОВ-000051 - Обучающая выборка |
-1,822 |
-1,655 |
-1,245 |
-1,753 |
-1,361 |
52 |
ИМЕНА ФАЙЛОВ-000052 - Обучающая выборка |
-1,388 |
-2,004 |
-0,954 |
-1,528 |
-0,635 |
53 |
ИМЕНА ФАЙЛОВ-000053 - Обучающая выборка |
0,977 |
-1,072 |
-0,352 |
-1,224 |
-0,401 |
54 |
ИМЕНА ФАЙЛОВ-000054 - Обучающая выборка |
-1,356 |
-1,314 |
-1,007 |
2,124 |
-0,991 |
55 |
ИМЕНА ФАЙЛОВ-000055 - Обучающая выборка |
-1,105 |
-1,277 |
-0,984 |
-1,423 |
-0,932 |
56 |
ИМЕНА ФАЙЛОВ-000056 - Обучающая выборка |
-0,997 |
-1,006 |
-0,733 |
-1,121 |
-0,676 |
57 |
ИМЕНА ФАЙЛОВ-000057 - Обучающая выборка |
-1,208 |
-1,158 |
-0,894 |
-1,287 |
-0,878 |
58 |
ИМЕНА ФАЙЛОВ-000058 - Обучающая выборка |
-0,976 |
-0,931 |
-0,722 |
-1,075 |
-0,710 |
59 |
ИМЕНА ФАЙЛОВ-000059 - Обучающая выборка |
-1,029 |
-1,196 |
0,004 |
-1,293 |
-0,845 |
60 |
ИМЕНА ФАЙЛОВ-000060 - Обучающая выборка |
-1,254 |
-0,665 |
-0,978 |
-1,424 |
-0,960 |
61 |
ИМЕНА ФАЙЛОВ-000061 - Обучающая выборка |
2,134 |
-1,421 |
-1,152 |
-0,655 |
-1,133 |
Фрагменты
матрицы сходства могут визуализироваться в системе «Эйдос» в форме
семантических сетей (когнитивных диаграмм). На рисунке 38 приведены экранные
формы управления данным режимом (4.2.2.2):
Рисунок 38.
Экранные формы управления режимом кластерно-конструктивный анализ классов
системы «Эйдос» (4.2.2.2.)
Пример
визуализации конструкта класса с кодом 95 приведен на рисунке 39:
Рисунок 39.
Пример визуализации конструкта класса с кодом 95
Текст объекта
обучающей выборки с кодом 95: «НАУЧНЫЕ БИБЛИОТЕКИ СИБИРИ И ДАЛЬНЕГО ВОСТОКА
Елепов Б.С. Новосибирск, 1980.». Информационный портрет класса 95 приведен на
рисунке 40.
Рисунок 40.
Пример визуализации конструкта класса с кодом 95
Из рисунка 40
видно, что разные слова, входящие в этот объект, имеют разный вес при его
идентификации, т.е. в разной степени характерны для этого объекта. Мы видим,
что наиболее характерным словом для этого объекта является слово «востока», а
за ним идет год работы.
Отметим
также, что весовые коэффициенты когнитивной диаграммы, приведенной на рисунке
39, определяются не «на основе экспертных оценок», как обычно[33], а
рассчитываются непосредственно на основе моделей знаний, сформированных в системе
«Эйдос» непосредственно на основе эмпирических исходных данных.
Из
когнитивной диаграммы, приведенной на рисунке 39, мы видим, что некоторые
библиографические описания работ в различной степени сходны друг с другом, а
другие в различной степени отличаются. Но из этой диаграммы мы не видим, чем именно они сходны и чем
отличаются, т.е. того, какие слова вносят
основной вклад в их сходство и различие. Эта информация приводится в
когнитивной диаграмме на рисунке 41:
Рисунок 41.
Пример когнитивной диаграммы, содержательно отражающей
вклад различных слов в сходство-различие двух текстов
На рисунке 42
приведена экранная форма управления режимом 4.2.3, обеспечивающим генерацию
когнитивных диаграмм, содержательно отражающих вклад различных слов в
сходство-различие двух текстов.
Рисунок 42.
Экранная форма управления режимом 4.2.3, обеспечивающим
генерацию когнитивных диаграмм, содержательно отражающих вклад
различных слов в сходство-различие двух текстов
По сути эта
когнитивная диаграмма раскрывает внутреннюю структуру каждой линии,
показывающей сходство или различие классов на диаграмме 39. Ниже, на рисунке 43
приведен Help режима 4.2.3, поясняющий, как формируется когнитивная диаграмма,
отображенная на рисунке 41.
Рисунок 43.
Help режима 4.2.3, поясняющий, как формируется
когнитивная диаграмма, отображенная на рисунке 41
Можно
представить себе нейронную сеть, построенную на диаграмме 39 с указанием
рецепторов, как на рисунке 37. В DOS-версии системы «Эйдос» такие диаграммы
визуализировались, а в новой аналогичный режим еще не реализован.
Различные
слова имеют различную ценность для сравнения источников с источниками и ссылок
с источниками.
Если слово
встречается с одинаковой вероятностью в различных источниках, то оно совершенно
бесполезно для того, чтобы отличить их друг от друга. Чем выше вариабельность вероятности[34] (или одного
из частных критериев знаний, приведенных в разделе 3.4.1) встречи некоторого
слова по разным источникам, тем более ценным оно является для их различения.
На рисунке 44
приведена логистическая кривая ценности различных слов для решения задачи
идентификации текстов (т.е. ценность слов нарастающим итогом) в
модели PRC1[35]:
Рисунок 44.
Логистическая кривая ценности различных слов
для решения задачи идентификации текстов
Из рисунка 44
видно, что 50% слов обеспечивают суммарно около 75,7% значимости, а 50% суммарной
значимости обеспечивается 23,6% слов.
Если подобный
анализ провести на моделях, отражающих не одного автора, а большое их
количество, то можно сделать научно обоснованные выводы о том, какие слова
имеет использовать для дифференциации источников и ссылок и их привязки.
Например, можно оставить треть; слов, дающих суммарное около двух третей
значимости. Наряду с лемматизацией, это позволит существенно уменьшить
размерность моделей, вычислительную сложность и время решения задач.
Ложно-положительные
и ложно-отрицательные решения, т.е. ошибки идентификации и неидентификации,
крайне нежелательны и их обязательно необходимо как-то минимизировать. Ниже в
данном разделе рассмотрим некоторые подходы к решению этой важной и актуальной
задачи.
Обратимся к
рисунку 21, на котором раскрываются понятия положительного и отрицательного
псевдопрогнозов.
Из
предыдущего изложения, в частности рисунка 30-б в разделе 3.6.4, ясно, что для
достоверности прогноза очень важен выбор порога положительных уровней сходства,
выше которого положительные решения как правило соответствуют действительности,
т.е. являются истинно-положительными, а ниже – ложно-положительными.
Например, из
рисунка 30-б видно, что вероятнее всего к истинно-положительным решениям
относятся те, у которых уровень сходства выше 50%. Но, конечно, по одной форме
такие решения принимать нельзя, а также необходима проверка совпадения прогноза
с действительностью, что по этой форме сделать затруднительно.
Поэтому для
выбора порога более корректно использовать форму, представленную на рисунке 22
и текстовые формы из раздела 3.6.4.
Например, из
рисунка 22 видно, что в наиболее достоверной модели INF5 рационально и
обоснованно выбрать порог уровня сходства выше 30%, т.е. положительные решения,
с уровнем сходства выше 30% обоснованно можно считать истинно-положительными.
Соответственно, положительные решения, с уровнем сходства ниже 30% обоснованно
можно считать ложно-положительными или истинно-отрицательными.
Конечно, речь
идет о средних величинах уровней сходства, причем полученных при
идентификации обучающей выборки. Понятно, что при идентификации объектов как
обучающей, так и тестовой выборки реально могут встретится и истинно-положительные
решения с уровнем сходства ниже 30% и ложно положительные с уровнем сходства
выше 30%. Но при таком выборе порога уровня сходства минимизируется количество
ложноположительных и ложноотрицательных решений.
По
предлагаемой технологии возможно построить модели измерения сходства-различия
библиографических описаний источников и ссылок на них не по входящим в них
словам, а по элементам их библиографических описаний. В этом случае модели
измерения сходства-различия источников и ссылок будут вторым слоем нейронной
сети, в первом слое которой должна решаться задача разбора
некорректного и неполного библиографического описания и выделения из него этих
элементов.
Очень может
быть, что такие модели двухслойной нейронной сети показали покажут высокую
достоверность, чем однослойные модели, основанные на словах, подобные описанной
в данной работе.
Однако
ожидать этой более высокой достоверности оправданно только при условии
правильного выделения элементов библиографического описания. А на этапе разбора
также возможны ошибки, которые могут снизить достоверности решения задачи во
втором слое.
Экспертное
исследование текстовых выходных форм, приведенных в разделе 3.6.4, показало,
что при очень высоком пороге сходства из списка ссылок могут пропасть
фактические ссылки на источники, а при очень низком в список ссылок попадает много
ссылок на другие источники, сходные по библиографическому описанию.
Решить эту
проблему предлагается путем:
1) выбора
низкого порога, что обеспечит исключение пропусков ссылок;
2) исключения
из расширенного списка ссылок тех из них, которые точно не являются ссылками на
данный источник.
Решить 2-ю
задачу можно с применением используемого в настоящее время в программном
обеспечении (ПО) РИНЦ алгоритма грамматического разбора библиографических
ссылок, который выделяет год публикации и другие элементы ее описания.
Например, из расширенного списка ссылок можно сразу исключить ссылки на
источники других лет публикации.
Используемый
в настоящее время в программном обеспечении (ПО) РИНЦ алгоритм основан на
последовательном грамматическом разборе библиографических ссылок, выделении элементов
их описания и последовательном сужении круга дальнейшего поиска с учетом
результатов предшествующего разбора. Это очень быстродействующий алгоритм, однако
при неверном определении типа публикации (например она определилась как журнал,
а в действительности это сборник статей) дальнейший поиск ведется уже в
публикациях этого типа и обречен неудачу.
Предлагаемый
в данной работе подход решает эту проблему. Для этого предлагается сначала с
очень низким порогом, например 6-7% сформировать расширенный список работ, на одну
из которых может быть привязываемая ссылка, а затем из этого расширенного
списка удаляются варианты, у которых не совпадают безошибочно определяемые при
разборе элементы, такие как год публикации.
Это
предложение напоминает подход, используемый рыбками: сначала широко закинуть невод
и вытащить его со всем, что туда попало, а потом выкинуть все ненужное и
оставить только улов.
Конечно
авторы иногда делают странные вещи: например при публикации в англоязычных
журналах помещают в список литературы ссылки на русскоязычные источники в
переводе их на английский язык или в транслитерации, а не на языке оригинала.
Понятно, конечно, что эти англоязычные издания могут вообще не предусматривать
возможности ссылок на русскоязычные источники. Одна с другой стороны понятно,
что если ссылка сделана в переводе или транслитерации, то предлагаемый подход
не найдет их сходства с русскоязычным библиографическим описание источника.
Предлагается
следующее решение этой проблемы: все русскоязычные библиографические описания
источников обучающей выборки перевести на английский язык и сделать их транслитерацию
с применением различных стандартов транслитерации и дополнить ими обучающую
выборку с теми же номерами файлов, что и
с русскоязычным описанием источника.
Проведение
расчетов по синтезу и верификации моделей источников, а затем по их применению
для привязки ссылок показали, что они имеют достаточно высокую вычислительную
сложность и трудоемкость, требуют значительных вычислительных ресурсов и затрат
времени.
По этим
параметрам предлагаемые и описанные выше в работе подходы не удовлетворяют
требованиям, предъявляемым условиями их практического применения.
Но дело в
том, что они и не предназначены для непосредственного применения на практике.
Очень многие аспекты предлагаемых подходов, освещенные в данной работе не
касаются непосредственно практического применения, а относятся к этапу научного
исследования, который предшествует этапу практического доведения до
инновационного уровня и применения любой разработки.
Самое
главное, что мы должны сделать на этапе научного исследования – это мы должны
путем создания и верификации моделей на большом числе авторов определить
наиболее достоверную модель и порог уровня сходства для определения расширенного
списка ссылок или источников.
Можем, при
наличии такой возможности и желания, провести и другие исследования по
интересующим направлениям, например, исследовать, как на скорость и
достоверность распознавания и привязки влияет лемматизация слов или исключение
из списка слов двух третей наименее ценных из них, а также предлагаемые выше
препроцессоры и постпроцессоры.
Из всего
сделанного на этапе научного исследования и описанного выше, на практике будет
применяться лишь небольшая часть:
1) для
каждого автора на основе списка его публикаций в базах данных РИНЦ будет
формироваться одна модель, а именно та, которая на этапе научного
исследования показала наивысшую достоверность у наибольшего числа авторов;
2) в этой
модели с порогом уровня сходства, определенном на этапе научного исследования,
будет формироваться расширенный список ссылок на каждую работу автора;
3) из
расширенного списка будут исключаться те из них, которые не соответствуют хотя
бы по одному достоверно установленному элементу библиографического описания,
например, году публикации.
Эти задачи
могут на этапе практического применения могут решаться в десятки раз быстрее,
чем аналогичные задачи на этапе научного исследования.
В результате
все это уже может быть вполне может быть применимым на практике. Тем более, что
предлагаемые в работе подходы, включая и саму систему «Эйдос», могут
рассматриваться лишь как прототип для практических решений на платформе
программного обеспечения РИНЦ.
Но на этапе
научных исследований они вполне успешно могут быть применены, собственно
говоря, уже применены, что и описано в данной работе.
В наше время
существует много подходов эффективного использования аппаратных средств для
высокопроизводительных вычислений. Кроме очевидной возможности использования суперкомпьютеров
с параллельными процессорами укажем еще на возможность использования видеокарт
для высокопроизводительных вычислений[36] и кластерные
сетевые вычислительные системы с интеллектуальным управлением задачами и ресурсами[37].
В данной
работе предлагается решение проблемы привязки некорректных ссылок к
литературным источникам путем применения автоматизированного системно-когнитивного
анализа (АСК-анализ) и его программного инструментария – интеллектуальной
системы «Эйдос». Приводится численный пример интеллектуальной привязки реальных
некорректных ссылок к работам автора на основе небольшого объема реальных наукометрических
данных, находящихся в открытом бесплатном on-line доступе в РИНЦ, который
продемонстрировал работоспособность предлагаемого подхода и ряд его преимуществ
перед подходом, применяемым в настоящее время в программном обеспечении РИНЦ.
Таким образом, данная работа является продолжением серии работ автора,
посвященных различным вопросам наукометрии [31, 32, 33] и интеллектуальной
обработки тестов [1-33].
Предлагаются
следующие возможные перспективы дальнейших исследований по теме, которые не
удалось в должной мере осветить в данной работе и которые могут способствовать
развитию данного направления исследований в будущем:
1)
использование многослойных нейронных сетей: препроцессором и постпроцессором в
комбинации с предлагаемым подходом;
2) решение
задачи выявления фактических научных школ и сравнения их с формальными научными
школами;
3) задача
формирования обобщенных образов научных публикаций авторов, научных коллективов
и организаций, как локальных (традиционных), так и виртуальных.
Отметим
также, что наряду с возможностью интеллектуальной привязки ссылок к
литературным источникам в библиографических базах данных материалы данной
работы могут быть использованы при решении ряда других сходных по сути задач
интеллектуальной обработки текстов. Например, предлагаемый подход можно
использовать для поиска аналогов преступлений путем АСК-анализа текстов фабул
преступлений, а также при преподавании дисциплин, связанных с интеллектуальными
технологиями и наукометрией, для проведения лекционных и лабораторных занятий
по этим дисциплинам и при выполнении курсовых и дипломных работ.
Статья
посвящена решению проблемы, заключающейся в том, что с одной стороны рейтинг
российских вузов востребован, а с другой стороны пока он не создан.
Предлагаемая идея решения проблемы состоит в применении отечественной
лицензионной инновационной интеллектуальной технологии для этих целей: а именно
предлагается применить автоматизированный системно-когнитивный анализ
(АСК-анализ) и его программный инструментарий – интеллектуальную систему
«Эйдос». Эти методы подробно описываются
в этом контексте. Предлагается рассмотреть возможности применения данного
инструментария на примере университетского рейтинга Гардиан, и рассматриваются
его частные критерии (показатели вузов). Указываются источники данных и
методика их подготовки для обработки в системе «Эйдос». В соответствии с методологией АСК-анализа описывается установка системы
«Эйдос», ввод исходных данных в нее и формализация предметной области, синтез и
верификация модели, их отображение и применение для решения задач оценки рейтинга
Гардиан для российских вузов и исследования объекта моделирования.
Рассматриваются перспективы и пути создания интегрированного рейтинга
российских вузов и эксплуатации рейтинга в адаптивном режиме. Указываются
ограничения предлагаемого подхода и перспективы его развития
СОДЕРЖАНИЕ
2. Авторский подход к решению проблемы
2.1. Идея предлагаемого решения проблемы
2.3. Частные критерии университетского рейтинга
Гардиан
3.1. Источники исходных данных
3.2. Подготовка исходных данных для системы «Эйдос»
3.3. Установка системы «Эйдос»
3.4. Ввод исходных данных в систему «Эйдос» с
помощью одного и ее программных интерфейсов
4.1. Пилотное исследование и Парето-оптимизация
4.2. Эксплуатация методики в адаптивном режиме
Университетские
рейтинги давно стали общепринятым в мире методом оценки эффективности вузов[38].
Этими
рейтингами для решения различных задач пользуются и потенциальные студенты, и
их родители, и ученые, и руководители. Таким образом, они востребованы
практически всем обществом.
Недавно и
министерство образования и науки РФ обратилось к идее создания подобного
рейтинга для российских вузов, и это в общем нельзя не приветствовать.
Однако первый
опыт создания подобного рейтинга, по-видимому, приходиться признать неудачным,
т.к. он вызвал большой поток совершенно справедливой и хорошо обоснованной
критики со стороны научно-педагогического сообщества. Возражения вызвали,
прежде как сами критерии оценки эффективности вузов[39], так и
полная непрозрачность процедуры формирования этих критериев, а также то, что за
бортом широкого обсуждения (которого, вообще не было) осталось и само понятие
эффективности вузов, т.е. их основное назначение. А ведь именно тем, что
понимается под эффективностью вузов, определяются и критерии ее оценки. Но
предложенные критерии оказались таковы, что у многих возникло вполне
обоснованное подозрение, что под эффективностью вузов при их формировании
понималось вовсе не качество образования, а нечто другое не свойственное вузам.
Эта критика
звучит и на научных конференциях,[40] и в научных
публикациях [1]. А то, о чем не принято говорить на научных конференциях и
писать в научных публикациях, высказывается на форумах и на личных страницах
ученых и педагогов.
Например, на
своем личном сайте доктор педагогических наук профессор А.А.Остапенко пишет: «Основных критериев, как мы помним пять: средний балл ЕГЭ
принятых на обучение студентов; объём научных работ на одного сотрудника; количество
иностранцев-выпускников; доходы вуза в расчёте на одного сотрудника, а также
общая площадь учебно-лабораторных зданий в расчёте на одного студента. Как они
связаны с эффективностью вуза и что такое эффективность вообще понять, мысля
рационально, непросто. Даже всерьёз обсуждать эти критерии как-то странно» [41].
Но мы все же
выскажем одно соображение. На наш взгляд довольно странно выглядит попытка
сравнения друг с другом вузов разных направленности подготовки, т.е. например
аграрных вузов и вузов, готовящих специалистов для атомной и
ракетно-космической промышленности. Иначе говоря, для вузов разной
направленности должны быть разные критерии и основанные на них рейтинги. Для
агарного вуза естественно, что у него есть учебные подсобные хозяйства, фермы, поля,
сады, виноградники, посадки орехов, машинно-тракторные станции и т.п. и т.д. Можете
себе представить что получится, если разделить прибыль аграрного вуза на его
площадь?
Правда со
временем, наверное, в какой-то степени и под влиянием этой критики, позиция
Минобрнауки РФ стала меняться. А то, что к тому времени уже успели закрыть
несколько вузов, как говорят: «имеющих признаки
неэффективности»[42], – это как
бы и не так важно. Кроме того вузы, имевшие много филалов, отказались от них,
т.к. они в основном были малоэтажными и «увеличивали признаки неэффективности».
Естественно, эти филиалы сразу же стали филиалами московских вузов, после чего
об этих одиозных критериях эффективности вузов как-то потихоньку и забыли,
наверное потому, что они уже выполнили свою функцию: перераспределение
собственности вузов от периферии в пользу центра. Динамику этих изменений
позиции профильного министерства можно проследить по Нормативно-правовым документам
Минобрнауки РФ, устанавливающим критерии оценки эффективности деятельности вузов[43].
Таким
образом, налицо проблема, которая
состоит в том, что с одной стороны рейтинг российских вузов востребован, а с
другой стороны как-то пока не очень получается его сформировать. То есть, как
обычно желаемое не совпадает с действительным, и «хотели как лучше, а вышло как
всегда» (В.С.Черномырдин).
Существует несколько популярных и авторитетных рейтингов
вузов1:
– Университетский рейтинг The Guardian[44];
– Университетский рейтинг Times[45];
– Мировой рейтинг Times Higher Education[46];
– Рейтинг мировых вузов Шанхайского Университета[47].
Мы не будем их здесь описывать, т.к. по ним достаточно
информации в общем доступе, в т.ч. по приведенным ссылкам.
Но хотели бы отметить, что для поддержки любого подобного
рейтинга необходима соответствующая инфраструктура, оснащенная различными
видами обеспечения ее деятельности (финансовое, кадровое, организационное,
техническое, математическое, программное, информационное и т.д.). Все эти виды
обеспечения в совокупности представляют собой технологию ведения и применения
данного рейтинга.
Естественно, никто технологию не продает, а если и
продает, то так дорого, что купить ее практически невозможно. Поэтому возникает
вопрос о разработке или поиске подобной технологии в России.
Таким образом, востребованы теоретическое обоснование,
математическая модель, методика численных расчетов (т.е. структуры данных и
алгоритмы их обработки) а также реализующие их инструментальные (программные)
средства, обеспечивающие создание, поддержку, развитие и применение подобных рейтингов.
Данная статья как раз и посвящена рассмотрению отечественной
лицензионной инновационной интеллектуальной технологии, обеспечивающей решение
поставленной проблемы. А именно предлагается применить для этой цели
автоматизированный системно-когнитивный анализ (АСК-анализ) и его программный
инструментарий – интеллектуальную систему «Эйдос».
Этот подход кратко описан в статье [2]. Здесь
рассмотрим его подробнее.
Прежде всего, возникает вопрос о том, что
понимается под эффективностью вузов? Ведь ясно, что прежде чем
оценивать эффективность вузов было бы неплохо, а на самом деле совершенно
необходимо, разобраться с тем, что же это такое. Причина этого ясна: выбор
критериев оценки во многом обуславливается тем, что именно оценивается.
Ясно, что по этому поводу существует много различных
мнений, которые в различной степени аргументированы или не аргументированы и
отражают позиции руководителей образования и науки, профессионального
научно-педагогического сообщества и различных слоев населения. По мнению
автора, с научной точки зрения некорректно и неуместно говорить о каких-то
критериях оценки эффективности вузов, если не определено само это понятие
эффективности, т.е. отсутствует консенсус в профессиональной среде по поводу
того, что же это такое.
Очевидно, для достижения такого консенсуса в наше
время необходимо широкое обсуждение этого вопроса в научной печати, Internet и
СМИ. Однако такое обсуждение не было организовано и критерии оценки
эффективности или признаков неэффективности практически неожиданно «свалились
научно-педагогическому сообществу как снег на голову».
Уже после этого, как это произошло, началось
обсуждение этого вопроса на различных научных конференциях, в научной и
периодической прессе, на личных сайтах, формах и т.п. Но пока шло это
обсуждение и пока оно не пришло к какому-либо консенсусу в этом вопросе, ряд
вузов были закрыты, филиалы сокращены и т.д.
По мнению автора, цель вуза в том, чтобы формировать
компетентных и творчески мыслящих специалистов в соответствии с прогнозом
социального заказа, т.е. таких, которые будут востребованы обществом в будущем
периоде профессиональной деятельности этих специалистов, который составляет
30-40 лет. А должен ли вуз зарабатывать, должен ли он иметь те или иные площади
в расчете на одного учащегося – это все нужно знать только для того, чтобы
спрогнозировать, сможет ли он выполнить свою основную задачу, т.е. подготовку
специалистов. Ни в коем случае нельзя рассматривать эти показатели как
самоцель, т.к. достижение тех или иных их значений, вообще говоря, может и
ничего не говорить о достижении цели вуза. Несут ли эти критерии какую-либо
информацию о достижении цели вуза, и какую именно по величине и знаку, – это
еще надо определить в процессе специального исследования, которое, скорее всего
не было проведено. Странно, что об этом приходиться писать, но приходиться,
т.к. похоже, об этом стали забывать.
Когда консенсус профессионального
научно-педагогического сообщества по вопросу о том, что же понимать под
«эффективностью вуза» будет достигнут, на первый план выступает вопрос о том, с
помощью
какого метода оценивать эту эффективность, т.е. как
ее измерить.
Для автора вполне очевидно, что этот метод должен представлять
собой какой-то вариант метода многокритериальной оценки. Это обусловлено просто
тем, что такие сложные и многофакторные системы как вузы в принципе невозможно
оценивать по одному показателю или критерию.
Чтобы обоснованно выбрать метод оценки эффективности вузов необходимо
сначала научно обосновать требования к нему, а затем составить рейтинг методов
по степени соответствия обоснованным требованиям и выбрать метод, наиболее удовлетворяющий
обоснованным требованиям.
Применение метода факторного анализа для этих целей,
по-видимому, некорректно, т.к. этот метод, предъявляющий настолько жесткие
требования к исходным данным об объекте моделирования, что их практически
невозможно выполнить. Во-первых, факторный анализ – это параметрический метод, предполагающий, что исходные данные
подчиняются многомерным нормальным распределениям. Во-вторых, это метод неустойчивый, т.е. небольшие изменения
исходных данных могут привести к значительным изменениям в модели. Поэтому
исходные данные для факторного анализа должны быть абсолютно точными, что
невозможно не только фактически, но даже в принципе. В-третьих, перед началом факторного анализа
необходимо определить наиболее важные
факторы, которые и будут исследоваться в создаваемой модели. Но при этом в
руководствах по факторному анализу не уточняется, каким способом это
предлагается сделать. А между тем при большом количестве факторов, что является
обычным для большинства реальных задач, это не тривиальная задача, которую
вручную решить невозможно.
Когда метод оценки эффективности вузов выбран, необходимо
ответить на вопрос о том, на основе каких частных критериев
оценивать эффективность вузов и какой исходной информацией о вузах для этого
необходимо располагать?
Ясно, что эти критерии в общем случае могут иметь как
количественную, так и качественную природу и могут измеряться в различных единицах
измерения. Кроме того эти критерии могут иметь различную силу и направление
влияния на интегральную оценку эффективности вузов. Конечно, возникают вопросы
как о
способе определения системы критериев эффективности вуза, так и о
способе определения силы и направления влияния критериев на оценку
эффективности вузов.
Но еще более существенным является вопрос: «О
способе сопоставимого сведения разнородных по своей природе и измеряемых в
различных единицах измерения частных критериев эффективности в один
количественный интегральный критерий эффективности вуза».
Отметим, что в материалах Минобрнауки РФ и о критериях
оценки эффективности вузов[48] даже не упоминается вопрос о том, что когда значения
частных критериев для того или иного вуза установлены, то необходимо каким-то
образом на их основе получить обобщающую количественную оценку его эффективности
в виде одного числа, т.е. надо
как-то объединить значения всех частных критериев в одной формуле, в одном
математическом выражении, которое и называется «Интегральный критерий».
Поэтому, наверное, и говорят не об эффективности или неэффективности
вуза, а всего лишь «о признаках неэффективности», а признаками являются
значения отдельных частных критериев. Если таких признаков неэффективности
много, то делают вывод о том, что вуз неэффективен. Фактически такой подход,
который может быть и применялся, можно назвать неосознанным применением частных
критериев и интегрального критерия, т.е. «неосознанным многокритериальным
подходом». При таком подходе все частные критерии имеют одинаковый вес,
например принимающий значения 0 (неэффективен) и 1 (эффективен). Когда значения
всех частных критериев для вуза установлены, то эти веса суммируются и сумма
сравнивается с минимальными и максимальными оценками, полученными для всех
вузов. Допустим, в Минобрнауки РФ из каких-то своих соображений решили, что в
результате оценки эффективности вузов должно быть закрыто из-за низкой
эффективности 1.5% вузов. Тогда все вузы сортируются по убыванию этой суммы и
1.5% с конца рейтинга помещаются в «черный список».
Но такой «неосознанный многокритериальный подход»
очень и очень уязвим для критики.
Во-первых, возникает законный вопрос о том, почему все критерии
имеют одинаковый вес, хотя даже интуитивно ясно, что они имеют разное значение
и по-разному влияют на эффективность вуза (которая, кстати, непонятно в чем
заключается).
Во-вторых, непонятно, как можно складывать средний балл ЕГЭ принятых на обучение
студентов, объём научных работ на одного сотрудника, количество
иностранцев-выпускников, доходы вуза в расчёте на одного сотрудника и общую
площадь учебно-лабораторных зданий в расчёте на одного студента. За подобные
математические операции ставят двойку по физике в 7-м классе средней школы. Там
школьников учат, что перед тем как складывать величины, измеренные в разных
единицах измерения, например рост учащихся, выраженный в метрах (1.72) и выраженный
в сантиметрах (160), нужно перевести эти величины в одну единицу измерения,
например в метры или в сантиметры. А иначе получится: 1.72+160=161.72, т.е.
некий результат, не поддающийся разумной содержательной интерпретации[49]. Как бы нечто похожее и на таком же научном уровне не
получилось при оценке наличия у вуза «признаков неэффективности». Но
научно-педагогическую общественность не поставили в известность о том, каким
образом вычисляется интегральная оценка эффективности вуза на основе установленных
для него значений частных критериев. Поэтому высказанное опасение остается не
снятым.
В развитом осознанном многокритериальном подходе для
вычисления значения интегрального критерия нужно знать силу и направление
влияния каждого значения частных критериев на величину этого интегрального
критерия. Интегральные критерии бывают трех видов: аддитивные,
мультипликативные и общего вида. Чаще всего используются аддитивные
интегральные критерии, в которых значение интегрального критерия равно просто
сумме значений частных критериев. Но чтобы значения частных критериев можно
было корректно суммировать необходимо, чтобы они были значениями на числовых
измерительных шкалах [3], и чтобы они измерялись в одних и тех же единицах
измерения или были безразмерными.
Оба эти требования выполняются в Автоматизированном
системно-когнитивном анализе (АСК-анализ), в котором все значения всех
факторов, независимо от того количественные они или качественные и в каких
единицах они измеряются в исходных данных, в моделях системы «Эйдос»
(системно-когнитивных моделях) они все измеряются в одних и тех же единицах
измерения – единицах количества информации [2, 3]. Поэтому метод АСК-анализа и предлагается для решения
поставленной проблемы.
АСК-анализ представляет собой один из современных методов
искусственно интеллекта, который предоставляет научно обоснованные ответы на
все эти вопросы, но самое существенное, что он оснащен широко и успешно
апробированным универсальным программным инструментарием, позволяющим решить
эти вопросы не только как обычно на теоретическом концептуальном уровне, но и
на практике [2]. Модели знаний АСК-анализа основаны на нечеткой декларативной
модели представления знаний, предложенной автором в 1983 году и являющейся
гибридной моделью, сочетающей в себе преимущества фреймовой, нейросетевой и
четкой продукционной моделей и обеспечивающей создание моделей очень больших
размерностей до 10 млн. раз превышающих максимальные размерности моделей знаний
экспертных систем с четкими продукциями:
– от фреймовой модели модель представления знания системы
«Эйдос» отличается существенно упрощенной программной реализацией и более
высоким быстродействием без потери функциональности;
– от нейросетевой тем, что обеспечивает хорошо обоснованную
теоретически содержательную интерпретацию весовых коэффициентов на рецепторах и
обучение методом прямого счета [8];
– от четкой продукционной модели – нечеткими продукциями,
представленными в декларативной форме, что обеспечивает эффективное
использование знаний без их многократной генерации для решения задач
идентификации, прогнозирования, принятия решений и исследования моделируемого
объекта.
АСК-анализ
является непараметрическим методом, устойчивым к шуму в исходных данных,
позволяющий корректно обрабатывать неполные (фрагментированные) исходные
данные, описывающие воздействие взаимозависимых факторов на нелинейный [7]
объект моделирования.
Суть метода АСК-анализа в том, что он позволяет рассчитать
на основе исходных данных какое количество
информации содержится в значениях факторов, обуславливающих переходы
объекта моделирования в различные будущие состояния, причем как в желательные,
так и в нежелательные [3].
Он состоит в целенаправленном последовательном повышении степени
формализации исходных данных до уровня, который позволяет ввести
исходные данные в компьютерную систему, а затем преобразовать исходные данные в информацию; информацию преобразовать в знания; использовать знания для решения задач прогнозирования, принятия
решений и исследования предметной области.
Рассмотрим подробнее вопросы выявления, представления
и использования знаний в АСК-анализе и системе «Эйдос».
Данные – это
информация, записанная на каком-либо носителе или находящаяся в каналах связи и
представленная на каком-то языке или в системе кодирования и рассматриваемая
безотносительно к ее смысловому содержанию.
Исходные данные об объекте управления обычно представлены
в форме баз данных, чаще всего временных рядов, т.е. данных, привязанных ко
времени. В соответствии с методологией и технологией автоматизированного системно-когнитивного
анализа (АСК-анализ), развиваемой проф. Е.В.Луценко, для управления и принятия
решений использовать непосредственно исходные данные не представляется
возможным. Точнее сделать это можно, но результат управления при таком подходе оказывается мало чем
отличающимся от случайного. Для реального же решения задачи управления
необходимо предварительно преобразовать данные в информацию, а ее в знания о
том, какие воздействия на корпорацию к каким ее изменениям обычно, как показывает
опыт, приводят.
Информация есть
осмысленные данные.
Смысл данных, в соответствии с концепцией смысла Шенка-Абельсона,
состоит в том, что известны причинно-следственные зависимости между событиями,
которые описываются этими данными. Таким образом, данные преобразуются в
информацию в результате операции, которая называется «Анализ данных», которая
состоит из двух этапов:
1. Выявление событий в данных (разработка классификационных
и описательных шкал и градаций и преобразование с их использованием исходных
данных в обучающую выборку, т.е. в базу событий – эвентологическую базу).
2. Выявление причинно-следственных зависимостей между
событиями.
В случае систем управления событиями в данных являются
совпадения определенных значений входных факторов и выходных параметров объекта
управления, т.е. по сути, случаи перехода объекта управления в определенные
будущие состояния под действием определенных сочетаний значений управляющих факторов.
Качественные значения входных факторов и выходных параметров естественно
формализовать в форме лингвистических переменных. Если же входные факторы и
выходные параметры являются числовыми, то их значения измеряются с некоторой погрешностью
и фактически представляют собой интервальные числовые значения, которые также
могут быть представлены или формализованы в форме лингвистических переменных
(типа: «малые», «средние», «большие» значения экономических показателей).
Какие же математические меры могут быть использованы
для количественного измерения силы и направления причинно-следственных зависимостей?
Наиболее очевидным ответом на этот вопрос, который
обычно первым всем приходит на ум, является: «Корреляция». Однако, в статистике
это хорошо известно, что это совершенно не так.
Для преобразования исходных данных в информацию необходимо не только
выявить события в этих данных, но и найти причинно-следственные связи между
этими событиями. В АСК-анализе предлагается 7 количественных мер
причинно-следственных связей, основной из которых является семантическая мера
целесообразности информации по А.Харкевичу.
Знания – это
информация, полезная для достижения целей[50].
Значит для преобразования информации в знания необходимо:
1. Поставить цель (классифицировать будущие состояния
моделируемого объекта на целевые и нежелательные).
2. Оценить полезность информации для достижения этой
цели (знак и силу влияния).
Второй пункт, по сути, выполнен при преобразовании данных
в информацию. Поэтому остается выполнить только первый пункт, т.к.
классифицировать будущие состояния объекта управления как желательные (целевые)
и нежелательные.
Знания могут быть представлены в различных формах, характеризующихся
различной степенью формализации:
– вообще
неформализованные знания, т.е. знания в своей собственной форме, ноу-хау
(мышление без вербализации есть медитация);
– знания, формализованные в естественном вербальном
языке;
– знания, формализованные в виде различных методик,
схем, алгоритмов, планов, таблиц и отношений между ними (базы данных);
– знания в форме технологий, организационных, производственных,
социально-экономических и политических структур;
– знания, формализованные в виде математических
моделей и методов представления знаний в автоматизированных интеллектуальных
системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая
и другие).
Таким образом, для решения сформулированной проблемы
необходимо осознанно и целенаправленно последовательно повышать степень
формализации исходных данных до уровня, который позволяет ввести исходные
данные в интеллектуальную систему, а затем:
– преобразовать исходные данные в информацию;
– преобразовать информацию в знания;
– использовать знания для решения задач управления, принятия
решений и исследования предметной области.
Рисунок 1.
Соотношение содержания понятий: «Данные», «Информация»,
«Знания» и этапы последовательного повышения степени формализации
модели от данных к информации, а от нее к знаниям
АСК-анализ имеет следующие этапы [2]:
– когнитивно-целевая структуризация предметной
области;
– формализация предметной области (формирование классификационных
и описательных шкал и градаций и обучающей выборки);
– синтез и верификация статистических и
системно-когнитивных моделей;
– решение задач идентификации, прогнозирования, принятия
решений и исследования предметной области в наиболее достоверных из созданных моделей.
Единственный
неавтоматизированный в системе «Эйдос» этап – это первый, а остальные приведены
на рисунке 1.
АСК-анализ имеет ряд
особенностей, которые обусловили его выбор в качестве метода решения проблемы:
1. Имеет теоретическое обоснование, основой
которого является семантическая
мера целесообразности информации А.Харкевича.
2. Обеспечивает корректную сопоставимую количественную
обработку разнородных по своей природе факторов, измеряемых в различных
единицах измерения, высокую точность и независимость результатов
расчетов от единиц измерения исходных данных.
3. Обеспечивает построение многомерных моделей объекта
моделирования непосредственно на основе неполных и искаженных эмпирических
данных о нем.
4. Имеет развитую и доступную программную реализацию в
виде универсальной когнитивной аналитической системы «Эйдос».
Очень важно, что этот инструментарий и методики его использования
для решения сформулированных задач могут быть доступны всем заинтересованным
сторонам не только на федеральном уровне, но и в самих вузах, что позволит им
осуществлять аудиторскую самооценку и видеть свое место и динамику среди других
вузов. Это позволит руководителям вузов принимать более осознанные и научно
обоснованные решения, направленные на повышение эффективности и рейтинга их
вуза. Конечно, для реализации на практике регулярного рейтингового анализа
вузов необходимо создание соответствующей достаточно разветвленной инфраструктуры.
Более подробному и конкретному исследованию связанных
с этим вопросов и посвящена данная работа, в которой далее кратко
расстраивается университетский рейтинг Гардиан (который выбран просто в
качестве примера), а затем приводится численный пример его реализации в форме
приложения интеллектуальной системы «Эйдос». Отметим, что создание этого приложения
не требует программирования [4-6],
т.е. система «Эйдос» анализирует исходные данные рейтинга и строит модель, в
которой отражено как влияют значения частных критериев на значение
интегрального критерия, т.е. на итоговую общую оценку рейтинга вуза.
Университетский
рейтинг Гардиан[51] выгодно отличается от других тем, что измеряет
качество преподавания, использования учебных ресурсов, а также оценивает
уровень исследовательской деятельности, что очень полезно для тех, кто
интересуется послевузовскими программами – магистратурой, докторантурой и проч.
Как указано
на официальном сайте рейтинга10 в нем используются следующие частные критерии:
1. Качество преподавания, которое оценивается национальным
студенческим исследованием (NSS): процент удовлетворенных студентов.
2. Получение обратной связи от преподавателя и качество
заданий. Оценивается опросом NSS, в котором устанавливается процент удовлетворенных
студентов.
3. Результаты опроса NSS, в котором оценивается процент
студентов, удовлетворенных общим качеством выбранной программы.
4. Затраты на студента – оценка по 10-балльной шкале.
5. Соотношение студент – работник вуза: количество студентов
на штатную единицу университета.
6. Карьерные перспективы: процент выпускников, сумевших
найти работу или продолжить обучение в течение полугода после окончания вуза.
7. Уровень прогресса студентов на основе сравнения университетских
результатов с оценками предыдущего сертификата (обычно, школьного или
университетского): оценка по 10-балльной шкале. Данный показатель
демонстрирует, насколько преподавательский состав способен повлиять на
улучшение успеваемости студентов.
8. Проходной балл при поступлении в вуз на основе оценок
предыдущего сертификата обучения (школьный или университетский сертификат).
Отметим, что считаем важным
достоинством данного рейтинга то, что он ведется по различным направлениям
подготовки, которых 45 (таблица 1):
Таблица 1 – Направления подготовки, по которым
проводился
университетский рейтинг Гардиан
№ |
Наименование |
1 |
Agriculture, forestry and
food |
2 |
American studies |
3 |
Anatomy and physiology |
4 |
Anthropology |
5 |
Archaeology and Forensics |
6 |
Architecture |
7 |
Art and design |
8 |
Biosciences |
9 |
Building and town and
country planning |
10 |
Business and management
studies |
11 |
Chemistry |
12 |
Classics |
13 |
Computer sciences and IT |
14 |
Dentistry |
15 |
Drama and dance |
16 |
Earth and marine sciences |
17 |
Economics |
18 |
Education |
19 |
Engineering: chemical |
20 |
Engineering: civil |
21 |
Engineering: electronic and
electrical |
22 |
Engineering: general |
23 |
Engineering: materials and
mineral |
24 |
Engineering: mechanical |
25 |
English |
26 |
Geography and environmental
studies |
27 |
History and history of art |
28 |
Law |
29 |
Mathematics |
30 |
Media studies,
communications and librarianship |
31 |
Medicine |
32 |
Modern languages and
linguistics |
33 |
Music |
34 |
Nursing and paramedical
studies |
35 |
Pharmacy and pharmacology |
36 |
Philosophy |
37 |
Physics |
38 |
Politics |
39 |
Psychology |
40 |
Religious studies and
theology |
41 |
Social policy and
administration |
42 |
Sociology |
43 |
Sports science |
44 |
Tourism, transport and
travel |
45 |
Veterinary science |
В университетском рейтинге Гардиан содержатся рейтинги
следующих 155 вузов (таблица 2):
Таблица 2 – Вузы, по которым есть информация
в университетском рейтинге Гардиан
№ |
Наименование |
1 |
Aberdeen |
2 |
Abertay Dundee |
3 |
Aberystwyth |
4 |
Anglia Ruskin |
5 |
Arts UC, Bournemouth |
6 |
Aston |
7 |
Bangor |
8 |
Bath |
9 |
Bath Spa |
10 |
Bedfordshire |
11 |
Birmingham |
12 |
Birmingham City |
13 |
Bishop Grosseteste UC |
14 |
Bolton |
15 |
Bournemouth |
16 |
Bradford |
17 |
Brighton |
18 |
Brighton Sussex Medical
School |
19 |
Bristol |
20 |
Brunel |
21 |
Buckingham |
22 |
Bucks New University |
23 |
Cambridge |
24 |
Canterbury Christ Church |
25 |
Cardiff |
26 |
Central Lancashire |
27 |
Central School of Speech and
Drama |
28 |
Chester |
29 |
Chichester |
30 |
City |
31 |
Conservatoire for Dance and
Drama |
32 |
Courtauld Institute |
33 |
Coventry |
34 |
Cumbria |
35 |
De Montfort |
36 |
Derby |
37 |
Dundee |
38 |
Durham |
39 |
East London |
40 |
Edge Hill |
41 |
Edinburgh |
42 |
Edinburgh College of Art |
43 |
Edinburgh Napier |
44 |
Edinburgh School of
Architecture |
45 |
Essex |
46 |
Exeter |
47 |
Glamorgan |
48 |
Glasgow |
49 |
Glasgow Caledonian |
50 |
Glasgow School of Art |
51 |
Gloucestershire |
52 |
Glyndwr |
53 |
Goldsmiths |
54 |
Greenwich |
55 |
Guildhall School of Music
and Drama |
56 |
Harper Adams UC |
57 |
Heriot-Watt |
58 |
Hertfordshire |
59 |
Heythrop College |
60 |
Huddersfield |
61 |
Hull |
62 |
Hull York Medical School |
63 |
Imperial College |
64 |
Keele |
65 |
Kent |
66 |
King's College London |
67 |
Kingston |
68 |
Lancaster |
69 |
Leeds |
70 |
Leeds College of Music |
71 |
Leeds Met |
72 |
Leeds Trinity University
College |
73 |
Leicester |
74 |
Lincoln |
75 |
Liverpool |
76 |
Liverpool John Moores |
77 |
London Met |
78 |
London School of Economics |
79 |
London South Bank |
80 |
Loughborough |
81 |
Manchester |
82 |
Manchester Met |
83 |
Manchester School of
Architecture |
84 |
Marjon (St Mark and St John) |
85 |
Middlesex |
86 |
Newcastle |
87 |
Newman University College |
88 |
Newport |
89 |
Northampton |
90 |
Northumbria |
91 |
Norwich UC of the Arts |
92 |
Nottingham |
93 |
Nottingham Trent |
94 |
Oxford |
95 |
Oxford Brookes |
96 |
Peninsula Medical School |
97 |
Plymouth |
98 |
Portsmouth |
99 |
Queen's, Belfast |
100 |
Queen Margaret |
101 |
Queen Mary |
102 |
Ravensbourne |
103 |
Reading |
104 |
Robert Gordon |
105 |
Roehampton |
106 |
Rose Bruford College |
107 |
Royal Academy of Music |
108 |
Royal Agricultural College |
109 |
Royal College of Music |
110 |
Royal Holloway |
111 |
Royal Northern College of
Music |
112 |
Royal Scottish Academy of
Music and Drama |
113 |
Royal Veterinary College |
114 |
Salford |
115 |
School of Pharmacy |
116 |
Sheffield |
117 |
Sheffield Hallam |
118 |
SOAS |
119 |
Southampton |
120 |
Southampton Solent |
121 |
St Andrews |
122 |
St George's Medical School |
123 |
St Mary's UC, Belfast |
124 |
St Mary's UC, Twickenham |
125 |
Staffordshire |
126 |
Stirling |
127 |
Stranmillis UC |
128 |
Strathclyde |
129 |
Sunderland |
130 |
Surrey |
131 |
Sussex |
132 |
Swansea |
133 |
Teesside |
134 |
Thames Valley |
135 |
The Liverpool Institute for
Performing Arts |
136 |
Trinity Laban Conservatoire |
137 |
Trinity Saint David |
138 |
UC Falmouth |
139 |
UC Suffolk |
140 |
UCL |
141 |
UEA |
142 |
Ulster |
143 |
University College
Birmingham |
144 |
University for the Creative
Arts |
145 |
University of the Arts, London |
146 |
UWE Bristol |
147 |
UWIC |
148 |
Warwick |
149 |
West of Scotland |
150 |
Westminster |
151 |
Winchester |
152 |
Worcester |
153 |
Writtle College |
154 |
York |
155 |
York St John |
Однако интегральный критерий, позволяющий получить
рейтинговую оценку вуза на основе установленных для него значений частных
критериев, на официальном сайте рейтинга Гардиан[52] не приводится. Поэтому для того, чтобы применить данный
рейтинг на практике необходимо реконструировать его интегральный критерий и
создать модель, отражающую силу и знак связи между значениями частных критериев
и значениями интегрального критерия. Решим эту задачу в системе «Эйдос» на численном
примере на основе реальных данных рейтинга Гардиан.
В нижней
части одной из страниц официального сайта университетского рейтинга Гардиан[53] есть ссылка
на Excel-таблицу, которую мы использовали в качестве исходных данных:
Download the data
• DATA: download the full spreadsheet.
Кликнув по
этой ссылке, мы получаем on-line доступ к этой Excel-таблице (рисунок 2).
Чтобы скачать
эту таблицу на локальном компьютере нужно кликнуть слева вверху по пункту меню
«Файл», а затем выбрать: «Сохранить как» и указать тип файла.
Рисунок 2.
Excel-таблица исходных данных по университетскому рейтингу Гардиан с
официального сайта рейтинга (фрагмент)
Однако в
соответствии с 1-м и единственным не автоматизированным в системе «Эйдос»
этапом АСК-анализа, который называется: «Когнитивно-целевая структуризация
предметной области» перед созданием интеллектуального приложения мы должны
определиться, что мы хотим определять с помощью модели и на основе чего.
В данной
задаче для каждого университета по значениям его показателей мы бы хотели
определить:
– обобщающий
рейтинг Гардиан (Guardian score/100);
– рейтинг по
каждому из направлений подготовки (Rank), перечисленных в таблице 1;
– основное
(профилирующее) направление подготовки (Field of study).
– само
наименование университета (Name of Institution).
Наименования
показателей университета:
1. % Satisfied with Teaching.
2. % Satisfied overall with course.
3. Expenditure per student (FTE).
4. Student:staff ratio.
5. Career prospects.
6. Value added score/10.
7. Average Entry Tariff.
8. % Satisfied with Assessment.
Перевод этих
показателей на русский язык приведен в разделе 2.3.
Учитывая эти
результаты выполнения 1-го этапа АСК-анализа, перед для вводом данных в систему
«Эйдос», таблицу, скачанную на предыдущем шаге с официального сайта рейтинга
Гардиан и приведенную на рисунке 2, необходимо преобразовать в такую форму,
которая бы отражала те способы группировки данных по университетам, которые нас
интересуют и соответствовала бы требованиям системы «Эйдос» к внешним базам исходных
данных (рисунок 3).
Для этого
преобразуем таблицу, приведенную на рисунке 2, следующим образом:
1. Добавим
лист (вкладку) с наименованием: «Inp_data» на 1-ю позицию. На этом листе будет
формироваться результат для ввода данных всех данных по рейтингу в систему
«Эйдос».
2.
Переименуем наименования всех вкладок с рейтингами по направлений подготовки,
полностью убирая текстовое наименование направления подготовки и оставляя
только его номер (код). Это нужно для того, чтобы проще было писать формулы со
ссылками на листы с информацией о рейтингах по направлениям подготовки.
3. Добавим
отладочную страницу «P», на которой апробируем способ отображения абсолютного
рейтинга в относительный (нормированный). Дело в том, что в таблице на рисунке
2 в каждом рейтинге по направлению подготовки участвует разное число
университетов, а рейтингом является просто порядковый номер в списке. В
результате рейтинги по направлениям подготовки изменяются в различных пределах
от 1 до числа университетов, имеющих данное направление подготовки. В
результате такие рейтинги оказываются несопоставимыми,
что нас не устраивает Чтобы преодолеть эту проблему мы нормировали абсолютные
рейтинги по направлениям подготовки к 10-бальной числовое шкале, т.е.
преобразовали их в относительные. Можно было взять и любое другое число
градаций шкалы, но мы посчитали, что такая шкала обеспечивает необходимую и
достаточную для практики точность. Кроме того этот лист мы затем используем для
модификации листов с рейтингами по направлениям подготовки. В таблице 3
приведены результат нормирования абсолютного рейтинга с 27 градациями и
формулы, с помощью которых это делается.
Рисунок 3.
Экранная форма системы «Эйдос»
с описанием требований к внешним базам исходных данных
Таблица 3 –
Способ и результат нормирования
абсолютного
рейтинга по направлению подготовки
Результат нормирования абсолютного рейтинга |
Способ (формулы) нормирования
абсолютного рейтинга |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Получим
выражение для линейного отображения абсолютной шкалы, с числом градаций X2 в относительную шкалу, с заданным
числом градаций Y2
(рисунок 4).
Из рисунка 4
видно, что:
Откуда
получаем искомое выражение для нормировки:
где:
C – относительный рейтинг;
A – абсолютный рейтинг;
Y1 –значение начальной градации шкалы
относительного рейтинга;
Y2 –значение конечной градации шкалы
относительного рейтинга (число градаций, если Y1 = 1);
X1 – значение начальной градации шкалы
абсолютного рейтинга;
X2 – значение конечной градации шкалы
абсолютного рейтинга (число градаций, если X1 = 1).
Этому
выражению можно придать вид линейного уравнения, но нам в этом нет
необходимости.
Рисунок 4. К
выводу выражения для линейного отображения абсолютной шкалы в относительную
шкалу (линейная нормировка абсолютной шкалы)
4. На
следующем шаге:
– копируем
таблицу для нормировки абсолютных шкал на все листы с рейтингами по
направлениям подготовки;
– корректируем
значение X2 на фактическое
в данной абсолютной шкале.
В результате
и получаем такие листы (таблица 4):
Таблица 4 –
Преобразование абсолютного рейтинга по направлению
подготовки: «Медицина» в относительный (нормированный)
Отметим, что
значение Y2=10 во всех листах берется с листа «P» с исходной
таблицей для преобразования абсолютных шкал в относительные, и, если его
изменить там, то оно сразу меняется на всех листах с рейтингами по направлениям
подготовки.
5. Затем
формируем лист для ввода данных в систему «Эйдос». Для этого мы собираем на
одном листе данные со всех листов с рейтингами по направлениям подготовки
(таблица 5).
В таблице 5
приводится лишь фрагмент исходных данных, т.к. их распечатка составляет 25
листов.
Отметим, что
исходный файл и файл исходных данных находятся на сайте автора в полном
открытом бесплатном доступе на страничке: http://lc.kubagro.ru/ej_data/1071503001/Downloads.rar.
Ниже
приведена таблица 6 с формулами для расчета таблицы 5.
Таблица 5 –
Исходные данные по рейтингу Гардиан, подготовленные для ввода в систему «Эйдос»
(фрагмент)
Таблица 6 –
Формулы для расчета исходных данных по рейтингу Гардиан,
для их подготовки к для ввода в систему «Эйдос» (фрагмент)
Скачиваем и
устанавливаем систему «Эйдос». Это наиболее полная на данный момент незащищенная от несанкционированного
копирования портативная (portable) версия системы (не требующая инсталляции) с
исходными текстами, находящаяся в полном открытом бесплатном доступе (около
100 Мб). Обновление имеет объем около 6 Мб.[54]
ИНСТРУКЦИЯ
по скачиванию и установке системы «Эйдос»
(объем около 100 Мб)
Система не требует инсталляции, не меняет никаких
системных файлов и содержимого папок операционной системы, 1. Скачать самую новую на текущий момент полную версию
системы «Эйдос-Х++» (около 100 Мб) с сайта разработчика
по ссылкам: 2. Разархивировать этот архив в любую папку с правами на
запись с коротким латинским именем и путем доступа, . 3. Запустить систему. Файл запуска: _AIDOS-X.exe. 4. Задать имя: 1 и пароль: 1 (потом их можно поменять в
режиме 1.2). 5. Перед тем как запустить новый режим НЕОБХОДИМО
ЗАВЕРШИТЬ предыдущий (Help можно не закрывать). Окна
закрываются в порядке, обратном порядку их открытия. |
Разработана программа: «_START_AIDOS.exe», полностью
снимающая с пользователя системы «Эйдос-Х++» заботу о проверке наличия и
скачивании обновлений. Эту программу надо просто скачать по ссылке:http://lc.kubagro.ru/_START_AIDOS.exe, поместить в папку с исполнимым модулем системы и всегда запускать
систему с помощью этого файла. Если библиотеки (*.DLL) системы «Эйдос-Х++» расположены в папке, на
которую прописан путь поиска (скачиваются по п.1), то вместо выполнения
пунктов 1,2,3 можно просто запускать файл: «_START_AIDOS.exe»
и он сам все скачает, развернет и даже запустит систему «Эйдос-Х++». При запуске программы _START_AIDOS.exe
система «Эйдос-Х++» не
должна быть запущена, т.к. она содержится в файле обновлений и при его
разархивировании возникнет конфликт, если система будет запущена. 1. Программа _START_AIDOS.exe
определяет дату исполнимого модуля системы «Эйдос» в текущей папке: _AIDOS-X.exe и дату обновлений на FTP-сервере
разработчика не скачивая их,
и, если исполнимый модуль системы «Эйдос» в текущей папке устарел, то
скачивает минимальные обновления Downloads.exe объемом около 6 Мб. Если же в текущей папке вообще нет исполнимого
модуля системы «Эйдос»: _AIDOS-X.exe, то программа _START_AIDOS.exe
скачивает полную инсталляцию системы «Эйдос» объемом около 100 Мб в виде
самораспаковывающегося архива Update.exe.
Процесс скачивания отображается в виде диалогового с соответствующим
сообщением. 2. После завершения процесса
скачивания появляется
диалоговое окно с сообщением, что надо сначала разархивировать систему, заменяя все
файлы (опция: «Yes to All» или «OwerWrite All»), и только затем закрыть данное окно. 3. Потом программа _START_AIDOS.exe
запускает скачанные обновления на разархивирование. После окончания
разархивирования окно архиватора с отображением стадии процесса исчезает. 4. После закрытия диалогового окна
с инструкцией (см. п.2), происходит запуск обновленной версии системы «Эйдос»
на исполнение. 5. Если Вы собираетесь работать с
текстами, то необходимо скачать базу данных для лемматизации “Lemma.DBF” по ссылке: http://lc.kubagro.ru/Lemma.rar и разархивировать ее в папку с системой «Эйдос-Х++» (архив имеет
размер около 10 Мб, сама база около 200 Мб). База для лемматизации сделана на
основе словаря Зализняка и
статьи: https://habrahabr.ru/company/realweb/blog/265375/ Сейчас эта база входит в комплект поставки. Если Вы не собираетесь
работать с текстами, то эта база не нужна и можно удалить ее и индексный
массив Lemma.ntx из директории с системой. На работу остальных функций
системы это не повилияет, а размер директории с системой заметно сократится. Примечания: 1. Если _START_AIDOS.exe
запускается в папке с уже ранее установленной системой устаревшей версии, то
при разархивировании будут возникать конфликты при попытке разархивирования
библиотек (DLL-файлов), которые используются самим модулем_START_AIDOS.exe. Поэтому, если мы
хотим их обновить, надо выйти из этого модуля и разархивировать скачанный
архив Update.exe,
запустив его вручную. Если этого не делать, то просто останутся предыдущие
версии библиотек. Так что достаточно один раз сделать это вручную или
поместить библиотеки в папку, на которую прописан путь доступа. 2. Если Вам не нужны лабораторные
работы, то можно удалить папку: ..:\Aidos-X\AID_DATA\LabWorks\. На работу
остальных функций системы это не повлияет, а размер директории с системой
заметно сократится. |
Лицензия: Автор отказывается от какой бы то ни было
ответственности за Ваш выбор или не выбор системы «Эйдос» и последствия
применения или не применения Вами системы «Эйдос». Проще говоря, пользуйтесь если
понравилось, а если не понравилось – не пользуйтесь: решайте сами и сами же
несите ответственность за Ваше решение. |
PS 1.
Еще считаю важным отметить, что система «Эйдос-Х++» создавалась автором
проф.Е.В.Луценко не как программный продукт, т.е. не на продажу, а для
применения в учебном процессе и для научных исследований. Поэтому она не
соответствует требованиям к программному продукту. Этим обусловлен и выбор
языка программирования, который выбран таким образом, чтобы легче было
использовать огромные наработки: исходные тексты DOS-версии системы «Эйдос»
ver.12.5 (если бы ставилась цель создать программный продукт, то наверное был
бы выбран язык JAWA). 2. Кратко об АСК-анализе, программным инструментарием которого является интеллектуальная
система «Эйдос» 3.
Картографическая визуализация мест расположения пользователей, запускавших
систему «Эйдос»: http://j90540lw.beget.tech/map3.php (только метки) и http://j90540lw.beget.tech/map4.php (метки с надписями). В режиме 6.9. системы
«Эйдос» эта визуализация доступна в виде базы данных, а также на карте все
посещения или запуски в заданном диапазоне дат. Но для работы этого режима
необходимо, что на компьютере не был заблокирован FTP. В упрощенном
(текстовом) виде без фильтра по датам базу посещений можно посмотреть по ссылке: http://j90540lw.beget.tech/test_strings.txt |
Записываем
файл исходных данных, приведенный в таблице 5, с именем: Inp_data.xls в папку с системой (если она на диске C: в
коревом каталоге) по пути:
c:\Aidos-X\AID_DATA\Inp_data\Inp_data.xls
Запускаем
систему «Эйдос» и задаем режим 2.3.2.2 с параметрами, указанными на экранной
форме (рисунок 5):
Рисунок 5.
Экранная форма универсального программного интерфейса
импорта данных из внешних баз данных в систему «Эйдос»
Через несколько секунд на заднем фоне[55] появляется
окно (рисунок 6) на котором нажимаем «Сохранить», после чего появляется
экранный калькулятор (рисунок 7):
Рисунок 6.
Экранная форма, выдаваемая MS Excel,
т.к. в файле
исходных данных есть расчетные ячейки
Рисунок 7.
Экранного калькулятора универсального программного
интерфейса импорта данных из внешних баз данных в систему «Эйдос»
На этом
калькуляторе а данном случае задано по 10 интервальных числовых значений в
числовых классификационных и описательных шкалах. Можно задать другие их
количество, затем пересчитать шкалы и градации и выйти на создание модели.
За 41 секунду
происходит формирование классификационных и описательных шкал и градаций и
обучающей выборки по 2559 примерам вузов, описанных в исходных данных (рисунок
8):
Рисунок 8.
Экранная форма отображения стадии
и прогноза времени исполнения
В результате
автоматически формируются классификационные е и описательные шкалы и градации и
обучающая выборка, приведенные в таблицах 7, 8, 9:
Таблица 7 – Классификационные шкалы и градации (фрагмент)
Наименование |
|
1 |
GUARDIAN
SCORE/100-1/10-{25.9000000, 33.3100000} |
2 |
GUARDIAN
SCORE/100-2/10-{33.3100000, 40.7200000} |
3 |
GUARDIAN
SCORE/100-3/10-{40.7200000, 48.1300000} |
4 |
GUARDIAN
SCORE/100-4/10-{48.1300000, 55.5400000} |
5 |
GUARDIAN
SCORE/100-5/10-{55.5400000, 62.9500000} |
6 |
GUARDIAN
SCORE/100-6/10-{62.9500000, 70.3600000} |
7 |
GUARDIAN
SCORE/100-7/10-{70.3600000, 77.7700000} |
8 |
GUARDIAN
SCORE/100-8/10-{77.7700000, 85.1800000} |
9 |
GUARDIAN
SCORE/100-9/10-{85.1800000, 92.5900000} |
10 |
GUARDIAN
SCORE/100-10/10-{92.5900000, 100.0000000} |
11 |
RANK-01.Agriculture,
forestry and food |
12 |
RANK-01.American studies |
13 |
RANK-01.Anatomy and physiology |
14 |
RANK-01.Anthropology |
15 |
RANK-01.Archaeology and
Forensics |
16 |
RANK-01.Architecture |
17 |
RANK-01.Art and design |
18 |
RANK-01.Biosciences |
19 |
RANK-01.Building and town
and country planning |
20 |
RANK-01.Business and management
studies |
21 |
RANK-01.Chemistry |
22 |
RANK-01.Classics |
23 |
RANK-01.Computer sciences
and IT |
24 |
RANK-01.Dentistry |
25 |
RANK-01.Drama and dance |
26 |
RANK-01.Earth and marine sciences |
27 |
RANK-01.Economics |
28 |
RANK-01.Education |
29 |
RANK-01.Engineering:
chemical |
30 |
RANK-01.Engineering: civil |
31 |
RANK-01.Engineering:
electronic and electrical |
32 |
RANK-01.Engineering: general |
33 |
RANK-01.Engineering:
materials and mineral |
34 |
RANK-01.Engineering:
mechanical |
35 |
RANK-01.English |
36 |
RANK-01.Geography and environmental
studies |
37 |
RANK-01.History and history
of art |
38 |
RANK-01.Law |
39 |
RANK-01.Mathematics |
40 |
RANK-01.Media studies,
communications and librarianship |
41 |
RANK-01.Medicine |
42 |
RANK-01.Modern languages and
linguistics |
43 |
RANK-01.Music |
44 |
RANK-01.Nursing and paramedical
studies |
45 |
RANK-01.Pharmacy and
pharmacology |
46 |
RANK-01.Philosophy |
47 |
RANK-01.Physics |
48 |
RANK-01.Politics |
49 |
RANK-01.Psychology |
50 |
RANK-01.Religious studies
and theology |
51 |
RANK-01.Social policy and administration |
52 |
RANK-01.Social work |
53 |
RANK-01.Sociology |
54 |
RANK-01.Sports science |
55 |
RANK-01.Tourism, transport
and travel |
56 |
RANK-01.Veterinary science |
57 |
RANK-02.Agriculture,
forestry and food |
58 |
RANK-02.American studies |
59 |
RANK-02.Anatomy and
physiology |
60 |
RANK-02.Anthropology |
61 |
RANK-02.Archaeology and Forensics |
62 |
RANK-02.Architecture |
63 |
RANK-02.Art and design |
64 |
RANK-02.Biosciences |
65 |
RANK-02.Building and town
and country planning |
66 |
RANK-02.Business and management
studies |
67 |
RANK-02.Chemistry |
68 |
RANK-02.Classics |
69 |
RANK-02.Computer sciences
and IT |
70 |
RANK-02.Dentistry |
71 |
RANK-02.Drama and dance |
72 |
RANK-02.Earth and marine sciences |
73 |
RANK-02.Economics |
74 |
RANK-02.Education |
75 |
RANK-02.Engineering:
chemical |
76 |
RANK-02.Engineering: civil |
77 |
RANK-02.Engineering:
electronic and electrical |
78 |
RANK-02.Engineering: general |
79 |
RANK-02.Engineering:
materials and mineral |
80 |
RANK-02.Engineering:
mechanical |
81 |
RANK-02.English |
82 |
RANK-02.Geography and environmental
studies |
83 |
RANK-02.History and history
of art |
84 |
RANK-02.Law |
85 |
RANK-02.Mathematics |
86 |
RANK-02.Media studies,
communications and librarianship |
87 |
RANK-02.Medicine |
88 |
RANK-02.Modern languages and
linguistics |
89 |
RANK-02.Music |
90 |
RANK-02.Nursing and paramedical
studies |
91 |
RANK-02.Pharmacy and
pharmacology |
92 |
RANK-02.Philosophy |
93 |
RANK-02.Physics |
94 |
RANK-02.Politics |
95 |
RANK-02.Psychology |
96 |
RANK-02.Religious studies
and theology |
97 |
RANK-02.Social policy and administration |
98 |
RANK-02.Social work |
99 |
RANK-02.Sociology |
100 |
RANK-02.Sports science |
101 |
RANK-02.Tourism, transport
and travel |
102 |
RANK-03.Agriculture,
forestry and food |
103 |
RANK-03.American studies |
104 |
RANK-03.Anatomy and
physiology |
105 |
RANK-03.Anthropology |
106 |
RANK-03.Archaeology and
Forensics |
107 |
RANK-03.Architecture |
108 |
RANK-03.Art and design |
109 |
RANK-03.Biosciences |
110 |
RANK-03.Building and town
and country planning |
111 |
RANK-03.Business and management
studies |
112 |
RANK-03.Chemistry |
113 |
RANK-03.Classics |
114 |
RANK-03.Computer sciences
and IT |
115 |
RANK-03.Dentistry |
116 |
RANK-03.Drama and dance |
117 |
RANK-03.Earth and marine sciences |
118 |
RANK-03.Economics |
119 |
RANK-03.Education |
120 |
RANK-03.Engineering:
chemical |
121 |
RANK-03.Engineering: civil |
122 |
RANK-03.Engineering:
electronic and electrical |
123 |
RANK-03.Engineering: general |
124 |
RANK-03.Engineering:
materials and mineral |
125 |
RANK-03.Engineering:
mechanical |
126 |
RANK-03.English |
127 |
RANK-03.Geography and environmental
studies |
128 |
RANK-03.History and history
of art |
129 |
RANK-03.Law |
130 |
RANK-03.Mathematics |
131 |
RANK-03.Media studies,
communications and librarianship |
132 |
RANK-03.Medicine |
133 |
RANK-03.Modern languages and
linguistics |
134 |
RANK-03.Music |
135 |
RANK-03.Nursing and paramedical
studies |
136 |
RANK-03.Pharmacy and
pharmacology |
137 |
RANK-03.Philosophy |
138 |
RANK-03.Physics |
139 |
RANK-03.Politics |
140 |
RANK-03.Psychology |
141 |
RANK-03.Religious studies
and theology |
142 |
RANK-03.Social policy and administration |
143 |
RANK-03.Social work |
144 |
RANK-03.Sociology |
145 |
RANK-03.Sports science |
146 |
RANK-03.Tourism, transport
and travel |
147 |
RANK-03.Veterinary science |
148 |
RANK-04.Agriculture,
forestry and food |
149 |
RANK-04.American studies |
150 |
RANK-04.Anatomy and
physiology |
151 |
RANK-04.Anthropology |
152 |
RANK-04.Archaeology and
Forensics |
153 |
RANK-04.Architecture |
154 |
RANK-04.Art and design |
155 |
RANK-04.Biosciences |
156 |
RANK-04.Building and town
and country planning |
157 |
RANK-04.Business and management
studies |
158 |
RANK-04.Chemistry |
159 |
RANK-04.Classics |
160 |
RANK-04.Computer sciences
and IT |
161 |
RANK-04.Dentistry |
162 |
RANK-04.Drama and dance |
163 |
RANK-04.Earth and marine sciences |
164 |
RANK-04.Economics |
165 |
RANK-04.Education |
166 |
RANK-04.Engineering:
chemical |
167 |
RANK-04.Engineering: civil |
168 |
RANK-04.Engineering:
electronic and electrical |
169 |
RANK-04.Engineering: general |
170 |
RANK-04.Engineering:
materials and mineral |
171 |
RANK-04.Engineering:
mechanical |
172 |
RANK-04.English |
173 |
RANK-04.Geography and environmental
studies |
174 |
RANK-04.History and history
of art |
175 |
RANK-04.Law |
176 |
RANK-04.Mathematics |
177 |
RANK-04.Media studies,
communications and librarianship |
178 |
RANK-04.Medicine |
179 |
RANK-04.Modern languages and
linguistics |
180 |
RANK-04.Music |
181 |
RANK-04.Nursing and paramedical
studies |
182 |
RANK-04.Pharmacy and
pharmacology |
183 |
RANK-04.Philosophy |
184 |
RANK-04.Physics |
185 |
RANK-04.Politics |
186 |
RANK-04.Psychology |
187 |
RANK-04.Religious studies
and theology |
188 |
RANK-04.Social policy and administration |
189 |
RANK-04.Social work |
190 |
RANK-04.Sociology |
191 |
RANK-04.Sports science |
192 |
RANK-04.Tourism, transport
and travel |
193 |
RANK-04.Veterinary science |
194 |
RANK-05.Agriculture,
forestry and food |
195 |
RANK-05.American studies |
196 |
RANK-05.Anatomy and
physiology |
197 |
RANK-05.Anthropology |
198 |
RANK-05.Archaeology and
Forensics |
199 |
RANK-05.Architecture |
200 |
RANK-05.Art and design |
201 |
RANK-05.Biosciences |
202 |
RANK-05.Building and town
and country planning |
203 |
RANK-05.Business and management
studies |
204 |
RANK-05.Chemistry |
205 |
RANK-05.Classics |
206 |
RANK-05.Computer sciences
and IT |
207 |
RANK-05.Dentistry |
208 |
RANK-05.Drama and dance |
209 |
RANK-05.Earth and marine sciences |
210 |
RANK-05.Economics |
211 |
RANK-05.Education |
212 |
RANK-05.Engineering:
chemical |
213 |
RANK-05.Engineering: civil |
214 |
RANK-05.Engineering:
electronic and electrical |
215 |
RANK-05.Engineering: general |
216 |
RANK-05.Engineering:
materials and mineral |
217 |
RANK-05.Engineering:
mechanical |
218 |
RANK-05.English |
219 |
RANK-05.Geography and environmental
studies |
220 |
RANK-05.History and history
of art |
221 |
RANK-05.Law |
222 |
RANK-05.Mathematics |
223 |
RANK-05.Media studies,
communications and librarianship |
224 |
RANK-05.Medicine |
225 |
RANK-05.Modern languages and
linguistics |
226 |
RANK-05.Music |
227 |
RANK-05.Nursing and paramedical
studies |
228 |
RANK-05.Pharmacy and
pharmacology |
229 |
RANK-05.Philosophy |
230 |
RANK-05.Physics |
231 |
RANK-05.Politics |
232 |
RANK-05.Psychology |
233 |
RANK-05.Religious studies
and theology |
234 |
RANK-05.Social policy and administration |
235 |
RANK-05.Social work |
236 |
RANK-05.Sociology |
237 |
RANK-05.Sports science |
238 |
RANK-05.Tourism, transport
and travel |
239 |
RANK-06.Agriculture,
forestry and food |
240 |
RANK-06.American studies |
241 |
RANK-06.Anatomy and
physiology |
242 |
RANK-06.Anthropology |
243 |
RANK-06.Archaeology and
Forensics |
244 |
RANK-06.Architecture |
245 |
RANK-06.Art and design |
246 |
RANK-06.Biosciences |
247 |
RANK-06.Building and town
and country planning |
248 |
RANK-06.Business and management
studies |
249 |
RANK-06.Chemistry |
250 |
RANK-06.Classics |
251 |
RANK-06.Computer sciences
and IT |
Таблица 8 –
Описательные шкалы и градации (показатели)
Наименование |
|
80 |
% SATISFIED WITH
ASSESSMENT-10/10-{88.8275502, 96.6000000} |
79 |
% SATISFIED WITH
ASSESSMENT-9/10-{81.0551004, 88.8275502} |
78 |
% SATISFIED WITH
ASSESSMENT-8/10-{73.2826506, 81.0551004} |
77 |
% SATISFIED WITH
ASSESSMENT-7/10-{65.5102008, 73.2826506} |
76 |
% SATISFIED WITH
ASSESSMENT-6/10-{57.7377510, 65.5102008} |
75 |
% SATISFIED WITH
ASSESSMENT-5/10-{49.9653012, 57.7377510} |
74 |
% SATISFIED WITH
ASSESSMENT-4/10-{42.1928514, 49.9653012} |
73 |
% SATISFIED WITH
ASSESSMENT-3/10-{34.4204016, 42.1928514} |
72 |
% SATISFIED WITH
ASSESSMENT-2/10-{26.6479518, 34.4204016} |
71 |
% SATISFIED WITH
ASSESSMENT-1/10-{18.8755020, 26.6479518} |
70 |
AVERAGE ENTRY
TARIFF-10/10-{551.7000000, 598.0000000} |
69 |
AVERAGE ENTRY
TARIFF-9/10-{505.4000000, 551.7000000} |
68 |
AVERAGE ENTRY
TARIFF-8/10-{459.1000000, 505.4000000} |
67 |
AVERAGE ENTRY
TARIFF-7/10-{412.8000000, 459.1000000} |
66 |
AVERAGE ENTRY
TARIFF-6/10-{366.5000000, 412.8000000} |
65 |
AVERAGE ENTRY
TARIFF-5/10-{320.2000000, 366.5000000} |
64 |
AVERAGE ENTRY
TARIFF-4/10-{273.9000000, 320.2000000} |
63 |
AVERAGE ENTRY
TARIFF-3/10-{227.6000000, 273.9000000} |
62 |
AVERAGE ENTRY
TARIFF-2/10-{181.3000000, 227.6000000} |
61 |
AVERAGE ENTRY
TARIFF-1/10-{135.0000000, 181.3000000} |
60 |
VALUE ADDED
SCORE/10-10/10-{9.1000000, 10.0000000} |
59 |
VALUE ADDED
SCORE/10-9/10-{8.2000000, 9.1000000} |
58 |
VALUE ADDED
SCORE/10-8/10-{7.3000000, 8.2000000} |
57 |
VALUE ADDED
SCORE/10-7/10-{6.4000000, 7.3000000} |
56 |
VALUE ADDED
SCORE/10-6/10-{5.5000000, 6.4000000} |
55 |
VALUE ADDED
SCORE/10-5/10-{4.6000000, 5.5000000} |
54 |
VALUE ADDED
SCORE/10-4/10-{3.7000000, 4.6000000} |
53 |
VALUE ADDED SCORE/10-3/10-{2.8000000,
3.7000000} |
52 |
VALUE ADDED
SCORE/10-2/10-{1.9000000, 2.8000000} |
51 |
VALUE ADDED
SCORE/10-1/10-{1.0000000, 1.9000000} |
50 |
CAREER
PROSPECTS-10/10-{91.6000000, 100.0000000} |
49 |
CAREER
PROSPECTS-9/10-{83.2000000, 91.6000000} |
48 |
CAREER PROSPECTS-8/10-{74.8000000,
83.2000000} |
47 |
CAREER
PROSPECTS-7/10-{66.4000000, 74.8000000} |
46 |
CAREER
PROSPECTS-6/10-{58.0000000, 66.4000000} |
45 |
CAREER
PROSPECTS-5/10-{49.6000000, 58.0000000} |
44 |
CAREER
PROSPECTS-4/10-{41.2000000, 49.6000000} |
43 |
CAREER PROSPECTS-3/10-{32.8000000,
41.2000000} |
42 |
CAREER
PROSPECTS-2/10-{24.4000000, 32.8000000} |
41 |
CAREER
PROSPECTS-1/10-{16.0000000, 24.4000000} |
40 |
STUDENT:STAFF
RATIO-10/10-{46.0900000, 50.7000000} |
39 |
STUDENT:STAFF
RATIO-9/10-{41.4800000, 46.0900000} |
38 |
STUDENT:STAFF
RATIO-8/10-{36.8700000, 41.4800000} |
37 |
STUDENT:STAFF
RATIO-7/10-{32.2600000, 36.8700000} |
36 |
STUDENT:STAFF
RATIO-6/10-{27.6500000, 32.2600000} |
35 |
STUDENT:STAFF
RATIO-5/10-{23.0400000, 27.6500000} |
34 |
STUDENT:STAFF
RATIO-4/10-{18.4300000, 23.0400000} |
33 |
STUDENT:STAFF
RATIO-3/10-{13.8200000, 18.4300000} |
32 |
STUDENT:STAFF
RATIO-2/10-{9.2100000, 13.8200000} |
31 |
STUDENT:STAFF
RATIO-1/10-{4.6000000, 9.2100000} |
30 |
EXPENDITURE PER STUDENT
(FTE)-10/10-{9.1000000, 10.0000000} |
29 |
EXPENDITURE PER STUDENT
(FTE)-9/10-{8.2000000, 9.1000000} |
28 |
EXPENDITURE PER STUDENT
(FTE)-8/10-{7.3000000, 8.2000000} |
27 |
EXPENDITURE PER STUDENT
(FTE)-7/10-{6.4000000, 7.3000000} |
26 |
EXPENDITURE PER STUDENT
(FTE)-6/10-{5.5000000, 6.4000000} |
25 |
EXPENDITURE PER STUDENT
(FTE)-5/10-{4.6000000, 5.5000000} |
24 |
EXPENDITURE PER STUDENT
(FTE)-4/10-{3.7000000, 4.6000000} |
23 |
EXPENDITURE PER STUDENT
(FTE)-3/10-{2.8000000, 3.7000000} |
22 |
EXPENDITURE PER STUDENT
(FTE)-2/10-{1.9000000, 2.8000000} |
21 |
EXPENDITURE PER STUDENT
(FTE)-1/10-{1.0000000, 1.9000000} |
20 |
% SATISFIED OVERALL WITH
COURSE-10/10-{93.7515677, 100.0000000} |
19 |
% SATISFIED OVERALL WITH
COURSE-9/10-{87.5031353, 93.7515677} |
18 |
% SATISFIED OVERALL WITH
COURSE-8/10-{81.2547030, 87.5031353} |
17 |
% SATISFIED OVERALL WITH
COURSE-7/10-{75.0062706, 81.2547030} |
16 |
% SATISFIED OVERALL WITH
COURSE-6/10-{68.7578383, 75.0062706} |
15 |
% SATISFIED OVERALL WITH
COURSE-5/10-{62.5094060, 68.7578383} |
14 |
% SATISFIED OVERALL WITH
COURSE-4/10-{56.2609736, 62.5094060} |
13 |
% SATISFIED OVERALL WITH
COURSE-3/10-{50.0125413, 56.2609736} |
12 |
% SATISFIED OVERALL WITH
COURSE-2/10-{43.7641089, 50.0125413} |
11 |
% SATISFIED OVERALL WITH
COURSE-1/10-{37.5156766, 43.7641089} |
10 |
% SATISFIED WITH
TEACHING-10/10-{95.0000000, 100.0000000} |
9 |
% SATISFIED WITH
TEACHING-9/10-{90.0000000, 95.0000000} |
8 |
% SATISFIED WITH
TEACHING-8/10-{85.0000000, 90.0000000} |
7 |
% SATISFIED WITH
TEACHING-7/10-{80.0000000, 85.0000000} |
6 |
% SATISFIED WITH
TEACHING-6/10-{75.0000000, 80.0000000} |
5 |
% SATISFIED WITH
TEACHING-5/10-{70.0000000, 75.0000000} |
4 |
% SATISFIED WITH
TEACHING-4/10-{65.0000000, 70.0000000} |
3 |
% SATISFIED WITH
TEACHING-3/10-{60.0000000, 65.0000000} |
2 |
% SATISFIED WITH
TEACHING-2/10-{55.0000000, 60.0000000} |
1 |
% SATISFIED WITH
TEACHING-1/10-{50.0000000, 55.0000000} |
Таблица 9 – Обучающая
выборка (фрагмент)
The object of training sample |
Guardian
score/100 |
Rank |
Field of study |
Name of
Institution |
% Satisfied with
Teaching |
% Satisfied
overall with course |
Expenditure per
student (FTE) |
Student:staff
ratio |
Career prospects |
Value added score/10 |
Average Entry
Tariff |
% Satisfied with
Assessment |
Medicine-Oxford, 2012 |
10 |
41 |
498 |
606 |
10 |
20 |
|
31 |
50 |
57 |
70 |
79 |
Medicine-Cambridge, 2012 |
10 |
41 |
498 |
535 |
9 |
19 |
30 |
31 |
50 |
52 |
70 |
76 |
Medicine-Edinburgh, 2012 |
9 |
87 |
498 |
553 |
9 |
19 |
30 |
31 |
50 |
54 |
69 |
75 |
Medicine-Dundee, 2012 |
9 |
87 |
498 |
549 |
10 |
20 |
30 |
31 |
50 |
56 |
68 |
76 |
Medicine-UCL, 2012 |
8 |
87 |
498 |
652 |
9 |
19 |
26 |
31 |
50 |
59 |
69 |
76 |
Medicine-Imperial College,
2012 |
6 |
132 |
498 |
575 |
9 |
19 |
27 |
31 |
50 |
53 |
69 |
74 |
Medicine-Leicester, 2012 |
6 |
132 |
498 |
585 |
9 |
19 |
25 |
31 |
50 |
55 |
68 |
75 |
Medicine-Newcastle, 2012 |
6 |
132 |
498 |
598 |
10 |
20 |
24 |
31 |
50 |
55 |
68 |
75 |
Medicine-Peninsula Medical
School, 2012 |
6 |
132 |
498 |
608 |
9 |
19 |
27 |
31 |
50 |
54 |
68 |
76 |
Medicine-Nottingham, 2012 |
6 |
178 |
498 |
604 |
9 |
19 |
23 |
31 |
50 |
54 |
69 |
74 |
Medicine-King's College
London, 2012 |
5 |
178 |
498 |
578 |
8 |
18 |
25 |
31 |
50 |
56 |
68 |
74 |
Medicine-Warwick, 2012 |
5 |
178 |
498 |
660 |
8 |
18 |
28 |
31 |
50 |
59 |
|
74 |
Medicine-Leeds, 2012 |
4 |
224 |
498 |
581 |
8 |
18 |
26 |
31 |
50 |
56 |
68 |
75 |
Medicine-Hull York Medical
School, 2012 |
4 |
224 |
498 |
574 |
8 |
18 |
24 |
32 |
50 |
58 |
68 |
75 |
Medicine-Manchester, 2012 |
4 |
224 |
498 |
593 |
6 |
15 |
28 |
31 |
50 |
59 |
68 |
73 |
Medicine-Sheffield, 2012 |
4 |
224 |
498 |
628 |
9 |
19 |
23 |
31 |
50 |
54 |
68 |
75 |
Medicine-Aberdeen, 2012 |
4 |
269 |
498 |
513 |
9 |
19 |
24 |
31 |
50 |
56 |
67 |
77 |
Medicine-Brighton Sussex
Medical School, 2012 |
4 |
269 |
498 |
530 |
8 |
18 |
24 |
32 |
50 |
57 |
|
75 |
Medicine-Queen Mary, 2012 |
4 |
269 |
498 |
613 |
7 |
17 |
24 |
31 |
50 |
58 |
68 |
74 |
Medicine-St George's Medical
School, 2012 |
4 |
315 |
498 |
634 |
8 |
19 |
26 |
32 |
50 |
56 |
68 |
75 |
Medicine-Southampton, 2012 |
4 |
315 |
498 |
631 |
8 |
18 |
24 |
31 |
50 |
57 |
68 |
74 |
Medicine-St Andrews, 2012 |
4 |
361 |
498 |
633 |
10 |
20 |
22 |
32 |
50 |
51 |
68 |
76 |
Medicine-Glasgow, 2012 |
3 |
361 |
498 |
560 |
6 |
15 |
25 |
31 |
50 |
55 |
69 |
72 |
Medicine-UEA, 2012 |
3 |
361 |
498 |
653 |
8 |
18 |
23 |
31 |
50 |
59 |
67 |
75 |
Medicine-Birmingham, 2012 |
3 |
361 |
498 |
523 |
9 |
18 |
23 |
32 |
50 |
53 |
69 |
72 |
Medicine-Queen's, Belfast,
2012 |
3 |
406 |
498 |
611 |
8 |
18 |
24 |
32 |
50 |
53 |
68 |
75 |
Medicine-Liverpool, 2012 |
2 |
406 |
498 |
587 |
6 |
15 |
24 |
31 |
50 |
54 |
68 |
72 |
Medicine-Bristol, 2012 |
2 |
406 |
498 |
531 |
8 |
15 |
26 |
32 |
50 |
54 |
68 |
71 |
Medicine-Keele, 2012 |
1 |
452 |
498 |
576 |
7 |
14 |
23 |
32 |
50 |
57 |
67 |
72 |
Medicine-Cardiff, 2012 |
1 |
452 |
498 |
537 |
6 |
14 |
23 |
32 |
50 |
58 |
68 |
71 |
Dentistry-King's College
London, 2012 |
10 |
24 |
481 |
578 |
9 |
18 |
28 |
31 |
50 |
57 |
68 |
77 |
Dentistry-Glasgow, 2012 |
8 |
70 |
481 |
560 |
10 |
20 |
23 |
32 |
50 |
56 |
68 |
78 |
Dentistry-Cardiff, 2012 |
8 |
115 |
481 |
537 |
9 |
20 |
28 |
31 |
50 |
51 |
68 |
75 |
Dentistry-Queen's, Belfast,
2012 |
7 |
115 |
481 |
611 |
10 |
20 |
29 |
31 |
50 |
55 |
67 |
76 |
Dentistry-Birmingham, 2012 |
7 |
161 |
481 |
523 |
10 |
18 |
25 |
31 |
50 |
56 |
68 |
76 |
Dentistry-Bristol, 2012 |
6 |
207 |
481 |
531 |
9 |
20 |
26 |
32 |
50 |
55 |
68 |
78 |
Dentistry-Dundee, 2012 |
5 |
252 |
481 |
549 |
8 |
19 |
24 |
31 |
50 |
57 |
68 |
75 |
Dentistry-Sheffield, 2012 |
4 |
252 |
481 |
628 |
9 |
19 |
23 |
31 |
50 |
56 |
68 |
76 |
Dentistry-Liverpool, 2012 |
3 |
298 |
481 |
587 |
8 |
17 |
27 |
31 |
50 |
57 |
68 |
76 |
Dentistry-Manchester, 2012 |
3 |
344 |
481 |
593 |
9 |
18 |
25 |
31 |
50 |
57 |
68 |
75 |
Dentistry-Newcastle, 2012 |
2 |
389 |
481 |
598 |
8 |
19 |
21 |
32 |
50 |
56 |
68 |
76 |
Dentistry-Queen Mary, 2012 |
1 |
389 |
481 |
613 |
7 |
17 |
24 |
31 |
50 |
57 |
68 |
76 |
Dentistry-Leeds, 2012 |
1 |
435 |
481 |
581 |
9 |
19 |
29 |
32 |
50 |
56 |
68 |
73 |
Veterinary
science-Cambridge, 2012 |
10 |
56 |
512 |
535 |
9 |
19 |
28 |
31 |
49 |
53 |
69 |
77 |
Veterinary
science-Edinburgh, 2012 |
8 |
147 |
512 |
553 |
9 |
18 |
29 |
31 |
50 |
59 |
68 |
74 |
Veterinary
science-Liverpool, 2012 |
6 |
193 |
512 |
587 |
9 |
20 |
23 |
31 |
50 |
54 |
68 |
74 |
Veterinary science-Glasgow,
2012 |
5 |
284 |
512 |
560 |
9 |
20 |
23 |
31 |
50 |
58 |
68 |
75 |
Veterinary
science-Nottingham, 2012 |
5 |
330 |
512 |
604 |
|
|
24 |
31 |
|
|
68 |
|
Veterinary science-Royal
Veterinary College, 2012 |
5 |
421 |
512 |
625 |
8 |
17 |
28 |
31 |
49 |
56 |
68 |
73 |
Veterinary science-Bristol,
2012 |
1 |
467 |
512 |
531 |
9 |
19 |
23 |
32 |
49 |
53 |
67 |
74 |
Anatomy and
physiology-Oxford, 2012 |
10 |
13 |
470 |
606 |
10 |
17 |
30 |
32 |
|
56 |
69 |
75 |
Anatomy and
physiology-Glamorgan, 2012 |
10 |
13 |
470 |
559 |
9 |
19 |
24 |
32 |
50 |
60 |
65 |
78 |
Anatomy and
physiology-Cardiff, 2012 |
10 |
59 |
470 |
537 |
9 |
20 |
30 |
32 |
50 |
55 |
67 |
75 |
Anatomy and
physiology-Plymouth, 2012 |
9 |
59 |
470 |
609 |
10 |
19 |
28 |
31 |
48 |
58 |
65 |
79 |
Anatomy and
physiology-Brunel, 2012 |
8 |
59 |
470 |
532 |
10 |
20 |
23 |
32 |
48 |
59 |
65 |
76 |
Anatomy and
physiology-Liverpool, 2012 |
8 |
59 |
470 |
587 |
9 |
19 |
29 |
32 |
48 |
54 |
66 |
77 |
Anatomy and physiology-Sussex,
2012 |
8 |
59 |
470 |
643 |
9 |
20 |
26 |
32 |
|
59 |
66 |
76 |
Anatomy and
physiology-Newcastle, 2012 |
7 |
104 |
470 |
598 |
9 |
20 |
24 |
32 |
48 |
55 |
67 |
76 |
Anatomy and
physiology-Aston, 2012 |
7 |
104 |
470 |
518 |
8 |
18 |
26 |
33 |
50 |
52 |
66 |
78 |
Anatomy and
physiology-Bristol, 2012 |
7 |
150 |
470 |
531 |
9 |
19 |
27 |
32 |
47 |
54 |
67 |
76 |
Anatomy and
physiology-Nottingham, 2012 |
6 |
150 |
470 |
604 |
10 |
19 |
27 |
33 |
|
54 |
67 |
77 |
Anatomy and
physiology-Birmingham, 2012 |
6 |
150 |
470 |
523 |
9 |
18 |
|
32 |
47 |
57 |
67 |
75 |
Anatomy and
physiology-Sheffield Hallam, 2012 |
5 |
150 |
470 |
629 |
10 |
19 |
23 |
33 |
48 |
55 |
66 |
77 |
Anatomy and
physiology-Manchester, 2012 |
5 |
196 |
470 |
593 |
9 |
19 |
25 |
32 |
48 |
54 |
67 |
75 |
Anatomy and
physiology-Glasgow Caledonian, 2012 |
5 |
196 |
470 |
561 |
9 |
19 |
24 |
33 |
48 |
57 |
66 |
76 |
Anatomy and
physiology-Edinburgh, 2012 |
5 |
196 |
470 |
553 |
9 |
19 |
29 |
33 |
45 |
55 |
67 |
74 |
Anatomy and
physiology-Robert Gordon, 2012 |
5 |
241 |
470 |
616 |
9 |
20 |
23 |
34 |
48 |
57 |
67 |
76 |
Anatomy and physiology-De
Montfort, 2012 |
5 |
241 |
470 |
547 |
8 |
19 |
25 |
33 |
50 |
55 |
64 |
76 |
Anatomy and
physiology-Hertfordshire, 2012 |
5 |
241 |
470 |
570 |
8 |
19 |
23 |
33 |
49 |
57 |
63 |
77 |
Anatomy and physiology-UEA,
2012 |
5 |
241 |
470 |
653 |
10 |
20 |
|
|
49 |
53 |
65 |
75 |
Anatomy and
physiology-Queen's, Belfast, 2012 |
4 |
287 |
470 |
611 |
9 |
19 |
29 |
32 |
46 |
57 |
65 |
74 |
Anatomy and
physiology-Aberdeen, 2012 |
4 |
287 |
470 |
513 |
8 |
20 |
24 |
33 |
47 |
56 |
64 |
78 |
Anatomy and
physiology-Bradford, 2012 |
4 |
287 |
470 |
528 |
8 |
20 |
24 |
33 |
49 |
53 |
65 |
76 |
Anatomy and
physiology-Birmingham City, 2012 |
2 |
287 |
470 |
524 |
9 |
15 |
23 |
34 |
48 |
58 |
65 |
75 |
Anatomy and
physiology-Leeds, 2012 |
2 |
333 |
470 |
581 |
8 |
19 |
25 |
35 |
45 |
56 |
67 |
76 |
Anatomy and
physiology-Northampton, 2012 |
2 |
333 |
470 |
601 |
9 |
17 |
23 |
33 |
|
|
63 |
77 |
Anatomy and
physiology-Anglia Ruskin, 2012 |
2 |
333 |
470 |
516 |
8 |
20 |
25 |
36 |
46 |
58 |
64 |
78 |
Anatomy and
physiology-Manchester Met, 2012 |
2 |
378 |
470 |
594 |
8 |
17 |
22 |
33 |
48 |
53 |
65 |
75 |
Anatomy and physiology-City,
2012 |
1 |
378 |
470 |
542 |
8 |
17 |
24 |
33 |
50 |
51 |
66 |
74 |
Anatomy and physiology-Cumbria,
2012 |
1 |
378 |
470 |
546 |
7 |
18 |
23 |
34 |
50 |
52 |
64 |
76 |
Anatomy and physiology-St
Mary's UC, Twickenham, 2012 |
1 |
378 |
470 |
636 |
10 |
20 |
22 |
35 |
47 |
56 |
62 |
77 |
Anatomy and
physiology-King's College London, 2012 |
1 |
424 |
470 |
578 |
8 |
19 |
27 |
36 |
46 |
53 |
67 |
75 |
Anatomy and physiology-Ulster,
2012 |
1 |
424 |
470 |
654 |
7 |
15 |
23 |
33 |
45 |
58 |
65 |
75 |
Nursing and paramedical
studies-Edinburgh, 2012 |
10 |
44 |
501 |
553 |
10 |
20 |
29 |
32 |
|
58 |
66 |
78 |
Nursing and paramedical
studies-Glasgow, 2012 |
10 |
44 |
501 |
560 |
10 |
20 |
27 |
33 |
|
56 |
66 |
80 |
Nursing and paramedical studies-UEA,
2012 |
9 |
44 |
501 |
653 |
9 |
18 |
30 |
33 |
50 |
58 |
65 |
76 |
Nursing and paramedical
studies-Leeds, 2012 |
7 |
44 |
501 |
581 |
8 |
17 |
30 |
33 |
50 |
53 |
65 |
77 |
Nursing and paramedical
studies-Staffordshire, 2012 |
7 |
44 |
501 |
637 |
9 |
20 |
27 |
33 |
50 |
58 |
63 |
78 |
Nursing and paramedical
studies-Portsmouth, 2012 |
7 |
90 |
501 |
610 |
8 |
18 |
28 |
32 |
50 |
54 |
65 |
76 |
Nursing and paramedical
studies-City, 2012 |
7 |
90 |
501 |
542 |
8 |
18 |
30 |
33 |
49 |
55 |
64 |
77 |
Nursing and paramedical
studies-Keele, 2012 |
7 |
90 |
501 |
576 |
10 |
20 |
26 |
33 |
49 |
57 |
64 |
78 |
Nursing and paramedical
studies-Southampton, 2012 |
7 |
90 |
501 |
631 |
8 |
18 |
28 |
33 |
49 |
59 |
66 |
75 |
Nursing and paramedical
studies-Birmingham, 2012 |
7 |
90 |
501 |
523 |
9 |
19 |
|
32 |
49 |
54 |
66 |
76 |
Nursing and paramedical
studies-Bedfordshire, 2012 |
7 |
90 |
501 |
522 |
9 |
18 |
24 |
33 |
|
60 |
63 |
77 |
Nursing and paramedical
studies-Liverpool, 2012 |
7 |
90 |
501 |
587 |
8 |
17 |
29 |
32 |
50 |
52 |
65 |
76 |
Nursing and paramedical
studies-Oxford Brookes, 2012 |
7 |
90 |
501 |
607 |
9 |
19 |
24 |
33 |
50 |
55 |
64 |
78 |
Nursing and paramedical
studies-Nottingham, 2012 |
7 |
135 |
501 |
604 |
8 |
18 |
27 |
33 |
49 |
59 |
65 |
76 |
Nursing and paramedical
studies-Surrey, 2012 |
7 |
135 |
501 |
642 |
8 |
19 |
28 |
35 |
50 |
58 |
65 |
77 |
Nursing and paramedical
studies-Manchester, 2012 |
7 |
135 |
501 |
593 |
9 |
18 |
27 |
33 |
50 |
55 |
65 |
76 |
Nursing and paramedical
studies-Brighton, 2012 |
6 |
135 |
501 |
529 |
8 |
17 |
24 |
33 |
49 |
58 |
65 |
77 |
Nursing and paramedical
studies-Thames Valley, 2012 |
6 |
135 |
501 |
646 |
8 |
16 |
28 |
33 |
50 |
60 |
62 |
77 |
Nursing and paramedical
studies-Middlesex, 2012 |
6 |
135 |
501 |
597 |
8 |
17 |
29 |
33 |
50 |
56 |
63 |
77 |
Nursing and paramedical
studies-Edge Hill, 2012 |
6 |
135 |
501 |
552 |
9 |
19 |
23 |
33 |
49 |
54 |
63 |
79 |
Nursing and paramedical studies-Bangor,
2012 |
6 |
135 |
501 |
519 |
8 |
18 |
26 |
33 |
50 |
52 |
64 |
77 |
Nursing and paramedical
studies-Coventry, 2012 |
6 |
135 |
501 |
545 |
9 |
19 |
23 |
33 |
49 |
58 |
64 |
77 |
Nursing and paramedical
studies-Northampton, 2012 |
6 |
181 |
501 |
601 |
8 |
18 |
24 |
33 |
49 |
59 |
63 |
76 |
Полностью
обучающая выборка в статье не может быть приведена, т.к. файл исходных данных
содержит 2559 строк.
Этим
завершается 2-й этап АСК-анализа, который называется «Формализация предметной
области» и создаются все необходимые и достаточные предпосылки для выполнения
следующего этапа, т.е. синтеза и верификации (измерения достоверности) модели.
Синтез и верификация многокритериальной системно-когнитивной модели
университетского рейтинга Гардиан, учитывающей направления подготовки,
представляет собой задачу, требующую довольно значительных вычислительных
ресурсов. Решение этой задачи на компьютере с процессором i7 и 16 Гб
оперативной памяти с размещение задачи на SSD, потребовало около 13 часов счета
(рисунок 9).
Такая большая
длительность расчетов обусловлена тем, что для измерения достоверности 10
моделей была использована вся обучающая выборка, включающая 2559 примеров.
Математические
аспекты формирования системно-когнитивных моделей описаны в ряде работ автора
[3] и здесь их подробно освещать нет необходимости. Отметим лишь, что для
преобразования матрицы абсолютных частот в другие модели используются формулы
преобразования, приведенные в таблице 10:
Рисунок 9.
Экранная форма с отображением стадии синтеза и верификации
моделей и прогнозом времени исполнения
Таблица 10 –
Частные критерии знаний, используемые в настоящее время
в АСК-анализе и системе «Эйдос-Х++»
Наименование
модели знаний |
Выражение
для частного критерия |
|
через
|
через
|
|
INF1,
частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета относительных
частот: Nj – суммарное количество
признаков по j-му классу.
Относительная частота того, что если у объекта j-го класса обнаружен признак,
то это i-й признак |
|
|
INF2,
частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета относительных
частот: Nj – суммарное количество
объектов по j-му классу.
Относительная частота того, что если предъявлен объект j-го класса, то у него
будет обнаружен i-й признак. |
|
|
INF3,
частный критерий: Хи-квадрат: разности между фактическими и теоретически
ожидаемыми абсолютными частотами |
--- |
|
INF4,
частный критерий: ROI - Return On Investment, 1-й вариант расчета
относительных частот: Nj – суммарное
количество признаков по j-му классу |
|
|
INF5,
частный критерий: ROI - Return On Investment, 2-й вариант расчета
относительных частот: Nj – суммарное
количество объектов по j-му классу |
|
|
INF6,
частный критерий: разность условной и безусловной относительных частот, 1-й
вариант расчета относительных частот:
Nj – суммарное количество признаков по j-му классу |
|
|
INF7,
частный критерий: разность условной и безусловной относительных частот, 2-й
вариант расчета относительных частот: Nj
– суммарное количество объектов по j-му
классу |
|
|
Обозначения:
i – значение прошлого параметра;
j - значение
будущего параметра;
Nij – количество встреч j-го значения будущего
параметра при i-м значении
прошлого параметра;
M – суммарное число значений всех прошлых параметров;
W - суммарное число значений всех будущих параметров.
Ni – количество встреч i-м значения прошлого
параметра по всей выборке;
Nj
– количество
встреч j-го значения будущего параметра по
всей выборке;
N – количество встреч j-го значения будущего
параметра при i-м значении
прошлого параметра по всей выборке.
Iij – частный критерий знаний: количество знаний в факте
наблюдения i-го значения
прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;
Ψ – нормировочный коэффициент (Е.В.Луценко, 1979,
впервые опубликовано в 1993 году [15]), преобразующий количество информации в
формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия
с формулой Р.Хартли;
Pi
– безусловная
относительная частота встречи i-го
значения прошлого параметра в обучающей выборке;
Pij
– условная
относительная частота встречи i-го
значения прошлого параметра при j-м значении
будущего параметра.
В результате
сформированы 10 моделей: 3 статистических и 7 системно-когнитивных моделей
(моделей знаний). Фрагменты трех из них приведены ниже (таблицы 11, 12, 13):
Таблица 11 –
Матрица абсолютных частот, модель ABS (фрагмент)
Код |
Наименование
показателя |
1/10-{25.90,
33.31} |
2/10-{33.31,
40.72} |
3/10-{40.72,
48.13} |
4/10-{48.13,
55.54} |
5/10-{55.54,
62.95} |
6/10-{62.95,
70.36} |
7/10-{70.36,
77.77} |
8/10-{77.77,
85.18} |
9/10-{85.18,
92.59} |
10/10-{92.59,
100.00} |
1 |
% SATISFIED WITH
TEACHING-1/10-{50.0000000, 55.0000000} |
2 |
2 |
1 |
0 |
2 |
0 |
1 |
0 |
0 |
0 |
2 |
% SATISFIED WITH
TEACHING-2/10-{55.0000000, 60.0000000} |
4 |
8 |
0 |
1 |
1 |
0 |
1 |
0 |
0 |
0 |
3 |
% SATISFIED WITH
TEACHING-3/10-{60.0000000, 65.0000000} |
3 |
8 |
7 |
5 |
2 |
4 |
2 |
2 |
1 |
0 |
4 |
% SATISFIED WITH
TEACHING-4/10-{65.0000000, 70.0000000} |
7 |
23 |
17 |
18 |
9 |
4 |
6 |
3 |
1 |
0 |
5 |
% SATISFIED WITH
TEACHING-5/10-{70.0000000, 75.0000000} |
6 |
22 |
31 |
43 |
30 |
29 |
9 |
5 |
0 |
0 |
6 |
% SATISFIED WITH
TEACHING-6/10-{75.0000000, 80.0000000} |
17 |
29 |
63 |
72 |
79 |
43 |
22 |
12 |
5 |
3 |
7 |
% SATISFIED WITH
TEACHING-7/10-{80.0000000, 85.0000000} |
15 |
22 |
65 |
93 |
108 |
89 |
53 |
43 |
20 |
12 |
8 |
% SATISFIED WITH
TEACHING-8/10-{85.0000000, 90.0000000} |
6 |
21 |
55 |
96 |
121 |
121 |
101 |
41 |
30 |
27 |
9 |
% SATISFIED WITH
TEACHING-9/10-{90.0000000, 95.0000000} |
6 |
9 |
25 |
54 |
87 |
104 |
97 |
71 |
38 |
35 |
10 |
% SATISFIED WITH
TEACHING-10/10-{95.0000000, 100.0000000} |
1 |
2 |
3 |
12 |
23 |
18 |
39 |
23 |
21 |
32 |
11 |
% SATISFIED OVERALL WITH
COURSE-1/10-{37.5156766, 43.7641089} |
3 |
3 |
2 |
1 |
0 |
0 |
0 |
1 |
1 |
0 |
12 |
% SATISFIED OVERALL WITH
COURSE-2/10-{43.7641089, 50.0125413} |
3 |
5 |
1 |
1 |
2 |
1 |
0 |
0 |
1 |
0 |
13 |
% SATISFIED OVERALL WITH
COURSE-3/10-{50.0125413, 56.2609736} |
4 |
7 |
5 |
4 |
6 |
2 |
2 |
1 |
0 |
0 |
14 |
% SATISFIED OVERALL WITH
COURSE-4/10-{56.2609736, 62.5094060} |
6 |
16 |
17 |
11 |
13 |
6 |
5 |
3 |
0 |
0 |
15 |
% SATISFIED OVERALL WITH
COURSE-5/10-{62.5094060, 68.7578383} |
9 |
20 |
20 |
31 |
21 |
19 |
5 |
6 |
0 |
0 |
16 |
% SATISFIED OVERALL WITH
COURSE-6/10-{68.7578383, 75.0062706} |
9 |
23 |
41 |
45 |
45 |
33 |
19 |
11 |
4 |
0 |
17 |
% SATISFIED OVERALL WITH
COURSE-7/10-{75.0062706, 81.2547030} |
16 |
28 |
65 |
81 |
96 |
73 |
45 |
16 |
9 |
2 |
18 |
% SATISFIED OVERALL WITH
COURSE-8/10-{81.2547030, 87.5031353} |
8 |
26 |
66 |
109 |
118 |
110 |
80 |
42 |
25 |
12 |
19 |
% SATISFIED OVERALL WITH
COURSE-9/10-{87.5031353, 93.7515677} |
5 |
15 |
40 |
84 |
118 |
114 |
111 |
73 |
43 |
44 |
20 |
% SATISFIED OVERALL WITH
COURSE-10/10-{93.7515677, 100.0000000} |
4 |
3 |
10 |
27 |
43 |
54 |
64 |
47 |
33 |
51 |
21 |
EXPENDITURE PER STUDENT
(FTE)-1/10-{1.0000000, 1.9000000} |
2 |
4 |
3 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
22 |
EXPENDITURE PER STUDENT
(FTE)-2/10-{1.9000000, 2.8000000} |
9 |
28 |
44 |
33 |
23 |
13 |
9 |
0 |
0 |
0 |
23 |
EXPENDITURE PER STUDENT
(FTE)-3/10-{2.8000000, 3.7000000} |
31 |
48 |
84 |
114 |
102 |
64 |
20 |
13 |
5 |
2 |
24 |
EXPENDITURE PER STUDENT
(FTE)-4/10-{3.7000000, 4.6000000} |
17 |
35 |
63 |
111 |
121 |
86 |
51 |
21 |
2 |
2 |
25 |
EXPENDITURE PER STUDENT
(FTE)-5/10-{4.6000000, 5.5000000} |
6 |
15 |
38 |
47 |
67 |
63 |
58 |
19 |
7 |
4 |
26 |
EXPENDITURE PER STUDENT
(FTE)-6/10-{5.5000000, 6.4000000} |
0 |
9 |
18 |
35 |
54 |
59 |
42 |
28 |
14 |
6 |
27 |
EXPENDITURE PER STUDENT
(FTE)-7/10-{6.4000000, 7.3000000} |
2 |
6 |
8 |
28 |
39 |
52 |
47 |
29 |
14 |
8 |
28 |
EXPENDITURE PER STUDENT
(FTE)-8/10-{7.3000000, 8.2000000} |
0 |
5 |
13 |
14 |
35 |
40 |
48 |
32 |
19 |
15 |
29 |
EXPENDITURE PER STUDENT
(FTE)-9/10-{8.2000000, 9.1000000} |
1 |
0 |
0 |
12 |
22 |
25 |
33 |
35 |
23 |
11 |
30 |
EXPENDITURE PER STUDENT (FTE)-10/10-{9.1000000,
10.0000000} |
0 |
0 |
1 |
3 |
4 |
9 |
24 |
23 |
31 |
56 |
31 |
STUDENT:STAFF
RATIO-1/10-{4.6000000, 9.2100000} |
1 |
2 |
4 |
11 |
16 |
13 |
17 |
17 |
18 |
20 |
32 |
STUDENT:STAFF
RATIO-2/10-{9.2100000, 13.8200000} |
7 |
7 |
9 |
29 |
44 |
62 |
73 |
69 |
46 |
50 |
33 |
STUDENT:STAFF
RATIO-3/10-{13.8200000, 18.4300000} |
7 |
24 |
53 |
101 |
160 |
150 |
131 |
69 |
43 |
37 |
34 |
STUDENT:STAFF
RATIO-4/10-{18.4300000, 23.0400000} |
15 |
36 |
90 |
144 |
167 |
122 |
93 |
33 |
12 |
6 |
35 |
STUDENT:STAFF
RATIO-5/10-{23.0400000, 27.6500000} |
22 |
34 |
74 |
79 |
59 |
47 |
16 |
11 |
2 |
2 |
36 |
STUDENT:STAFF
RATIO-6/10-{27.6500000, 32.2600000} |
8 |
24 |
20 |
23 |
19 |
8 |
1 |
1 |
1 |
0 |
37 |
STUDENT:STAFF
RATIO-7/10-{32.2600000, 36.8700000} |
4 |
12 |
10 |
6 |
2 |
4 |
1 |
0 |
0 |
0 |
38 |
STUDENT:STAFF
RATIO-8/10-{36.8700000, 41.4800000} |
2 |
5 |
9 |
3 |
1 |
0 |
0 |
0 |
0 |
0 |
39 |
STUDENT:STAFF
RATIO-9/10-{41.4800000, 46.0900000} |
2 |
3 |
2 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
40 |
STUDENT:STAFF
RATIO-10/10-{46.0900000, 50.7000000} |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
41 |
CAREER
PROSPECTS-1/10-{16.0000000, 24.4000000} |
2 |
5 |
5 |
5 |
2 |
0 |
0 |
0 |
0 |
0 |
42 |
CAREER
PROSPECTS-2/10-{24.4000000, 32.8000000} |
5 |
14 |
18 |
21 |
21 |
4 |
0 |
0 |
0 |
1 |
43 |
CAREER PROSPECTS-3/10-{32.8000000,
41.2000000} |
12 |
15 |
41 |
61 |
57 |
21 |
14 |
0 |
1 |
1 |
44 |
CAREER
PROSPECTS-4/10-{41.2000000, 49.6000000} |
6 |
32 |
36 |
65 |
58 |
36 |
31 |
7 |
3 |
0 |
45 |
CAREER
PROSPECTS-5/10-{49.6000000, 58.0000000} |
8 |
19 |
32 |
66 |
67 |
89 |
51 |
19 |
5 |
1 |
46 |
CAREER
PROSPECTS-6/10-{58.0000000, 66.4000000} |
3 |
7 |
24 |
40 |
65 |
51 |
55 |
21 |
14 |
8 |
47 |
CAREER
PROSPECTS-7/10-{66.4000000, 74.8000000} |
1 |
3 |
10 |
30 |
28 |
55 |
47 |
45 |
27 |
14 |
48 |
CAREER
PROSPECTS-8/10-{74.8000000, 83.2000000} |
0 |
3 |
11 |
10 |
26 |
30 |
42 |
36 |
21 |
29 |
49 |
CAREER
PROSPECTS-9/10-{83.2000000, 91.6000000} |
2 |
1 |
1 |
4 |
14 |
10 |
19 |
19 |
14 |
19 |
50 |
CAREER
PROSPECTS-10/10-{91.6000000, 100.0000000} |
6 |
3 |
9 |
20 |
14 |
16 |
16 |
10 |
7 |
9 |
51 |
VALUE ADDED
SCORE/10-1/10-{1.0000000, 1.9000000} |
15 |
21 |
20 |
24 |
12 |
3 |
2 |
2 |
1 |
0 |
Таблица 11 –
Матрица условных и безусловных
процентных распределений , модель PRC2 (фрагмент)
Код |
Наименование
показателя |
1/10-{25.90,
33.31} |
2/10-{33.31,
40.72} |
3/10-{40.72,
48.13} |
4/10-{48.13,
55.54} |
5/10-{55.54,
62.95} |
6/10-{62.95,
70.36} |
7/10-{70.36,
77.77} |
8/10-{77.77,
85.18} |
9/10-{85.18,
92.59} |
10/10-{92.59,
100.00} |
1 |
%
SATISFIED WITH TEACHING-1/10-{50.0000000, 55.0000000} |
3 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
%
SATISFIED WITH TEACHING-2/10-{55.0000000, 60.0000000} |
6 |
5 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
3 |
%
SATISFIED WITH TEACHING-3/10-{60.0000000, 65.0000000} |
4 |
5 |
3 |
1 |
0 |
1 |
1 |
1 |
1 |
0 |
4 |
%
SATISFIED WITH TEACHING-4/10-{65.0000000, 70.0000000} |
10 |
15 |
6 |
5 |
2 |
1 |
2 |
1 |
1 |
0 |
5 |
%
SATISFIED WITH TEACHING-5/10-{70.0000000, 75.0000000} |
9 |
15 |
11 |
11 |
6 |
7 |
3 |
2 |
0 |
0 |
6 |
%
SATISFIED WITH TEACHING-6/10-{75.0000000, 80.0000000} |
25 |
19 |
23 |
18 |
17 |
10 |
7 |
6 |
4 |
3 |
7 |
%
SATISFIED WITH TEACHING-7/10-{80.0000000, 85.0000000} |
22 |
15 |
24 |
23 |
23 |
21 |
16 |
21 |
16 |
10 |
8 |
%
SATISFIED WITH TEACHING-8/10-{85.0000000, 90.0000000} |
9 |
14 |
20 |
24 |
26 |
29 |
30 |
20 |
24 |
23 |
9 |
%
SATISFIED WITH TEACHING-9/10-{90.0000000, 95.0000000} |
9 |
6 |
9 |
14 |
18 |
25 |
29 |
35 |
31 |
30 |
10 |
%
SATISFIED WITH TEACHING-10/10-{95.0000000, 100.0000000} |
1 |
1 |
1 |
3 |
5 |
4 |
12 |
11 |
17 |
28 |
11 |
%
SATISFIED OVERALL WITH COURSE-1/10-{37.5156766, 43.7641089} |
4 |
2 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
12 |
%
SATISFIED OVERALL WITH COURSE-2/10-{43.7641089, 50.0125413} |
4 |
3 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
13 |
%
SATISFIED OVERALL WITH COURSE-3/10-{50.0125413, 56.2609736} |
6 |
5 |
2 |
1 |
1 |
0 |
1 |
0 |
0 |
0 |
14 |
%
SATISFIED OVERALL WITH COURSE-4/10-{56.2609736, 62.5094060} |
9 |
11 |
6 |
3 |
3 |
1 |
1 |
1 |
0 |
0 |
15 |
%
SATISFIED OVERALL WITH COURSE-5/10-{62.5094060, 68.7578383} |
13 |
13 |
7 |
8 |
4 |
5 |
1 |
3 |
0 |
0 |
16 |
%
SATISFIED OVERALL WITH COURSE-6/10-{68.7578383, 75.0062706} |
13 |
15 |
15 |
11 |
10 |
8 |
6 |
5 |
3 |
0 |
17 |
%
SATISFIED OVERALL WITH COURSE-7/10-{75.0062706, 81.2547030} |
23 |
19 |
24 |
20 |
20 |
18 |
13 |
8 |
7 |
2 |
18 |
%
SATISFIED OVERALL WITH COURSE-8/10-{81.2547030, 87.5031353} |
12 |
17 |
24 |
27 |
25 |
27 |
24 |
21 |
20 |
10 |
19 |
%
SATISFIED OVERALL WITH COURSE-9/10-{87.5031353, 93.7515677} |
7 |
10 |
15 |
21 |
25 |
27 |
33 |
36 |
35 |
38 |
20 |
%
SATISFIED OVERALL WITH COURSE-10/10-{93.7515677, 100.0000000} |
6 |
2 |
4 |
7 |
9 |
13 |
19 |
23 |
27 |
44 |
21 |
EXPENDITURE
PER STUDENT (FTE)-1/10-{1.0000000, 1.9000000} |
3 |
3 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
22 |
EXPENDITURE
PER STUDENT (FTE)-2/10-{1.9000000, 2.8000000} |
13 |
19 |
16 |
8 |
5 |
3 |
3 |
0 |
0 |
0 |
23 |
EXPENDITURE
PER STUDENT (FTE)-3/10-{2.8000000, 3.7000000} |
45 |
32 |
31 |
29 |
22 |
15 |
6 |
6 |
4 |
2 |
24 |
EXPENDITURE
PER STUDENT (FTE)-4/10-{3.7000000, 4.6000000} |
25 |
23 |
23 |
28 |
26 |
21 |
15 |
10 |
2 |
2 |
25 |
EXPENDITURE
PER STUDENT (FTE)-5/10-{4.6000000, 5.5000000} |
9 |
10 |
14 |
12 |
14 |
15 |
17 |
9 |
6 |
3 |
26 |
EXPENDITURE
PER STUDENT (FTE)-6/10-{5.5000000, 6.4000000} |
0 |
6 |
7 |
9 |
11 |
14 |
13 |
14 |
11 |
5 |
27 |
EXPENDITURE
PER STUDENT (FTE)-7/10-{6.4000000, 7.3000000} |
3 |
4 |
3 |
7 |
8 |
13 |
14 |
14 |
11 |
7 |
28 |
EXPENDITURE
PER STUDENT (FTE)-8/10-{7.3000000, 8.2000000} |
0 |
3 |
5 |
4 |
7 |
10 |
14 |
16 |
15 |
13 |
29 |
EXPENDITURE
PER STUDENT (FTE)-9/10-{8.2000000, 9.1000000} |
1 |
0 |
0 |
3 |
5 |
6 |
10 |
17 |
19 |
9 |
30 |
EXPENDITURE
PER STUDENT (FTE)-10/10-{9.1000000, 10.0000000} |
0 |
0 |
0 |
1 |
1 |
2 |
7 |
11 |
25 |
48 |
31 |
STUDENT:STAFF
RATIO-1/10-{4.6000000, 9.2100000} |
1 |
1 |
1 |
3 |
3 |
3 |
5 |
8 |
15 |
17 |
32 |
STUDENT:STAFF
RATIO-2/10-{9.2100000, 13.8200000} |
10 |
5 |
3 |
7 |
9 |
15 |
22 |
34 |
37 |
43 |
33 |
STUDENT:STAFF
RATIO-3/10-{13.8200000, 18.4300000} |
10 |
16 |
19 |
25 |
34 |
36 |
39 |
34 |
35 |
32 |
34 |
STUDENT:STAFF
RATIO-4/10-{18.4300000, 23.0400000} |
22 |
24 |
33 |
36 |
35 |
29 |
28 |
16 |
10 |
5 |
35 |
STUDENT:STAFF
RATIO-5/10-{23.0400000, 27.6500000} |
32 |
23 |
27 |
20 |
12 |
11 |
5 |
5 |
2 |
2 |
36 |
STUDENT:STAFF
RATIO-6/10-{27.6500000, 32.2600000} |
12 |
16 |
7 |
6 |
4 |
2 |
0 |
0 |
1 |
0 |
37 |
STUDENT:STAFF
RATIO-7/10-{32.2600000, 36.8700000} |
6 |
8 |
4 |
2 |
0 |
1 |
0 |
0 |
0 |
0 |
38 |
STUDENT:STAFF
RATIO-8/10-{36.8700000, 41.4800000} |
3 |
3 |
3 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
39 |
STUDENT:STAFF
RATIO-9/10-{41.4800000, 46.0900000} |
3 |
2 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
40 |
STUDENT:STAFF
RATIO-10/10-{46.0900000, 50.7000000} |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
41 |
CAREER
PROSPECTS-1/10-{16.0000000, 24.4000000} |
3 |
3 |
2 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
42 |
CAREER
PROSPECTS-2/10-{24.4000000, 32.8000000} |
7 |
9 |
7 |
5 |
4 |
1 |
0 |
0 |
0 |
1 |
43 |
CAREER
PROSPECTS-3/10-{32.8000000, 41.2000000} |
17 |
10 |
15 |
15 |
12 |
5 |
4 |
0 |
1 |
1 |
44 |
CAREER
PROSPECTS-4/10-{41.2000000, 49.6000000} |
9 |
21 |
13 |
16 |
12 |
9 |
9 |
3 |
2 |
0 |
45 |
CAREER
PROSPECTS-5/10-{49.6000000, 58.0000000} |
12 |
13 |
12 |
17 |
14 |
21 |
15 |
9 |
4 |
1 |
46 |
CAREER
PROSPECTS-6/10-{58.0000000, 66.4000000} |
4 |
5 |
9 |
10 |
14 |
12 |
16 |
10 |
11 |
7 |
47 |
CAREER
PROSPECTS-7/10-{66.4000000, 74.8000000} |
1 |
2 |
4 |
8 |
6 |
13 |
14 |
22 |
22 |
12 |
48 |
CAREER
PROSPECTS-8/10-{74.8000000, 83.2000000} |
0 |
2 |
4 |
3 |
5 |
7 |
13 |
18 |
17 |
25 |
49 |
CAREER
PROSPECTS-9/10-{83.2000000, 91.6000000} |
3 |
1 |
0 |
1 |
3 |
2 |
6 |
9 |
11 |
16 |
50 |
CAREER
PROSPECTS-10/10-{91.6000000, 100.0000000} |
9 |
2 |
3 |
5 |
3 |
4 |
5 |
5 |
6 |
8 |
51 |
VALUE
ADDED SCORE/10-1/10-{1.0000000, 1.9000000} |
22 |
14 |
7 |
6 |
3 |
1 |
1 |
1 |
1 |
0 |
52 |
VALUE
ADDED SCORE/10-2/10-{1.9000000, 2.8000000} |
14 |
13 |
10 |
10 |
7 |
6 |
4 |
1 |
0 |
3 |
53 |
VALUE
ADDED SCORE/10-3/10-{2.8000000, 3.7000000} |
13 |
15 |
17 |
15 |
11 |
8 |
7 |
3 |
3 |
3 |
54 |
VALUE
ADDED SCORE/10-4/10-{3.7000000, 4.6000000} |
6 |
17 |
19 |
16 |
12 |
13 |
10 |
11 |
11 |
3 |
55 |
VALUE
ADDED SCORE/10-5/10-{4.6000000, 5.5000000} |
6 |
7 |
8 |
10 |
12 |
13 |
14 |
8 |
7 |
9 |
56 |
VALUE
ADDED SCORE/10-6/10-{5.5000000, 6.4000000} |
10 |
11 |
8 |
8 |
14 |
13 |
11 |
14 |
11 |
9 |
57 |
VALUE
ADDED SCORE/10-7/10-{6.4000000, 7.3000000} |
7 |
6 |
8 |
10 |
15 |
16 |
19 |
24 |
25 |
28 |
58 |
VALUE
ADDED SCORE/10-8/10-{7.3000000, 8.2000000} |
6 |
6 |
8 |
9 |
10 |
12 |
18 |
18 |
24 |
25 |
59 |
VALUE
ADDED SCORE/10-9/10-{8.2000000, 9.1000000} |
1 |
2 |
3 |
7 |
7 |
7 |
9 |
12 |
10 |
11 |
60 |
VALUE
ADDED SCORE/10-10/10-{9.1000000, 10.0000000} |
0 |
1 |
1 |
1 |
3 |
4 |
4 |
3 |
4 |
6 |
61 |
AVERAGE
ENTRY TARIFF-1/10-{135.0000000, 181.3000000} |
4 |
5 |
4 |
2 |
0 |
1 |
1 |
0 |
0 |
0 |
62 |
AVERAGE
ENTRY TARIFF-2/10-{181.3000000, 227.6000000} |
30 |
29 |
21 |
10 |
9 |
5 |
4 |
1 |
2 |
1 |
63 |
AVERAGE
ENTRY TARIFF-3/10-{227.6000000, 273.9000000} |
38 |
37 |
35 |
35 |
26 |
18 |
13 |
5 |
7 |
1 |
64 |
AVERAGE
ENTRY TARIFF-4/10-{273.9000000, 320.2000000} |
10 |
19 |
25 |
27 |
29 |
25 |
12 |
10 |
10 |
2 |
65 |
AVERAGE
ENTRY TARIFF-5/10-{320.2000000, 366.5000000} |
6 |
3 |
7 |
12 |
15 |
16 |
19 |
15 |
14 |
9 |
66 |
AVERAGE
ENTRY TARIFF-6/10-{366.5000000, 412.8000000} |
3 |
2 |
4 |
6 |
10 |
17 |
23 |
19 |
20 |
13 |
67 |
AVERAGE
ENTRY TARIFF-7/10-{412.8000000, 459.1000000} |
4 |
2 |
1 |
3 |
6 |
12 |
21 |
24 |
22 |
19 |
68 |
AVERAGE
ENTRY TARIFF-8/10-{459.1000000, 505.4000000} |
4 |
2 |
1 |
3 |
2 |
3 |
6 |
16 |
15 |
14 |
69 |
AVERAGE
ENTRY TARIFF-9/10-{505.4000000, 551.7000000} |
0 |
0 |
1 |
0 |
1 |
1 |
1 |
5 |
7 |
25 |
Таблица 12 –
Матрица информативностей в модели модель INF1,
мера информации по А.Харкевичу в миллибитах (фрагмент)
Код |
Наименование
показателя |
1/10-{25.90,
33.31} |
2/10-{33.31,
40.72} |
3/10-{40.72,
48.13} |
4/10-{48.13,
55.54} |
5/10-{55.54,
62.95} |
6/10-{62.95,
70.36} |
7/10-{70.36,
77.77} |
8/10-{77.77,
85.18} |
9/10-{85.18,
92.59} |
10/10-{92.59,
100.00} |
1 |
% SATISFIED WITH
TEACHING-1/10-{50.0000000, 55.0000000} |
1876 |
1219 |
140 |
|
252 |
|
-55 |
|
|
|
2 |
% SATISFIED WITH
TEACHING-2/10-{55.0000000, 60.0000000} |
1930 |
1850 |
|
-718 |
-850 |
|
-579 |
|
|
|
3 |
% SATISFIED WITH
TEACHING-3/10-{60.0000000, 65.0000000} |
1009 |
1168 |
556 |
-59 |
-954 |
-272 |
-683 |
-254 |
-394 |
|
4 |
% SATISFIED WITH
TEACHING-4/10-{65.0000000, 70.0000000} |
922 |
1256 |
503 |
216 |
-493 |
-1064 |
-560 |
-709 |
-1186 |
|
5 |
% SATISFIED WITH
TEACHING-5/10-{70.0000000, 75.0000000} |
221 |
646 |
431 |
369 |
-63 |
14 |
-795 |
-856 |
|
|
6 |
% SATISFIED WITH
TEACHING-6/10-{75.0000000, 80.0000000} |
523 |
310 |
456 |
233 |
178 |
-224 |
-616 |
-692 |
-984 |
-1349 |
7 |
% SATISFIED WITH
TEACHING-7/10-{80.0000000, 85.0000000} |
77 |
-262 |
140 |
104 |
97 |
41 |
-225 |
29 |
-170 |
-536 |
8 |
% SATISFIED WITH
TEACHING-8/10-{85.0000000, 90.0000000} |
-832 |
-446 |
-144 |
-15 |
47 |
151 |
167 |
-156 |
22 |
-5 |
9 |
% SATISFIED WITH
TEACHING-9/10-{90.0000000, 95.0000000} |
-696 |
-1016 |
-665 |
-359 |
-93 |
161 |
269 |
438 |
355 |
347 |
10 |
% SATISFIED WITH
TEACHING-10/10-{95.0000000, 100.0000000} |
-1267 |
-1348 |
-1510 |
-690 |
-279 |
-379 |
432 |
420 |
782 |
1194 |
11 |
% SATISFIED OVERALL WITH
COURSE-1/10-{37.5156766, 43.7641089} |
1949 |
1291 |
453 |
-460 |
|
|
|
108 |
546 |
|
12 |
% SATISFIED OVERALL WITH
COURSE-2/10-{43.7641089, 50.0125413} |
1748 |
1516 |
-326 |
-661 |
-215 |
-688 |
|
|
345 |
|
13 |
% SATISFIED OVERALL WITH
COURSE-3/10-{50.0125413, 56.2609736} |
1325 |
1134 |
353 |
-168 |
38 |
-772 |
-606 |
-755 |
|
|
14 |
% SATISFIED OVERALL WITH COURSE-4/10-{56.2609736,
62.5094060} |
905 |
1065 |
614 |
-83 |
-75 |
-615 |
-601 |
-598 |
|
|
15 |
% SATISFIED OVERALL WITH
COURSE-5/10-{62.5094060, 68.7578383} |
800 |
808 |
307 |
337 |
-119 |
-97 |
-1043 |
-463 |
|
|
16 |
% SATISFIED OVERALL WITH
COURSE-6/10-{68.7578383, 75.0062706} |
331 |
455 |
436 |
179 |
47 |
-106 |
-400 |
-427 |
-832 |
|
17 |
% SATISFIED OVERALL WITH
COURSE-7/10-{75.0062706, 81.2547030} |
287 |
96 |
297 |
145 |
155 |
32 |
-205 |
-638 |
-679 |
-1872 |
18 |
% SATISFIED OVERALL WITH
COURSE-8/10-{81.2547030, 87.5031353} |
-561 |
-236 |
39 |
123 |
57 |
103 |
4 |
-104 |
-98 |
-649 |
19 |
% SATISFIED OVERALL WITH
COURSE-9/10-{87.5031353, 93.7515677} |
-1021 |
-763 |
-446 |
-163 |
-11 |
65 |
209 |
288 |
285 |
365 |
20 |
% SATISFIED OVERALL WITH
COURSE-10/10-{93.7515677, 100.0000000} |
-661 |
-1558 |
-1055 |
-563 |
-306 |
-12 |
296 |
467 |
611 |
1034 |
21 |
EXPENDITURE PER STUDENT
(FTE)-1/10-{1.0000000, 1.9000000} |
1690 |
1610 |
870 |
|
-512 |
|
|
|
|
|
22 |
EXPENDITURE PER STUDENT
(FTE)-2/10-{1.9000000, 2.8000000} |
639 |
927 |
803 |
228 |
-204 |
-575 |
-715 |
|
|
|
23 |
EXPENDITURE PER STUDENT (FTE)-3/10-{2.8000000,
3.7000000} |
743 |
450 |
416 |
335 |
111 |
-173 |
-976 |
-906 |
-1264 |
-1967 |
24 |
EXPENDITURE PER STUDENT
(FTE)-4/10-{3.7000000, 4.6000000} |
199 |
143 |
132 |
269 |
210 |
30 |
-239 |
-550 |
-2071 |
-2011 |
25 |
EXPENDITURE PER STUDENT
(FTE)-5/10-{4.6000000, 5.5000000} |
-292 |
-187 |
87 |
-70 |
94 |
147 |
244 |
-257 |
-651 |
-1057 |
26 |
EXPENDITURE PER STUDENT
(FTE)-6/10-{5.5000000, 6.4000000} |
|
-445 |
-368 |
-149 |
81 |
260 |
143 |
234 |
94 |
-552 |
27 |
EXPENDITURE PER STUDENT
(FTE)-7/10-{6.4000000, 7.3000000} |
-933 |
-675 |
-936 |
-227 |
-83 |
262 |
344 |
370 |
201 |
-205 |
28 |
EXPENDITURE PER STUDENT
(FTE)-8/10-{7.3000000, 8.2000000} |
|
-783 |
-488 |
-761 |
-129 |
87 |
405 |
496 |
500 |
363 |
29 |
EXPENDITURE PER STUDENT
(FTE)-9/10-{8.2000000, 9.1000000} |
-1208 |
|
|
-631 |
-257 |
-46 |
352 |
830 |
918 |
364 |
30 |
EXPENDITURE PER STUDENT
(FTE)-10/10-{9.1000000, 10.0000000} |
|
|
-2308 |
-1727 |
-1619 |
-838 |
145 |
538 |
1225 |
1778 |
31 |
STUDENT:STAFF
RATIO-1/10-{4.6000000, 9.2100000} |
-951 |
-1031 |
-954 |
-446 |
-265 |
-334 |
56 |
485 |
971 |
1119 |
32 |
STUDENT:STAFF RATIO-2/10-{9.2100000,
13.8200000} |
-331 |
-989 |
-1280 |
-640 |
-424 |
-34 |
269 |
650 |
751 |
881 |
33 |
STUDENT:STAFF
RATIO-3/10-{13.8200000, 18.4300000} |
-891 |
-522 |
-362 |
-160 |
92 |
143 |
197 |
91 |
135 |
70 |
34 |
STUDENT:STAFF
RATIO-4/10-{18.4300000, 23.0400000} |
-192 |
-120 |
143 |
199 |
191 |
35 |
-25 |
-460 |
-865 |
-1382 |
35 |
STUDENT:STAFF
RATIO-5/10-{23.0400000, 27.6500000} |
736 |
441 |
588 |
307 |
-67 |
-152 |
-884 |
-767 |
-1750 |
-1689 |
36 |
STUDENT:STAFF
RATIO-6/10-{27.6500000, 32.2600000} |
886 |
1144 |
491 |
273 |
-18 |
-634 |
-2200 |
-1772 |
-1334 |
|
37 |
STUDENT:STAFF
RATIO-7/10-{32.2600000, 36.8700000} |
1134 |
1392 |
739 |
-21 |
-1068 |
-386 |
-1375 |
|
|
|
38 |
STUDENT:STAFF
RATIO-8/10-{36.8700000, 41.4800000} |
1113 |
1219 |
1208 |
-43 |
-1089 |
|
|
|
|
|
39 |
STUDENT:STAFF
RATIO-9/10-{41.4800000, 46.0900000} |
1876 |
1556 |
718 |
|
|
-221 |
|
|
|
|
40 |
STUDENT:STAFF
RATIO-10/10-{46.0900000, 50.7000000} |
|
2374 |
|
|
|
|
|
|
|
|
41 |
CAREER
PROSPECTS-1/10-{16.0000000, 24.4000000} |
1156 |
1261 |
761 |
426 |
-469 |
|
|
|
|
|
42 |
CAREER
PROSPECTS-2/10-{24.4000000, 32.8000000} |
681 |
881 |
589 |
383 |
252 |
-1025 |
|
|
|
-1087 |
43 |
CAREER
PROSPECTS-3/10-{32.8000000, 41.2000000} |
596 |
125 |
462 |
458 |
270 |
-457 |
-629 |
|
-1961 |
-1901 |
44 |
CAREER
PROSPECTS-4/10-{41.2000000, 49.6000000} |
-153 |
584 |
182 |
339 |
113 |
-180 |
-138 |
-949 |
-1217 |
|
45 |
CAREER
PROSPECTS-5/10-{49.6000000, 58.0000000} |
-133 |
-70 |
-137 |
132 |
13 |
354 |
56 |
-338 |
-1012 |
-2293 |
46 |
CAREER
PROSPECTS-6/10-{58.0000000, 66.4000000} |
-772 |
-724 |
-197 |
-107 |
166 |
69 |
298 |
-76 |
25 |
-381 |
47 |
CAREER
PROSPECTS-7/10-{66.4000000, 74.8000000} |
-1602 |
-1344 |
-842 |
-261 |
-450 |
217 |
252 |
645 |
657 |
170 |
48 |
CAREER
PROSPECTS-8/10-{74.8000000, 83.2000000} |
|
-1158 |
-576 |
-991 |
-326 |
-102 |
345 |
645 |
634 |
963 |
49 |
CAREER
PROSPECTS-9/10-{83.2000000, 91.6000000} |
-253 |
-1488 |
-1989 |
-1169 |
-256 |
-432 |
269 |
698 |
882 |
1196 |
50 |
CAREER
PROSPECTS-10/10-{91.6000000, 100.0000000} |
608 |
-628 |
-213 |
118 |
-311 |
-95 |
71 |
108 |
249 |
519 |
51 |
VALUE ADDED
SCORE/10-1/10-{1.0000000, 1.9000000} |
1451 |
1073 |
532 |
349 |
-360 |
-1410 |
-1582 |
-1153 |
-1293 |
|
52 |
VALUE ADDED SCORE/10-2/10-{1.9000000,
2.8000000} |
637 |
557 |
337 |
320 |
-45 |
-87 |
-379 |
-1291 |
|
-793 |
53 |
VALUE ADDED
SCORE/10-3/10-{2.8000000, 3.7000000} |
222 |
310 |
423 |
310 |
59 |
-166 |
-314 |
-912 |
-940 |
-1120 |
54 |
VALUE ADDED
SCORE/10-4/10-{3.7000000, 4.6000000} |
-648 |
221 |
331 |
182 |
-59 |
1 |
-219 |
-116 |
-153 |
-1075 |
55 |
VALUE ADDED
SCORE/10-5/10-{4.6000000, 5.5000000} |
-481 |
-376 |
-182 |
-56 |
136 |
167 |
200 |
-201 |
-391 |
-145 |
56 |
VALUE ADDED
SCORE/10-6/10-{5.5000000, 6.4000000} |
-63 |
-32 |
-267 |
-264 |
195 |
104 |
-52 |
196 |
28 |
-192 |
57 |
VALUE ADDED
SCORE/10-7/10-{6.4000000, 7.3000000} |
-595 |
-762 |
-557 |
-355 |
3 |
35 |
163 |
365 |
439 |
551 |
58 |
VALUE ADDED
SCORE/10-8/10-{7.3000000, 8.2000000} |
-630 |
-612 |
-331 |
-340 |
-184 |
-29 |
273 |
275 |
562 |
594 |
59 |
VALUE ADDED
SCORE/10-9/10-{8.2000000, 9.1000000} |
-1300 |
-1043 |
-628 |
-17 |
-11 |
-44 |
180 |
423 |
283 |
410 |
60 |
VALUE ADDED
SCORE/10-10/10-{9.1000000, 10.0000000} |
|
-1130 |
-1053 |
-624 |
-26 |
264 |
373 |
96 |
382 |
723 |
61 |
AVERAGE ENTRY
TARIFF-1/10-{135.0000000, 181.3000000} |
894 |
943 |
818 |
316 |
-1068 |
-200 |
-797 |
|
|
|
62 |
AVERAGE ENTRY
TARIFF-2/10-{181.3000000, 227.6000000} |
978 |
936 |
651 |
42 |
-70 |
-504 |
-776 |
-1569 |
-1131 |
-1986 |
63 |
AVERAGE ENTRY
TARIFF-3/10-{227.6000000, 273.9000000} |
444 |
426 |
374 |
360 |
121 |
-216 |
-471 |
-1198 |
-1025 |
-2697 |
64 |
AVERAGE ENTRY
TARIFF-4/10-{273.9000000, 320.2000000} |
-576 |
-49 |
185 |
196 |
290 |
161 |
-477 |
-585 |
-614 |
-2046 |
65 |
AVERAGE ENTRY
TARIFF-5/10-{320.2000000, 366.5000000} |
-668 |
-1326 |
-528 |
-73 |
127 |
173 |
289 |
86 |
51 |
-252 |
66 |
AVERAGE ENTRY
TARIFF-6/10-{366.5000000, 412.8000000} |
-1171 |
-1491 |
-988 |
-594 |
-183 |
259 |
528 |
357 |
447 |
81 |
67 |
AVERAGE ENTRY
TARIFF-7/10-{412.8000000, 459.1000000} |
-690 |
-1348 |
-2186 |
-1028 |
-484 |
100 |
569 |
695 |
654 |
544 |
68 |
AVERAGE ENTRY
TARIFF-8/10-{459.1000000, 505.4000000} |
-134 |
-792 |
-1053 |
-545 |
-676 |
-371 |
133 |
913 |
917 |
834 |
69 |
AVERAGE ENTRY
TARIFF-9/10-{505.4000000, 551.7000000} |
|
|
-1002 |
-1914 |
-1130 |
-448 |
-1197 |
652 |
923 |
1958 |
70 |
AVERAGE ENTRY
TARIFF-10/10-{551.7000000, 598.0000000} |
|
|
|
|
|
|
|
374 |
|
2494 |
71 |
% SATISFIED WITH
ASSESSMENT-1/10-{18.8755020, 26.6479518} |
2454 |
1796 |
|
|
|
|
|
|
|
|
Достоверность
этих моделей различна (рисунок 10):
Рисунок 10.
Экранная форма отчета по достоверности моделей
Для
количественной оценки достоверности моделей применена метрика, предложенная
автором и по смыслу сходная с известным F-критерием (рисунок 11):
Рисунок 11.
Экранная форма пояснения по достоверности моделей
Обращает на
себя внимание, что системно-когнитивные модели (INF1 – INF7) имеют значительно
более высокую среднюю достоверность, чем статистические. Такая картина по опыту
автора наблюдается в подавляющем большинстве приложений. В этом и состоит
обоснование целесообразности применения системно-когнитивных (интеллектуальных)
моделей.
Применительно
к задаче, рассматриваемой в данной работе, когнитивная функция показывает в
наглядной графической форме, какое количество информации содержится в различных
значениях показателей вузов о том, что у них будет определенный рейтинг по
напылению подготовки и общий рейтинг Гардиан.
Когнитивным
функциям посвящено много работ автора[56], но наиболее
новой и обобщающей из них является работа [9]. Поэтому здесь не будем
останавливаться на описании того, что представляют собой когнитивные функции в
АСК-анализе.
Отметим, что
при построении средневзвешенных трендов применены математические методы,
предложенные и описанные в работах [10, 11, 12], в частности применен метод
взвешенных наименьших квадратов, модифицированный путем использования в
качестве весовых коэффициентов количества информации в наблюдениях.
На рисунке 12
приведены визуализации некоторых когнитивных функций данного приложения для
модели INF1:
Рисунок 12.
Визуализация когнитивных функций зависимостей рейтинга Гардиан от значений
показателей в системно-когнитивной модели INF1
Из
приведенных когнитивных функций видно, что увеличение или уменьшение значений
показателей вузов влияет на рейтинг Гардиан по направлению подготовки и общий
рейтинг Гардиан, примерно пропорционально или обратно пропорционально. Отметим,
что об этом можно говорить потому, что в системно-когнитивных моделях
используются интервальные числовые и порядковые измерительные шкалы.
Это
подтверждает разумность и корректность построения университетского рейтинга
Гардиан его разработчиками.
Из модели
INF1 мы видим, какое количество информации содержится в том или ином значении
каждого показателя о том, что вуз с этим значением показателя имеет тот или
иной рейтинг по направлению подготовки и общий рейтинг Гардиан.
Но если нам известно
не одно, а несколько значений показателей вузов, то как посчитать их общий вклад в сходство с теми или иными
классами? Для этого в системе «Эйдос» используется 2 аддитивных интегральных
критерия: «Сумма знаний» и «Семантический резонанс знаний».
Интегральный критерий
«Семантический резонанс знаний» представляет собой суммарное количество знаний, содержащееся в системе
факторов различной природы, характеризующих сам объект управления, управляющие
факторы и окружающую среду, о переходе объекта в будущие целевые или
нежелательные состояния.
Интегральный критерий
представляет собой аддитивную функцию от частных критериев знаний,
представленных в help режима 3.3:
В выражении круглыми скобками
обозначено скалярное произведение. В координатной форме это выражение имеет
вид:
,
где: M – количество градаций
описательных шкал (признаков);
– вектор
состояния j–го класса;
– вектор состояния распознаваемого объекта, включающий все виды факторов,
характеризующих сам объект, управляющие воздействия и окружающую среду
(массив–локатор), т.е.:
В текущей версии системы
«Эйдос-Х++» значения координат вектора состояния распознаваемого объекта
принимались равными либо 0, если признака нет, или n, если он присутствует у
объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове
«молоко» представлена 3 раза, а буква «м» - один раз).
Интегральный критерий
«Семантический резонанс знаний» представляет собой нормированное
суммарное количество знаний, содержащееся в системе факторов различной природы,
характеризующих сам объект управления, управляющие факторы и окружающую среду,
о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий
представляет собой аддитивную функцию от частных критериев знаний,
представленных в help режима 3.3 и имеет вид:
где:
M –
количество градаций описательных шкал (признаков);
– средняя
информативность по вектору класса;
– среднее по
вектору объекта;
– среднеквадратичное
отклонение частных критериев знаний вектора класса;
– среднеквадратичное
отклонение по вектору распознаваемого объекта.
– вектор
состояния j–го класса;
– вектор состояния распознаваемого объекта, включающий все виды факторов,
характеризующих сам объект, управляющие воздействия и окружающую среду
(массив–локатор), т.е.:
В текущей версии системы
«Эйдос-Х++» значения координат вектора состояния распознаваемого объекта
принимались равными либо 0, если признака нет, или n, если он присутствует у
объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове
«молоко» представлена 3 раза, а буква «м» - один раз).
Приведенное выражение для
интегрального критерия «Семантический резонанс знаний» получается
непосредственно из выражения для критерия «Сумма знаний» после замены
координат перемножаемых векторов их стандартизированными значениями:
Свое наименование интегральный
критерий сходства «Семантический резонанс знаний» получил потому, что по своей
математической форме является корреляцией двух векторов: состояния j–го класса
и состояния распознаваемого объекта.
Пример
решения задачи идентификации для вузов рейтинга Гардиан по направлению
подготовки и общего рейтинга Гардиан приведен на рисунке 12:
Рисунок 12.
Экранная форма с результатами идентификации рейтинга
Гардиан по направлению подготовки и общего рейтинга Гардиан
В системе «Эйдос» реализован Автоматизированный
количественный SWOT-анализ [13]. Его можно применить для исследования того,
какие значения показателей способствуют, а какие препятствуют присвоению вузу
тех или иных рейтингов Гардиан.
Например, высокому общему рейтингу Гардиан
способствуют и препятствуют значения показателей, приведенные на SWOT-диаграмме
(рисунок 13), соответствующей SWOT-матрице (рисунок 14) и нелокальном нейроне
(рисунок 15):
Рисунок 13. SWOT-диаграмма высокого рейтинга
Гардиан
Рисунок 14. SWOT-матрица высокого рейтинга
Гардиан
Рисунок 15. Нелокальный нейрон высокого
рейтинга Гардиан
На рисунке 15б приведен небольшой фрагмент
нейронной сети системно-когнитивной модели рейтинга Гардиан:
Рисунок 15б. Небольшой фрагмент нейронной сети
системно-когнитивной модели рейтинга Гардиан
Информационный портрет класса – это список факторов, ранжированных в порядке убывания силы их влияния на
переход объекта управления в состояние, соответствующее данному классу.
Информационный портрет класса отражает систему его детерминации. Генерация
информационного портрета класса представляет собой решение обратной задачи
прогнозирования, т.к. при прогнозировании по системе факторов определяется
спектр наиболее вероятных будущих состояний объекта управления, в которые он
может перейти под влиянием данной системы факторов, а в информационном портрете
мы наоборот, по заданному будущему состоянию объекта управления определяем
систему факторов, детерминирующих это состояние, т.е. вызывающих переход
объекта управления в это состояние. В начале информационного портрета класса
идут факторы, оказывающие положительное влияние на переход объекта управления в
заданное состояние, затем факторы, не оказывающие на это существенного влияния,
и далее – факторы, препятствующие переходу объекта управления в это состояние
(в порядке возрастания силы препятствования). Информационные портреты классов
могут быть от отфильтрованы по
диапазону факторов, т.е. мы можем отобразить влияние на переход объекта
управления в данное состояние не всех отраженных в модели факторов, а только
тех, коды которых попадают в определенный диапазон, например, относящиеся к
определенным описательным шкалам.
Пример информационного портрета
класса приведен на рисунке 16:
Рисунок 16. Экранная форма с
информационным портретом класса:
«Наивысший общий рейтинг Гардиан»
Информационный (семантический) портрет фактора – это список классов, ранжированный в порядке убывания силы влияния
данного фактора на переход объекта управления в состояния, соответствующие
данным классам. Информационный портрет фактора называется также его семантическим портретом, т.к. в
соответствии с концепцией смысла системно-когнитивного анализа, являющейся
обобщением концепции смысла Шенка-Абельсона, смысл фактора состоит в том, какие будущие состояния объекта управления
он детерминирует. Сначала в этом списке идут состояния объекта управления,
на переход в которые данный фактор оказывает наибольшее влияние, затем
состояния, на которые данный фактор не оказывает существенного влияния, и далее
состояния – переходу в которые данный фактор препятствует. Информационные
портреты факторов могут быть от отфильтрованы
по диапазону классов, т.е. мы можем отобразить влияние данного фактора на
переход объекта управления не во все возможные будущие состояния, а только в состояния,
коды которых попадают в определенный диапазон, например, относящиеся к
определенным классификационным шкалам. Пример информационного портрета значения
фактора (показателя) приведен на рисунке 17:
Рисунок 17. Экранная форма с
информационным портретом значения
показателя с установленным
фильтром по наименованиям вузов
Кластерно-конструктивный анализ – это новый математический метод анализа знаний, реализованный в
АСК-анализе и системе «Эйдос» [14], обеспечивающий:
– выявление классов, наиболее
сходных по системе их детерминации и объединение их в кластеры;
– выявление кластеров классов,
наиболее сильно отличающиеся по системе их детерминации и построение из них
полюсов конструктов классов, при этом остальные кластеры включаются в
конструкты в качестве промежуточных между полюсами;
– выявление факторов, наиболее
сходных по детерминируемым ими классам и объединение их в кластеры;
– выявление кластеров факторов,
наиболее сильно отличающиеся по детерминируемым ими классам и построение из них
полюсов конструктов факторов, при этом остальные кластеры включаются в
конструкты в качестве промежуточных между полюсами.
Состояния объекта управления,
соответствующие классам, включенным в один кластер, могут быть достигнуты
одновременно, т.е. являются совместимыми
(коалиционными) по детерминирующим их факторам. Состояния объекта
управления, соответствующие классам, образующим полюса конструкта, не могут
быть достигнуты одновременно, т.е. являются противоположными по детерминирующим
их факторам (антагонистическими).
Факторы, включенные в один
кластер, оказывают сходное влияние на поведение объекта управления и могут, при
необходимости, быть использованы для замены друг друга. Факторы, образующие
полюса конструкта, оказывают противоположное влияние на поведение объекта управления.
Кластерно-конструктивный анализ классов позволяет сравнить их по сходству системы детерминации и отобразить эту информацию
в наглядной графической форме семантической сети классов.
Кластерно-конструктивный анализ факторов позволяет сравнить факторы по сходству их влияния на переход объекта в
будущие состояния и отобразить эту информацию в наглядной графической форме
семантической сети факторов.
Примеры когнитивных диаграмм,
отражающих некоторые результаты кластерно-конструктивного анализа модели университетского
рейтинга Гардиан, приведены на рисунках 18, 19, 20:
Рисунок 18.
Пример конструкта класса рейтинга Гардиан
Рисунок 19.
Пример конструкта класса рейтинга Гардиан
Рисунок 20.
Пример конструкта значения одного показателя
университетского рейтинга Гардиан
Как видно из
приведенных когнитивных диаграмм, все классы и значения показателей являются
взаимозависимыми, что исключает применение факторного анализа, как метода моделирования
линейных систем.
Минобрнауки
РФ в своих регламентирующих документах предлагает очень много частных критериев[57]. Ясно, что
собрать информацию по всем этим показателям очень сложно, дорого и трудоемко.
Поэтому представляет интерес, выявить из них минимальное количество таких
критериев, которых было бы достаточно для надежного решения задачи определения
рейтинга вуза.
Системно-когнитивные
модели позволяют выявить показатели, оказывающие наиболее существенное влияние
на объекты моделирования, что позволяет удалить из моделей не существенные
показатели, т.е. провести Паретто-оптимизацию, в результате которой в моделях
остаются только существенные показатели.
Таким
образом, решается задача, аналогичная задаче разработки системе
стандартизированных показателей, но конкретно для данного предприятия.
В результате
можно сократить размерность моделей без потери их достоверности, а значит
существенно сократить затраты труда и времени на сбор, ввод в компьютер и
обработку исходных данных, т.е. эффективность их использования.
В таблице 13
приведен список значений факторов системно-когнитивной модели INF1 (см. табл. )
университетского рейтинга Гардиан, в котором эти значения проранжированы в
порядке убывания вариабельности информативности, которая в АСК-анализе
рассматривается как значимость (дифференцирующая способность) этого значения.
Вариабельность информативности измеряется как ее среднеквадратичное отклонение
по всем классам. Но в данном случае она посчитана только по первым 10 классам,
т.е. по общему рейтингу.
Таблица 13 –
Ранжированная таблица значений показателей
для построения Парето-диаграммы университетского рейтинга Гардиан
Код |
Значение
показателя |
Значимость |
Паретто |
70 |
AVERAGE
ENTRY TARIFF-10/10-{551.7000000, 598.0000000} |
1499,07 |
1499,07 |
30 |
EXPENDITURE
PER STUDENT (FTE)-10/10-{9.1000000, 10.0000000} |
1493,90 |
2992,96 |
2 |
%
SATISFIED WITH TEACHING-2/10-{55.0000000, 60.0000000} |
1430,66 |
4423,63 |
69 |
AVERAGE
ENTRY TARIFF-9/10-{505.4000000, 551.7000000} |
1315,20 |
5738,83 |
36 |
STUDENT:STAFF
RATIO-6/10-{27.6500000, 32.2600000} |
1196,80 |
6935,63 |
51 |
VALUE
ADDED SCORE/10-1/10-{1.0000000, 1.9000000} |
1153,71 |
8089,34 |
37 |
STUDENT:STAFF
RATIO-7/10-{32.2600000, 36.8700000} |
1074,37 |
9163,71 |
49 |
CAREER
PROSPECTS-9/10-{83.2000000, 91.6000000} |
1052,72 |
10216,43 |
62 |
AVERAGE
ENTRY TARIFF-2/10-{181.3000000, 227.6000000} |
1034,30 |
11250,73 |
38 |
STUDENT:STAFF
RATIO-8/10-{36.8700000, 41.4800000} |
1026,14 |
12276,87 |
21 |
EXPENDITURE
PER STUDENT (FTE)-1/10-{1.0000000, 1.9000000} |
1020,24 |
13297,11 |
63 |
AVERAGE
ENTRY TARIFF-3/10-{227.6000000, 273.9000000} |
1010,23 |
14307,33 |
12 |
%
SATISFIED OVERALL WITH COURSE-2/10-{43.7641089, 50.0125413} |
1009,23 |
15316,56 |
67 |
AVERAGE
ENTRY TARIFF-7/10-{412.8000000, 459.1000000} |
994,19 |
16310,75 |
43 |
CAREER
PROSPECTS-3/10-{32.8000000, 41.2000000} |
994,12 |
17304,87 |
10 |
%
SATISFIED WITH TEACHING-10/10-{95.0000000, 100.0000000} |
948,77 |
18253,64 |
39 |
STUDENT:STAFF
RATIO-9/10-{41.4800000, 46.0900000} |
939,42 |
19193,06 |
35 |
STUDENT:STAFF
RATIO-5/10-{23.0400000, 27.6500000} |
909,13 |
20102,18 |
24 |
EXPENDITURE
PER STUDENT (FTE)-4/10-{3.7000000, 4.6000000} |
905,30 |
21007,49 |
23 |
EXPENDITURE
PER STUDENT (FTE)-3/10-{2.8000000, 3.7000000} |
899,29 |
21906,78 |
72 |
%
SATISFIED WITH ASSESSMENT-2/10-{26.6479518, 34.4204016} |
882,78 |
22789,56 |
4 |
%
SATISFIED WITH TEACHING-4/10-{65.0000000, 70.0000000} |
879,48 |
23669,05 |
11 |
%
SATISFIED OVERALL WITH COURSE-1/10-{37.5156766, 43.7641089} |
857,09 |
24526,14 |
61 |
AVERAGE
ENTRY TARIFF-1/10-{135.0000000, 181.3000000} |
832,47 |
25358,60 |
1 |
%
SATISFIED WITH TEACHING-1/10-{50.0000000, 55.0000000} |
827,04 |
26185,65 |
80 |
%
SATISFIED WITH ASSESSMENT-10/10-{88.8275502, 96.6000000} |
826,29 |
27011,93 |
13 |
%
SATISFIED OVERALL WITH COURSE-3/10-{50.0125413, 56.2609736} |
818,74 |
27830,68 |
42 |
CAREER
PROSPECTS-2/10-{24.4000000, 32.8000000} |
812,94 |
28643,62 |
20 |
%
SATISFIED OVERALL WITH COURSE-10/10-{93.7515677, 100.0000000} |
804,92 |
29448,54 |
47 |
CAREER
PROSPECTS-7/10-{66.4000000, 74.8000000} |
794,88 |
30243,42 |
31 |
STUDENT:STAFF
RATIO-1/10-{4.6000000, 9.2100000} |
782,26 |
31025,68 |
45 |
CAREER
PROSPECTS-5/10-{49.6000000, 58.0000000} |
775,12 |
31800,80 |
48 |
CAREER
PROSPECTS-8/10-{74.8000000, 83.2000000} |
758,31 |
32559,11 |
32 |
STUDENT:STAFF
RATIO-2/10-{9.2100000, 13.8200000} |
746,78 |
33305,89 |
68 |
AVERAGE
ENTRY TARIFF-8/10-{459.1000000, 505.4000000} |
743,35 |
34049,24 |
3 |
%
SATISFIED WITH TEACHING-3/10-{60.0000000, 65.0000000} |
738,54 |
34787,78 |
66 |
AVERAGE
ENTRY TARIFF-6/10-{366.5000000, 412.8000000} |
736,20 |
35523,97 |
29 |
EXPENDITURE
PER STUDENT (FTE)-9/10-{8.2000000, 9.1000000} |
726,84 |
36250,82 |
64 |
AVERAGE
ENTRY TARIFF-4/10-{273.9000000, 320.2000000} |
700,26 |
36951,07 |
41 |
CAREER
PROSPECTS-1/10-{16.0000000, 24.4000000} |
696,72 |
37647,79 |
14 |
%
SATISFIED OVERALL WITH COURSE-4/10-{56.2609736, 62.5094060} |
696,11 |
38343,90 |
74 |
%
SATISFIED WITH ASSESSMENT-4/10-{42.1928514, 49.9653012} |
674,77 |
39018,68 |
17 |
%
SATISFIED OVERALL WITH COURSE-7/10-{75.0062706, 81.2547030} |
672,82 |
39691,50 |
22 |
EXPENDITURE
PER STUDENT (FTE)-2/10-{1.9000000, 2.8000000} |
667,46 |
40358,97 |
60 |
VALUE
ADDED SCORE/10-10/10-{9.1000000, 10.0000000} |
666,34 |
41025,30 |
6 |
%
SATISFIED WITH TEACHING-6/10-{75.0000000, 80.0000000} |
657,57 |
41682,88 |
52 |
VALUE
ADDED SCORE/10-2/10-{1.9000000, 2.8000000} |
644,10 |
42326,98 |
15 |
%
SATISFIED OVERALL WITH COURSE-5/10-{62.5094060, 68.7578383} |
631,57 |
42958,55 |
59 |
VALUE
ADDED SCORE/10-9/10-{8.2000000, 9.1000000} |
608,18 |
43566,72 |
44 |
CAREER
PROSPECTS-4/10-{41.2000000, 49.6000000} |
584,91 |
44151,64 |
53 |
VALUE
ADDED SCORE/10-3/10-{2.8000000, 3.7000000} |
583,81 |
44735,44 |
5 |
%
SATISFIED WITH TEACHING-5/10-{70.0000000, 75.0000000} |
555,04 |
45290,48 |
28 |
EXPENDITURE
PER STUDENT (FTE)-8/10-{7.3000000, 8.2000000} |
528,69 |
45819,17 |
9 |
%
SATISFIED WITH TEACHING-9/10-{90.0000000, 95.0000000} |
524,30 |
46343,48 |
34 |
STUDENT:STAFF
RATIO-4/10-{18.4300000, 23.0400000} |
517,10 |
46860,57 |
73 |
%
SATISFIED WITH ASSESSMENT-3/10-{34.4204016, 42.1928514} |
508,31 |
47368,89 |
27 |
EXPENDITURE
PER STUDENT (FTE)-7/10-{6.4000000, 7.3000000} |
507,02 |
47875,91 |
65 |
AVERAGE
ENTRY TARIFF-5/10-{320.2000000, 366.5000000} |
498,92 |
48374,82 |
79 |
%
SATISFIED WITH ASSESSMENT-9/10-{81.0551004, 88.8275502} |
496,61 |
48871,44 |
19 |
%
SATISFIED OVERALL WITH COURSE-9/10-{87.5031353, 93.7515677} |
477,60 |
49349,03 |
57 |
VALUE
ADDED SCORE/10-7/10-{6.4000000, 7.3000000} |
468,80 |
49817,83 |
71 |
%
SATISFIED WITH ASSESSMENT-1/10-{18.8755020, 26.6479518} |
465,09 |
50282,92 |
58 |
VALUE
ADDED SCORE/10-8/10-{7.3000000, 8.2000000} |
451,24 |
50734,16 |
16 |
%
SATISFIED OVERALL WITH COURSE-6/10-{68.7578383, 75.0062706} |
443,77 |
51177,93 |
54 |
VALUE
ADDED SCORE/10-4/10-{3.7000000, 4.6000000} |
424,13 |
51602,06 |
78 |
%
SATISFIED WITH ASSESSMENT-8/10-{73.2826506, 81.0551004} |
423,10 |
52025,17 |
25 |
EXPENDITURE
PER STUDENT (FTE)-5/10-{4.6000000, 5.5000000} |
401,72 |
52426,89 |
50 |
CAREER
PROSPECTS-10/10-{91.6000000, 100.0000000} |
373,87 |
52800,76 |
33 |
STUDENT:STAFF
RATIO-3/10-{13.8200000, 18.4300000} |
361,39 |
53162,15 |
46 |
CAREER
PROSPECTS-6/10-{58.0000000, 66.4000000} |
358,11 |
53520,26 |
26 |
EXPENDITURE
PER STUDENT (FTE)-6/10-{5.5000000, 6.4000000} |
308,74 |
53829,01 |
8 |
%
SATISFIED WITH TEACHING-8/10-{85.0000000, 90.0000000} |
306,02 |
54135,02 |
75 |
%
SATISFIED WITH ASSESSMENT-5/10-{49.9653012, 57.7377510} |
292,73 |
54427,75 |
18 |
%
SATISFIED OVERALL WITH COURSE-8/10-{81.2547030, 87.5031353} |
272,45 |
54700,20 |
55 |
VALUE
ADDED SCORE/10-5/10-{4.6000000, 5.5000000} |
243,46 |
54943,66 |
7 |
%
SATISFIED WITH TEACHING-7/10-{80.0000000, 85.0000000} |
219,55 |
55163,21 |
77 |
%
SATISFIED WITH ASSESSMENT-7/10-{65.5102008, 73.2826506} |
180,25 |
55343,46 |
56 |
VALUE
ADDED SCORE/10-6/10-{5.5000000, 6.4000000} |
170,49 |
55513,95 |
76 |
%
SATISFIED WITH ASSESSMENT-6/10-{57.7377510, 65.5102008} |
143,31 |
55657,26 |
На рисунке 21
приведена Парето-диаграмма, построенная по таблице 13:
Рисунок 13.
Парето-кривая значимости значений показателей
университетского рейтинга Гардиан
Из
приведенной Парето-кривой можно сделать вывод о том, что Паретто-оптимизация
была проведена разработчиками университетского рейтинга Гардиан на этапе его
создания, т.к. все используемые в нем значения показателей имеют достаточно высокую
значимость. Когда в модели есть малозначимые факторы, то Парето-кривая
поднимается гораздо резче и потом идет более полого (рисунок 14).
Но при
разработке отечественного рейтинга, по-видимому, сначала должно быть проведено
пилотное исследование на всех мыслимых показателях, информацию по которым
возможно собрать, на не очень большом количестве вузов, участвующих в эксперименте
(при этом важно, чтобы вузы должны быть разных направлений подготовки). При
этом при пилотном исследовании используется максимальная система показателей, которую можно взять из многих
известных рейтингов и материалов Минобрнауки РФ.
Рисунок 14.
Классическая Парето-кривая[58]
Затем
необходимо провести Паретто-оптимизацию и разработать минимальную по количеству
систему показателей, дающих максимум информации для определения рейтинга вуза
(конфигуратор вузовского рейтинга). Таким образом, созданная по этой технологии
наукометрическая методика определения рейтинга вуза будет представлять собой
методику, интегрирующую многие известные рейтинги, используемые при ее разработке.
После
тестирования и сертификации системно-когнитивной модели, построенной на этой
системе показателей, ее можно применять в адаптивном режиме.
АСК-анализ и
система «Эйдос» представляют собой с одной стороны инструмент разработки, а с другой стороны среду
или оболочку (Run-time system) эксплуатации
создаваемого интеллектуального приложения.
Это открывает
уникальные возможности, которые полностью отсутствуют, когда мы используем
приобретаемые у сторонних разработчиков продукты подобных технологий.
Возникает
закономерный вопрос о том, в какой степени эти продукты применимы в наших
условиях и что они будут измерять, если их применить для российских вузов? Не
столкнемся ли мы с ситуацией, когда из-за того, что не могут найти линейку,
измеряют размеры предметов с помощью шкалы от наружного термометра, т.е.
применяют непригодный для наших целей измерительный инструмент, даже и может
быть и качественный, но предназначенный для других целей и других условий.
Используя университетский рейтинг Гардиан для оценки российских вузов мы
сравниваем их не только друг с другом, но и с зарубежными вузами и как бы
отвечаем на вопрос о том, как бы оценивались наши вузы, если бы они оказались
за рубежом. Но дело в том, что они находятся у нас и поэтому модели и методов
принятия решений, заложенные его разработчиками в этом рейтинге, могут быть не адекватными для наших условий, и для
приведения их в соответствие с нашими реалиями может быть необходима локализация этих моделей и методов.
Имея
инструментарий разработки измерительного инструмента мы получаем возможность периодически,
например, ежегодно, использовать его для пересоздания модели, с целью учета
изменений в моделируемом объекте и других факторов [15].
Таким образом, АСК-анализ и система «Эйдос» представляют собой современную
инновационную (готовую к внедрению) технологию решения задач статистики
методами теории информации.
Данная статья
может быть использована как описание лабораторной работы по дисциплинам:
– Интеллектуальные системы;
– Инженерия знаний и интеллектуальные
системы;
–
Интеллектуальные технологии и представление знаний;
–
Представление знаний в интеллектуальных системах;
–
Основы интеллектуальных систем;
–
Введение в нейроматематику и методы нейронных сетей;
– Основы искусственного интеллекта;
– Интеллектуальные технологии в науке и
образовании;
– Управление знаниями;
–
Автоматизированный системно-когнитивный анализ и интеллектуальная система
«Эйдос»;
которые автор ведет в настоящее время[59],
а также и в других дисциплинах, связанных с преобразованием данных в
информацию, а ее в знания и применением этих знаний для решения задач
идентификации, прогнозирования, принятия решений и исследования моделируемой
предметной области (а это практически все дисциплины во всех областях науки).
Этим
и другим применениям должно способствовать и то, что данное приложение вместе с
системой «Эйдос» размещено автором среди облачных Эйдос-приложений (и
может быть устновлено из диспетчера приложений системы «Эйдос» - режим 1.3) в
полном открытом бесплатном доступе по адресу:
https://cloud.mail.ru/public/a5b22d65bc88/Aidos-X-1071503001.rar. Для установки системы с данным
приложением на компьютере достаточно развернуть архив в корневом каталоге на
диске C:.
Таким
образом, в статье предлагается решение проблемы,
заключающейся в том, что с одной стороны рейтинг российских вузов востребован,
а с другой стороны пока он не создан. Предлагаемая идея решения проблемы
состоит в применении отечественной лицензионной инновационной интеллектуальной
технологии для этих целей: а именно предлагается применить автоматизированный
системно-когнитивный анализ (АСК-анализ) и его программный инструментарий –
интеллектуальную систему «Эйдос». Эти
методы подробно описываются в этом контексте. Предлагается рассмотреть
возможности применения данного инструментария на примере университетского
рейтинга Гардиан и рассматриваются его частные критерии (показатели вузов). Указываются
источники данных и методика их подготовки для обработки в системе «Эйдос». В
соответствии с методологией АСК-анализа
описывается установка системы «Эйдос», ввод исходных данных в нее и
формализация предметной области, синтез и верификация модели, их отображение и
применение для решения задач оценки рейтинга Гардиан для российских вузов и
исследования объекта моделирования. Рассматриваются перспективы и пути создания
интегрированного рейтинга российских вузов и эксплуатации рейтинга в адаптивном
режиме. Указываются ограничения предлагаемого подхода и перспективы его развития.
Конечно,
рассматриваемая проблема требует к себе очень серьезного отношения и большого
объема работ по совершенствованию инструментария, созданию и исследованию
моделей на российских данных. Поэтому предлагаемые в статье решения можно рассматривать
не более как идею решения поставленной проблемы и численную иллюстрацию этой
идеи, но ни в коем случае не как готовое решение.
[2] Авторы считают, что это может быть корректным в случае, если автор статьи является главой или активным исследователем определенной научной школы и статья посвящена развитию научного направления этой научной школы.
[3] За исключением монографий и учебных пособий
[4] Фамилия инициалы, место работы автора, цитирования на работы которого анализируются в этом примере, не указывается из этических соображений
[5] линейную, логарифмическую, степенную, экспоненциальную
[6] На момент написания статьи
[7] См., например: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/
[9] Математическая модель АСК-анализа описана в ряде работ: http://elibrary.ru/author_items.asp?authorid=123162
[10] См., например: http://lc.kubagro.ru/aidos/index.htm
[13] Применение предложено Л.О. Макаревич
[17] См., например: http://www.solarix.ru/for_developers/api/lemmatization.shtml
[18] Имеется и форум автора системы
проф.Е.В.Луценко для пользователей системы: http://proflutsenko.vdforum.ru/
[19] Которая является также матрицей сопряженности или корреляционной матрицей.
[20] Эта ценность в АСК-анализе называется
также интегральной информативностью, дифференцирующей или дискриминантной
способностью и селективной силой, т.е. эти термины являются синонимами.
[22] См., например: http://www.solarix.ru/for_developers/api/lemmatization.shtml
[23] См., например: http://www.ixbt.com/video3/cuda-1.shtml
[25] Математическая модель АСК-анализа описана в ряде работ: http://elibrary.ru/author_items.asp?authorid=123162
[26] См., например: http://lc.kubagro.ru/aidos/index.htm
[29] Актуальную на текущий момент карту можно вызвать по ссылке: http://j90540lw.beget.tech/map4.php
[30] Если их не хватает, то фактически «от фонаря»
[31] Основные публикации автора по вопросам выявления, представления и использования знаний: http://www.twirpx.com/file/793311/
[32] См., например: http://lc.kubagro.ru/aidos/_Aidos-X.htm
[33] Еще часто говорят: на основе опыта, интуиции и профессиональной компетенции, т.е. фактически «на глазок» или «от фонаря»
[34] Конечно, строго говоря, не вероятности, а относительной частоты, т.е. частости, которая асимптотически стремиться к вероятности, как пределу, при неограниченном увеличении объема выборки
[35] Это модель, в которой в качестве частного критерия выступают условные процентные распределения, т.е. по сути относительные частости
[36] См., например: https://habrahabr.ru/post/117021/ , http://www.ixbt.com/video3/cuda-1.shtml
[37] См., например: http://al-tm.ru/stati/stati-po-setyam/.115
[38] См., например: http://www.hotcourses.ru/study-in-the-uk/choosing-a-university/university-rankings-guide/
[40] Достаточно сделать запрос: «научные конференции форумы по эффективности вузов»
[42] На наш взгляд такие признаки имеют все вузы. Поэтому дело не в том, имеют они такие признаки или нет, а в том, на сколько эти признаки существенны в совокупности.
[45] http://extras.thetimes.co.uk/public/good_university_guide_landing?CMP=KNGvccp1-university%20rankings
[46] http://extras.thetimes.co.uk/public/good_university_guide_landing?CMP=KNGvccp1-university%20rankings
[48] См., например: http://uup.samgtu.ru/node/211
[49] Проще говоря «ерундой».
– Луценко Е.В. Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2011. – №06(070). С. 233 – 280. – Шифр Информрегистра: 0421100012\0197, IDA [article ID]: 0701106018. – Режим доступа: http://ej.kubagro.ru/2011/06/pdf/18.pdf, 3 у.п.л.
[55] А значит, чтобы его увидеть надо свернуть все окна
[56] См., например: http://www.twirpx.com/file/775236/
[57] См., например: http://uup.samgtu.ru/node/211
[58] См., например: http://yandex.ru/yandsearch?lr=35&text=Паретто-кривая