Конкретные модели
и методы экономики предприятия и организации производства основаны, в частности,
на научных результатах таких научных областей, как организационно-экономическое
и экономико-математическое моделирование, эконометрика и статистика. Эти научные
области относятся к математическим методам экономики. Они предоставляют интеллектуальные
инструменты для решения различных задач стратегического планирования и развития
предприятий, организации производства и управления хозяйствующими субъектами, конструкторской
и технологической подготовки производства. В монографии [34] на
с.395-424 выделено 195 групп задач управления промышленными
предприятиями и для них указаны базовые группы экономико-математических методов
и моделей.
Развитие математических
методов экономики привело к формированию новой парадигмы в этой области, существенно
отличающейся от послевоенной парадигмы, созданной в 1950-1970 гг. и используемой
многими преподавателями и научными работниками и в настоящее время. Настоящая статья
посвящена основным идеям новой парадигмы математических методов экономики.
Целесообразно
начать с определений используемых понятий.
Термин «парадигма»
происходит от греческого «paradeigma» – пример, образец и означает совокупность
явных и неявных (и часто не осознаваемых) предпосылок, определяющих научные исследования
и признанных на определенном этапе развития науки [35].
Организационно-экономическое
моделирование – научная, практическая и учебная дисциплина, посвященная
разработке, изучению и применению математических и статистических методов и моделей
в экономике и управлении народным хозяйством, прежде всего промышленными предприятиями
и их объединениями [36].
Экономико-математическое
моделирование – описание экономических процессов
и явлений в виде экономико-математических моделей. При этом экономико-математическая
модель – математическое описание экономического процесса
или объекта, произведенное в целях их исследования и управления ими: математическая
запись решаемой экономической задачи (поэтому часто термины «модель» и «задача»
употребляются как синонимы). В самой общей форме модель – условный образ объекта
исследования, сконструированный для упрощения этого исследования. При построении
модели предполагается, что ее непосредственное изучение дает новые знания о моделируемом
объекте [37].
Эконометрика – это наука,
изучающая конкретные количественные и качественные взаимосвязи экономических объектов
и процессов с помощью математических и статистических методов и моделей [38]. Обычно
используют несколько более узкое определение: эконометрика – это статистические
методы в экономике [39].
Статистика исходит прежде всего из опыта; недаром ее зачастую определяют
как науку об общих способах обработки результатов эксперимента [40]. Прикладная
статистика – это наука о том, как обрабатывать данные [5].
Очевидна близость,
переплетение, зачастую совпадение всех научных, практических и учебных дисциплин,
рассмотренных выше. К ним можно прибавить еще несколько: теорию принятия решений,
системный анализ, кибернетику, исследование операций… Исходя
из нашего профессионального опыта, попытки искусственно ввести границы между этими
дисциплинами не являются плодотворными.
На Вторых Чарновских чтениях [41] работала секция «Организационно-экономическое
и экономико-математическое моделирование, эконометрика и статистика». Это название
было получено путем объединения названий учебных дисциплин «Организационно-экономическое
моделирование», «Эконометрика», «Прикладная статистика», «Статистика», которые изучаются
студентами Научно-учебного комплекса «Инженерный бизнес и менеджмент», а также названия
Лаборатории экономико-математических методов в контроллинге Научно-образовательного
центра «Контроллинг и управленческие инновации» Московского государственного технического
университета им. Н.Э. Баумана. На заседании секции была проведена дискуссия по выбору
наиболее адекватного названия научной области, к которой относились представленные
работы. Приведенное выше название признано слишком длинным. Название «Организационно-математическое
моделирование» отклонено как малоизвестное и сужающее рассматриваемую тематику.
Одобрено название «Математическое моделирование в организации производства», а при
проведении конференций по более широкой тематике – «Математическое моделирование
экономики и управления». Заметная доля исследований в этой области относятся к научной
специальности «Математические и инструментальные методы экономики», практически
все используют те или иные математические методы экономики.
Организационно-экономическое
и экономико-математическое моделирование, эконометрика и статистика предоставляют
интеллектуальные инструменты для решения различных задач организации производства
и управления предприятиями и организациями. Например, в учебнике по организации
и планированию машиностроительного производства (производственному менеджменту)
[11] более 20 раз используются эконометрические (если угодно, математические и статистические)
методы и модели [23].
Рассматриваемые
методы широко используются для решения различных задач теории и практики экономического
анализа. В частности, проводится когнитивное моделирование [42] развития
наукоемкой промышленности (на примере оборонно-промышленного комплекса), модельное
обоснование инновационного развития наукоемкого сектора российской экономики [43].
Моделируют организационные изменения [44], применяют информационные технологии [45].
Все шире используются экспертные оценки [46], в том числе для построения обобщенных
показателей (рейтингов) [47].
Во второй половине
1980-х гг. в нашей стране развернулось общественное движение по созданию профессионального
объединения специалистов в области организационно-экономического и экономико-математического
моделирования, эконометрики и статистики (кратко – статистиков). Аналоги такого
объединения - британское Королевское статистическое общество (основано в
В ходе организации
ВСА проанализировано состояние и перспективы развития рассматриваемой области научно-прикладных
исследований и осознаны основы уже сложившейся к концу 1980-х гг. новой парадигмы
организационно-экономического моделирования, эконометрики и статистики.
В течение следующих
лет новая парадигма развивалась и к настоящему времени оформлена в виде серии монографий
и учебников для вузов, состоящей более чем из 10 книг (см.
ниже).
Типовые исходные данные в новой парадигме – объекты нечисловой природы (элементы
нелинейных пространств, которые нельзя складывать и умножать на число, например,
множества, бинарные отношения), а в старой – числа, конечномерные векторы, функции. Ранее (в старой
парадигме) для расчетов использовались разнообразные суммы, однако объекты нечисловой
природы нельзя складывать, поэтому в новой парадигме применяется другой математический
аппарат, основанный на расстояниях между объектами нечисловой природы и решении
задач оптимизации.
Изменились постановки
задач анализа данных и экономико-математического моделирования. Старая парадигма
математической статистики исходит из идей начала ХХ в.,
когда К. Пирсон предложил четырехпараметрическое семейство
распределений для описания распределений реальных данных. В это семейство как частные
случаи входят, в частности, подсемейства нормальных, экспоненциальных,
Вейбулла-Гнеденко, гамма-распределений. Сразу было ясно, что распределения
реальных данных, как правило, не входят в семейство распределений Пирсона (об этом
говорил, например, академик С.Н. Бернштейн в
В старой парадигме источники постановок новых задач - традиции, сформировавшиеся
к середине ХХ века, а в новой - современные потребности математического моделирования
и анализа данных (XXI век), т.е. запросы практики. Конкретизируем
это общее различие. В старой парадигме типовые результаты - предельные теоремы,
в новой - рекомендации для конкретных значений параметров, в частности, объемов
выборок. Изменилась роль информационных технологий – ранее они использовались в
основном для расчета таблиц (в частности, информатика находилась вне математической
статистики), теперь же они - инструменты
получения выводов (имитационное моделирование, датчики псевдослучайных чисел, методы
размножение выборок, в т.ч. бутстреп, и др.). Вид постановок задач приблизился к
потребностям практики – при анализе данных от отдельных задач оценивания и проверки
гипотез перешли к статистическим технологиям (технологическим процессам анализа
данных). Выявилась важность проблемы «стыковки алгоритмов» - влияния выполнения
предыдущих алгоритмов в технологической цепочке на условия применимости последующих
алгоритмов. В старой парадигме эта проблема не рассматривалась, для новой – весьма важна.
Если в старой
парадигме вопросы методологии моделирования практически не обсуждались, достаточными
признавались схемы начала ХХ в., то в новой парадигме роль методологии (учения об
организации деятельности) [50] является основополагающей. Резко повысилась роль
моделирования – от отдельных систем аксиом произошел переход к системам моделей.
Сама возможность применения вероятностного подхода теперь – не «наличие повторяющегося
комплекса условий» (реликт физического определения вероятности, использовавшегося
до аксиоматизации теории вероятностей А.Н. Колмогоровым в 1930-х гг.), а наличие
обоснованной вероятностно-статистической модели. Если раньше данные считались полностью
известными, то для новой парадигмы характерен учет свойств данных, в частности,
интервальных и нечетких. Изменилось отношение к вопросам устойчивости выводов –
в старой парадигме практически отсутствовал интерес к этой тематике, в новой разработана
развитая теория устойчивости (робастности) выводов по отношению к допустимым отклонениям
исходных данных и предпосылок моделей.
Результаты сравнения
парадигм удобно представить в виде табл. 1. Сопоставление будет продолжено в дальнейших
разделах настоящей монографии. В частности, будет выявлена роль современных высоких
статистических технологий, заменяющих неупорядоченную массу отдельных методов оценивания
и проверки гипотез. Будут достаточно подробно рассмотрены основные "точки роста"
современной прикладной математической статистики.
Таблица
3 – Сравнение основных
характеристик
старой и новой парадигм
№ |
Характеристика |
Старая парадигма |
Новая парадигма |
1 |
Типовые исходные данные |
Числа, конечномерные вектора, функции |
Объекты нечисловой природы [36] |
2 |
Основной подход к моделированию данных |
Распределения из параметрических семейств |
Произвольные функции распределения |
3 |
Основной математический аппарат |
Суммы и функции от сумм |
Расстояния и алгоритмы оптимизации [36] |
4 |
Источники постановок новых задач |
Традиции, сформировавшиеся к середине ХХ века |
Современные прикладные потребности анализа данных (XXI
век) |
5 |
Отношение к вопросам устойчивости выводов |
Практически отсутствует интерес к устойчивости выводов |
Развитая теория устойчивости (робастности) выводов [34]
|
6 |
Оцениваемые величины |
Параметры распределений |
Характеристики, функции и плотности распределений, зависимости,
правила диагностики и др. |
7 |
Возможность применения |
Наличие повторяющегося комплекса условий |
Наличие обоснованной вероятностно-статистической модели |
8 |
Центральная часть теории |
Статистика числовых случайных величин |
Нечисловая статистика [36] |
9 |
Роль информационных технологий |
Только для расчета таблиц (информатика находится вне
статистики) |
Инструменты получения выводов (датчики псевдослучайных
чисел, размножение выборок, в т.ч. бутстреп, и др.) |
10 |
Точность данных |
Данные полностью известны |
Учет неопределенности данных, в частности, интервальности
и нечеткости [33] |
11 |
Типовые результаты |
Предельные теоремы (при росте объемов выборок) |
Рекомендации для конкретных объемов выборок |
12 |
Вид постановок задач |
Отдельные задачи оценивания параметров и проверки гипотез |
Высокие статистические технологии (технологические процессы
анализа данных) [51] |
13 |
Стыковка алгоритмов |
Не рассматривается |
Весьма важна при разработке
процессов анализа данных |
14 |
Роль моделирования |
Мала (отдельные
системы аксиом) |
Системы моделей – основа анализа данных |
15 |
Анализ экспертных оценок |
Отдельные алгоритмы |
Прикладное «зеркало» общей теории [52] |
16 |
Роль методологии |
Практически отсутствует |
Основополагающая [34, 53] |
В
Первым был учебник
по эконометрике [39], переизданный в
В фундаментальном
курсе по прикладной статистике [5], выпущенном в
В том же
В соответствии
с потребностями практики в России в
Государственным
образовательным стандартом по специальности «Менеджмент высоких технологий» предусмотрено
изучение дисциплины «Организационно-экономическое моделирование». Одноименный учебник
выпущен в трех частях (томах). Первая из них [36] посвящена сердцевине новой парадигмы
– нечисловой статистике. Ее прикладное «зеркало» - вторая часть [52], современный
учебник по экспертным оценкам. В третьей части [57] наряду с основными
постановками задач анализа данных (чисел, векторов, временных радов) и конкретными
статистическими методами анализа данных классических видов (чисел, векторов, временных
рядов) рассмотрены вероятностно-статистические модели в технических и экономических
исследованиях, медицине, социологии, истории, демографии, а также метод когнитивных
карт (статистические модели динамики).
В названиях еще
двух учебников есть термин «организационно-экономическое моделирование». Это книги
по менеджменту [58] и по теории принятия решений [59], в которых содержание соответствует
новой парадигме, в частности, подходам организационно-экономического моделирования.
Отметим, что, в учебнике [59] значительно большее внимание по сравнению с более
ранним учебником [54] уделено теории и практике экспертных оценок, в то время как
проблемы менеджмента, составлявшиеся основное содержание первой части учебника [54],
выделены для обсуждения в отдельное издание [58].
К рассмотренному выше корпусу учебников примыкают справочник по минимально
необходимым (для использования наших учебников) понятиям теории вероятностей и прикладной
математической статистики [60] и книги по промышленной и экологической безопасности
[61] и [62], в которых большое место занимает изложение научных результатов в соответствии
с новой парадигмой, в частности, активно используются современные статистические
и экспертные методы, математическое моделирование. Опубликовано
еще несколько изданий (в частности, пособие [15] и монография [34]), но от их рассмотрения
воздержимся, чтобы не загромождать изложение излишними подробностями.
Публикация учебной
литературы на основе новой парадигмы шла непросто. Зачастую издание удавалось с
третьего-четвертого раза. Неоценима поддержка Научно-учебного комплекса «Инженерный
бизнес и менеджмент» и МГТУ им. Н.Э. Баумана в целом, Учебно-методического объединения
вузов по университетскому политехническому образованию.
Все перечисленные
монографии, учебники, учебные пособия имеются в Интернете в свободном доступе. Соответствующие ссылки приведены на персональной странице одного из
авторов настоящей монографии на сайте МГТУ им. Н.Э. Баумана http://www.bmstu.ru/ps/~orlov/ и в аналогичной теме нашего форума http://forum.orlovs.pp.ru/viewtopic.php?f=1&t=1370, однако целесообразно иметь в виду,
что из-за растянутого по времени процесса издания иногда различны названия книг
в бумажном и электронном вариантах.
Информация о новой
парадигме появилась в печати недавно – в
На основе сказанного
выше полагаем, что к настоящему моменту рекомендация Учредительного съезда ВСА по
созданию комплекта учебной литературы на основе новой парадигмы выполнена. Предстоит
большая работа по внедрению новой парадигмы организационно-экономического моделирования,
эконометрики и статистики в научные исследования и преподавание.
Новая парадигма
математических методов экономики реализуется с помощью соответствующих моделей и
методов. В области статистического анализа данных - с помощью высоких статистических
технологий.
При практическом использовании методов прикладной статистики
применяются, как известно всем реально работающим со статистическими данными исследователям,
не отдельные методы описания данных, оценивания, проверки гипотез, а развернутые
цельные процедуры - так называемые «статистические технологии». Понятие «статистическая
технология» в анализе данных аналогично понятию «технологический процесс» в теории
и практике организации производства.
Вполне естественно, что одни статистические
технологии лучше соответствуют потребностям исследователя (пользователя, статистика),
другие хуже, одни – современные, а другие – устаревшие, свойства одних изучены,
а других – нет.
В различных областях человеческой деятельности применяют
высокие технологии, под которыми понимают технологии, наиболее новые и прогрессивные
на текущий момент времени. В начале XXI в. нами был введен термин «высокие статистические технологии». Первоначально
он появился в печати в
Таким образом, термин «высокие статистические технологии»
стал широко использоваться. Представляется целесообразным обсудить его содержание,
подвести первые итоги применения понятия, обозначенного этим термином, в научных
исследованиях и преподавании.
Статистический анализ конкретных данных, как правило, включает
в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно
или по более сложной схеме. В частности, с точки зрения организатора (а также контроллера)
прикладного статистического исследования можно выделить следующие этапы:
- планирование статистического исследования (включая разработку
анкет, бланков наблюдения и учета и других форм сбора данных; их апробацию; подготовку
сценариев интервью и анализа данных и т.п.);
- организация сбора необходимых статистических данных по
оптимальной или рациональной программе (планирование выборки, создание организационной
структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься
сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или
иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям
предметной области);
- первичное описание данных (расчет различных выборочных
характеристик, функций распределения, непараметрических оценок плотности, построение
гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик
и параметров распределений (например, непараметрическое интервальное оценивание
коэффициента вариации или восстановление зависимости между откликом и факторами,
т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек -
после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей
гипотезы; например, после проверки адекватности линейной регрессионной модели и
отклонения этой гипотезы может проверяться адекватность квадратичной модели),
- более углубленное изучение, т.е. одновременное применение
различных алгоритмов многомерного статистического анализа, алгоритмов диагностики
и построения классификации, статистики нечисловых и интервальных данных, анализа
временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно
допустимых отклонений исходных данных и предпосылок используемых
вероятностно-статистических моделей, в частности, изучение свойств оценок методом
размножения выборок и другими численными методами;
- применение полученных статистических результатов в прикладных
целях, т.е. для формулировки выводов в терминах содержательной области (например,
для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного
проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического
процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных
для тех, кто не является специалистами в статистических методах анализа данных,
в том числе для руководства - «лиц, принимающих решения», с учетом возможности и
использования - при необходимости - в суде и в арбитражном суде.
Возможны и иные структуризации различных статистических
технологий, предназначенных для решения конкретных прикладных задач. Важно подчеркнуть,
что квалифицированное и результативное применение статистических методов - это отнюдь
не проверка одной отдельно взятой статистической гипотезы или оценка характеристик
или параметров одного заданного распределения из фиксированного семейства. Подобного
рода операции - только отдельные кирпичики, из которых складывается статистическая
технология.
Итак, процедура
статистического анализа данных – это информационный технологический процесс, другими
словами, та или иная информационная технология. Статистическая информация подвергается
разнообразным операциям (последовательно, параллельно или по более сложным схемам).
В настоящее время об автоматизации всего процесса статистического анализа данных
говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем,
вызывающих дискуссии среди исследователей-статистиков. Наличие разногласий – причина
того, что так называемые «экспертные системы в области статистического анализа данных»
пока не стали рабочим инструментом статистиков. И вряд ли станут в обозримом будущем,
поскольку для создания научно обоснованных экспертных систем в этой области необходимо
провести развернутые научные исследования.
В современной научной и особенно учебной литературе статистические
технологии рассматриваются явно недостаточно. В частности, обычно все внимание сосредотачивается
на том или ином элементе технологической цепочки, а переход от одного элемента к
другому остается в тени. Между тем проблема «стыковки» статистических алгоритмов,
как известно, требует специального рассмотрения (см., например,
[65, 66]), поскольку в результате использования предыдущего алгоритма зачастую нарушаются
условия применимости последующего. В частности, результаты наблюдений могут перестать
быть независимыми, может измениться их распределение и т.п.
Так, вполне резонной выглядит рекомендация: сначала разбейте
данные на однородные группы, а потом в каждой из групп проводите статистическую
обработку, например, регрессионный анализ. Однако эта рекомендация под кажущейся
прозрачностью содержит подводные камни. Действительно, как поставить задачу в вероятностно-статистических
терминах? Если, как обычно, примем, что исходные данные - это выборка, т.е. совокупность
независимых одинаково распределенных случайных элементов, то классификация приведет
к разбиению этих элементов на группы. В каждой группе элементы будут зависимы между
собой, а их распределение будет зависеть от группы, куда они попали. Отметим, что
в типовых ситуациях границы классов стабилизируются, а это значит, что асимптотически
элементы кластеров становятся независимыми. Однако их распределение не может быть
нормальным. Например, если исходное распределение было нормальным, то распределения
в классах будет усеченным нормальным. Это означает, что необходимо пользоваться
непараметрическими методами.
Разберем другой пример. При проверке статистических гипотез
большое значение имеют такие хорошо известные характеристики статистических критериев,
как уровень значимости и мощность. Методы их расчета и использования при проверке
одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза,
а потом с учетом результатов ее проверки (конкретнее, если первая гипотеза принята)
- вторая, то итоговую процедуру также можно рассматривать как проверку некоторой
(более сложной) статистической гипотезы. Она имеет характеристики (уровень значимости
и мощность), которые, как правило, нельзя простыми формулами выразить через характеристики
двух составляющих гипотез, а потому они обычно неизвестны. Лишь в некоторых простых
случаях характеристики итоговой процедуры можно рассчитать. В результате итоговую
процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим
алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло,
она может войти в число научно обоснованных процедур прикладной статистики.
Термин «высокие технологии» популярен в современной научно-технической
литературе. Он используется для обозначения наиболее передовых технологий, опирающихся
на последние достижения научно-технического прогресса. Есть такие технологии и среди
технологий статистического анализа данных - как в любой интенсивно развивающейся
научно-практической области.
Примеры высоких статистических технологий и входящих в
них алгоритмов анализа данных, подробный анализ современного состояния и перспектив
развития даны при обсуждении «точек роста» прикладной статистики и других статистических
методов [67], подробнее обсуждаются в следующем разделе. В качестве «высоких статистических
технологий» были выделены технологии непараметрического анализа данных; устойчивые
(робастные) технологии; технологии, основанные на размножении выборок, на использовании
достижений статистики нечисловых данных и
статистики интервальных данных.
Обсудим пока не вполне привычный термин «высокие статистические
технологии». Каждое из трех слов несет свою смысловую нагрузку.
«Высокие», как и в других областях, означает, что статистическая
технология опирается на современные достижения статистической теории и практики,
в частности, на достижения теории вероятностей и прикладной математической статистики.
При этом «опирается на современные научные достижения» означает, во-первых, что
математическая основа технологии получена сравнительно недавно в рамках соответствующей
научной дисциплины, во-вторых, что алгоритмы расчетов разработаны и обоснованы в
соответствии в нею (а не являются т.н. «эвристическими»).
Со временем новые подходы и результаты могут заставить пересмотреть оценку применимости
и возможностей технологии, привести к замене ее более современной. В противном случае
«высокие статистические технологии» переходят в «классические статистические технологии»,
такие, как метод наименьших квадратов. Итак, высокие статистические технологии -
плоды недавних серьезных научных исследований. Здесь два ключевых понятия - «молодость»
технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет)
и опора на «высокую науку».
Термин «статистические» привычен, но коротко разъяснить
его нелегко. Проще сослаться на введение и все содержание учебника
[57], на фундаментальную энциклопедию в этой области [68], на справочник [69] -
высшее достижение отечественной статистической мысли ХХ в., и др. В частности, отметим,
что статистические данные – это результаты измерений, наблюдений, испытаний, анализов,
опытов, замеров, исследований. А «статистические технологии» - это технологии
анализа статистических данных.
Наконец, редко используемый применительно к статистике
термин «технологии». Статистический анализ данных, как правило, включает в себя
целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по
более сложной схеме. Структура типовой статистической технологии описана выше. Обработка
статистических данных - это информационный технологический процесс, который относится
к приоритетному направлению развития "Информационно-коммуникационные технологии".
«Высоким статистическим технологиям» противостоят, естественно,
«низкие статистические технологии» (а между ними помещаем «классические статистические
технологии»). «Низкие статистические технологии» - это те технологии, которые не
соответствуют современному уровню науки и практики. Обычно они одновременно и устарели,
и не вполне адекватны сути решаемых статистических задач.
Примеры таких технологий неоднократно критически рассматривались
нами. Достаточно вспомнить критику использования критерия Стьюдента для проверки
однородности при отсутствии нормальности и равенства дисперсий [70, 71]. Или применение
критерия Вилконсона для проверки совпадения теоретических медиан или функций распределения
двух выборок [72, 73]. Или использование классических процентных точек критериев
Колмогорова и омега-квадрат в ситуациях, когда параметры оцениваются по выборке
и эти оценки подставляются в «теоретическую» функцию распределения [74, 75]. На
первый взгляд вызывает удивление устойчивость «низких статистических технологий»,
их постоянное возрождение во все новых статьях, монографиях,
учебниках. Поэтому, как ни странно, наиболее «долгоживущими» оказываются не работы,
посвященные новым научным результатам, а публикации, разоблачающие ошибки, типа
статьи [74]. Прошло уже 30 лет с момента ее публикации, но она по-прежнему актуальна,
поскольку ошибочное применение критериев Колмогорова и омега-квадрат по-прежнему
распространено, в том числе в разнообразных учебниках (см. многочисленные примеры
в теме http://forum.orlovs.pp.ru/viewtopic.php?f=1&t=548 ).
Целесообразно отметить по крайней
мере четыре обстоятельства, которые определяют эту устойчивость ошибок.
Во-первых, прочно закрепившаяся традиция. Так, многие учебники
по курсам типа «Общая теория статистики», если беспристрастно проанализировать их
содержание, состоят в основном из введения в прикладную статистику (в понимании
нашего учебника [5]). Иногда изложение идет в стиле «низких статистических технологий»,
т.е. на уровне 1950-х годов, а во многом и на уровне начала ХХ в., причем обычно с ошибками. К «низкой» прикладной статистике
добавлена некоторая информация о деятельности органов Госкомстата РФ. Новое поколение
специалистов, обучившись «низким» подходам, идеям, алгоритмам, их использует, а
с течением времени и достижением должностей, ученых званий и степеней – пишет новые
учебники со старыми ошибками.
Второе обстоятельство связано с большими трудностями при
оценке экономической эффективности применения статистических методов вообще и при
оценке вреда от применения ошибочных методов в частности. (А без такой оценки как
докажешь некоторым зацикленным на своих ошибках оппонентам, что «высокие статистические
технологии» лучше «низких»?) При оценке вреда от применения ошибочных методов приходится
учитывать, что общий успех в конкретной инженерной или научной работе вполне мог
быть достигнут вопреки применению ошибочных методов, за
счет «запаса прочности» других составляющих общей работы. Например,
преимущество одного технологического приема (станка, оснастки, организации работы)
над другим можно продемонстрировать как с помощью критерия Крамера-Уэлча [70, 71]
проверки равенства математических ожиданий (что правильно), так и с помощью двухвыборочного
критерия Стьюдента (что, вообще говоря, неверно, т.к. обычно не выполняются условия
применимости этого критерия - нет ни нормальности распределения, ни равенства дисперсий).
Третье существенное обстоятельство – трудности со знакомством
с высокими статистическими технологиями. В нашей стране в силу ряда исторических
обстоятельств развития статистических методов в течение последних десятилетий только
журнал «Заводская лаборатория. Диагностика материалов» предоставлял такие возможности
(в последние годы активно присоединился «Научный журнал КубГАУ»; надо добавить также
периодический (раз в год – два) межвузовский сборник научных трудов «Статистические
методы оценивания и проверки гипотез»). К сожалению, поток современных отечественных
и переводных статистических книг, выпускавшихся ранее, в частности, издательствами
«Наука», «Мир», «Финансы и статистика», практически превратился в узкий ручеек…
Возможно, более существенным является влияние естественной
задержки во времени между созданием «новых статистических технологий» и написанием
полноценной и объемной учебной и методической литературы. Она должна позволять знакомиться
с новой методологией, новыми методами, теоремами, алгоритмами, методами расчетов
и интерпретации их результатов, статистическими технологиями в целом не по кратким
оригинальным статьям, а при обычном вузовском и последипломном обучении. О выпущенных в XXI в. монографической,
учебной и методической литературе, которая посвящена высоким статистическим технологиям
и соответствуют новой парадигме математических методов экономики, рассказано в предыдущем
разделе 2.1.
И, наконец, четвертое - наиболее важное. Всегда ли нужны
высокие статистические технологии? Приведем аналогию - нужна ли современная сельскохозяйственная
техника для обработки приусадебного участка? Нужны ли трактора и комбайны? Может
быть, достаточно старинных технологий, основанных на использовании лопаты и граблей?
Вернемся к данным государственной статистики. Применяются статистические технологии
первичной обработки (описания) данных, основанные на построении разнообразных таблиц,
диаграмм, графиков. Эти технологии соответствуют научному уровню
XIX в. (и лишь незначительно развивают технологии времен Моисея, описанные в книге
"Числа" Ветхого Завета - см. [5]. Подобное представление данных
и их первичный анализ удовлетворяет большинство потребителей статистической информации.
Итак, чтобы высокие статистические технологии успешно использовались,
необходимы два условия:
- чтобы они были объективно нужны для решения практической
задачи;
- чтобы потенциальный пользователь технологий субъективно
понимал это.
Таким образом, весь арсенал реально используемых в настоящее
время эконометрических и статистических технологий можно распределить по трем потокам:
- высокие статистические технологии;
- классические статистические технологии,
- низкие статистические технологии.
Под классическими статистическими технологиями, как уже
отмечалось, понимаем технологии почтенного возраста, сохранившие свое значение для
современной статистической практики. Таковы технологии на основе
метода наименьших квадратов (включая методы точечного оценивания параметров прогностической
функции, непараметрические методы доверительного оценивания параметров и прогностической
функции в целом, проверок различных гипотез о них), статистик типа Колмогорова,
Смирнова, омега-квадрат, непараметрических коэффициентов корреляции Спирмена и Кендалла
(относить их только к методам анализа ранжировок - значит делать уступку «низким
статистическим технологиям») и многих других статистических процедур.
В настоящее время она состоит в том, чтобы в конкретных
эконометрических исследованиях использовались только технологии первых двух типов.
Каковы возможные пути решения этой проблемы? Бороться с
конкретными невеждами - дело почти безнадежное. Конечно, необходима демонстрация
квалифицированного применения высоких статистических технологий. В 1960-70-х годах
этим активно занималась Лаборатория статистических методов акад. А.Н. Колмогорова
в МГУ им. М.В. Ломоносова. В разделе «Математические методы исследования»
журнала «Заводская лаборатория» за последние 50 лет опубликовано более 1000 статей,
выполненных на уровне «высоких статистических технологий». В настоящее время
действует Институт высоких статистических технологий и эконометрики МГТУ им. Н.Э.
Баумана и целый ряд других научных коллективов, работающих на уровне «высоких статистических
технологий».
Очевидно, самое основное - это обучение. Какие бы новые
научные результаты ни были получены, если они остаются неизвестными студентам, то
новое поколение исследователей и инженеров, экономистов и менеджеров, специалистов
других областей будет вынуждено осваивать их поодиночке, в порядке самообразования,
а то и переоткрывать заново. Т.е. зачастую новые научные результаты практически
исчезают из оборота научной и практической информации, едва появившись.
Как ни странно это может показаться, избыток научных публикаций превратился в тормоз
развития науки. По нашим оценкам (опубликованы в наших отчетах о Первом Всемирном конгрессе Общества математической статистики
и теории вероятностей им. Бернулли [76 – 79]), уже к середине 1980-х годов по статистическим
технологиям опубликовано не менее миллиона статей и книг, в основном во второй половине
ХХ в. Из них не менее 100 тысяч являются актуальными для современного специалиста.
При этом реальное число публикаций, которые способен освоить исследователь
за свою профессиональную жизнь, по нашей оценке, не превышает 2 - 3 тысяч (именно
таково число литературных ссылок в наиболее развернутом издании на русском языке
по статистических методам – трехтомнике [79 – 81]). Сейчас, через 30 лет,
сделанные тогда оценки только усугубились.
Итак, каждый специалист в области прикладной статистики
знаком не более чем с 2 - 3% актуальных для него литературных источников. Поскольку
существенная часть публикаций заражена «низкими статистическими технологиями», то
исследователь-самоучка, увы, имеет мало шансов выйти на
уровень «высоких статистических технологий». С подтверждениями этого печального
вывода постоянно приходится сталкиваться. Одновременно приходится констатировать,
что масса полезных результатов погребена в изданиях прошлых десятилетий и имеет
мало шансов пробиться в ряды используемых в настоящее время «высоких статистических
технологий» без специально организованных усилий современных специалистов.
Итак, основное - обучение. Несколько огрубляя, можно сказать
так: что попало в учебные курсы и соответствующие учебные издания - то сохраняется,
что не попало - то пропадает.
У профанов
может возникнуть естественный вопрос: зачем
нужны высокие статистические технологии, разве недостаточно обычных статистических
методов? Специалисты по прикладной статистике справедливо считают и доказывают своими
теоретическими и прикладными работами, что совершенно недостаточно. Так, совершенно
очевидно, что многие данные в информационных системах имеют нечисловой характер,
например, являются словами или принимают значения из конечных множеств. Нечисловой
характер имеют и упорядочения, которые дают эксперты или менеджеры, например, выбирая
главную цель, следующую по важности и т.д.
Значит, нужна статистика нечисловых данных. Мы ее построили [36, 82]. Далее,
многие величины известны не абсолютно точно, а с некоторой погрешностью - от и до.
Другими словами, исходные данные - не числа, а интервалы. Нужна статистика интервальных
данных. Мы ее развиваем [32, 33, 83]. В широко известной монографии по контроллингу
[84] на с.138 хорошо сказано: «Нечеткая логика - мощный
элегантный инструмент современной науки, который на Западе (и на Востоке - в Японии, Китае - А.О.) можно встретить в десятках
изделий - от бытовых видеокамер до систем управления вооружениями, - у нас до самого
последнего времени был практически неизвестен». Напомним, первая монография российского
автора по теории нечеткости [85] содержит основы высоких статистических технологий,
связанные с анализом выборок нечетких множеств (см. также
[33]). Ни статистики нечисловых данных, ни статистики интервальных данных, ни статистики
нечетких данных не было и не могло быть в классической статистике. Все эти области
статистического анализа данных относятся к высоким статистическим технологиям. Они
разработаны за последние десятилетия. К сожалению, многие распространенные в настоящее
время вузовские курсы по общей теории статистики и по математической статистике
разбирают только научные результаты, полученные в первой половине ХХ века, а потому
далеко отстают от современного уровня развития математических методов экономики
и, в частности, от уровня современной прикладной
математической статистики.
Важная и весьма перспективная часть прикладной статистики
- применение высоких статистических технологий к анализу конкретных данных, что
зачастую требует дополнительных теоретических исследований по доработке статистических
технологий применительно к конкретной ситуации. Большое значение имеют конкретные
статистические модели, например, модели экспертных оценок или эконометрики качества.
И конечно, такие конкретные применения, как расчет и прогнозирование индекса инфляции.
Сейчас уже многим экономистам и менеджерам ясно, что годовой бухгалтерский баланс
предприятия может быть использован для оценки его финансово-хозяйственной деятельности
только с привлечением данных об инфляции.
Опишем опыт внедрения «высоких статистических технологий».
Организованный нами в
Термин «высокие статистические
технологии» активно используется на Интернет-ресурсах научной школы кафедры ИБМ-2
по эконометрике – на сайтах с книгами и статьями в открытом доступе http://orlovs.pp.ru/
(сайт «Высокие статистические технологии», за 10 лет работы - более 1 млн. посетителей)
и http://ibm.bmstu.ru/nil/biblio.html
(сайт Лаборатории экономико-математических методов в контроллинге), в том числе
в названиях учебников, а
также на общем для этих сайтов форуме http://forum.orlovs.pp.ru/. При публикации научных
статей представителей научной школы в журнале «Заводская лаборатория. Диагностика
материалов» в качестве места работы часто указан ИВСТЭ
МГТУ им. Н.Э. Баумана. Поэтому целесообразно рассмотреть историю ИВСТЭ.
Вначале ИВСТЭ действовал как Центр статистических
методов и информатики в
У Института высоких статистических технологий
и эконометрики есть и предыстория. В 1978-1985 гг. активно действовала комиссия
«Статистика объектов нечисловой природы и экспертные оценки» Научного Совета АН
СССР по комплексной проблеме «Кибернетика». Зримым результатом ее работы является
сборник научных статей [87], в котором были подведены итоги выполненных к тому времени
исследований по созданию новой области прикладной статистики – статистики объектов
нечисловой природы (статистики нечисловых данных, нечисловой статистики).
ИВСТЭ был создан как инструмент реализации
инновационного проекта в области эконометрики. Опишем соответствующий инновационный
процесс.
Рабочая
группа по упорядочению системы стандартов по прикладной статистике и другим статистическим
методам. С начала
1970-х годов стали разрабатываться государственные стандарты по статистическим методам
управления качеством продукции. В связи с обнаружением в них грубых ошибок (с т
очки зрения эконометрики) в
В 1988-89 гг. наиболее активная часть
Рабочей группы (10 докторов и 15 кандидатов наук) составила «Аванпроект комплекса
методических документов и пакетов программ по статистическим методам стандартизации
и управления качеством» (около 1600 стр.)
Центр
статистических методов и информатики. К
сожалению, Госстандарт не пожелал финансировать реализацию заказанного им «Аванпроекта».
Тогда решено было действовать самостоятельно. На собрании в Политехническом музее
20 февраля
Организационное оформление последовало
в конце того же года. Всесоюзный центр статистических методов и информатики (ВЦСМИ)
Центрального правления Всесоюзного экономического общества создан на базе ЦСМИ Постановлением
Президиума Центрального Правления Всесоюзного экономического общества № 5-7 от 25
декабря
К середине
Всесоюзная
статистическая ассоциация. Параллельно
с выполнением работ по договорам с организациями и предприятиями ЦСМИ вел работу
по объединению статистиков. В апреле
В соответствии с реальной структурой статистики
ВСА делится на 4 секции: 1) практической статистики, 2) статистических методов и
их применений, 3) статистики надежности, 4) социально-экономической статистики.
Названия секций, зафиксированные в документах ВСА, не вполне соответствуют действительности.
Первая секция состоит из работников государственной статистики (ЦСУ - Госкомстата
- Росстата), большинство членов второй и третьей занимаются прикладными научными
исследованиями, в том числе в социально-экономической области и оборонно-промышленном
комплексе, а четвертая состоит из преподавателей статистических дисциплин. В
Бизнес-идея. Задачи ЦСМИ и ВСА (и РАСМ) были взаимосвязаны.
Роль ЦСМИ - производить товары и услуги,
а именно, разрабатывать новые статистические методы, а прежде всего - программные
и методические продукты в области эконометрики. Общественные объединения специалистов
в области эконометрики (ВСА и РАСМ) занимаются их распространением и внедрением.
К сожалению, бурный всплеск активности (1989-1991 гг.) сменился к
Создание
новой парадигмы статистических методов. В мероприятиях секции статистических методов ВСА и РАСМ
активно участвовали несколько сот исследователей. Основной тематикой работ многих
из этих специалистов являются статистические методы в сертификации (управлении качеством).
В 1989-90 гг. была проведена большая работа
по анализу положения дел в области теории и практики статистики в нашей стране.
В ЦСМИ и РАСМ, объединивших большинство ведущих российских специалистов, коллективными
усилиями разработан единый подход к проблемам применения статистических методов
в сертификации и управлении качеством, т.е. новая парадигма статистических методов.
Был
сформулирован «социальный заказ» - разработать серию учебников согласно новой парадигме.
К настоящему времени выполнен (см. раздел 2.1 выше). Перечень
выпущенных учебников и их Интернет-версий приведен, например,
на персональной странице А.И. Орлова на сайте МГТУ им. Н.Э. Баумана http://www.bmstu.ru/ps/~orlov/
.
Научные исследования ИВСТЭ. В условиях либерализации цен и резкого сокращения спроса
предприятий и организаций на высокотехнологичную наукоемкую продукцию Институт от
организации широкого внедрения высоких статистических технологий перешел к выполнению
конкретных заказов. Он разрабатывал эконометрические методы анализа нечисловых данных,
а также процедуры расчета и прогнозирования индекса инфляции (для Министерства обороны
РФ) и валового внутреннего продукта. ИВСТЭ развивал методологию построения и использования
математических моделей процессов налогообложения (для Министерства налогов и сборов
РФ), методологию оценки рисков реализации инновационных проектов высшей школы (для
Министерства промышленности, науки и технологий РФ). Институт оценивал влияние различных
факторов на формирование налогооблагаемой базы ряда налогов (для Минфина РФ), прорабатывал
перспективы применения современных статистических и экспертных методов для анализа
данных о научном потенциале (для Министерства промышленности, науки и технологий
РФ). Важное направление связано с эколого-экономической тематикой - разработка методологического,
программного и информационного обеспечения анализа рисков химико-технологических
объектов (для Международного научно-технического центра), методов использования
экспертных оценок в задачах экологического страхования (совместно с Институтом проблем
рынка РАН). Институт проводил маркетинговые исследования (в частности, для Institute
for Market Research GfK MR, Промрадтехбанка, фирм, торгующих растворимым кофе,
программным обеспечением, оказывающих образовательные услуги). Интерес вызывали
работы Института по прогнозированию социально-экономического развития России методом
сценариев [88 - 91], по экономико-математическому моделированию развития малых предприятий
[92, 93] и созданию современных систем информационной поддержки принятия решений
для таких организаций [94, 95], и др.
С
Институт ведет фундаментальные исследования в области высоких
статистических технологий и эконометрики, в частности, в рамках МГТУ им. Н.Э. Баумана
и Российского фонда фундаментальных исследований. Информация об Институте представлена
на сайтах в Интернете (http://orlovs.pp.ru,
прежний вариант - http://antorlov.nm.ru,
зеркала http://antorlov.euro.ru,
http://www.newtech.ru/~orlov ), которые в 2000 – 2003 гг. ежегодно посещали более 10000 пользователей,
а в
Вокруг Института высоких
статистических технологий и эконометрики выросла отечественная научная школа в области
эконометрики. Для ее формирования Институт и его работы послужили стержнем. На основе
научных статей были написаны учебники, соответствующие новой парадигме математических
методов экономики.
Уместно сказать несколько
слов об эконометрике. Как мы уже отмечали,
область научных и практических работ по развитию и применению статистических методов
в экономике и управлении организациями и территориями называется эконометрикой [16].
Эконометрика
– это прежде всего статистические методы в экономике. Прикладная
статистика – наука о том, как обрабатывать данные. Данные – любой вид зарегистрированной
информации. Отечественная научная школа в области эконометрики базируется на кафедре
ИБМ-2 "Экономика и организация производства" МГТУ им. Н.Э. Баумана (первой
кафедре по этой тематике в нашей стране, организованной в
Эконометрика - один из наиболее
эффективных инструментов контроллинга. Вначале наша научная школа занималась вопросами
применения организационно-экономического моделирования, эконометрики и статистики
при решении задач контроллинга (http://orlovs.pp.ru/econ.php#e2). Затем развернулись
работы в конкретных областях контроллинга
– в контроллинге методов, контроллинге рисков, контроллинге научной деятельности,
контроллинге качества.
При решении задач организации
производства используются разнообразные эконометрические методы и модели. Проанализируем
учебник [11], подготовленный кафедрой ИБМ-2. В нем более 20 раз используются эконометрические
методы и модели. Так, методы восстановления зависимости (регрессионного анализа)
используются при изучении динамики производственных затрат в период освоения производства
[11, с.95-97]. В частности, для выявления закономерностей изменения
трудоемкости изготовления единицы продукции, снижения себестоимости и других
показателей с течением времени или с ростом объемов изготовления и др. При нормировании
труда косвенные методы основаны на регрессионном анализе [11, с.308-309]. Интегральный
критерий эффективности проекта, применяемый при планировании инновационных процессов,
строится с помощью многомерного статистического анализа [11, с.101]. Постоянно возникает
необходимость строить те или иные интегральные показатели (критерии), объединяющие
значения частных (единичных или групповых) показателей. Упомянем суммарный показатель
качества продукции или проекта [11, с.244], коэффициент качества инженерного труда
[11, с.269].
В организации производства
часто используются задачи оптимизации. Так, с целью рационального расположения на
территории завода складских помещений, заготовительных цехов, участков, оборудования
решают задачу минимизации суммарных грузопотоков. Для максимально возможного совмещения
отдельных производственных процессов во времени, что может существенно сократить
время от запуска в производство до выпуска готовой продукции, решают соответствующую
оптимизационную задачу [11, с.121-122]. Методы сокращения производственного цикла,
в том числе снижения затрат труда на основные технологические операции, сокращения
затрат времени на транспортные, складские и контрольные операции, предполагают применение
методов оптимизации, в том числе дискретной оптимизации [11, с.134-136].
Особенно заметна роль оптимизации
в задачах планирования производственно-хозяйственной деятельности предприятия. Предполагается
построение экономико-математической модели объекта планирования, включающей целевую
функцию по принятому критерию оптимальности и систему ограничений [11, с.339]. Среди
основных методов планирования указаны экономико-математические методы [11, с.342].
Подробно рассматривается математическая модель построения оптимального плана реализации
продукции, сводящаяся к задаче линейного программирования [11, с.352-354]. При планировании
рыночных цен на продукцию решается задача максимизации прибыли как функции цены
[11, с.409]. Расчет оптимальных размеров партии деталей основан на минимизации суммарных
затрат [11, с.428].
Отметим важную роль математической
теория оптимального управления запасами как части логистики [11, с.223-236], в том
числе для организации материально-технического снабжения и складирования [11, с.217],
организации обеспечения основного производства технологической оснасткой [11, с.208].
Есть и устоявшиеся неточности - «экономичный объем заказа» [11, с.227] является
оптимальным лишь при большом интервале планирования [59, разд.16.3].
В производственном менеджменте
широко применяются разнообразные эконометрические методы. Например, хронометраж
[11, с. 311-316] – это типовое статистическое исследование. Отметим использование
медианы для вычисления нормы времени [11, с.312], что совпадает с рекомендациями
эконометрики [16]. На основе теории выборочных исследований указывается количество
наблюдений, позволяющее сделать обоснованные выводы о структуре затрат рабочего
времени [11, с.315].
Большой раздел эконометрики
– статистические методы управления качеством продукции. Согласно международному
стандарту ИСО 9004 в системах качества должно быть предусмотрено использование статистических
методов [11, с.253]. При рассмотрении видов контроля качества продукции выделяются
«выборочный» и «статистический» контроль [11, с.268]. Описываются методы статистического
приемочного контроля и статистического контроля процессов (другими словами, статистического
регулирования технологических процессов) [11, с.271-274]. В качестве одного из четырех
основных методов определения показателей качества продукции указан экспертный метод
[11, с.275]. Экспертные методы предлагается использовать и при построении причинно-следственной
диаграммы (диаграммы Исикавы) для ранжирования факторов по их значимости и выделении
наиболее важных [11, с.276]. Из методов обработки статистических данных разобрана
методика анализа качества продукции машиностроения с помощью диаграмм Парето [11,
с.277].
В производственном менеджменте
большую роль играют методы принятия решений [11, с.25-28], различные специализированные
эконометрические модели, например, модель минимизации сроков выполнения заказов
на основе использования сетевого графика со случайными сроками выполнения отдельных
работ [11, с.110-112].
Таким образом, эконометрические
методы постоянно используются менеджерами, в том числе контроллерами. При решении
задач организации производства необходимо применять эконометрические методы в соответствии
с новой парадигмой в этой области (см. раздел 2.1 выше).
Термин «эконометрика» пока еще не всем известен в России.
А между тем в мировой науке эконометрика занимает достойное место. Напомним, что
Нобелевские премии по экономике получили эконометрики Ян Тильберген, Рагнар Фриш,
Лоуренс Клейн, Трюгве Хаавельмо, Джеймс Хекман и Дэниель Мак-Фадден. В
Однако в нашей стране по ряду причин прикладная статистика
и эконометрика до начала 1980-х годов не были сформированы как самостоятельные направления
научной и практической деятельности, в отличие, например, от Польши, не говоря уже
об англосаксонских странах. В результате специалистов в области прикладной статистики
и эконометрики у нас на порядок меньше, чем в США и Великобритании.
Поэтому весьма важно создание и развитие отечественной
научной школы по эконометрике [104]. За развитие работ по эконометрике отвечает
секция «Организационно-экономическое моделирование, эконометрика и статистика» кафедры
ИБМ-2. Члены секции преподают и активно используют при решении практических задач
дисциплины «Эконометрика», «Организационно-экономическое моделирование», «Прикладная
статистика», «Статистика» (дневное обучение), «Статистика», «Методы принятия управленческих
решений» (второе высшее образование на факультете ИБМ), «Количественные методы,
статистика и информатика», «Эконометрика» (Бизнес-школа МГТУ им. Н.Э. Баумана).
Для описания работ членов
секции в качестве базового будем использовать термин «эконометрика». Терминологические
дискуссии не представляются плодотворными в данном разделе настоящей монографии.
Научная работа ведется в
рамках Института высоких статистических технологий и эконометрики (ИВСТЭ) и
Лаборатории экономико-математических методов в контроллинге Научно-учебного центра
«Контроллинг и управленческие инновации» МГТУ им. Н.Э. Баумана. Научная школа по
эконометрике представлена в редколлегиях научных журналов «Заводская лаборатория.
Диагностика материалов», «Контроллинг», «Социология: методология,
методы, математическое моделирование», периодического сборника научных трудов «Управление
большими системами» (все четыре издания входят в «список ВАК» - Перечень российских
рецензируемых научных журналов, в которых должны быть опубликованы основные научные
результаты диссертаций на соискание ученых степеней доктора и кандидата наук), научного
журнала «IDO science (Innovation, Development, Outsourcing)», редакционных советов
журналов «BIOCOSMOLOGY – NEO-ARISTOTELISM», «Инженерный журнал: наука и инновации»,
«Инновации в менеджменте», в составе ряда диссертационных советов и Ученого совета
Научно-учебного комплекса «Инженерный бизнес и менеджмент» МГТУ им. Н. Э. Баумана.
Партнерами научной школы по эконометрике
в соответствии с заключенными договорами являются академические институты – Институт
проблем управления, Центральный экономико-математический институт, а также Кубанский
государственный аграрный университет, в «Научном журнале КубГАУ» в 2013-2015 гг.
опубликовано более 50 наших работ.
Ведутся прикладные научно-исследовательские
работы, в частности, с Группой авиакомпаний «Волга-Днепр» (разработка Автоматизированной
системы прогнозирования и предотвращения авиационных происшествий АСППАП), с космическим
научным центром ЦНИИМАШ.
Активно работает научный семинар Лаборатории
экономико-математических методов в контроллинге. В 2007 -2014 гг. проведено около
120 заседаний, на которых заслушано и обсуждено несколько сотен докладов.
В рамках научной школы защищено 9 кандидатских
диссертаций, в том числе 6 – по экономическим наукам, 2 – по техническим, 1 – по
физико-математическим
Приходится с сожалением констатировать, что в России плохо
налажена подготовка специалистов по высоким статистическим технологиям. В курсах
по теории вероятностей и математической статистике обычно даются лишь классические
основы этих дисциплин, разработанные в первой половине ХХ в., а преподаватели-математики
свою научную деятельность предпочитают посвящать доказательству теорем, имеющих
лишь внутриматематическое значение, а не развитию высоких статистических технологий.
В настоящее время появилась надежда на эконометрику. В России развертываются эконометрические
исследования и преподавание эконометрики. Экономисты, менеджеры и инженеры, прежде
всего специалисты по контроллингу, должны быть вооружены современными средствами
информационной поддержки, в том числе высокими статистическими технологиями и эконометрикой.
Очевидно, преподавание должно идти впереди практического применения. Ведь как применять
то, чего не знаешь?
Приведем два примера - отрицательный и положительный, -
показывающие связь преподавания с внедрением передовых технологий.
Один раз - в 1990 – 1992 гг. мы уже обожглись на недооценке
необходимости предварительной подготовки тех, для кого предназначены современные
программные продукты. Наш коллектив (Всесоюзный центр статистических методов и информатики
Центрального Правления Всесоюзного экономического общества, в настоящее время –
Институт высоких статистических технологий и эконометрики) разработал систему диалоговых
программных систем обеспечения качества продукции. Их созданием руководили ведущие
специалисты страны. Но распространение программных продуктов шло на 1 - 2 порядка
медленнее, чем мы ожидали. Причина стала ясна не сразу. Как оказалось, работники
предприятий просто не понимали возможностей разработанных систем, не знали, какие
задачи можно решать с их помощью, какой экономический эффект они дадут. А не понимали
и не знали потому, что в вузах никто их не учил статистическим методам управления
качеством. Без такого систематического обучения нельзя обойтись - сложные концепции
«на пальцах» за пять минут не объяснишь.
Есть и противоположный пример - положительный. В середине
1980-х годов в советской средней школе ввели новый предмет «Информатика». И сейчас
молодое поколение превосходно владеет компьютерами, мгновенно осваивая быстро появляющиеся
новинки, и этим заметно отличается от тех, кому за 50 – 60 лет.
Если бы удалось ввести в средней школе курс теории вероятностей
и статистики, то ситуация с внедрением высоких статистических технологий могла бы
быть резко улучшена. Такой курс есть в Японии и США, Швейцарии, Кении и Ботсване,
почти во всех странах (и ЮНЕСКО проводит всемирные конференции по преподаванию статистики
в средней школе – см. сборник докладов [109]). Надо, конечно, добиться того, чтобы
этот курс был построен на высоких статистических технологиях, а не на низких. Другими
словами, он должен отражать современные достижения, а не концепции пятидесятилетней
или столетней давности.
Устаревшая научная и учебная литература, выполненная в
соответствии с парадигмой середины XX в., создает впечатление, что математические методы экономики застыли
на уровне пятидесятилетней давности, ничего существенно нового с тех пор не появлялось.
Это впечатление полностью противоречит реальности. Новая парадигма породила массу
новых идей, подходов, моделей, методов во всех разделах математических методов экономики
- в прикладной статистике и других статистических методах (т.е. в эконометрике),
теории принятия решений, экспертных технологиях, организационно-экономическом моделировании,
экономико-математических методах и моделях. (Перечисленные разделы в значительной
степени перекрываются, и нет необходимости заниматься их искусственным разделением.)
В настоящем разделе рассмотрим точки роста математических методов экономики на примере
статистических методов. На основе новой парадигмы прикладной математической статистики,
анализа данных и математических методов экономики выделим и рассмотрим пять актуальных
направлений, в которых развивается современная прикладная статистика и другие статистические
методы, т.е. пять «точек роста» – непараметрическая статистика, робастность, компьютерно-статистические
методы, статистика интервальных данных, статистика нечисловых данных.
Отечественная литература по прикладной статистике и другим
статистическим методам столь же необозрима, как и мировая. Только
в разделе «Математические методы исследования» журнала «Заводская лаборатория» (с
Не будем даже пытаться перечислять здесь коллективы исследователей
или основные монографии в этой области. История развития прикладной статистики и
других статистических методов в нашей стране в основных чертах рассмотрена в работах
[110 - 113].
Отметим только одно издание. По нашему мнению, наилучшей
отечественной книгой ХХ века по прикладной статистике является сборник статистических
таблиц Л.Н. Большева и Н.В. Смирнова [69] с подробными комментариями, играющими
роль сжатого учебника и справочника.
В настоящем разделе на основе новой парадигмы
прикладной математической статистики [63, 114], анализа данных [115] и математических
методов экономики [116] (см. подробнее раздел 2.1) выделим и обсудим основные «точки
роста» прикладной статистики и других статистических методов, те их направления,
которые представляются наиболее перспективными в будущем, в следующие десятилетия
XXI века, но пока в большинстве учебных, справочных и даже научных изданий отодвинуты на задний план традиционными
постановками.
На основе опыта научной (теоретической
и прикладной) и научно-организационной деятельности полагаем, что при описании современного
этапа развития статистических методов целесообразно выделить пять актуальных направлений,
в которых развивается современная прикладная статистика, т.е. пять «точек роста»:
непараметрика (т.е. непараметрическая статистика), робастность (устойчивость), компьютерно-статистические
технологии (метод Монте-Карло, имитационное моделирование, автоматизированный системно-когнитивный
анализ, бутстреп и др.), статистика интервальных данных, статистика нечисловых данных (в несколько иной терминологии - статистика объектов нечисловой
природы). Дадим здесь краткую характеристику каждому из пяти перечисленных актуальных
направлений исследований.
В первой трети ХХ в., одновременно
с параметрической статистикой Пирсона, Стьюдента и Фишера
[110], в работах Спирмена и Кендалла появились первые непараметрические методы,
основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков.
Но непараметрика, не делающая нереалистических предположений о том, что функции
распределения результатов наблюдений принадлежат тем или иным параметрическим семействам
распределений, стала заметной частью статистики лишь со второй трети ХХ века. В
30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших
статистические критерии, носящие в настоящее время их имена [111, 113]. Эти критерии
основаны на использовании так называемого эмпирического процесса. (Как известно, эмпирический процесс – это разность между эмпирической
и теоретической функциями распределения, умноженная на квадратный корень из объема
выборки.) В работе А.Н. Колмогорова
Следует отметить, что встречающееся иногда в литературе
словосочетание «критерий Колмогорова – Смирнова» некорректно, поскольку эти два
статистика никогда не печатались вместе и не изучали один и тот же критерий схожими
методами. Корректно сочетание «критерий типа Колмогорова – Смирнова», применяемое
для обозначения критериев, основанных на использовании супремума функций от эмпирического
процесса [75, 117].
После второй мировой войны развитие непараметрической статистики
пошло быстрыми темпами. Большую роль сыграли работы американского статистика Ф.
Вилкоксона и его научной школы. К настоящему времени с помощью непараметрических
методов можно решать практически тот же круг статистических задач, что и с помощью
параметрических. Однако для обеспечения широкого внедрения непараметрических методов
необходимо провести еще целый комплекс теоретических и пилотных (т.е. пробных) прикладных
работ. Все большую роль играют непараметрические оценки плотности [118], непараметрические
методы регрессии [119] и распознавания образов (дискриминантного анализа) [120].
В нашей стране непараметрические методы получили достаточно большую известность
после выхода в
Тем не менее параметрические методы
всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо
знаком со статистическими методами. Неоднократно публиковались экспериментальные
данные, свидетельствующие о том, что распределения реально наблюдаемых случайных
величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны
от нормальных, т.е. гауссовских (см., например, [5, 121]). Тем не менее, математики-теоретики
продолжают строить и изучать статистические модели, основанные на гауссовости, а
практики – применять подобные методы и модели. Другими словами, «ищут под фонарем,
а не там, где потеряли».
Если в параметрических постановках на
вероятностные модели статистических данных накладываются слишком жесткие требования
– их функции распределения должны принадлежать определенному параметрическому семейству,
то в непараметрических, наоборот, излишне слабые – обычно требуется лишь, чтобы
функции распределения были непрерывны. При этом игнорируется априорная информация о том, каков «примерный вид»
распределения. Априори можно ожидать, что учет этого «примерного вида» улучшит показатели
качества статистических процедур. Развитием этой идеи является теория устойчивости
(робастности) статистических процедур, в которой предполагается, что распределение
исходных данных мало отличается от некоторого параметрического семейства. За рубежом
эту теорию разрабатывали П. Хубер (другое написание фамилии - Хьюбер), Ф. Хампель
и многие другие. Из монографий на русском языке, трактующих о робастности и устойчивости
статистических процедур и математических моделей социально-экономических явлений
и процессов, самой ранней и наиболее общей была книга [7], следующей - монография
[122]. Частными, но весьма важными случаями реализации идеи робастности (устойчивости)
статистических процедур являются статистика объектов нечисловой природы и статистика
интервальных данных (см. ниже).
Имеется большое разнообразие моделей робастности в зависимости
от того, какие именно отклонения от заданного параметрического семейства допускаются
(подробнее см. [34, 123, 124]). Среди теоретиков наиболее
популярной оказалась модель выбросов, в которой исходная выборка «засоряется» малым
числом «выбросов», имеющих принципиально иное распределение. Однако эта модель представляется
«тупиковой», поскольку в большинстве случаев большие выбросы либо невозможны из-за
ограниченности шкалы прибора либо интервала изменения измеряемой величины, либо
от них можно избавиться, применяя для расчетов только статистики, построенные по
центральной части вариационного ряда. Кроме того, в подобных моделях обычно считается
известной частота засорения (от которой зависят рекомендации по выбору методов),
что в сочетании со сказанным выше делает их малопригодными для практического использования.
Более перспективным представляется, например,
модель малых отклонений распределений, в которой расстояние между распределением
каждого элемента выборки и базовым распределением не превосходит заданной малой
величины, и модель статистики интервальных данных.
Если еще в 70-е годы ХХ в. основным содержанием
математической статистики считались предельные теоремы (см., например, [125, с.7
- 8]), то в настоящее время большую роль играют различные компьютерно-статистические
технологии, основанные на методе статистических испытаний (Монте-Карло), имитационном
моделировании, автоматизированном системно-когнитивном анализе (АСК-анализе), бутстрепе
и др. Компьютерно-статистические технологии будут рассмотрены ниже в отдельном разделе. Здесь скажем несколько слов об АСК-анализе и бутстрепе.
В предисловии к переводу на русский язык книги С. Кульбака
«Теория информации и статистика» [126] А.Н. Колмогоров писал: «... навыки мысли
и аналитический аппарат теории информации должны, по-видимому, привести к заметной
перестройке здания математической статистики» [126, с. 5 - 6]. Однако этого
не произошло, поскольку поток исследований, имеющих целью указанную перестройку,
в СССР и мире по каким-то причинам не возник. Работы Е.В. Луценко
по разработке и применению автоматизированного системно-когнитивного анализа (см.,
например [127 - 130]) можно рассматривать как развитие указанного А.Н. Колмогоровым
направления прикладной математической статистики, не столько в чисто-математическом
плане, сколько в прагматически-прикладном. Реализуется рекомендация А.Н.
Колмогорова: «По-видимому, внедрение предлагаемых методов в практическую статистику
будет облегчено, если тот же материал будет изложен более доступно и проиллюстрирован
на подробно разобранных содержательных примерах». Отметим оригинальность
подхода и результатов Е.В. Луценко (по сравнению с книгой C. Кульбака), так что речь выше идет об идейных связях, а не о развитии
конкретных научных результатов. Математический метод автоматизированного
системно-когнитивного анализа (АСК-анализ) реализован в его программном инструментарии
– универсальной когнитивной аналитической системе Эйдос-Х++. АСК-анализ основан
на системной теории информации, которая создана в рамках реализации программной
идеи обобщения всех понятий математики, в частности теории информации, базирующихся
на теории множеств, путем тотальной замены понятия множества на более общее понятие
системы и тщательного отслеживания всех последствий этой замены (см., например,
[32, 33]). Благодаря математическим основам АСК-анализа
этот метод является непараметрическим и позволяет сопоставимо обрабатывать десятки
и сотни тысяч градаций факторов и будущих состояний объекта управления (классов)
при неполных (фрагментированных), зашумленных данных числовой и нечисловой природы,
измеряемых в различных единицах измерения.
Другая из упомянутых выше технологий - бутстреп (размножение
выборок) - связана с интенсивным использованием возможностей компьютеров. Основная
идея состоит в том, чтобы теоретическое исследование заменить вычислительным экспериментом.
Например, вместо описания выборки распределением из параметрического семейства строим
большое число «похожих» выборок, т.е. «размножаем» выборку. Затем вместо оценивания
характеристик (и параметров) и проверки гипотез на основе свойств теоретического
распределения решаем эти задачи вычислительным методом, рассчитывая интересующие
нас статистики по каждой из «похожих» выборок и анализируя полученные при этом распределения.
Например, вместо того, чтобы теоретическим путем находить распределение статистики,
доверительные интервалы и другие характеристики, моделируют большое число выборок,
похожих на исходную, затем рассчитывают соответствующие
значения интересующей исследователя статистики и изучают их эмпирическое распределение.
Квантили этого распределения задают доверительные интервалы, и т.д.
Термин «бутстреп» мгновенно получил широкую известность
после первой же статьи Б. Эфрона
Сама по себе идея «размножения выборок» была известна гораздо
раньше. Одна из статей Б. Эфрона в сборнике [131] называется так: «Бутстреп-методы:
новый взгляд на метод складного ножа». Упомянутый «метод складного ножа» (jackknife)
предложен М. Кенуем еще в
Преимущества и недостатки бутстрепа как статистического
метода в сравнении с рядом аналогичных методов обсуждаются в [132]. Необходимо подчеркнуть,
что бутстреп по Эфрону - лишь один из вариантов методов «размножения выборки» (resampling),
и, на наш взгляд, не самый удачный. Метод «складного ножа» представляется более
полезным. На его основе можно сформулировать следующую простую практическую рекомендацию.
Предположим, что Вы по выборке делаете какие-либо статистические
выводы. Вы хотите узнать также, насколько эти выводы устойчивы. Если у Вас есть
другие (контрольные) выборки, описывающие то же явление, то Вы можете применить
к ним ту же статистическую процедуру и сравнить результаты. А если таких выборок
нет? Тогда Вы можете их построить искусственно. Берете исходную выборку и исключаете
один элемент. Получаете похожую выборку (она взята из того же распределения, только
объем на единицу меньше). Затем возвращаете этот элемент выборки и исключаете другой.
Получаете вторую похожую выборку. Поступая таким образом
со всеми элементами исходной выборки, получаете столько выборок, похожих на исходную,
каков ее объем. Остается обработать их тем же способом, что и исходную, и изучить
устойчивость получаемых выводов - разброс оценок параметров, частоты принятия или
отклонения гипотез и т.д.
Можно изменять не выборку, а сами данные. Поскольку всегда
имеются погрешности измерения, то реальные данные - это не числа, а интервалы (результат
измерения плюс-минус погрешность). Нужна статистическая теория анализа таких данных.
Перспективное и быстро развивающееся направление последних
десятилетий - статистика интервальных данных [83]. Речь идет о развитии методов
прикладной математической статистики в ситуации, когда статистические данные - не
числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения
случайных величин.
Статистика интервальных данных идейно связана с интервальной
математикой, в которой в роли чисел выступают интервалы. Это направление математики
является дальнейшим развитием известных правил приближенных вычислений, посвященных
выражению погрешностей суммы, разности, произведения, частного через погрешности
тех чисел, над которыми осуществляются перечисленные операции. К настоящему времени
удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений,
в которых коэффициенты, начальные условия и решения описываются с помощью интервалов.
Одна из ведущих научных школ в области статистики интервальных
данных - это школа проф. А.П. Вощинина (1937 - 2008), активно работающая с конца
70-х годов. В частности, ее представителями изучены проблемы регрессионного анализа,
планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной
неопределенности.
Рассмотрим другое направление в статистике интервальных
данных, которое также представляется перспективным. В нем развиваются асимптотические
методы статистического анализа интервальных данных при больших объемах выборок и
малых погрешностях измерений. Мы называем это направление асимптотической математической
статистикой интервальных данных. В отличие от классической математической статистики,
сначала устремляется к бесконечности объем выборки и только потом - уменьшаются
до нуля погрешности. В частности, с помощью такой асимптотики в начале 1980-х годов
были сформулированы правила выбора метода оценивания параметров гамма-распределения в ГОСТ 11.011-83 [133].
В рамках рассматриваемого научного направления разработана
общая схема исследования, включающая введение и расчет нотны (максимально возможного
отклонения статистики, вызванного интервальностью исходных данных) и рационального
объема выборки (превышение которого не дает существенного повышения точности оценивания).
Она применена к оцениванию математического ожидания, дисперсии, коэффициента вариации,
параметров гамма-распределения и характеристик аддитивных
статистик, при проверке гипотез о параметрах нормального распределения, в том числе
с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова.
Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного,
дискриминантного и кластерного анализов. В частности, изучено влияние погрешностей
измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны
способы расчета нотн и рациональных объемов выборок, введены и исследованы новые
понятия многомерных и асимптотических нотн, доказаны соответствующие предельные
теоремы. Начата разработка интервального дискриминантного анализа, в частности,
рассмотрено влияние интервальности данных на введенный в статье [134] показатель
качества классификации. Изучено асимптотическое поведение оценок метода моментов
и оценок максимального правдоподобия (а также более общих оценок минимального контраста),
проведено асимптотическое сравнение этих методов в случае интервальных данных. Найдены
общие условия, при которых, в отличие от классической математической статистики,
метод моментов дает более точные оценки, чем метод максимального правдоподобия.
Подробное изложение дано в соответствующих главах монографий [5, 33, 36, 54].
В области асимптотической статистики интервальных данных
российская наука имеет мировой приоритет. Во все виды статистического программного
обеспечения необходимо включать алгоритмы интервальной статистики, «параллельные»
обычно используемым алгоритмам прикладной математической статистики. Это позволяет
в явном виде учесть наличие погрешностей у результатов наблюдений.
Напомним, что согласно общепринятой в настоящее время классификации
статистических методов [5] прикладная статистика делится на следующие четыре области:
статистика (числовых) случайных величин;
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
статистика объектов нечисловой природы.
Первые три из этих областей являются классическими. Они
были хорошо известны еще в первой половине ХХ в. Остановимся
на четвертой, сравнительно недавно вошедшей в массовое
сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту
нечисловой статистикой. Анализ динамики развития прикладной статистики приводит к выводу, что в
XXI в. она станет центральной
областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.
Исходный объект в прикладной математической
статистике - это выборка. В вероятностной теории статистики выборка - это совокупность
независимых одинаково распределенных случайных элементов. Какова природа этих элементов?
В классической математической статистике элементы выборки - это числа. В многомерном
статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это
объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими
словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной
структуры. Примерами объектов нечисловой природы являются:
значения качественных признаков, т.е.
результаты кодировки объектов с помощью заданного перечня категорий (градаций);
упорядочения (ранжировки) образцов продукции (при оценке
её технического уровня и конкурентоспособности)) или заявок на проведение научных
работ (при проведении конкурсов на выделение грантов), описывающие мнения экспертов;
классификации, т.е. разбиения совокупности объектов на
группы сходных между собой (кластеры);
толерантности, т.е. бинарные отношения, описывающие сходство
объектов между собой, например, сходство тематики научных работ, которое оценивается
экспертами с целью рационального формирования экспертных советов внутри определенной
области науки;
результаты парных сравнений или контроля качества продукции
по альтернативному признаку («годен» - «брак»), т.е. последовательности из 0 и 1;
множества (обычные или нечеткие), например, зоны, пораженные
коррозией; топокарты, полученные при кинетокардиографии; перечни возможных причин
аварии, составленные экспертами независимо друг от друга; нечеткие экспертные оценки
качества газовых плит;
слова, предложения, тексты;
вектора, координаты которых - совокупность значений разнотипных
признаков, например, результат составления статистического отчета о научно-технической
деятельности (т.н. форма № 1-наука) или заполненная компьютеризированная история
болезни, в которой часть признаков носит качественный характер, а часть - количественный;
ответы на вопросы экспертной, маркетинговой или социологической
анкеты, часть из которых носит количественный характер (возможно, интервальный),
часть сводится к выбору одной из нескольких подсказок, а часть представляет собой
тексты;
графы, и т.д.
Интервальные данные также можно рассматривать как пример
объектов нечисловой природы, а именно, как частный случай нечетких множеств.
С начала 1970-х годов под влиянием запросов прикладных
исследований в социально-экономических, технических, медицинских науках в России
активно развивается статистика объектов нечисловой природы, известная также как
статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно
новой области эконометрики и прикладной математической статистики приоритет принадлежит
российским ученым.
Большую роль сыграл основанный в
В течение 1970-х годов на основе запросов теории экспертных
оценок (а также социологии, экономики, техники и медицины) развивались конкретные
направления статистики объектов нечисловой природы. Были установлены связи между
конкретными видами таких объектов, разработаны для них вероятностные модели. Научные
итоги этого периода подведены в монографиях [7, 144, 145].
Следующий этап - выделение статистики объектов нечисловой
природы в качестве самостоятельного направления в прикладной статистике, ядром которого
являются методы статистического анализа данных произвольной природы. Программа развития
этого нового научного направления впервые была сформулирована в статье [146]. Реализация
этой программы была осуществлена в основном в 1980-е годы. Для работ этого периода
характерна сосредоточенность на внутренних проблемах нечисловой статистики. Ссылки
на конкретные монографии, сборники, статьи и иные публикации нескольких сотен авторов
приведены в [36, 82]. Отметим лишь сборник научных статей [87], первый сборник,
полностью посвященный нечисловой статистике.
К началу 1990-х
годов статистика объектов нечисловой природы с теоретической точки зрения была достаточно
хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически,
в частности, доказано достаточно много теорем. Однако она оставалась недостаточно
апробированной на практике. И в 1990-е годы наступило время от теоретических математико-статистических
исследований перейти к применению полученных результатов при решении конкретных
задач в различных областях науки и практики. В конце ХХ в. и начале XXI в. началось
преподавание статистики объектов нечисловой природы, в частности, в учебных курсах
«Прикладная статистика», «Эконометрика», «Организационно-экономическое моделирование»,
«Принятие решений» и др.
Важно отметить, что в статистике нечисловых данных, как
и в других областях прикладной статистики и прикладной математики вообще, одна и
та же математическая схема может с успехом применяться при решении различных задач
анализа конкретных данных. В технических исследованиях, и в менеджменте, и в экономике,
и в геологии, и в медицине, и в социологии, и для анализа экспертных оценок, и во
многих иных областях. А потому ее лучше всего формулировать и изучать в наиболее
общем виде, для объектов произвольной природы.
В чем принципиальная новизна нечисловой статистики? Для
классической математической статистики характерна операция сложения. При расчете
выборочных характеристик распределения (выборочное среднее арифметическое, выборочная
дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины
постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная
предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же
статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат
в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны
на принципиально ином математическом аппарате - на применении различных расстояний
в пространствах объектов нечисловой природы.
Кратко рассмотрим несколько идей, развиваемых в статистике
объектов нечисловой природы для данных, лежащих в пространствах произвольного вида.
Решаются классические задачи описания данных, оценивания, проверки гипотез - но
для неклассических данных, а потому неклассическими методами.
Первой обсудим проблему определения
средних величин. В рамках репрезентативной теории измерений удается указать вид
средних величин, соответствующих тем или иным шкалам измерения. В классической математической
статистике эмпирические и теоретические средние величины вводят с помощью операций
сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения
(выборочная и теоретическая медианы). В пространствах произвольной природы средние
значения нельзя определить с помощью операций сложения или упорядочения. Теоретические
и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического
среднего это - задача минимизации математического ожидания (в классическом смысле)
расстояния от случайного элемента со значениями в рассматриваемом пространстве до
фиксированной точки этого пространства (минимизируется указанная функция от этой
точки). Для эмпирического среднего математическое ожидание берется по эмпирическому
распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки
и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое
средние как решения экстремальных задач могут быть не единственными элементами пространства,
а описываться множествами таких элементов, которые могут оказаться и пустыми. Несмотря
на возможность неоднозначности или пустоты решений экстремальных задач, удалось
сформулировать и доказать законы больших чисел для средних величин, определенных
указанным образом, т.е. установить сходимость эмпирических средних к теоретическим.
Как обычно, хорошая общая
теория дает больше того, что от нее вначале ожидалось. Так, удалось установить,
что методы доказательства законов больших чисел допускают существенно более широкую
область применения, чем та, для которой они были разработаны. А именно, с помощью
этих методов удалось изучить асимптотику решений экстремальных статистических задач,
к которым, как известно, сводится большинство постановок прикладной статистики.
В частности, кроме законов больших чисел установлена и состоятельность оценок минимального
контраста, в том числе оценок максимального правдоподобия и робастных оценок. К
настоящему времени подобные оценки изучены также и в интервальной статистике.
В статистике в пространствах
произвольной природы большую роль играют непараметрические оценки плотности, используемые,
в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного
анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических
оценок плотности в пространствах произвольной природы, в частности, доказана их
состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения
наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в
классической математико-статистической теории для числовых случайных величин.
Дискриминантный, кластерный,
регрессионный анализы в пространствах произвольной природы основаны либо на параметрической
теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных
статистических задач - либо на непараметрической теории - и тогда используются алгоритмы
на основе непараметрических оценок плотности.
Для проверки гипотез могут
быть использованы статистики интегрального типа, в частности, типа омега-квадрат.
Любопытно, что предельная теория таких статистик, построенная
первоначально в классической постановке [147] для конечномерного пространства, приобрела
естественный (завершенный, изящный) вид именно для пространств произвольного вида
[148, 148], поскольку при этом удалось провести рассуждения, опираясь на базовые
математические соотношения, а не на те частные (с общей точки зрения), что были
связаны с конечномерным пространством.
Представляют практический
интерес результаты, связанные с конкретными областями статистики нечисловых данных.
В частности, со статистикой нечетких и случайных множеств (напомним, что теория
нечетких множеств в определенном смысле сводится к теории случайных множеств), с
непараметрической теорией парных сравнений, с аксиоматическим введением метрик в
конкретных пространствах объектов нечисловой природы, и с рядом других конкретных
постановок.
Для анализа нечисловых, в
частности, экспертных данных весьма важны методы классификации. С другой стороны,
наиболее естественно ставить и решать задачи классификации, основанные на использовании
расстояний или показателей различия, в рамках статистики нечисловых данных. Это
касается как распознавания образов с учителем (другими словами, дискриминантного
анализа), так и распознавания образов без учителя (т.е. кластерного анализа).
Статистические методы анализа
нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии
и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми
[36].
Итак, статистика нечисловых данных является центром прикладной статистики.
А ее теоретическая основа – статистика в пространствах произвольной природы – является
стержнем математической статистики.
Выше рассмотрены пять основных «точек роста» прикладной
статистики и других статистических методов. Разумеется, они не исчерпывают все многообразие
фронта научных исследований в рассматриваемых областях. Кроме того, мы почти не
затронули разнообразные применения статистических методов в конкретных прикладных
исследованиях и разработках. Много интересных проблем есть в планировании экспериментов,
особенно кинетических (см., например, [150]), при анализе
проблем надежности, в новых статистических методах управления качеством продукции
[16, 39], при анализе рисков [151], в вопросах экологии и промышленной безопасности
[62] и др.
Необходимо отметить, что в течение последних более чем 60 лет в России
наблюдается огромный разрыв между государственной статистикой и научным сообществом
специалистов по статистическим методам (подробнее об этом см.
статью [152]). Так, в учебнике по истории статистики [153] даже не упоминаются имена
членов-корреспондентов АН СССР Н.В.Смирнова и Л.Н. Большева! А ведь они – единственные
представители именно математической статистики как таковой в Академии наук в ХХ
в. (еще ряд членов отечественной Академии наук имели математическую статистику среди
своих интересов, но Н.В. Смирнов и Л.Н. Большев занимались практически только ею).