ГЛАВА 2.РАЗВИТИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В НАШЕЙ СТРАНЕ

 

2.1. Основные этапы становления
статистических методов

 

Статистические методы широко и успешно применяются практически во всех отраслях народного хозяйства, почти во всех областях научных исследований. Литература по статистическим методам необозрима – на русском языке десятки тысяч книг и статей. Однако есть пробел – практически нет работ по истории статистических методов. Вслед за выдающимся математиком академиком АН УССР Б. В. Гнеденко полагаем, что научный работник и тем более преподаватель должен знать историю своей дисциплины, чтобы понимать настоящее ее состояние и быть способным прогнозировать дальнейшее развитие, опираться на эти прогнозы в своей научной деятельности. Поэтому представляется необходимым включение в настоящую монографию главы, посвященной истории прикладной математической статистики, развитию статистических методов.

 

2.1.1. Моисей – первый статистик

 

Самая ранняя из известных нам статистических работ входит в Библию. В Ветхий Завет включена Четвертая книга Моисеева под названием «Числа». Глава 1 этой книги посвящена переписи военнообязанных. Она начинается так (цитируем по синодальному изданию Библии):

«1. И сказал Господь Моисею в пустыне Синайской, в скинии собрания, в первый день второго месяца, во второй год по выходе их из земли Египетской, говоря:

2. Исчислите всё общество сынов Израилевых по родам их, по семействам их, по числу имен, всех мужеского пола поголовно,

3. От двадцати лет и выше, всех годных для войны у Израиля, по ополчениям их исчислите их – ты и Аарон.

4. С вами должны быть из каждого колена по одному человеку, который в роде своем есть главный.

*            *          *

21. Исчислено в колене Рувимовом сорок шесть тысяч пятьсот.

*            *          *

23. Исчислено в колене Симеоновом пятьдесят девять тысяч триста.

*            *          *

46. И было всех вошедших в исчисление шестьсот три тысячи пятьсот пятьдесят».

Практическая направленность этого статистического исследования вполне очевидна. Обратите внимание, что оно предпринято по решению руководства страны (в библейских терминах – «общества сынов Израилевых»), причем к работам привлечены региональные начальники (главные по коленам, на которые делилось государство). Четко указана совокупность, подлежащая переписи - мужчины от 20 лет и старше, годные для войны (военнообязанные).

Древность исследования проявляется только в том, что стандартные описания результатов учета военнообязанных по коленам выражены словами. Сейчас мы представили бы результаты в виде таблицы (табл.1). Таблицы такого типа постоянно составляют органы государственной статистики и в настоящее время (см. портал http://www.gks.ru/wps/portal Федеральной службы государственной статистики РФ (краткое название – Росстат)).

Итак, при сравнении с деятельностью Росстата описанное в Библии исследование, выполненное под руководством Моисея, является вполне современным по своим задачам и методам. 

 

Таблица 1 – Число всех годных для войны у Израиля

№ п/п

Родоначальник колена

Число военнообязанных

1

Рувим

46 500

2

Симеон

59 300

3

Гад

45 650

4

Иуда

74 600

5

Иссахар

54 400

6

Завулон

57 400

7

Ефрем

40 500

8

Манассия

32 200

9

Вениамин

35 400

10

Дан

62 700

11

Асир

41 500

12

Неффалим

53 400

 

Всего

603 550

 

2.1.2. Развитие представлений о статистике

 

В Библии не было терминов «статистика» или «статистик». Согласно [1] впервые термин «статистик» мы находим в художественной литературе – в «Гамлете» Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира – знать, придворные. По-видимому, оно происходит от латинского слова status, что в оригинале означает «состояние» или «политическое состояние».

В течении следующих 400 с небольшим лет термин «статистика» понимали и понимают по-разному. В работе [1] сотрудниками Межфакультетской лаборатории статистических методов МГУ им. М. В. Ломоносова собрано более 200 определений этого термина, некоторые из которых обсуждаются ниже.

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: «Статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб достаточно хорошо соответствует этому определению.

Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту: «Статистика – это бюджет вещей». Тем самым статистические методы были признаны полезными не только для административного управления, но и для управления на уровне отдельного предприятия. Согласно формулировке 1833 г. «цель статистики заключается в представлении фактов в наиболее сжатой форме». Здесь статистика уже не связывается ни с государствоведением, ни с социально-экономическими проблемами вообще.

Приведем еще два высказывания. «Статистика состоит в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел» (1895). «Статистика – это численное представление фактов из любой области исследования в их взаимосвязи» (1909).

В ХХ в. статистику часто рассматривают прежде всего как самостоятельную научную дисциплина. «Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных» (1925). В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трех разделов:

1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».

Термин «статистика» употребляют еще в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, специалисты в области статистических методов называют «статистикой» функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.

Чтобы подойти к современному состоянию, в частности, разъяснить широко используемый термин «прикладная статистика», кратко рассмотрим историю реальных статистических работ.

 

2.1.3. Краткая история статистических методов

 

Как уже отмечалось, типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах («коленах»). С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.

В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Росстат. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого века (типовой монографией тех времен можно считать книгу [2], которая в настоящее время ещё легко доступна).

Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 1/2, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований, к лучшим из них относится очерк [3]. Отметим, что основатель современного бухгалтерского учета Лука Пачолли (14451517) хорошо известен и историкам теории вероятностей. Это символично, поскольку вопросы учета и статистики тесно переплетаются в деятельности современного инженера, экономиста и менеджера.

В 1794 г. (по другим данным - в 1795 г.) великий немецкий математик и физик Карл Фридрих Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты астероида (в современной терминологии – малой планеты) Церера - для борьбы с ошибками астрономических наблюдений [4]. В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец Ламбер Адольф Жак Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [5]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М. В. Остроградским (18011862) в 1846 г. и применялись в российской армии ещё в середине Х1Х в. [3]. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны.

 

2.1.4. Параметрическая статистика

 

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда английский математик, статистик, биолог и философ Карл Пирсон основан журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера, основанные на вероятностно-статистических моделях, в которых результаты измерений (наблюдений, испытаний, опытов, анализов) имели нормальное распределение. В те годы были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним параметром или небольшим числом параметров (24). Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами.

С математической точки зрения параметрическая статистика дает интересные теоретические схемы, на основе которых удается построить развитую теорию. Для профессионалов укажем на теорию достаточных статистик, неравенство Рао - Крамера, теорию оптимального оценивания и другие внутриматематические достижения.

Критика параметрической статистики вытекает из ее оторванности от практики статистической работы. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений непременно должно входить в то или иное параметрическое семейство. Исключения есть, и они хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция.

Именно из таких соображений критиковал параметрическую статистику академик АН СССР С. Н. Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [6]. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, использующих статистические методы в различных отраслях народного хозяйства и областях науки, но далеких от новых достижений в статистической науке. Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к наукометрии, т.е. к статистическим методам в науковедении.

 

2.1.5. Наукометрия статистических исследований

 

В рамках движения за создание Всесоюзной статистической ассоциации (учреждена в 1990 г.) был проведен анализ статистики как области научно-практической деятельности. Он показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций (подробнее см. статьи [7, 8]). Реально же каждый из нас знаком с существенно меньшим количеством книг и статей. Так, в известном трехтомнике М. Кендалла и А. Стьюарта [9–11] – наиболее полном на русском языке издании по статистическим методам - всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании в публикациях ценных идей приходится признать, что каждый специалист по статистическим методам владеет лишь небольшой частью накопленных в этой области знаний. Поэтому нет ничего удивительного в том, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, вызванного ее быстрым ростом, о котором еще 45 лет назад писали В. В. Налимов и другие науковеды (см., например, [12]).

Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная. Основа профессиональных знаний исследователя, инженера, экономиста, менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап – тиражирование знаний при обучении нового поколения. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном  соответствуют 40–60-м годам ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более – прикладных работ. Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются. Достаточно взглянуть на длинные ряды библиотечных полок с номерами научных журналов за последние сто – двести лет. Сколько из них были хотя бы раз открыты в текущем веке? Кроме того, сейчас все популярнее поиск информации в Интернете – вплоть до того, что кое-кто из молодых даже забывает о существовании библиотек. А ведь в Интернете можно найти лишь небольшую часть опубликованных в ХХ (и даже в XXI) веке научных работ. Например, статьи, опубликованные в журнале «Заводская лаборатория. Диагностика материалов» до 2006 г., в Интернете отсутствуют, за исключением единичных работ, которые самостоятельно размещены авторами на тех или иных ресурсах.

Активно продолжается развитие тупиковых направлений. Психологически это понятно. Приведем пример из опыта первого из авторов этой книги. В свое время по заказу Госстандарта им были разработаны методы оценки параметров гамма-распределения [13]. Поэтому рассматриваемому исследователю близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства Рао - Крамера и т.д. К сожалению, он знает, что это – тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы, о которых речь пойдет ниже. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и рассматриваемому здесь исследователю. Но необходимо идти вперед. Поэтому написанные им учебники во многом очищены от тупиковых подходов. В том числе и от неравенства Рао - Крамера. Однако включены разделы, посвященные оцениванию параметров распределений, поскольку эта тематика часто обсуждается в литературе, причем с устаревших позиций. Например, вместо уходящих в прошлое оценок максимального правдоподобия в настоящее время рекомендуют использовать одношаговые оценки.

 

2.1.6. Непараметрическая статистика

 

Статистические методы, которые не основаны на нереалистическом предположении о том, что рассматриваемые выборки взяты из распределений, описываемых одним параметром или небольшим числом параметров (2–4), называют непараметрическими. При математическом обосновании непараметрических статистических методов обычно вводят те или иные условия регулярности, например, требуют непрерывности функции распределения результатов наблюдений или существования математического ожидания и дисперсии. Как правило, подобные условия регулярности носят внутриматематический характер и не ограничивают прикладные возможности непараметрических методов.

Примерами являются критерии Колмогорова, Смирнова, Реньи, Вилкоксона, омега-квадрат (Крамера – Мизеса – Смирнова) [14], предназначенные для проверки гипотез согласия и однородности и разработанные в 30-е – 40-е годах ХХ в. История непараметрических коэффициентов корреляции Спирмена и Кендалла уходит корнями в работы начала ХХ в. В 50-х годах с известной работы Н. В. Смирнова [15] началась разработка методов непараметрического оценивания плотности. Непараметрическая статистика активно развивается и в XXI веке.

Во второй половине ХХ в. появились новые области статистических методов – робастная статистика, компьютерное статистическое моделирование (методы статистических испытаний (Монте-Карло), бутстреп-методы), статистика нечисловых и интервальных данных. Эти области активно развиваются и в настоящее время.

Иные причины привели к появлению и распространению прикладной статистики. Что означает этот термин? Вполне естественно, что математическая статистика выступает как метатеория по отношению к статистическим методам в той или иной области применения – к эконометрике, т.е. статистическим методам в экономике [16], к наукометрии [12], к биометрике и другим «метрикам». По цитированному выше определению Б. В. Гнеденко: «разработка приемов статистического наблюдения и анализа статистических данных составляет содержание математической статистики». Почему понадобилась новая научная область – прикладная статистика – между математической статистикой и статистическими методами в конкретных областях применений? Для ответа на этот вопрос необходимо обсудить внутреннюю логику развития статистических методов как научно-прикладной дисциплины.

 

2.1.7. Появление прикладной статистики

 

В нашей стране термин «прикладная статистика» вошел в широкое употребление в 1981 г. после выхода массовым тиражом (33940 экз.) сборника «Современные проблемы кибернетики (прикладная статистика)». В этом сборнике обосновывалась трехкомпонентная структура прикладной статистики [17]. Во-первых, в нее входят ориентированные на прикладную деятельность статистические методы анализа данных (эту область можно назвать прикладной математической статистикой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком относить к математике. Она включает в себя две внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, какие вероятностно-статистические модели использовать, какие статистические методы выбирать для обработки данных, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных. В нашей стране термин «прикладная статистика» использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов [17].

Прикладная статистика и математическая статистика – это две разные научные дисциплины. Различие четко проявляется не только в исследованиях, но и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебники и учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).

К настоящему времени беспристрастному наблюдателю очевидно четко выраженное размежевание этих двух научных дисциплин. Математическая статистика исходит из сформулированных в 1930–1950 гг. постановок математических задач, происхождение которых связано с рассматриваемыми в те времена проблемами анализа статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих старых задач. Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом почти не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.

Сам термин «прикладная статистика» возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая – как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов и накапливаются соответствующие эмпирические приемы (для геометрии это – «измерение земли», т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это – время Евклида). Затем идет внутриматематическое развитие и преподавание (известно, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та для решения своих задач порождает новые научные дисциплины (сейчас «измерением земли» занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия «ушла» из вузов, но до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап – окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает профессор МГУ им. М. В. Ломоносова В. Н. Тутубалин [18], теория вероятностей и математическая статистика успешно двигаются по ее пути – вслед за элементарной геометрией.

Резюмируем сказанное. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина – прикладная статистика. 

В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже – и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам (о грубых ошибках в ГОСТах рассказано в статье [19]).

 

2.1.8. Что дает прикладная статистика народному хозяйству?

 

Так называлась наша статья [20], в которой приводились многочисленные примеры успешного использования прикладной статистики и других статистических методов при решении практических задач. Перечень примеров можно продолжать практически безгранично (см., например, сводку [21]).

Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США – не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества. В 1988 г. затраты на статистический анализ данных в нашей стране оценивались в 2 миллиарда рублей ежегодно [22]. Согласно расчетам сравнительной стоимости валют на основе потребительских паритетов [16], эту величину можно сопоставить с 6 миллиардами долларов США. Следовательно, объем отечественного «рынка статистических услуг» был заметно меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.

Своеобразие исторического пути России привело к тому, что в нашей стране нет специализированного научного журнала по статистическим методам. Публикации по новым статистическим методам, по их применениям в технико-экономических исследованиях, в инженерном деле постоянно появляются, прежде всего, в журнале «Заводская лаборатория. Диагностика материалов», в секции «Математические методы исследования». Надо назвать также журналы «Автоматика и телемеханика» (издается Институтом проблем управления Российской академии наук), «Экономика и математические методы» (издается Центральным экономико-математическим институтом РАН), Научный журнал КубГАУ (издается Кубанским государственным аграрным университетом, г. Краснодар) и др.

Однако необходимо констатировать, что для большинства менеджеров, экономистов и инженеров прикладная статистика и другие статистические методы являются пока экзотикой. Это объясняется тем, что в вузах современным статистическим методам почти не учат. Во всяком случае, по состоянию на 2014 г. каждый квалифицированный специалист в этой области – самоучка.

Этому выводу не мешает то, что в вузовских программах обычно есть два курса, связанных со статистическими методами. Один из них – «Теория вероятностей и математическая статистика». Этот небольшой курс обычно читают специалисты с математических кафедр. Они успевают дать лишь общее представление об основных понятиях математической статистики первой половины ХХ в. Кроме того, внимание математиков обычно сосредоточено на внутриматематических проблемах, их больше интересует доказательства теорем, а не применение современных статистических методов в задачах экономики и менеджмента. Другой курс – «Статистика» или «Общая теория статистики», входящий в стандартный блок экономических дисциплин. Фактически он является введением в прикладную статистику и содержит первые начала эконометрических методов (по состоянию на 1900 г.).

Статистические методы как учебный предмет опираются на два названных вводных курса. Она призвана вооружить специалиста современным статистическим инструментарием. Специалист – это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира – Японии и США, Франции и Швейцарии, Перу и Ботсване и др. – статистическим методам обучают в средней школе. ЮНЕСКО постоянно проводят конференции по вопросам такого обучения [23]. В СССР и СЭВ, а теперь – по плохой традиции – и в России игнорируют этот предмет в средней школе (в последние годы ситуация начинает меняться) и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден - снижение конкурентоспособности специалистов.

Проблемы прикладной статистики и других статистических методов постоянно обсуждаются специалистами. Широкий интерес вызвала дискуссия в журнале «Вестник статистики», в рамках которой были, в частности, опубликованы статьи [8, 20]. На появление в нашей стране прикладной статистики отреагировали и в США [24].

Контрастом к сказанному является тот неоспоримый факт, что в нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика РАН А. Н. Колмогорова [25]. Во многих случаях именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 60–80 лет назад А. Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н. В. Смирнов и Л. Н. Большев. В наших учебниках постоянно встречаются ссылки на лучшую публикацию ХХ в. по статистическим методам – составленные ими подробно откомментированные «Таблицы …» [14].

 

 

 

2.1.9. Статистические методы в России

 

Специалисты по истории официальной государственной статистики установили [5], что в России, как и в других странах, статистические исследования проводились c момента возникновения государств. Цели этих исследований, как и описанных в Библии работ под руководством Моисея, вытекали из потребностей государственного управления, прежде всего налогообложения и обороны страны. С XII века (в традиционной хронологии) на Руси проводились переписи населения [5]. Развитие статистической науки началось в России сразу же с выделением в начале XVIII века исследовательской деятельности как необходимой составляющей забот государства. Проще говоря, сразу же с организацией первого научного учреждения – Академии наук.

Первое статистико-экономическое обозрение России было составлено Иваном Кириловичем Кириловым (1689 – 1737), обер-секретарем Сената (в написании отчества и фамилии И. К. Кирилова, названий трудов сохранена исходная орфография), под названием «Цветущее состояние Всероссийского государства…». Первый в России научный труд по вопросам организации учета населения – «Разсуждение о ревизии поголовной и касаюсчемся до оной» – был написан в 1747 г. Василием Никитичем Татищевым (1686–1750), известным государственным деятелем той эпохи. Он, в частности, одним из первых применял анкеты для сбора статистических данных. Большой вклад в теорию и практику отечественной статистики внес Михаил Васильевич Ломоносов (1711–1765).

Подробное описание развития статистической науки и практики в России можно найти в трудах по истории социально-экономической ветви статистики (см., например, [5, 26]). К сожалению, в этих работах обычно не рассматривается развитие отечественной вероятностно-статистической научной школы (о ней см., например, [3]).

Реформы императора Александра Второго, прежде всего создание земств (органов местного самоуправления), дали мощный стимул развитию статистики. Связано это было прежде всего с тем, что штатное расписание губернских и уездных земств, как правило, включало должность статистика. Так, к концу 1894 г. за 15 лет активной статистической деятельности были собраны, разработаны и опубликованы земствами материалы крестьянских подворных переписей по 172 уездам, охватившим около 4 миллионов крестьянских дворов – примерно четвертую часть всего населения России [5, стр.109].

Проведение статистических исследований было делом чести для отечественной интеллигенции. Например, Антон Павлович Чехов по собственной инициативе провел в 1890 г. перепись на Сахалине, лично опросив несколько тысяч каторжников [27].

Расцвет статистики в конце XIX века проявился в появлении большого числа оригинальных исследований, выполненных на высоком профессиональном уровне. Одна из них хорошо известна и в настоящее время, что объясняется личностью автора. Речь идет о книге В. И. Ульянова (Ленина) «Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности» [2]. Она была издана в 1899 г., когда автору было 29 лет. По современным критериям за эту монографию автору можно было бы присудить ученую степень доктора экономических наук. Это утверждение свидетельствует не только о высоком профессиональном уровне В. И. Ульянова как исследователя, но и об известной деградации социально-экономической статистики за последние сто лет.

В области статистической теории наибольшие достижения в XX веке были получены в России в математической статистике. Упомянем работы проф. А. А. Чупрова (1874–1926) по теории корреляции. Несколько позже началась деятельность А. Н. Колмогорова.

Среди математиков ХХ столетия академик АН СССР А. Н. Колмогоров (1903–1987) должен быть назван первым. Именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений, важных для современных статистических методов. Зачастую еще 60–80 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться.

Отечественным исследованиям ХХ в. в области прикладной статистики и других статистических методов посвящены дальнейшие разделы настоящей главы.

Отметим здесь, что развитие статистических методов активно продолжается и в настоящее время. В XXI в. выявлена и сформулирована новая парадигма математической статистики [28], развивается статистика нечисловых данных [29], включая теорию классификации [30] и статистику интервальных данных [31], развита системная нечеткая интервальная математика [32, 33] и на ее основе – теория когнитивных функций [34], и т.д.

 

2.2. Вероятностно-статистические методы в работах А. Н. Колмогорова

 

В нашей стране развитием и применением статистических методов в XX–XXI вв. занимались десятки тысяч специалистов. Среди них выделяется гигантская фигура Андрея Николаевича Колмогорова. В развитии теории вероятностей и математической статистики четко виден переход от предыстории к современности, и этот переход – работы академика АН СССР А. Н. Колмогорова (1903–1987). Именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений, важных для современных статистических методов. Зачастую еще 60–80 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Поразительно, но длинный ряд современных публикаций с научной точки зрения являются устаревшими по сравнению с работами А. Н. Колмогорова 1930-х годов.

Предыстории статистических методов посвящена статья [1]. В настоящей публикации с современной точки зрения [2] рассмотрим вероятностно-статистические методы исследования, созданные А. Н. Колмогоровым. Обсудим работы А.Н. Колмогорова по аксиоматическому подходу к теории вероятностей, критерию согласия эмпирического распределения с теоретическим, свойствам медианы как оценки центра распределения, эффекту «вздувания» коэффициента корреляции, теории средних величин, статистической теории кристаллизации металлов, методу наименьших квадратов, свойствам сумм случайного числа случайных слагаемых, статистическому контролю, несмещенным оценкам, аксиоматическому получению логарифмически нормального закона распределения при дроблении, методам обнаружения различий при экспериментах типа погодных.

Факты жизни и творчества А. Н. Колмогорова подробно рассмотрены в сборнике [3]. Его основные работы изданы в трех томах [4–6]. Работы отобраны им самим и прокомментированы его учениками. Андрей Николаевич считал, что хорошая математическая работа должна содержать простую идею (желательно геометрического характера) и использовать «тонкую» аналитику, а хорошая и полезная прикладная работа должна опираться на фундаментальные теоретические основы.

 

2.2.1. Аксиоматический подход к теории вероятностей

 

Аксиоматический подход позволил рассматривать теорию вероятностей и математическую статистику как часть математики, проводить рассуждения на математическом уровне строгости. В частности, было введено четкое различие между частотой и вероятностью, случайная величина стала рассматриваться как функция от элементарного исхода, и т.д. За основу методов статистического анализа данных стало возможным брать вероятностно-статистические модели, сформулированные в математических терминах. В результате удалось четко отделить строгие утверждения от обсуждения философских вопросов случайности, преодолеть подход на основе понятия равновозможности, имеющий ограниченное практическое значение. Наиболее существенно, что после работ А. Н. Колмогорова нет необходимости связывать вероятности тех или иных событий с пределами частот или иными методами оценок вероятностей. В частности, так называемые «субъективные вероятности» имеют смысл экспертных оценок вероятностей.

После выхода (в 1933 г. на немецком языке и в 1936 г. – на русском) основополагающей монографии [7] аксиоматический подход к теории вероятностей стал общепринятым в научных исследованиях в этой области. Во многом перестроилось преподавание. Повысился научный уровень многих прикладных работ. Однако традиционный подход оказался на удивление живучим. С целью повышения строгости формулировок приходится помещать в наших учебниках ([8], [9] и др.) сводки терминов и определений в области вероятностно-статистических методов, опирающаяся на аксиоматику [7].

В послевоенные годы А. Н. Колмогоров формализовал понятие случайности на основе теории информации [6]. Грубо говоря, числовая последовательность является случайной, если ее нельзя заметно сжать (т.е. описать существенно короче) без потери информации. Однако этот подход не был предназначен для использования в прикладных работах и преподавании. Он представляет собой важное методологическое и теоретическое продвижение.

 

2.2.2. Критерии согласия

 

В работе 1933 г. «Об эмпирическом определении закона распределения» [5, с.134-141] А. Н. Колмогоров предложил и изучил «критерий Колмогорова», предназначенный для проверки согласия эмпирического распределения с полностью известным теоретическим. Пусть элементы выборки (независимые случайные величины) объема n имеют непрерывную функцию распределения F(x). Эмпирической функцией распределения Fn(x) называется доля элементов выборки, не превосходящих x. Критерий Колмогорова предназначен для проверки гипотезы

,

где F0(x) – заданная функция распределения. Его статистика имеет вид

В [5, с.134-141] показано, что функция распределения статистики Dn имеет предел,

и рассчитана первая в истории таблица функции распределения Колмогорова .

Работа [5, с.134-141] породила одно из основных направлений непараметрической статистики. И в настоящее время непараметрические критерии согласия (Колмогорова, Смирнова, омега-квадрат и др.) широко используются. Они были разработаны для проверки согласия с полностью известным теоретическим распределением. Основная идея критериев Колмогорова, омега-квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения. Расчетные формулы, таблицы распределений и критических значений широко распространены (см., например, лучший сборник таблиц математической статистики на русском языке [10]).

Часто возникает задача проверки гипотезы согласия эмпирического распределения с параметрическим семейством, например, с семейством нормальных, Вейбулла – Гнеденко или гамма-распределений. Представляется естественным оценить параметры распределения по выборке, а затем формально воспользоваться критериями согласия Колмогорова, Смирнова или омега-квадрат. При этом вместо фиксированной теоретической функции распределения подставляют функцию из параметрического семейства, в которой параметры заменены на их выборочные оценки. В отличие от классических критериев, при этом измеряются расстояния от эмпирической функции распределения до многообразий (в пространстве функций распределения), соответствующих параметрическим семействам. Развита [11] математическая техника проектирования в функциональных пространствах, которая позволяет строить методы проверки рассматриваемых гипотез.

Однако распределения таких критериев (как предельные, так и при конечных объемах выборок) существенно отличаются от распределений классических критериев согласия Колмогорова, Смирнова или омега-квадрат (подробнее см. [12]). Такие критерии в отличие от классических обычно называют «критериями согласия с параметрическим семейством типа Колмогорова – Смирнова и типа омега-квадрат». (Как показано в [12, 13] на основе анализа исходных публикаций, корректно употреблять термины «критерий Колмогорова», «критерий Смирнова», «критерий типа Колмогорова – Смирнова», но нельзя говорить о несуществующем «критерии Колмогорова – Смирнова».) В [14] собраны основные факты о критериях согласия с параметрическими семействами типа Колмогорова – Смирнова и типа омега-квадрат и необходимые краткие таблицы. Современное положение дел в этой области отражено в [2, 12]. Наиболее существенное продвижение в изучении критериев типа Колмогорова – Смирнова достигнуто профессором МГУ им. М. В. Ломоносова Ю. Н. Тюриным [15] и его научной школой.

 

2.2.3. «Вздувание» коэффициента корреляции

 

Интересное явление обнаружено А. Н. Колмогоровым в работе 1933 г. «К вопросу о пригодности найденных статистическим путем формул прогноза» [5, с. 161-167]. Предположим, что имеется много наборов предикторов (факторов, признаков, переменных, регрессоров). Для каждого из них строится наилучшее приближение отклика с помощью линейной функции от предикторов. Показателем качества приближения служит коэффициент корреляции между откликом и наилучшей линейной функцией от предикторов (в настоящее время чаще используют его квадрат, называемый коэффициентом детерминации). Эффект «вздувания» коэффициента корреляции состоит в том, что при увеличении числа проанализированных наборов предикторов заметно растет максимальный из соответствующих коэффициентов корреляции - показателей качества приближения. Создается впечатление, что тот набор предикторов, на котором достигается рассматриваемый максимум, дает хорошее приближение для отклика. Однако это впечатление развеивается при попытке использовать соответствующую зависимость для прогноза – по новым данным коэффициент корреляции между откликом и ранее найденной линейной функцией от предикторов оказывается значительно меньшим.

В настоящее время весьма популярны методы поиска «наиболее информативного множества признаков» в регрессионном и дискриминантном анализе. Соответствующие алгоритмы, как правило, основаны на переборе большого числа наборов признаков. Поэтому, как показано в [16], актуальность работы А. Н. Колмогорова [5, с. 161-167] в настоящее время существенно повысилась. Эффект «вздувания» коэффициента корреляции является одним из проявлений неклассического поведения статистических характеристик в ситуации, когда одна и та же статистическая процедура осуществляется многократно, например, при множественных проверках статистических гипотез (см. [17, разд. 4.3]).

В течение полувека А. Н. Колмогоров интересовался статистическими постановками, в которых число неизвестных параметров растет вместе с объемом данных. К ним относится и работа [5, с. 161-167]. А в 1970-х годах он стимулировал исследования по т.н. «асимптотике Колмогорова» (в современной терминологии)

,

где р - число параметров, n – объем выборки. Эта асимптотика весьма актуальна как для многомерного статистического анализа, так и для статистики нечисловых данных [18], а также для задач статистического приемочного контроля [8, раздел 13.5] и анализа социологических данных (см. [17, гл. 13]).

В настоящее время в асимптотике Колмогорова вместо от третьего предельного перехода обычно отказываются, но требуют отделенности дроби  от 0 и , т.е. требуют существования числа  такого, что

.

 

2.2.4. Метод медианы в теории оценивания

 

Пусть X1, X2, …, Xn – независимые одинаково распределенные случайные величины с функцией распределения F и непрерывной плотностью f. Пусть μ и σ2 – соответственно математическое ожидание и дисперсия, а m – медиана распределения F (т.е. P{X1>m}>1/2 и P{X1<m}>1/2). Медиана всегда существует, но не всегда определяется однозначно. Обычно в качестве оценки для μ используют (в случае нормального закона, прежде всего) выборочное среднее арифметическое

,

обладающее при условии нормальности F оптимальными свойствами. Что делать, если распределение F отлично от нормального? В работе 1931 г. «Метод медианы в теории ошибок» [5, с.111-114] А. Н. Колмогоров предлагает в этом случае оценивать по выборке другую среднюю характеристику распределения – медиану m (для симметричных распределений эти две характеристики совпадают). Пусть Xn(k) – k-ая порядковая статистика, построенная по рассматриваемой выборке. Если n четно, то в качестве оценки mn медианы m возьмем Xn(n/2); если же n = 2k+1, то в качестве оценки m возьмем Xn(k). С целью сравнения оценок  и mn рассмотрим преобразованные величины

.

Согласно центральной предельной теореме предельное (при n → ∞) распределение величины  является асимптотически нормальным с нулевым средним и дисперсией σ2. Можно показать [5, с.111-114], что распределение величины βn является асимптотически нормальным с нулевым средним и дисперсией σm = (1/2)/f(m), если f(m) отлично от 0. Мерой сравнительной точности обоих методов является отношение λ = σm/σ = (1/2)/[σf(m)]. В случае нормальной плотности f имеем λ = (π/2)1/2 ≈ 5/4. Как показал А. Н. Колмогоров [5, с.111-114], для унимодальных распределений отношение λ может принимать любое значение из интервала (0; ), но не может превосходить .

Дискуссия о том, какую выборочную характеристику использовать для оценивания среднего значения совокупности (понимаемого как типичное значение), продолжаются. В силу закона больших чисел выборочное среднее арифметическое при росте объема выборки приближается к математическому ожиданию (если оно существует). Но оно весьма неустойчиво по отношению к отклонениям «хвостов» распределения [9, разд. 4.7]. Как говорят, эта оценка не является робастной, в отличие от медианы. Медиана хороша тем, что является допустимым средним при измерениях в порядковой шкале, в то время как выборочное среднее арифметическое не обладает этим свойством [19, разд. 3.1], зато в ряде случаев имеет меньшую дисперсию (как для выборки из нормального распределения) и хорошо известно среди неспециалистов. Заслуга А. Н. Колмогорова в том, что он выявил рассматриваемую спорную точку в статистической теории и исчерпывающим образом сравнил асимптотические распределения двух видов средних величин.

 

2.2.5. Средние по Колмогорову

 

Естественная система аксиом приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А. Н. Колмогоров [4, с.136-138]. Теперь их называют «средними по Колмогорову» (или «средними Колмогорова»). Для чисел X1, X2,...,Xn  среднее по Колмогорову вычисляется как

G{(F(X1)+F(X2)+...+F(Xn))/n},

где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных средних величин. Так, если F(x) = x, то среднее по Колмогорову - это среднее арифметическое. Для положительных X1, X2,...,Xn: если F(x) = ln x, то среднее по Колмогорову – это среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее квадратическое, и т.д. Однако такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В прикладной статистике к средним по Колмогорову обращаются в связи с задачей выбора алгоритмов для анализа данных, измеренных в той или иной шкале (см. [17, разд. 10.3]). Так, для алгоритмов усреднения установлено, что в шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое, а в шкале отношений - только степенные средние с F(x) = xс, (при с, отличном от 0) и среднее геометрическое. Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего в шкале интервалов надо применять среднее арифметическое. А также можно использовать медиану или моду.

В теории средних величин рассматриваемая работа А. Н. Колмогорова – самое значительное продвижение за последние 200 лет, после того, как О. Коши ввел общее понятие среднего.

 

2.2.6. Статистическая теория кристаллизации металлов.

 

В работе 1937 г. [5, с. 178-182] А. Н. Колмогоров разработал модель возникновения центров кристаллизации и нарастания закристаллизованной массы. При широких допущениях им была найдена точная формула для вероятности p(t), с которой наудачу выбранная точка Р из объема, заполненного подлежащим кристаллизации веществом, попадет в течение промежутка кристаллизации t внутрь уже закристаллизованной массы. С достаточным приближением можно считать, что доля вещества, закристаллизовавшегося за время t, также равно p(t). Рассчитано число центров кристаллизации, образующихся в течение всего процесса кристаллизации. Полученные в работе [5, с. 178-182] результаты до сих пор представляют интерес для всех специалистов, связанных с изучением и использованием процессов кристаллизации металлов и иных веществ.

 

 

2.2.7. Метод наименьших квадратов

 

В двух работах А. Н. Колмогорова [5, с.267-283, с. 283-288], опубликованных в 1946-1947 гг., построена геометрическая теория метода наименьших квадратов, выявляющая роль ортогонального проектирования на подпространства конечномерного евклидова пространства с целью получения оценок параметров. Эта идея затем широко использовалась как в научных исследованиях, так и при преподавании, в частности, в работах В. Н. Тутубалина, Ю. Н. Тюрина.

Другая составляющая этих работ А. Н. Колмогорова - построение алгоритмов доверительного оценивания и проверки гипотез на основе предположения о нормальности распределения погрешностей измерения. К настоящему времени эти результаты ушли в прошлое, поскольку установлено, что в подавляющем большинстве случаев распределение погрешностей заметно отличается от нормального (см. [20] и [17, разд. 2.1]). Поэтому современный подход (см., например, [21, 22] и [17, гл. 6]) к методу наименьших квадратов является непараметрическим, т.е. в определенном смысле наблюдается возврат к доколмогоровским взглядам.

 

2.2.8. Суммы случайного числа случайных слагаемых

 

Они глубоко изучены в работе 1949 г. [5, с.308-313], выполненной совместно с Ю. В. Прохоровым (1929–2013), в дальнейшем академиком АН СССР. Эта статья стимулировала исследования по важному для приложений виду предельных теорем (см. [23, с.300-312], [24, с.223-228]). Речь идет прежде всего о статистическом последовательном анализе [25], в частности, об изучении времени наблюдения в задаче последовательного различения двух простых гипотез. Предельные теоремы [26, 27] о суммах случайного числа случайных слагаемых находят применения в задачах статистического контроля качества и надежности по Вальду, в моделях управления запасами в логистике и других прикладных областях. Нами получен ряд результатов о суммах случайного числа случайных слагаемых при изучении двухуровневой модели управления запасами и асимптотики квантования в связи с выбором числа градаций в социологических анкетах (см. [17, разд. 8.4 и 12.3] и монографию [28]).

 

2.2.9. Статистический контроль

 

А. Н. Колмогоров – основоположник современной теории статистического приемочного контроля в нашей стране. Около 150 лет статистические методы применяются в России для проверки соответствия продукции установленным требованиям, т.е. для сертификации. Так, еще в 1846 г. действительный член Петербургской академии наук М. В. Остроградский рассматривал задачу статистического контроля партий мешков муки или штук сукна армейскими поставщиками [29]. Однако современный этап начался в 1951 г. с брошюры А. Н. Колмогорова [30]. С тех пор в России в статистическом контроле качества было сделано многое, особенно в области теории [31 - 33]. (К сожалению, до сих пор нет доступной информации об отечественных разработках и стандартах в области статистического контроля качества в оборонных отраслях промышленности до, во время и после Великой Отечественной Войны.) Вопросы статистического контроля постоянно рассматриваются на страницах журнала «Заводская лаборатория» (с 1994 г. – «Заводская лаборатория. Диагностика материалов») – основного места публикации отечественных работ по статистическим методам [34, 35].

Большое значение для развития статистических методов управления качеством имеют статья А. Н. Колмогорова 1933 г. [5, с.134-141] о критерии согласия эмпирического распределения с теоретическим и статья 1950 г. о несмещенных оценках [5, с. 340-363]. Актуальность первой из них определяется недостатками в используемых до сих пор статистических методах управления качеством. Широко распространенные ошибки состоят в том, что для критериев согласия с параметрическими семействами используют критические значения классических критериев. При этом, например, гипотеза нормальности принимается гораздо чаще, чем следует [12]. Поскольку в действующей нормативно-технической документации дальнейшие этапы анализа данных часто зависят от того, принимается нормальность или нет, то ошибки при такой проверке могут иметь далеко идущие последствия. Так, при анализе характеристик эластомерных материалов при ошибочном подходе из 30 выборок нормальность была отвергнута лишь для 2, а при правильном - для 26, т.е. в подавляющем большинстве случаев. Указанные ошибки встречаются в массе публикаций (хотя специалистам суть дела хорошо известна уже почти 50 лет [36]). Наиболее известным примером является полностью ошибочный ГОСТ 11.006-74 (СТ СЭВ 1190-78) «Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим» (хотя он формально отменен в 1987 г., но продолжает использоваться неспециалистами как методический материал; об ошибочных стандартах по статистическим методам см. [35]).

Популярны и другие ошибки при применении рассматриваемых критериев согласия. Некоторые пытаются их использовать для сгруппированных данных, что приводит к излишне частому принятию гипотез [37]. Другие вместо эмпирической функции распределения рассматривают иные оценки теоретической функции распределения. Например, при использовании вероятностной бумаги удобно ординату точки, соответствующей i-ой порядковой статистике, установить равной (i-0.5)/n, а не i/n, как в классической эмпирической функции распределения. Возникает искушение построенную таким методом оценку использовать в критериях согласия вместо эмпирической функции распределения. Увы, распределение изменится (впрочем, в данном случае при росте объема выборки различие будет исчезать). Ряд ошибок рассмотрен в пояснительной части таблиц [10].

 

2.2.10. Несмещенные оценки

 

При оценивании по выборке параметров распределений (либо функций от них) рекомендуют использовать метод максимального правдоподобия, дающий при выполнении условий регулярности асимптотически оптимальные оценки. Однако часто возникают трудности с решением уравнений правдоподобия. Поэтому вместо оценок максимального правдоподобия применяют асимптотически им эквивалентные одношаговые оценки (см. [17, разд. 3.2]) или оценки иных видов. Среди последних популярными (см., например, [38, гл.2]) являются несмещенные оценки. При конечном объеме выборки оценки максимального правдоподобия в ряде случаев хуже несмещенных оценок, как показал проф. Я. П. Лумельский в статье [39].

Основная идея использования несмещенных оценок состоит по А. Н. Колмогорову [5, с.340-363] в следующем. Во многих важных случаях эти оценки существуют. С другой стороны, чрезмерное разнообразие несмещенных оценок может быть значительно сокращено, если воспользоваться несмещенными оценками, которые выражаются через надлежащим образом выбранные достаточные статистики. Надо употреблять только несмещенные оценки, выражающиеся через достаточные статистики: оказывается, что при этом мы не суживаем круг задач, в котором несмещенные оценки существуют, и при переходе от произвольной (даже плохой) несмещенной оценки к осредненной оценке, выражающейся через достаточную статистику, мы можем только уменьшить дисперсию оценки. Имеет место [38, гл.2] теорема Рао – Блекуэлла – Колмогорова: оптимальная оценка, если она существует, является функцией от достаточной статистики.

А. Н. Колмогоров первым ([5, с.340-363], [30]) применил несмещенные оценки в задачах статистического контроля. Он впервые использовал несмещенные оценки для определения эффективности реально используемых планов выборочного контроля по альтернативному признаку. На основе идей А. Н. Колмогорова рядом авторов были построены несмещенные оценки для предъявленного и пропущенного брака, для априорного распределения числа дефектных изделий в контролируемых партиях, а также получены несмещенные оценки при контроле по альтернативному и количественному признакам (см. [33], а также комментарии проф. Ю. К. Беляева и проф. Я. П. Лумельского в [5, с.522-523]). Несмещенные оценки основных показателей контроля включены в некоторые государственные стандарты (например, в ГОСТ 24660-81 «Статистический приемочный контроль по альтернативному признаку на основе экономических показателей»).

Полученная А. Н.Колмогоровым несмещенная оценка плотности нормального распределения нашла широкое применение в задачах контроля по количественному признаку. В дальнейшем этот результат был перенесен на многомерное нормальное распределение, а также применен для задач статистической классификации. Метод проверки гипотез по совокупности малых выборок, разработанный нами в [28], также основан на использовании несмещенных оценок. Этот метод применяется при статистическом приемочном контроле по нескольким альтернативным признакам [8, раздел 13.5]. Отметим, что в этом случае, как и в теории люсианов [19], оказывается нецелесообразным переход к осредненной оценке, выражающейся через достаточную статистику.

Введенные А. Н. Колмогоровым верхние и нижние оценки могут быть использованы и в тех случаях, когда несмещенные оценки не существуют. Именно так обстоит дело при оценивании пропущенного брака при биномиальном распределении и плане одноступенчатого контроля. Рядом авторов были получены верхние и нижние оценки функций неизвестных параметров, а также оценки с минимальным смещением.

 

2.2.11. О логнормальном законе распределения

 

В 1940 г. проф.Н. К. Разумовский привел много случаев, в которых логарифмы размеров частиц (золотин в золотоносных россыпях, частиц горных пород при их дроблении и т.п.) приближенно подчиняются нормальному закону распределения. В 1941 г. А. Н. Колмогоров указал общую схему случайного процесса последовательного дробления частиц, при которой в пределе, при неограниченном продолжении дробления, нормальный закон для логарифмов размеров частиц может быть установлен теоретически [5, с.264-266]. (Напомним, что положительная случайная величина Х имеет логнормальный закон распределения, если логарифм величины Х имеет нормальный закон распределения; условия, при которых вероятностная модель приводит к нормальному закону, хорошо известны.)

Идея А. Н. Колмогорова о выводе вида распределения случайной величины в конкретной прикладной задаче из некоторой системы аксиом нашла свое развитие, в частности, в экономике. Установлено, что распределения различных видов доходов (индивидуальных, подушевых, заработной платы и т.п.) хорошо приближаются с помощью логарифмически нормальных функций распределения. Исходя из этого факта, Росстат для сверхбольших и сверхмалых доходов вместо наблюдаемых значений доходов использует расчетные на основе логарифмически нормальных функций распределения. Это объясняется большими трудностями в замере величин сверхбольших и сверхмалых доходов, необходимостью привлечения для таких замеров правоохранительных органов. Сам же логарифмически нормальный закон выводят аксиоматически, полагая, что доход того или иного вида можно считать полученным как произведение большого числа независимых случайных величин.

Если же принять, что практически значимый результат определяется с помощью максимального значения из ряда независимых одинаково распределенных случайных величин, как это делают в теории рекордов [40], то приходим к возможности описать распределение максимума одним из трех известных законов, исходя из предельных теорем. 

 

2.2.12. Обнаружение различий

 

В семидесятых – восьмидесятых годах ХХ в. под научным руководством А. Н. Колмогорова на механико-математическом факультете МГУ им. М.В. Ломоносова работала группа исследователей, занимавшаяся статистическим анализом эффективности экспериментальных методов управления погодой. Речь идет об изменении количеств выпавших осадков, борьбе с градом и рассеянии туманов. Среди прочих [41] вероятностных моделей использовалась и следующая.

Имеется n объектов U1, U2, … . Un и с каждым объектом Uk связана пара чисел ak и bk, k = 1, 2, …, n. Пусть ε1, ε2, …, εn – последовательность независимых случайных величин, причем величина εk принимает значение 1 (считаем, что имеет место воздействие) с вероятностью рk и значение 0 (воздействие отсутствует) с вероятностью qk = 1 – pk, k = 1, 2, …, n. В результате наблюдений над объектами нам известны значения случайных пар (εk, Xk), k = 1, 2, …, n, где Xk = ak при εk = 0 и Xk = bk при εk = 1. Задача состоит в сравнении двух последовательностей a(n) = (a1, a2, …, an) и b(n) = (b1, b2, …, bn). Тем самым в этой модели (могущей быть использованной и в других случаях, когда необходимо установить наличие или отсутствие эффекта воздействия) предполагается, что числа ak и bk неслучайны и вся случайность связана с процессом рандомизации. С помощью оценок Горвица – Томпсона и их обобщений [42] можно построить [41] ряд статистических критериев для проверки гипотезы

H(n): A(n) = B(n),

где

.

А. Н. Колмогоров заметил, что дисперсии оценок в критериях могут быть заметно уменьшены, если имеются хорошие методы прогноза, позволяющие до начала наблюдений указывать оценки ak* и bk* для ak и bk соответственно. Полагая ak = ak* + Δak и bk = bk* + Δbk, мы можем упомянутые выше процедуры применить не к ak и bk, а к Δak и Δbk. При этом получаются оценки, правильные независимо от качества прогноза, но они будут лучше оценок без обращения к прогнозам лишь в случае хороших прогнозов, когда величины |Δak| и |Δbk| значительно меньше |ak| и |bk| соответственно.

Эти модели и методы нашли ряд применений, в частности, при разработке рандомизированной процедуры оценки айсберговой угрозы, связанной с добычей нефти и газа на морском арктическом шельфе [43].

Упомянем также работы А. Н. Колмогорова по теории стрельбы, выполненные в военные годы, по генетике и биологии, по лингвистике. Особенно велик вклад, сделанный А. Н. Колмогоровым и его учениками (М. Д. Миллионщиков, А. С. Монин, А. М. Обухов, А. М. Яглом и др.) в теорию турбулентности. Здесь прежде всего следует упомянуть знаменитый Колмогоровский «закон двух третей» о распределении энергии в спектре турбулентности, полученный из простых соображений размерности (подробнее см. [3, с.445, 475], [4]).

Бесспорно, что многие работы А. Н. Колмогорова [4–6] представляют несомненный интерес для всех, кто разрабатывает или применяет статистические методы. Его мысли еще долго будут приносить нашей стране и всему миру всем практическую пользу. Отечественная вероятностно-статистическая научная школа порождена идеями А. Н. Колмогорова. Это хорошо видно на примере работ его ученика академика АН УССР Б. В. Гнеденко, которым посвящен следующий раздел настоящей главы.

 

2.3. Вероятностно-статистические методы в работах Б. В. Гнеденко

 

При обсуждении основных этапов становления статистических методов [1] была выделена гигантская фигура А. Н. Колмогорова, заложившего основы современной научной дисциплины «теория вероятностей и математическая статистика» и решившего ряд фундаментальных научных задач. Многие работы А. Н. Колмогорова актуальны и в настоящее время [2], как и работы его ученика и сотрудника Бориса Владимировича Гнеденко. Материал данного раздела продолжает цикл публикаций по истории статистических методов в нашей стране (начатый статьями [1] и [2]) и посвящен основным научным результатам, полученным Б. В. Гнеденко.

При анализе актуальных для XXI в. научных результатов академика АН УССР Б. В. Гнеденко (1912–1995) основное внимание уделим предельным теоремам теории вероятностей, математической статистике, теории надежности, статистическим методам управления качеством и теории массового обслуживания. Одна из основных научных заслуг Б.В. Гнеденко – обоснование необходимости развития статистических методов как самостоятельного научного направления, подробное рассмотрение ряда проблем, относящихся к этому направлению.

В XXI веке наиболее ценным для нас является удивительное умение Б. В. Гнеденко объединить в своем творчестве глубокие теоретические изыскания и практические разработки. В настоящее время всё глубже становится разрыв между внутриматематическими изысканиями, от которых в обозримом будущем нельзя ждать практической пользы, и попытками решения прикладных задач методами, устаревшими на полвека. Уникальность Б. В. Гнеденко и состоит в том, что он своей личностью устранял этот пагубный разрыв. Он был одновременно великим теоретиком и великим прикладником. Чем больше проходит времени с того печального для отечественной науки момента, когда Б. В. Гнеденко завершил свои земные труды, тем яснее становится основополагающая роль его идей, его методологического подхода в нашей нынешней работе. Научный путь Б. В. Гнеденко заслуживает подробного осмысления.

Из теоретических исследований Б. В. Гнеденко больше всего известны работы по предельным теоремам теории вероятностей, в том числе классическая монография о суммах независимых случайных величин 1949 г., написанная совместно с А. Н. Колмогоровым, статьи по предельным распределениям крайних членов вариационного ряда. Основополагающие результаты получены им в математической статистике, например, в задаче проверки однородности двух выборок. Для прикладников Б. В. Гнеденко - лидер в области теории надежности, массового обслуживания, статистических методов управления качеством продукции. По его «Курсу теории вероятностей» учились многие поколения специалистов. Большое значение имеют работы по истории науки и по другим направлениям, среди которых особенно выделяется методология научных исследований.

 

2.3.1. От практики – к теории, от теории – к практике
(четыре этапа научного пути)

 

Научный путь Б. В. Гнеденко можно разбить на четыре этапа [3]. Первый (1930–1934) прошел на кафедре математики текстильного института в г. Иваново, куда он был направлен в 1930 г. после окончания Саратовского университета. Именно там Б. В. Гнеденко пришел к глубокому убеждению, что полноценная творческая жизнь математика связана с широким использованием математических методов в решении задач практики и одновременном развитии самих математических методов, без чего невозможно глубокое изучение и удовлетворение потребностей практики. В ивановский период он увлекся теорией вероятностей.

Второй этап (1934–1945) - исследовательская работа в Москве. В 1934 г. Б. В. Гнеденко поступил в аспирантуру Московского государственного университета им. М. В. Ломоносова. Его научными руководителями стали А. Я. Хинчин и А. Н. Колмогоров. Еженедельно собирался общегородской семинар по теории вероятностей, где с новыми результатами выступали известные ученые А. Н. Колмогоров, Е. Е. Слуцкий, Н. В. Смирнов, А. Я. Хинчин, а также аспиранты, молодые математики, физики, биологи и инженеры. Б. В. Гнеденко увлекся предельными теоремами для сумм независимых случайных величин. В июне 1937 г. он защитил кандидатскую диссертацию «О некоторых результатах по теории безгранично-делимых распределений», а в начале июня 1941 г. - докторскую диссертацию, состоящую из двух частей: теории суммирования независимых случайных величин и теории распределения максимального члена вариационного ряда. В годы Великой Отечественной войны Б. В. Гнеденко принимал активное участие в решении многочисленных задач, связанных с обороной страны.

Третий этап научного пути Б. В. – украинский (1945–1960). В 1945 г. Академия наук Украинской ССР избрала Б. В. Гнеденко своим членом-корреспондентом и направила во Львов, где он восстанавливал после войны Львовский университет и организовывал учреждения Академии наук УССР. Во Львове Б. В. Гнеденко читал разнообразные курсы: математический анализ, вариационное исчисление, теорию аналитических функций, теорию вероятностей, математическую статистику и др. Его научная работа в этот период также была весьма разнообразна. Ему удалось доказать в окончательной формулировке локальную предельную теорему для независимых, одинаково распределенных решетчатых слагаемых (1948 г.). Здесь начались исследования по непараметрическим методам статистики. Но, по нашему мнению, основное значение имела работа Б. В. Гнеденко над учебником «Курс теории вероятностей» [4] (первое издание - 1949 г.) и монографией «Предельные распределения для сумм независимых случайных величин» [5], подготовленной совместно с А. Н. Колмогоровым.

В 1950 г. Президиум АН УССР перевел Б. В. Гнеденко в Киев, где в Институте математики АН УССР был организован отдел теории вероятностей и математической статистики. Одновременно Б. В. Гнеденко заведовал кафедрой математического анализа в Киевском университете.

Естественно, что очень скоро вокруг него образовалась группа молодых ученых, увлекшаяся теорией вероятностей и задачами математической статистики. Первыми киевскими учениками Б. В. Гнеденко были В. С. Королюк и В. С. Михалевич, впоследствии известные ученые. Характерно для Б. В. Гнеденко, что в Киеве он организовал городской семинар по истории математики при Институте математики АН УССР. Этот семинар объединил многих ученых, работающих в области истории науки. 

В 1953 – 1954 гг. Б. В. Гнеденко работал в ГДР, а по возвращении Президиум АН УССР поручил ему возглавить работу по организации Вычислительного центра. Ядром группы ученых были сотрудники академика АН СССР С. А. Лебедева, разработчика первой в Европе ЭВМ, получившей название МЭСМ (малая электронная счетная машина). Одновременно Б. В. Гнеденко возглавил работу по созданию курса программирования для ЭВМ, который начал читать студентам Киевского университета – будущим сотрудникам Вычислительного центра. Этот курс [6] - первая в СССР книга по программированию. Начались работы по проектированию универсальной машины «Киев» и специализированной машины для решения систем линейных алгебраических уравнений. В этот период Президиум АН УССР возложил на Б. В. Гнеденко обязанности директора Института математики АН УССР и председателя бюро физико-математического отделения.

Широкая организационная деятельность не ослабила научной и педагогической деятельности Б. В. Гнеденко. Именно к этому периоду относится начало разработки им двух новых направлений прикладных научных исследований - теории массового обслуживания и вопросов использования математических методов в современной медицине.

Четвертый этап научного пути (1960–1995) – снова Москва. В 1960 г. Б. В. Гнеденко переехал в Москву и возобновил работу в Московском государственном университете им. М. В. Ломоносова (МГУ). Сразу же Б. В. Гнеденко организовал московский семинар по математической теории надежности и теории массового обслуживания, привлекший многочисленных участников. Большое внимание Б. В. Гнеденко уделял разработке основ теории надежности, решению задач теории резервирования с восстановлением, оптимальной профилактики, управлению качеством промышленной продукции в процессе производства.

В 1965 г. А. Н. Колмогоров передает Б. В. Гнеденко руководство кафедрой теории вероятностей механико-математического факультета МГУ им. М. В.Ломоносова, которой Борис Владимирович заведовал до своих последних дней.

Методологическими проблемами математики Б. В. Гнеденко систематически интересовался с конца 1950-х годов. Он – член научного совета при Президиуме АН СССР по философским проблемам естествознания. С первых дней Общества по распространению научных и политических знаний (общество «Знание») он принимает активное участие в его работе. Жизненному и научному пути Б. В. Гнеденко посвящены статьи [3], [7] и другие публикации.

Общее количество опубликованных научных трудов Б. В. Гнеденко – около тысячи. Рассмотрим подробнее основные направления его научной деятельности.

 

2.3.2. Суммирование независимых случайных величин

 

В 30-е годы внимание Б. В. Гнеденко привлекли задачи, связанные с суммированием независимых случайных величин (с.в.). Интерес к таким задачам появился в математике еще в XVII в. Невозможность прямых вычислений распределений сумм независимых с.в. приводит к необходимости получения и изучения асимптотических формул для них, т.е. таких формул, которые позволяют находить с нужной точностью требующиеся нам вероятности, связанные с суммами с.в. Эти формулы даются предельными теоремами теории вероятностей. Таким образом, аппроксимация многократных сверток распределений потребовала развития глубокой математической теории, которая называется теорией предельных теорем для сумм независимых с.в. или теорией суммирования.

Начало развития этой теории связано с работами Я. Бернулли и А. Муавра начала XVIII в., в которых были доказаны закон больших чисел (ЗБЧ) и центральная предельная теорема (ЦПТ) для независимых с.в., принимающих два значения. Эти исследования были продолжены в XIX в. П. Лапласом, С. Пуассоном, К. Гауссом и другими учеными, но вплоть до 1860-х гг. рассматривались лишь с.в., принимающие два значения. Лишь в 1867 г. П.Л. Чебышев получил ЗБЧ в общем виде, а достаточно общая форма ЦПТ была найдена лишь в работах А.М. Ляпунова и А.А. Маркова на рубеже XIX и XX вв. Наиболее бурное развитие теории суммирования пришлось на 20 - 40 гг. XX в. и связано с именами А. Н. Колмогорова, Б. В. Гнеденко, А. Я. Хинчина, П. Леви, В. Феллера и Дж. Линдеберга.

Класс возможных предельных распределений для сумм независимых случайных величин, как показали А. Я. Хинчин и Г. М. Бавли, совпадает с классом безгранично-делимых распределений. Оставалось выяснить условия существования предельных распределений и условия сходимости к каждому возможному предельному распределению. Заслуга постановки этих задач и их решения принадлежит Б. В. Гнеденко. Он в 1937 г. предложил оригинальный метод, получивший название метода сопровождающих безгранично-делимых законов. Единым приемом удалось получить все ранее найденные в этой области результаты, а также и ряд новых.

В теории суммирования доказывались как интегральные предельные теоремы, то есть теоремы о сходимости функций распределения, так и локальные теоремы, то есть теоремы о сходимости плотностей (для гладких распределений) и об асимптотическом поведении вероятностей отдельных значений для решетчатых распределений. В 20–40 гг. ХХ в. получены исчерпывающие результаты о ЗБЧ в классической формулировке. Отметим, что законы больших чисел в пространствах нечисловой природы, найденные в последней четверти XX в., формулировались и доказывались исходя из совсем иных подходов - не на основе суммирования, а на основе решения оптимизационных задач (см., например, [8–10]).

Во всех разделах теории суммирования Б. В. Гнеденко получил фундаментальные результаты, пролившие свет на существо дела. Итогом развития классической теории суммирования явилась публикация в 1949 г. монографии Б. В. Гнеденко и А. Н. Колмогорова [5], которую можно назвать монументом создателям этой теории. Методы и результаты теории суммирования применяются в различных разделах теории вероятностей, статистических методов и их применений, а книга [5] остается источником новых идей для многих исследователей. Эта книга - одно из наиболее замечательных достижений математики ХХ века.

 

2.3.3. Предельные теоремы для крайних порядковых и разделимых статистик

 

Работы по предельным теоремам для крайних порядковых статистик публикуются уже в течение почти сотни лет, начиная с двадцатых годов ХХ в. Среди авторов таких публикаций: Додж, фон Мизес, Фреше, Фишер, Типпет, Б. де Финетти, Гумбель, В. Б. Невзоров и другие. Здесь наиболее полные и глубокие результаты в этой области получены Б. В. Гнеденко [11].

Пусть x1,..., xn - независимые одинаково распределенные с функцией распределения F случайные величины; тогда величины  и  называются крайними (или экстремальными) порядковыми статистиками, а также крайними членами вариационного ряда. Предположим, что для функции распределения F найдутся последовательности констант , для которых существуют невырожденные предельные (с ростом n) функции распределения G крайних членов преобразованной выборки . Тогда согласно общей теории, построенной Б. В. Гнеденко, функция G имеет один из трех типов. Среди них широко используемое на практике распределение Вейбулла – Гнеденко [12] (в устаревшей литературе именуется распределением Вейбулла). Б. В. Гнеденко нашел необходимые и достаточные условия, относящиеся к F, позволяющие получить тот или иной тип G.

Являясь выдающимся специалистом по теории суммирования независимых случайных величин, Борис Владимирович решил результаты этой теории применить к суммированию зависимых случайных величин. Поэтому он проявил интерес [13] к таким случайным величинам , совместное распределение которых совпадает с условным совместным распределением некоторых независимых случайных величин  при условии фиксации суммы последних в некоторой точке. Отправляясь от величин , можно построить [13] класс сумм зависимых случайных величин, называемых в отечественной литературе разделимыми статистиками. Распределения последних известным образом выражаются через распределения сумм соответствующих независимых случайных величин (векторов). Тем самым, для получения предельных (с ростом числа слагаемых) теорем для разделимых статистик надо воспользоваться результатами суммирования независимых величин или их многомерными аналогами –– в случае векторов.

 

2.3.4. Теория массового обслуживания

 

Большим и весьма практически важным разделом современных статистических методов, в становление и развитие которого Б. В. Гнеденко внес неоценимый вклад, является теория массового обслуживания (ТМО). Первый цикл работ в этом направлении он выполнил на первом этапе своего научного пути –– на кафедре математики текстильного института в г. Иваново. В частности, он занимался изучением связи неровноты пряжи по номеру и весу, выяснением эффективности перехода от обслуживания одного станка к обслуживанию нескольких станков, оценкой длины среднего перехода между станками, который выполняет ткачиха в процессе обслуживания ткацких станков, выявлением особенностей метода станкообходов для нормирования рабочего времени станка и рабочего. Этой тематике посвящена первая книга Б. В. Гнеденко [14].

В опубликованной перед самой войной работе [15] Б. В. Гнеденко решает задачу определения среднего числа зарегистрированных счетчиком Гейгера-Мюллера частиц (известно, что в силу наличия «мертвой зоны» счетчик Гейгера-Мюллера регистрирует не все попадающие в него частицы). В терминах ТМО рассматриваемая модель может быть описана как однолинейная система массового обслуживания (СМО) с потерями, нестационарным пуассоновским входящим потоком и постоянным временем обслуживания. Заметим, что и к настоящему времени системы массового обслуживания с нестационарным входящим потоком исследованы крайне мало.

К задачам ТМО Б. В. Гнеденко возвращается в 50-е годы, хотя, по собственному признанию, уже во время войны он не раз размышлял над ними. И до последних дней жизни это направление, наряду с теорией суммирования и математической теорией надежности, становится одним из основных в его научной деятельности. Борис Владимирович обобщает формулы Эрланга на системы с ненадежными восстанавливаемыми приборами, рассматривая как случай с потерей требования при отказе прибора, так и случай перехода недообслуженного требования на другой свободный прибор, и т.д.

В 1956 г. Б. В. Гнеденко прочитал первый в СССР спецкурс по ТМО. В 1958 г. цикл его лекций по теории массового обслуживания был опубликован, а затем послужил основой для широко известной монографии [16], выпущенной в 1966 г. Эта книга и до сих пор остается одной из основополагающих при подготовке специалистов по ТМО не только в нашей стране, но и за рубежом. Отметим еще две его монографии ([17, 18]), оказавших значительное влияние на развитие ТМО.

В последующие годы Б. В. Гнеденко опубликовал еще более 30 статей, относящихся к ТМО. В этих статьях, наряду с решением отдельных задач по ТМО, он дает детальные обзоры существующих методов исследования, формулирует новые проблемные направления. Важнейшей задачей Б. В. Гнеденко считал пропаганду на всех уровнях, начиная от школьников и кончая профессиональными математиками и управленцами высокого уровня, широчайшего внедрения методов ТМО в инженерную практику.

 

2.3.5. О работах Б. В. Гнеденко в области математической статистики, теории надежности и контроля качества

 

Статистические методы были в центре научных и педагогических интересов Б. В. Гнеденко на протяжении всей его творческой жизни. «Каждому специалисту нужно знать математическую статистику» – так называется одна из его статей 1961 г. [19]. Уже в первых его публикациях, посвященных математическому анализу проблем текстильного производства, проявился живой интерес и умение Бориса Владимировича работать с реальными данными.

Мировую известность Б. В. Гнеденко как статистику принес цикл работ, выполненный им вместе со своими учениками и сотрудниками в конце 40-х – первой половине 50-х годов. Он изучал проблему проверки гипотезы однородности двух независимых выборок с помощью статистики, равной максимуму разности соответствующих эмпирических функций распределения (т.н. двухвыборочная односторонняя статистика Н. В. Смирнова). Б. В. Гнеденко предложил метод вычисления точного распределения статистики критерия для конечных выборок равного объема, позволивший получить простое доказательство найденных ранее Н. В. Смирновым предельных теорем и достаточно точные асимптотические разложения (эти результаты и их дальнейшее развитие рассмотрены в статье [20]). А. Н. Колмогоров высоко оценил исследования Б. В. Гнеденко по непараметрической статистике [21]. И сейчас, через 50 лет, эти результаты Б. В. Гнеденко по-прежнему актуальны для применения математических методов исследования.

По статистике Б. В. Гнеденко опубликовал более 50 работ. Среди них есть посвященные проблемам статистического образования, а также приложениям статистических методов в технических исследованиях, теории надежности и контроле качества, экономике и социальных науках, биологии и медицине, во многих других областях.

Б. В. Гнеденко всегда был среди тех ученых, которые, с одной стороны, глубоко понимали необходимость развития вычислительной техники как основы и предпосылки внедрения результатов теоретических (и в том числе математико-статистических) исследований в практику; а с другой - предвидели широкие горизонты новых исследований, которые представляли высокопроизводительные компьютеры. Он не только руководил созданием Вычислительного центра АН УССР, но и был у истоков создания Института кибернетики АН УССР. Как уже отмечалось, Б. В. Гнеденко был написан первый в СССР учебник по программированию [6]. Начатые Б. В. Гнеденко в сотрудничестве с Н. М. Амосовым работы по машинной диагностике сердечных заболеваний во многих своих аспектах являются примером высококлассного прикладного статистического исследования, по своей тематике относящегося к проблемам классификации. К сожалению, Б. В. Гнеденко не дали завершить эти исследования. Являясь одним из виднейших математиков, работавших в то время на Украине, он был вынужден покинуть Киев и переехать в 1960 г. в Москву.

Вопросами теории надежности и проблемами управления (а значит, и контроля) качества Б. В. Гнеденко начал заниматься еще во второй половине 50-х годов. По мере знакомства с уровнем качества продукции промышленных предприятий в нем крепла уверенность в необходимости использования математических методов для объективной оценки качества и прогноза надежности изделий. К разработке математической теории надежности он привлек своих учеников И. Н. Коваленко, В. С. Королюка, Т. П. Марьяновича. Сам Б. В. Гнеденко в это время выполнил ряд прикладных работ, связанных с анализом надежности и методикой расчета нагрузки электрических сетей промышленных предприятий.

В Москве, будучи одним из создателей и признанным лидером советской школы математической теории надежности, Б. В. Гнеденко приобрел огромное неформальное влияние на развитие этой теории не только на всей территории СССР, но и далеко за ее пределами. Другой мощной школой в теории надежности является североамериканская. Две школы отличались по тематике исследований и во многом дополняли друг друга. Достижения этих школ 60–80-х годов до сих пор предопределяют мировое развитие теории надежности.

Продвижению результатов математической теории надежности в практику Б. В. Гнеденко придавал не меньшее значение, чем развитию самой математической теории. По его мнению, важнейшими аспектами востребованности и успешного применения практикой являются

(а) наличие в теории богатого набора математических моделей, отражающих разнообразные явления предметной области;

(б) наличие в предметной области специалистов, способных понять математические модели и превратить их в «руководящие указания» на производстве;

(в) наличие литературы самого разного уровня, отражающей достижения теории и практику ее применения;

(г) возможность прямого контакта между создателями теории и специалистами предметной области для взаимной корректировки задач теории и методов ее приложения в предметной области.

Все перечисленные выше моменты нашли счастливое сочетание в работе огромного незримого коллектива ученых и практиков, имевших отношение к созданию и приложению теории надежности и к управлению качеством в СССР. Усилиями Б. В. Гнеденко, его сотрудников и учеников с 1960 по 1985 гг. была разработана весьма разветвленная математическая теория надежности и математическая теория контроля качества. Была налажена широкая пропаганда необходимости практического использования теоретических результатов, в том числе по линии общества «Знание». Организованы семинары и лекционные курсы в Политехническом музее (Москва), в МГУ им. М. В. Ломоносова, а затем и во многих городах СССР, где инженерный состав получал необходимую математическую подготовку для понимания и применения методов теории надежности и контроля качества. В кабинете надежности при Политехническом музее все заинтересованные лица могли получить консультации у ведущих специалистов, включая и самого Б. В. Гнеденко. Издательства «Советское радио» и «Знание» выпустили серию книг, посвященных различным аспектам теории надежности и контроля качества. Огромное влияние оказала основополагающая монография [22], а также ряд других монографий с участием Б. В. Гнеденко, в частности, небольшая яркая книга [23].

Была развернута большая работа по подготовке специалистов высшей категории в области теории надежности. В руководстве ряда отраслей промышленности оказались специалисты, хорошо понимающие необходимость внедрения современных методов теории надежности и контроля качества. И во всем этом самое непосредственное участие принимал Б. В. Гнеденко. В результате достижения математической теории надежности и контроля качества нашли широкое признание, как в научных кругах, так и среди прикладников. Правда, с сожалением приходится констатировать, что в целом на реальный подъем качества продукции в стране, за исключением предприятий оборонно-промышленного комплекса, эти достижения повлияли мало.

Развитие теории управления качеством и надежностью активно продолжается и в настоящее время. В частности, в журнале «Заводская лаборатория. Диагностика материалов» постоянно обсуждаются различные прикладные и теоретические проблемы управления качеством [24, 25]. В современных условиях реализация накопленного научного потенциала может дать значительное ускорение экономического роста как отдельных предприятий, так и страны в целом.

Конечно, нельзя не отметить и огромный личный вклад Б. В. Гнеденко в математическую теорию надежности. Предметом его наибольшего интереса была теория резервированных систем с восстановлением. Здесь им была поставлена задача, которая имела многочисленные продолжения в работах других математиков, а именно – задача об асимптотическом распределении момента первого отказа резервной группы с быстрым восстановлением. Б.В. удалось установить связь с асимптотической теорией суммирования случайного числа случайных слагаемых. И эта задача была им с блеском решена. Отметим, что подобные суммы используются не только в теории надежности, но и в различных иных прикладных областях, в частности, в логистике, т.е. науке о движении материальных, финансовых и информационных потоков (см., например, монографии [26, 27]).

И как здесь не вспомнить слова Б. В. Гнеденко о взаимообогащении фундаментальных и прикладных наук: «Я глубоко убежден в том, что прикладные проблемы не только дают возможность демонстрации силы математических методов и решения множества задач, необходимых для жизненной практики, но имеют огромное значение для развития самой математики. Дело в том, что в прикладных задачах часто приходится сталкиваться с совсем новыми ситуациями, о которых математик-теоретик не может догадаться. Традиционные методы математики недостаточны для решения возникающих вопросов, требуется разработка новых методов исследования и, возможно, – даже новых ветвей математики. Но практика важна для науки и тем, что именно практика выясняет возможности той или иной области математики для решения актуальных проблем других научных дисциплин и повседневных нужд общества. И, в конечном счете, ценность исследований математика будет определяться по тому, насколько широко и глубоко развиваемые им теории позволяют проникнуть в проблемы познания законов окружающего мира, помогают решению житейских проблем, касающихся всего общества. Чем теснее связана та или иная ветвь математики с практикой жизни, тем разнообразнее ее проблемы, тем быстрее она развивается. Так было, так есть и так будет» [28].

 

2.3.6. История математики и преподавание

 

Вскоре после создания Академии педагогических наук РСФСР (основана в 1943 г.) Б. В. Гнеденко был приглашен в Институт методов обучения. Итог его работы – книга [29], адресованная в первую очередь учителям и школьникам. Эта замечательная книга была первым достаточно полным исследованием истории математики в нашей стране.

Несомненной заслугой Б. В. Гнеденко является то, что он показал, что история математики необходима действующему математику. На Третьем Всесоюзном математическом съезде (1956) Б. В. Гнеденко перечислил магистральные направления историко-научных исследований в этой области. Он подчеркнул значение истории математики

«а) для целей выяснения общих закономерностей развития математики,

б) для выявления общих перспектив ее последующего развития,

в) для выявления методологических установок науки,

г) для выяснения связей с другими науками и роли математики в истории культуры,

д) для целей преподавания и воспитания» [30, c.100].

Эти задачи Б. В. Гнеденко реализовывал на протяжении пятидесяти лет, написав более 180 работ по истории математики. Среди них - более 32 биографических статей, посвященных Н. И. Лобачевскому, П. Л. Чебышеву, М. В. Остроградскому, А. Н. Колмогорову и др. В фундаментальной работе [31] он прослеживает предысторию теории вероятностей, анализируя труды ученых, стоящих у истоков этой науки: Л. Пачолли (основатель бухгалтерского учета), Дж. Кардано, Н. Тартальи, Г. Галилея, Б. Паскаля, П. Ферма, Х. Гюйгенса. Интересен раздел «Статистический контроль качества продукции» [31, с.47 – 50], в котором Б. В. Гнеденко прослеживает истоки этой важной прикладной области вплоть до 1740 г. Мастерски умел Б. В. Гнеденко показать в элементарных рассуждениях предшественников зерна более широких идей. Изложение столь понятно и интересно, что хочется заглянуть в первоисточники – труды Я. Бернулли, П. Л. Чебышева, П. Леви и других.

Наиболее известной книгой Б. В. Гнеденко – учебником «Курс теории вероятностей» [4] – пользуются студенты математических специальностей университетов уже свыше полувека. Он выдержал несколько десятков изданий в СССР, США, ГДР, Японии и многих других странах. Совместно с А. Я. Хинчиным Б. В. Гнеденко написал научно-популярную книгу [32], которая также вот уже более пятидесяти лет пользуется огромной популярностью и выдержала множество изданий в СССР и за рубежом.

Б. В. Гнеденко уделял большое внимание вопросам преподавания. Он руководил научно-исследовательскими семинарами но программированному обучению, по вопросам преподавания в средней школе, был председателем секции теории вероятностей и математической статистики и секции средней школы Московского математического общества. Большое число статей было им опубликовано в журналах «Вестник высшей школы», «Математика в школе», в сборниках научно-методического совета Минвуза СССР. 

Лекции Б. В. Гнеденко пользовались большим успехом в любой аудитории. Естественна попытка проанализировать те средства, которые использовал Б. В. Гнеденко для воздействия на слушателей во время лекций. Суть их в простоте, в уважении своих слушателей, в желании передать им те сведения, которые им необходимы; в демонстрации на ярких и доступных примерах важности того, о чем идет речь; в умении связывать общие идеи с различными частными задачами, которые близки интересам слушателей; в ненавязчивом, постоянном воспитании научного мировоззрения. И все это вместе взятое высказывалось Б. В. Гнеденко на лекциях так, что в каждый момент звучало нужное слово с нужной интонацией. И не только в лекциях для студентов, но и в выступлениях для школьников средних классов [33, 34].

Охватывая в своем творчестве весь диапазон, который может попасть в поле зрения математика - от исходной практической проблемы до теоретической чисто математической задачи и затем от решения этой задачи обратно к практической проблеме - Б. В. Гнеденко вполне естественно обращался к осмыслению своего пути исследователя. Он посвящал методологическим исследованиям отдельные работы, постоянно обращался к проблемам таких исследований в книгах более общего характера [35]. Методологические вопросы постоянно обсуждались также в публикациях, посвященных роли математических методов исследования в научно-техническом прогрессе [36] или применению современных статистических методов в управлении качеством продукции [23, 37].

Много сил отдавал Б. В. Гнеденко постоянному общению со специалистами самых разных отраслей народного хозяйства, областей науки. Неоценимую помощь оказал он своими консультациями тысячам людей.

Своей личностью, своей собственной научной, педагогической и организационной работой Б. В. Гнеденко показывал пример плодотворного единения теории и практики. И символично, что именно он в 1961 г. создал (вместе с проф. В. В. Налимовым) раздел «Математические методы исследования» в журнале «Заводская лаборатория» (в настоящее время – «Заводская лаборатория. Диагностика материалов») и возглавлял его более 30 лет. И в настоящее время для нас важны его методологические выступления на страницах этого журнала [36, 38], в котором публикуются основные отечественные работы по статистическим методам.

Авторы искренне благодарны В. М. Золотареву, Д. Б. Гнеденко, Н. К. Добровольской, Э. М. Кудлаеву, А. В. Печинкину, Н. Х. Розову, В. В. Сенатову, Е. В. Чепурину, В. Н. Чиненовой за предоставленные материалы, использованные при составлении раздела 2.3.

 

 

 

 

2.4. Непараметрическая и прикладная статистика
в нашей стране

 

Продолжим обсуждение истории отечественной статистики. В разделе 2.1 и статье [1] рассмотрены основные этапы становления статистических методов. Работам выдающихся отечественных исследователей А. Н. Колмогорова и Б. В. Гнеденко посвящены разделы 2.2 и 2.3 выше, статьи [2] и [3] соответственно. В настоящем разделе обсудим развитие непараметрической и прикладной статистики в нашей стране в 1930–1980 гг.

В довоенный период отечественная вероятностно-статистическая наука прославилась двумя достижениями. Об одном – построении А. Н. Колмогоровым теории вероятностей на основе теории меры и интеграла Лебега – уже говорилось [2]. Второе – разработка непараметрических критериев проверки согласия и однородности. Сначала фундаментальный результат – критерий согласия эмпирического с распределения с теоретическим (критерий Колмогорова) - был получен А. Н.Колмогоровым [4, с.134-141], затем дело взял в свои руки член-корреспондент АН СССР Николай Васильевич Смирнов (1900–1966).

 

2.4.1. О работах Н. В. Смирнова

 

Его основные научные труды опубликованы в сборнике [5], на который и будем ссылаться. Наиболее ценная книга ХХ в. по статистическим методам, на наш взгляд, подготовлена членами-корреспондентами АН СССР Л. Н. Большевым и Н. В. Смирновым. Это – «Таблицы математической статистики» [6]. Название не должно обманывать – весьма полезна начинающая книгу пояснительная часть (разделы с кратким и строжайше выверенным описанием классических статистических методов, примерами их применения, комментариями к таблицам). Учебники Н. В. Смирнова по статистическим методам и по сей день остаются среди лучших [7, 8].

Как ученый Н. В. Смирнов получил много глубоких результатов. Так, с его работы 1951 г. «О приближении плотностей распределения случайных величин» (см. [9] и [5, с.205-223]) началось развитие такого перспективного, в том числе в статистике нечисловых данных [10, гл.11], направления, как непараметрические оценки плотности. Однако с его именем связывают прежде всего «критерии Смирнова». Пусть Fn(t) – эмпирическая функция распределения, построенная по выборке объема n из непрерывной функции распределения F(t). Напомним, что согласно Л.Н. Большеву и Н.В. Смирнову [6] значение эмпирической функции распределения в точке х равно доле результатов наблюдений в выборке, меньших х. Одновыборочные критерии Смирнова, введенные в статье 1939 г. «Об уклонениях эмпирической функции распределения» [5, с.88-107], основаны на статистиках

.

Очевидно, критерий Колмогорова есть максимум этих двух статистик. Поэтому возникает желание объединить все три критерия в одну группу – группу критериев Колмогорова-Смирнова. Однако разработанные Н. В. Смирновым методы рассуждений, использованные для получения распределений рассматриваемых статистик, совершенно оригинальны. Они не имеют ничего общего с подходом А. Н. Колмогорова. Поэтому мы считаем, что надо говорить отдельно о критерии Колмогорова и отдельно о критериях Смирнова, а если уж надо объединить их вместе, то говорить о критериях типа Колмогорова-Смирнова, но не о критериях Колмогорова-Смирнова, поскольку употребление последнего выражения приводит к искажению исторической правды [11, 12].

Двухвыборочные критерии Смирнова однородности двух независимых выборок были им предложены и изучены в 1939 г. (см. [5, с.117-127]). Единственное ограничение - функции распределения F(x) и G(x) должны быть непрерывными. Критерии Смирнова основан на использовании эмпирических функций распределения Fm(x) и Gn(x), построенных по первой и второй выборкам соответственно. Значение двухвыборочной двухсторонней статистики Смирнова

сравнивают с соответствующим критическим значением и по результатам сравнения принимают или отклоняют гипотезу Н0 о совпадении (однородности) функций распределения (подробнее – см., например, [6] или [12]). Практически значение статистики Dm,п рекомендуется согласно [6] вычислять по формулам

,

,

где x'1<x'2<…<x'n - элементы первой выборки x1, x2, …, xn , переставленные в порядке возрастания, а y'1<y'2<…<y'm  - элементы второй выборки y1, y2, …, ym , также переставленные в порядке возрастания. Поскольку функции распределения F(x) и G(x) предполагаются непрерывными, то вероятность совпадения каких-либо выборочных значений равна 0. Статистики  также могут быть использованы для проверки однородности двух независимых выборок. Их называют двухвыборочными односторонними статистиками Смирнова.

Статистика омега-квадрат (подробнее см. о ней в [12] и [13, гл.2.3])

также используется для проверки согласия эмпирического распределения с фиксированным теоретическим. Эту статистику в 1928–1931 гг. предлагали использовать Г. Крамер и Р. фон Мизес, однако ее предельное распределение вычислил в 1937 г. Н. В. Смирнов в статье «О распределении – критерия Мизеса» [5, с. 60 – 78], что и позволило использовать эту статистику в практических расчетах. Поэтому статистику  обычно называют также статистикой Крамера – Мизеса – Смирнова. Имеющаяся в указанной статье [5, с. 60 – 78] погрешность в формулировке леммы 6 (с. 75, формула (97)) (пропущен множитель (-1)k из-за неадекватного применения теории функций комплексного переменного) исправлена нами в статье [14].

Двухвыборочная двухсторонняя статистика Смирнова и аналогичная статистике Крамера – Мизеса – Смирнова двухвыборочная статистика типа омега-квадрат (статистика Лемана – Розенблатта) позволяют построить состоятельные критерии проверки абсолютной однородности независимых выборок, позволяющие обнаруживать любые альтернативы гипотезе тождественного совпадения функций распределения двух выборок. Алгоритмы расчета этих статистик приведены в [15]. Наиболее продвинутые таблицы распределения двухвыборочной двухсторонней статистики Смирнова подготовлены нашим коллективом [16].

Как следует из сказанного выше, А. Н. Колмогоров и Б. В. Гнеденко внесли огромный вклад в развитие статистических методов. Однако они занимались и многими другими проблемами (особенно А. Н. Колмогоров). Полностью посвятили себя статистическим методам в ХХ в. только два исследователя с академическими званиями – члены-корреспонденты АН СССР Н. В. Смирнов и Л. Н. Большев.

 

2.4.2. О Л.Н. Большеве

 

Логин Николаевич Большев (1922–1978) до конца Великой Отечественной войны участвовал в боевых действиях как летчик-истребитель. В 1951 г. окончил механико-математический факультет МГУ им. М.В. Ломоносова, будучи учеником А. Н. Колмогорова. Затем стал сотрудником Математического института АН СССР, в котором работал бок о бок с Н. В. Смирновым, которого и сменил в 1966 г. на посту руководителя отдела математической статистики. Для работ Л. Н. Большева [17] характерно сочетание высокого математического уровня с направленностью на практические приложения статистических методов. Его безвременная кончина обозначила рубеж, после которого разрыв между математической статистикой и статистическими методами (включая прикладную статистику) стал в сложившихся отечественных условиях неизбежным.

Постоянно используются в практической работе «Таблицы математической статистики» Л. Н. Большева и Н. В. Смирнова [6]. Будут применяться и в дальнейшем, поскольку распространенные статистические программные продукты имеют существенно более низкий научный уровень по сравнению с этой книгой [18].

В статье [19], провозгласившей выделение прикладной статистики как самостоятельного научного направления, отмечено, что Л. Н. Большев в беседе с одним из авторов настоящей книги активно возражал против термина «прикладная статистика», поскольку «Вся статистика является прикладной». При этом он отметил, что этот термин – реакция на развитие т.н. «аналитической статистики», которая занимается внутриматематическими вопросами.

 

2.4.3. В. В. Налимов как организатор науки

 

Профессор МГУ им Ломоносова, доктор технических наук Василий Васильевич Налимов (1910 – 1997) — создатель и руководитель нескольких новых научных направлений: метрологии количественного анализа, химической кибернетики, математической теории эксперимента и наукометрии. Занимался проблемами математизации биологии, анализом оснований экологического прогноза, вероятностными аспектами эволюции, проблемами языка и мышления, философией и методологией науки, проблемами человека в современной науке, вероятностной теорией смыслов. Свой жизненный путь описал в книге [20].

Известность пришла к В. В. Налимову после выхода книги «Применение математической статистики при анализе вещества» [21] – справочника по применению классических статистических методов в работе химиков-аналитиков. Поскольку В. В. Налимов пришел в статистические методы не из математики, а из практической деятельности в заводских лабораториях, то и книга его была ориентирована на потребности практики.

Следующим шагом было создание секции «Математические методы исследования» редколлегии журнала «Заводская лаборатория». Сейчас под названием журнала стоит: «Ежемесячный научно-технический журнал по аналитической химии, физическим, математическим и механическим методам исследования, а также сертификации  материалов». У истоков секции стояли Б.В. Гнеденко и В. В. Налимов, однако реально работу секции организовывал В. В. Налимов. Под его руководством она стала и остается поныне штабом развертывания исследований по статистическим методам в нашей стране.

В соответствии с тематикой журнала публикации секции посвящены в основном статистическим методам анализа данных измерений, наблюдений, испытаний, анализов, опытов. Большое значение придается математическим методам планирования экспериментов. В частности, при оптимизации технологических процессов в металлургической, химико-технологической, фармацевтической и иных отраслях промышленности применение методов экстремального планирования экспериментов позволяет заметно повысить выход продукта, обычно на 30 – 300%.

Основные направления работы секции – прикладная статистика и планирование эксперимента. В первом из них принимается, что экспериментатор не может выбирать точки (значения факторов), в которых проводятся измерения, во втором, напротив, выбор возможен, и основная задача - оптимальный подбор таких точек. Большое внимание уделяется вопросам оптимального управления технологическими процессами, в частности, статистическим методам управления качеством продукции. Рассматриваются также теория и практика экспертных оценок, применение нечетких множеств и др.

Заслугой В. В. Налимова является то, что в 60-е – 70-е годы ХХ в. в нашей стране была создана мощная научно-практическая школа в области планирования эксперимента. Перу В. В. Налимова принадлежит длинный ряд статей и книг, посвященный развитию теории и практики планирования эксперимента [22–24]. Итоги развития этой области статистических методов подведены учениками В. В. Налимова в статье [25], математическим основам планирования эксперимента посвящен справочник [26].

В 1961 г. была создана секция «Химическая кибернетика» (под председательством В. В. Налимова) в Научном совете по комплексной проблеме «Кибернетика» при Президиуме АН СССР. С 1971 г. В. В. Налимов возглавлял секцию «Математическая теория эксперимента». Она объединяла более 500 активно действующих специалистов, работавших в академических и отраслевых институтах, вузах и на промышленных предприятиях. Развитие новой отрасли науки отслеживалось методами наукометрии [27], во многом созданной трудами В. В. Налимова.

В 1965 г. А. Н. Колмогоров организовал в МГУ им. М.В. Ломоносова межфакультетскую Лабораторию статистических методов и пригласил В. В. Налимова стать его первым заместителем. Задачи, поставленные перед Лабораторией, формулировались примерно так: изучение и дальнейшая разработка вероятностно-статистических методов; их пропаганда и широкое внедрение в научную, инженерную и медицинскую практику; хоздоговорная деятельность; педагогическая и издательская деятельность; проведение общемосковских семинаров, летних научных школ, участие в конференциях [20, с.272]. Штатный состав достигал 130 человек. Такого мощного научного института – лидера не было в нашей стране. Нет и сейчас.

Организационным структурам, занимавшимся развитием статистических методов в нашей стране, не удалось укрепиться.

Большим успехом было введение в начале 70-х годов преподавания в вузах химической кибернетики и создание соответствующих кафедр. Однако через год последовало решение о сокращении штатов, и эти вновь введенные кафедры перестали существовать.

Ректор МГУ им. М.В. Ломоносова академик И.Г. Петровский поддерживал создание и развитие межфакультетской Лаборатории статистических методов А. Н. Колмогорова. Однако после его смерти выяснилось, что эта Лаборатория существует, так сказать, «нелегально», т.к. не входит в структуру университета. И в 1975 г. Лаборатория была расформирована. Ее сотрудники были распределены между пятью факультетами университета. Оказался уничтоженным единственный в нашей стране центр, занимавшийся методологическими аспектами вероятностно-статистического моделирования [20, с.291]. И это резко отрицательно сказалось на уровне отечественных прикладных работ.

В июле 1959 г. при Президиуме АН СССР был создан Совет по кибернетике, который возглавил академик А. И. Берг. Инженер-адмирал (высшее флотское звание) Аксель Иванович Берг (1893–1979) работал в области создания, развития и применения радиолокации и современных систем радионавигации, над проблемами кибернетики, став крупнейшим специалистом в основных областях этой отрасли науки. Как уже отмечалось, около 20 лет А. И. Берг поддерживал развитие статистических методов. А после его смерти новое руководство Совета «перекрыло кислород» этой тематике.

После смерти в 1978 г. члена-корреспондента АН СССР Л. Н. Большева резко сократилось сотрудничество между математиками и статистиками, разошлись пути математической и прикладной статистики.

Все эти события второй половины 70-х годов способствовали тому, что интересы В. В. Налимова сместились из научно-организационной деятельности в сферу его личных научных интересов. В книге «Вероятностная модель языка» [28] В. В. Налимов развивает мысль о нечеткости слов в естественном языке (ср. с констатацией «Мы мыслим нечетко» в статье [29]). Затем в длинной серии публикаций В. В. Налимов разрабатывает вероятностно ориентированную философию, включая вероятностное исчисление смыслов [30]. Последняя научная книга В. В. Налимова «В поисках иных смыслов» [31] начинается так: «Основная задача автора состоит в том, чтобы показать, что в наше время – в век утраты фундаментальных смыслов и всеобщей разбросанности знаний по отдельным закромам многоликой культуры – все же возможно построение единых, по-прежнему целостно звучащих метафизических систем».

В настоящем разделе, а также в статьях [1–3] обсуждаются основные достижения пяти выдающихся исследователей советского периода – А. Н. Колмогорова, Б. В. Гнеденко, Н. В. Смирнова, Л. Н. Большева, В. В. Налимова. Вместе с ними работали тысячи специалистов. Нельзя не назвать А. Я. Хинчина, С. Н. Бернштейна, Е. Е. Слуцкого, В. С. Немчинова, В. И. Романовского, Г. К. Круга, А. А. Любищева. И вспомнить многих, многих других. История русской и советской статистики требует дальнейшего изучения, прежде всего потому, что старые дискуссии продолжаются и сейчас. Так, в недавних монографиях [32, 33] обсуждаются многие из тех проблем, которые волновали В. В. Налимова [20].

 

2.4.4. Дискуссия о прикладной статистике

 

Глазами американцев: российская дискуссия о прикладной статистике. Развитие прикладной статистики в нашей стране сопровождалось бурными дискуссиями. Объективный анализ их начального этапа был дан на страницах органа Американской статистической ассоциации. Статья Сэмюеля Kотца и Kэтлин Смит «Пространство Хаусдорфа и прикладная статистика: точка зрения ученых СССР» [34] описывает различные взгляды, имеющие распространение и в XXI веке. Чтобы «взглянуть со стороны» на споры 80-х, используем эту статью.

Статья [34] посвящена дискуссии, развернувшейся на страницах советского статистического журнала «Вестник статистики» по вопросам существования и релевантности (уместности) прикладной статистики как самостоятельной научной дисциплины. В ней анализируется содержание четырех писем редактору и редакционных комментариев к ним, которые были опубликованы в этом журнале в период с октября 1985 г. по июнь 1987 г. Основная задача статьи состоит в том, чтобы осветить длительную (продолжающуюся по крайней мере 40 лет) полемику в советской (и российской) статистике между «идеологическими пуристами» и «прагматиками», которая в 80-е годы значительно усилилась. Существование разногласий, безусловно, не является новым явлением среди статистиков и в определенной степени оно носит здоровый характер, способствуя выработке критического отношения к предмету. Полемика в 80-х затрагивает суть предмета в отличие от более ранних этапов, когда она отличалась идеологической направленностью. В 50–60-е, в период хрущевской оттепели, когда в СССР более свободно начали публиковать статистические данные, в журнале «The American Statistician» («Американский статистик») – органе Американской статистической ассоциации - было опубликовано несколько статей, посвященных различным аспектам советской статистики, как организационным, так и затрагивающим существо предмета.

Советская статистика: 1917 – 1964. Вопросы развития статистики в СССР с 1917 по 1964 г. довольно подробно освещены в статьях С. Котца [35, 36], прежде всего борьба двух противоположных мнений по вопросу о роли и содержании статистической науки в СССР. Между официальными статистиками Центрального статистического управления (ЦСУ, затем Госкомстат, ныне Росстат) и статистиками - экономистами математической направленности во главе с В. С. Немчиновым (18901964) возникли разногласия.

Официальные статистики считали, что статистика представляет собой описательную науку, в задачи которой входит сбор данных по плановой экономике, и что в условиях коммунизма статистику в конечном счете заменит простая бухгалтерия. Противоположных взглядов придерживались практики и статистики теоретической направленности. Они считали, что статистика и теория вероятностей важны в любой области. В 1954 г. на Всесоюзном научном совещании по теоретическим вопросам статистики (см. о нем в [37, с.243-247]), в работе которой приняли участие ведущие ученые, известный советский математик А. Н. Колмогоров (19031987) помог представителям этих двух противостоящих школ прийти к прагматическому компромиссу. На совещании 1954 г. было заявлено, что статистика является самостоятельной общественной наукой и что «она изучает количественный аспект массовых социальных явлений в неразрывном единстве с их качественным  аспектом» (см. Kотц, [36, с.136]). Был сделан вывод, что советскую статистику от «буржуазной» статистики отличает акцент на качественном аспекте явлений. Для «буржуазной» статистики, согласно официальной оценке в Советском Союзе, характерен формальный, чисто математический подход к изучению социальных явлений, при котором количественный показатель рассматривается отдельно от качественной основы.

Однако на математическую статистику как часть математики «официальные статистики» покушаться не решились, поскольку математическая статистика использовалась для решения задач обороноспособности страны. Вместе с тем статистические методы в промышленности и технических исследованиях, статистические методы в медицине, химии, геологии, экономике, социологии, психологии, истории и в других конкретных областях остались вне официальной структуры науки и образования. В результате решений совещания 1954 г. работы по этим направлениям шли под иными именами. Использовались термины типа «экономическая кибернетика», «математическое моделирование в медицине» и др. Недаром сборник «Современные проблемы кибернетики (прикладная статистика)» [19], с момента выхода которого (1981) говорим о самостоятельности прикладной статистики, имеет название, свидетельствующее о «крыше» нашей науки (в данном случае «крыша» - это кибернетика, а в организационном плане – Научный совет АН СССР по комплексной проблеме «Кибернетика»). Соответственно в вузах не велась подготовка специалистов по статистическим методам в конкретных областях. В результате констатируем отставание на порядок от англоговорящих стран по числу специалистов. В США статистиков больше, чем математиков, а у нас создание Лаборатории статистических методов под руководством А. Н. Колмогорова со штатом в 130 человек рассматривалось как большой успех (в то время в Индии, в институте, которым руководил Махаланобис, работало около 2000 человек [20, с.271]).

Разногласия в 80-е годы. Появление статьи [36] совпало с началом публикации (с 1965 г.) полупериодического журнала «Ученые записки по статистике» под редакцией Немчинова (т.е. серии сборников статей, выпускавшихся издательствами «Наука», «Статистика», «Финансы и статистика»).

В 1986 году вышел юбилейный 50-й выпуск «Ученых записок по статистике». В нем опубликовали свои статьи статистики математической ориентации. Многие из них - выпускники вузов и кандидаты наук престижной школы теории вероятностей и математической статистики при МГУ им. М. В. Ломоносова, которую первоначально возглавлял А. Н. Колмогоров, и такой же школы при Ленинградском университете, во главе которой некоторое время стоял академик АН СССР Ю. В. Линник. Эти ученые работали в больших городах, в различных институтах, занимающихся, в том числе, вопросами применения прикладной статистики. Ученые выполняли ориентированные на практическое применение работы в прикладном многомерном статистическом анализе, теории управления запасами и т.д., однако создается впечатление, что они испытывали необходимость и желание заниматься вопросами, носящими более математический характер. Эта тенденция нашла свое отражение на страницах сборника «Ученые записки по статистике», в котором постепенно, но постоянно начали публиковать статьи математического и абстрактного характера, что вызвало недовольство среди статистиков различных научно-исследовательских институтов, связанных с органами официальной государственной статистики (в то время - ЦСУ).

В 1983 году в издательстве «Наука» вышел в свет 45-й том «Ученых записок по статистике», который был скромно озаглавлен «Прикладная статистика» [38], и разразился скандал. Опишем ход развития полемики, проанализировав содержание четырех писем редактору, которые были опубликованы с октября 1985 г. по июль 1987 г. в ежемесячном журнале «Вестник статистики» - органе ЦСУ.

В ответ на публикацию в сборнике «Ученые записки по статистике» многочисленных математических статей абстрактного характера K. Тимофеев (псевдоним) написал сердитое письмо под заголовком «Что же такое прикладная статистика?» [39]. Он утверждал, что термин «прикладная статистика» является абсурдным, так как то, что она якобы описывает, является одной из областей статистической науки, а не новым направлением. Тимофеев заявил: «Из содержания представленных в 45-м томе статей становится совершенно очевидным: название «Прикладная статистика» использовано для того, чтобы в «Ученых записках по статистике» опубликовать материалы, которые к ней (т.е. к статистике) не имеют ни прямого, ни даже косвенного отношения» [39, с.66]. Кроме этого, он выразил несогласие с рядом приведенных в сборнике математических формул и абстрактных концепций. В частности, он привел цитату из статьи, в которой говорится, что статья посвящена «измеримым отображениям произвольного вероятностного пространства в множество непустых компактов плоскости, снабженное метрикой Хаусдорфа» (метрика Хаусдорфа – одно из расстояний между множествами; критикуемая статья была озаглавлена «Статистика случайных множеств»). Тимофеев не только не захотел перенестись «в другое измерение», он подверг автора критике за то, что он в своей статье сослался на работы зарубежных ученых, а не на работы классиков марксизма-ленинизма и советские статистические источники, а также за то, что он написал работу, не связанную с реальной жизнью. Он с неодобрением указал, что авторы статей, публикуемых в «Ученых записках по статистике», часто ссылаются на свои собственные работы. Он написал: «Создается впечатление, что книга «Прикладная статистика» использована не только для публикации не относящихся к статистике материалов, но и для рекламы и саморекламы некоторых математиков, решивших снискать себе славу в области экономики и статистики» [39, с.67]. Тимофеев признал, что эти статьи могут представлять определенный интерес для математиков, однако он полагал, что они вряд ли будут полезны в практической работе тем специалистам, на службе у которых, по его мнению, должна быть статистическая наука, а именно статистикам, экономистам и социологам.

Через десять месяцев журнал «Вестник статистики» опубликовал ответ [40] на выступление Тимофеева. Один из авторов, которых критиковал Тимофеев, А. Орлов, написал ответ в таком же резком тоне, и он был опубликован в официальном органе ЦСУ. В своей статье, перед которой было напечатано вступление от редакции, Орлов пункт за пунктом критиковал позицию Тимофеева. Орлов представил себя, как современного статистика. Он написал, что Тимофеев запутался и не знаком с переменами, которые произошли в статистике. Он отметил, что термин «прикладная статистика» не является ни новым, ни редко употребляемым. Он используется специалистами различных учреждений по всей стране. Он провел грань между математической статистикой и прикладной статистикой, добавив, что прикладная математическая статистика является «неотъемлемой частью» прикладной статистики, а прикладная математическая статистика наряду с аналитической статистикой (т.е. частью математической статистики, ориентированной на решение внутриматематических проблем, например, характеризационных задач [41]) составляют математическую статистику, которая является одной из областей математики. Однако Орлов подчеркнул, что прикладная статистика включает и нематематические области, такие, как «методология организации и проведения прикладного статистического исследования и применения его результатов (как планировать исследование, как выбирать вероятностно-статистическую модель, как собирать данные, как подготавливать их к обработке, как представлять результаты обработки и т.д.), а также соответствующее программное обеспечение» [40, с.54)].

Далее он указал, что интенсивное использование компьютеров в прикладной статистике свидетельствует о том, что в действительности ее можно рассматривать как часть кибернетики.

Орлов привел много примеров использования прикладной статистики в народном хозяйстве, сделав акцент на планировании эксперимента и контроле качества. Он отметил, что благодаря прикладной статистике была получена большая экономия финансовых средств: «Высокая эффективность прикладной статистики естественна - она родилась из практических нужд» [40, с.54]. Он охарактеризовал большой вклад в практическую работу, который внесли многие из тех статей, которые Тимофеев высмеял за абстрактные заголовки. В заключение статьи он привел таблицу, из которой видно, что ученые, публикующие свои работы в «Ученых записках по статистике», чаще ссылаются на работы советских авторов, чем зарубежных, и он подчеркнул, что эти авторы опираются на опыт своей практической работы, а не повторяют ранее опубликованный материал. Он составил эту таблицу на основе советского реферативного журнала «Математика», в котором «советские публикации составляют 1/6 мировых публикаций по прикладной статистике, реферируемых за год» [40, с.56].

Однако, по-видимому, редакторов журнала «Вестник статистики» не убедили доводы Орлова. В дополнение к его письму они напечатали свое заявление о том, что письмо Тимофеева было опубликовано для того, чтобы показать, что сборник «Ученые записки по статистике» перестал отвечать своей цели и превратился в математический журнал и что содержание статей в «Прикладной статистике» (том 45 «Ученых записок по статистике») не отвечает названию сборника. Более того, редакторы добавили, что находят доводы Тимофеева убедительными. Выступив с критикой письма Орлова, они упрекнули его за то, что он пытается «опровергнуть содержание письма K. Тимофеева, а заодно изобразить его автора как человека, не сведущего в делах, которыми занимается А. Орлов, а с ним и ряд других математиков» [40, с.57]. Они продолжали утверждать, что многие леммы и теоремы, которыми оперирует Орлов и его коллеги, не используются в практической работе. В частности, они проявили упорное желание узнать, «каков экономический эффект (в миллионах рублей), который удалось извлечь из шума при помощи измеримых отображений «произвольного вероятностного пространства в множество непустых компактов плоскости, снабженное метрикой Хаусдорфа» [40, с.57]. Касаясь ссылок на работы зарубежных авторов, редакторы отметили, что из таблицы Орлова видно, что ученые действительно ссылаются на зарубежные источники, и таким образом они приходят к выводу, что их утверждение верно. Обширные политизированные тексты «редакторов», весьма враждебные, но не подписанные, демонстрируют распространенные в то время – да и сейчас – приемы борьбы, используемые врагами современной науки.

Подтверждением того, что спорные вопросы еще не решены, по крайней мере в умах читателей, явилась публикация третьего письма, написанного Н. Шереметом [42]. Шеремет, доцент Московского института инженеров железнодорожного транспорта (МИИТ), придерживается умеренных взглядов по вопросу об определении прикладной статистики и ее роли. В начале своего письма он отметил, что Тимофеев не ответил на свой собственный вопрос: «Что же такое прикладная статистика?» По мнению Шеремета, прикладные науки являются связующим звеном между чисто «инженерными» работами и научными исследованиями или чистой наукой. Он выступил в защиту необходимости стадии «корректировки» или «подстройки» между стадиями научных изысканий и применением научных теорий на практике. Затем он привел хорошо известное мнение Большева о том, что вся статистика является прикладной (Л. Н. Большев высказал это мнение в личной беседе с А. И. Орловым, цитата была включена в статью [40]), но не поддержал это утверждение, так как оно является слишком широким обобщением. Затем Шеремет проанализировал точку зрения, что каждая наука имеет свою собственную статистику (например, физическая статистика и биологическая статистика), но отверг ее, так как она противоречит мнению Ф. Энгельса, высказанному при подобных обстоятельствах в связи с механикой, физикой и химией. Шеремет критиковал Орлова за примеры из области экономики, так как эти примеры могли привести к ошибочному – по мнению Шеремета - предположению, что прикладная статистика является универсальной наукой.

Шеремет настаивал на определении статистики как общественной науки, однако признает возможность использования прикладной статистики в своей собственной области. Шеремет написал в свойственных ему неопределенных выражениях:

«Можно предположить, что предметом данной научной дисциплины являются «статистические данные»... Здесь уже не важно, от какого реального явления отвлечены данные абстрактные понятия... Математическая идеализация «статистических данных» и операций над ними дает возможность сводить известное разнообразие связей и закономерностей конкретной практической области к их определенному классу, производить необходимые расчеты» [42, с.69].

Он заявил, что прикладная статистика пока еще не является – по его мнению - четко определенной областью, и в заключение написал, что «прикладной статистике» в большей степени присущи черты междисциплинарных исследований, чем исследований, проводимых в рамках самостоятельной дисциплины [42, с.71].

В письме Шеремет допустил несколько неточностей, граничащих с дезинформацией. Он, кажется, не знает, что с 1973 г. журнал «Анналы статистики» («The Annals of Statistics» – один из основных западных статистических журналов) является непосредственным продолжением журнала «Анналы математической статистики» («Annals of Mathematical Statistics») и не делает разницы между узким техническим термином «статистика» (как функция от результатов наблюдений) и термином «статистика» (как наука и методология). Ссылка на элементарный учебник Вайнберга и Шумахера 1969 г. [43] как на образцовую современную монографию по прикладной статистике в лучшем случае вызывает сомнение.

Показательным является сам факт публикации подобного письма без редакционного комментария в советском консервативном журнале по статистическим наукам - в журнале, который со времени своего возрождения в 1949 году стал выразителем позиций официальных статистиков (многие из них строго придерживаются марксистко-ленинской ориентации), рассматривающих статистику только как описательную науку.

На страницах «Вестника статистики» письмо Шеремета было не единственным откликом на полемику между Тимофеевым и Орловым. По всей видимости независимо от письма Шеремета, в июле 1987 года «Вестник статистики» опубликовал письмо И. Манделя [44], доцента института Народного хозяйства в Алма-Ате (Казахстан). В качестве комментария на письма Тимофеева и Орлова Мандель составил развернутую схему, отражающую взаимосвязь теории статистики, прикладной статистики и математической статистики. Эта схема была представлена наряду с шестью другими методологическими приемами, чтобы показать, какое влияние оказывают теория статистики, прикладная статистика и математическая статистика на методы исследования массовых явлений. Главным в его доводах является положение о том, что в то время, как «теория статистики» в основном отражает «социальную сферу» массовых процессов, прикладная статистика должна быть направлена на отражение массовых явлений любого характера. Таким образом, прикладная статистика должна являться своего рода «буферной наукой», которая переводит результаты математической статистики на язык, понятный исследователям в различных областях науки и практики. Он высказал сожаление по поводу существующих расхождений во взглядах между чистыми математическими статистиками и чистыми «прикладными» и обратил внимание на многочисленные примеры неправильного использования статистической методологии. Он приветствовал усилия математиков (в СССР и за рубежом), направленные на ликвидацию разрыва между математикой и реальным миром. В заключение он посоветовал называть прикладную статистику в значении «буферной науки» «прикладной математической статистикой». На конкретный вопрос о том, является ли сборник «Ученые записки по статистике» подходящим изданием для публикации статей по прикладной (математической?) статистике, он дает категорический отрицательный ответ, полностью совпадающий с мнением Тимофеева по этому вопросу. Мандель составил таблицу, согласно которой в 4 выпусках «Записок» (1978 - 1985), подготовленных прикладными статистиками, опубликовано 85 статей (общий объем -1092 стр.). Из них 62 статьи (787 стр.), т.е. почти три четверти, по его мнению, по своему содержанию больше подходили для публикации в известном советском журнале «Теория вероятностей и ее применения», так как были посвящены чисто математическим результатам и написаны в виде теорем и доказательств. Мандель, увы, не знал, что к тому времени редколлегия и авторы журнала «Теория вероятностей и ее применения» уже полностью оторвались от практики анализа статистических данных. По мнению Манделя, отличительной чертой прикладной статистики является отсутствие доказательств; для нее характерны только ссылки на теоремы и обсуждение вопросов «истинно» прикладного характера.

Обсуждение было продолжено в феврале 1988 г., когда в очередном выпуске «Вестника статистики» было опубликовано письмо болгарского профессора, специалиста по статистике, В. Цонева [45]. Он предлагает коренным образом изменить терминологию, связанную со всей статистической наукой.

Перестройка в области статистики. «Перестройка» в политике отразилась и в области статистики. Это проявилось не только в публикации новых статистических данных по промышленному травматизму, алкоголизму, преступности и т.д., но также и в координации работы многочисленных учреждений, занимающихся обработкой статистических данных. Реорганизация ЦСУ явилась еще одним свидетельством озабоченности правительства недостатками в данной области. K примеру, статистические данные, связанные с производством черных металлов, собирались и обрабатывались тремя учреждениями - Госпланом, ЦСУ и Институтом экономики министерства черной металлургии. На Всесоюзной конференции статистиков в мае 1985 г. выяснилось, что данные по прокату черных металлов, поступающие из этих трех источников, «совершенно разные» [46]. В феврале 1987 г. литературно-художественный журнал «Новый мир» выступил с открытой и резкой критикой отсутствия достоверных статистических данных. Несколько статистиков, среди них – Н. Шеремет и Т. Козлов, заведующий кафедрой статистики МИИТ - выступили с резким опровержением. Дискуссии продолжаются, поскольку ситуация в XXI в. аналогична – статистические данные разных ведомств и организаций не совпадают.

Как отмечено в [34], разногласия между учеными, о которых говорилось выше, характерны не только для Советского Союза. Американские и другие западные статистики также сталкиваются с проблемой определения роли прикладной статистики и, в более широком плане, с проблемой определения статистики как науки.

По нашему мнению, статистику следует рассматривать как одну из наук верхнего уровня иерархии, т.е. в одном ряду с математикой, физикой, экономикой. Так и сделано в РИНЦ - в авторском указателе тематика "Статистика" стоит рядом с тематиками "Математика", "Физика", "Экономика. Экономические науки".

 

2.4.5. Попытки объединения отечественных статистиков

 

В марте 1989 г. в Центральном экономико-математическом институте АН СССР состоялся Всесоюзный круглый стол «Статистика и перестройка», на котором собрались представители различных направлений в статистике – впервые в отечественной истории! Выступления были опубликованы в виде 55-го тома «Ученых записок по статистике» [47].

Высшей точкой общественного движения, ставящего целью объединение отечественных статистиков, было создание в 1990 г. Всесоюзной статистической ассоциации (ВСА), объединившей статистиков всех направлений – специалистов по прикладной и математической статистике, по надежности (в основном представителей оборонно-промышленного комплекса), преподавателей экономико-статистических дисциплин, работников официальной государственной статистики (см., например, [48, 49]). Ведущую роль в создании ВСА сыграли работники Всесоюзного центра статистических методов и информатики, созданного автором настоящей статьи в 1989 г. Наша платформа была изложена в статье [50], опубликованной, несмотря на ее весьма резкую форму, в «Вестнике статистики». Устав ВСА, решения Учредительного съезда и Пленума правления ВСА предусматривали различные формы работы [51].

В ходе дискуссий при создании ВСА были выработаны основные положения новой парадигмы прикладной статистики [52]. В рамках этой парадигмы в течение дальнейшей четверти века выполнены многочисленные исследования, в частности, развивались статистика объектов нечисловой природы [53], статистика интервальных данных [54], недавно была сформирована системная нечеткая интервальная математика [33].

Однако в 1991 г. СССР прекратил свое существование. ВСА, как и другие союзные организации, перестала действовать. И наметившееся единство статистиков распалось. Госкомстат РФ полностью «закрылся» от статистической науки, перестал даже отвечать на обращения профессиональных статистических организаций. Одновременно произошел окончательный отрыв специалистов математической статистики от практики. В настоящее время журнал «Теория вероятностей и ее применения» не представляет никакого интереса для тех, кто обрабатывает конкретные данные. При этом публикации работ по математической статистике почти прекратились. Поэтому целесообразно вспомнить мнение Л.Н. Большева и принять, что прикладная статистика – это и есть математическая статистика [55]. Отметим выпуск энциклопедии «Вероятность и математическая статистика» [56], содержащей массу полезной информации для специалистов по статистическим методам.

Работы по прикладной статистике и другим статистическим методам продолжались в рамках Российской ассоциации статистических методов (созданной на базе одноименной секции ВСА) и Российской академии статистических методов, а также в рамках Белорусской статистической ассоциации. В Узбекистане проводились международные конференции "Статистика и ее применения" (в 2012, 2013, 2015 гг.). Основным местом публикации отечественных работ по статистическим методам является раздел «Математические методы исследования» журнала «Заводская лаборатория. Диагностика материалов», созданный в 1961 г. Б. В. Гнеденко и В. В. Налимовым. В ней за 55 лет помещено около 1000 статей по различным направлениям прикладной статистики, прежде всего по статистическому анализу числовых величин, статистике нечисловых данных, многомерному статистическому анализу, статистике случайных процессов и временных рядов, планированию эксперимента, опыту применения статистических методов при решении конкретных прикладных задач.

 

2.5. Состояние и перспективы развития прикладной
и теоретической статистики

 

Математические результаты объективны. Теорема либо доказана, либо нет. А вот о значении тех или иных результатов споры возникают. Тем более трудно настаивать на полной объективности выводов, рассуждая о развитии всей статистической науки. Поэтому жанр этого раздела монографии – субъективный анализ состояния и перспектив развития нашей научной области.

Интерес к тематике настоящего раздела возник в 1970-х гг., проявившись в создании одним из авторов монографии подкомиссии "Статистика объектов нечисловой природы" Научного Совета АН СССР по комплексной проблеме "Кибернетика". Позже на Учредительном съезде Всесоюзной статистической ассоциации (ВСА) в октябре 1990 г. коллеги выбрали А. И. Орлова вице-президентом ВСА (руководителем секции статистических методов).

С 1970-х годов приходилось обдумывать ситуацию в статистике. Конкретные результаты собраны в монографиях [1–3] и др., которые можно рассматривать и как учебники (см. также книги и статьи на сайте «Высокие статистические технологии» http://orlovs.pp.ru). Доказательства многих конкретных результатов опубликованы прежде всего в научных журналах "Заводская лаборатория. Диагностика материалов", "Научном журнале КубГАУ", периодических сборниках научных трудов "Статистические методы оценивания и проверки гипотез", "Ученые записки по статистике". А общие соображения – методологическая основа ведущихся работ – рассмотрены ниже в этом разделе. Для обеспечения связного и последовательного изложения повторно сформулируем ряд положений, которые обсуждались ранее, в частности, в главе 1 настоящей монографии.

 

2.5.1. Послевоенное развитие отечественной статистики

 

К 1960-м гг. в нашей стране сформировалась научно-практическая дисциплина, которую называем классической математической статистикой. Статистики старшего поколения учились теории по замечательной книге шведского математика Г. Крамера [4], написанной в военные годы и впервые изданной у нас в 1948 г. Из прикладных руководств назовем учебник [5] и таблицы с комментариями [6].

Затем внимание многих специалистов сосредоточилось на изучении математических конструкций, используемых в статистике. Примером таких работ является монография [7]. В ней получены продвинутые математические результаты, но нет никаких рекомендаций, которые мог бы использовать статистик, анализирующий конкретные данные наблюдений, измерений, испытаний, анализов, опытов, обследований.

Как реакция на уход в чистую математику значительной части специалистов была выделена новая научная дисциплина - прикладная статистика. В учебнике [1] в качестве рубежа, когда это стало очевидным, указан 1981 г. – дата выхода массовым тиражом (33 940 экз.) сборника [8], в названии которого использован термин «прикладная статистика». С этого времени линии развития математической статистики и прикладной статистики разошлись. Первая из этих дисциплин полностью ушла в чистую математику, перестав интересоваться практическими делами. Вторая позиционировала себя в качестве науки об обработке данных – результатов наблюдений, измерений, испытаний, анализов, опытов.

Вполне естественно, что в прикладной статистике стали развиваться свои собственные новые математические методы и модели. Необходимость их разработки вытекает из потребностей конкретных прикладных исследований. Это математизированное ядро прикладной статистики целесообразно назвать теоретической статистикой. Тогда под собственно прикладной статистикой следует понимать обширную промежуточную область между теоретической статистикой и применением статистических методов в конкретных областях. В нее входят, в частности, вопросы формирования вероятностно-статистических моделей и выбора конкретных методов анализа данных (т.е. методология прикладной статистики и других статистических методов), проблемы разработки и применения информационных статистических технологий, организации сбора и анализа данных, т.е. разработки статистических технологий.

Таким образом, общая схема современной статистической науки выглядит следующим образом (от абстрактного к конкретному):

1. Математическая статистика – часть математики, изучающая статистические структуры. Сама по себе не дает рецептов анализа статистических данных, однако разрабатывает методы, полезные для использования в теоретической статистике.

2. Теоретическая статистика – наука, посвященная моделям и методам анализа конкретных статистических данных.

3. Прикладная статистика (в узком смысле) посвящена статистическим технологиям сбора и обработки данных. Она включает в себя методологию статистических методов, вопросы организации выборочных исследований, разработки статистических технологий, создания и использования статистических программных продуктов.

4. Применения статистических методов в конкретных областях (в экономике и менеджменте – эконометрика, в биологии – биометрика, в химии – хемометрия, в технических исследованиях – технометрика, в геологии, демографии, социологии, медицине, истории, и т.д.).

Часто позиции 2 и 3 вместе называют прикладной статистикой. Иногда позицию 1 именуют теоретической статистикой. Эти терминологические расхождения связаны с тем, что описанное выше развитие рассматриваемой научно-прикладной области не сразу, не полностью и не всегда адекватно отражается в сознании специалистов. Так, до сих пор выпускают учебники, соответствующие уровню представлений середины ХХ века.

Примечание. Здесь уточнена схема внутреннего деления статистической теории, предложенная в [9]. Естественный смысл приобрели термины «теоретическая статистика» и «прикладная статистика» (в узком смысле). Однако необходимо иметь в виду, что в сравнительно недавнем учебнике [1] прикладная статистика понимается в широком смысле, т.е. как объединение позиций 2 и 3. К сожалению, в настоящее время невозможно отождествить теоретическую статистику с математической, поскольку последняя (как часть математики - научной специальности «теория вероятностей и математическая статистика») полностью оторвалась от задач практики.

Отметим, что математическая статистика, как и теоретическая с прикладной, не имеет ничего общего с ведомственной наукой органов официальной государственной статистики. Эти органы, именовавшиеся последовательно ЦСУ, Госкомстат, Росстат, применяли и применяют лишь проверенные временем приемы позапрошлого века. Возможно, следовало бы от этого ведомства отмежеваться полностью и сменить название дисциплины, например, на «Анализ данных». Такое кардинальное решение, к сожалению, сделано бы неясным положение сотен тысяч публикаций, в названиях которых есть слова "статистика" или "статистический". В настоящее время компромиссным самоназванием нашей научно-практической дисциплины является термин «статистические методы».

Во второй половине 80-х годов развернулось общественное движение, имеющее целью создание профессионального объединения статистиков (об этом движении подробнее рассказано в статье [10]). Аналогами являются британское Королевское статистическое общество (основано в 1834 г.) и Американская статистическая ассоциация (создана в 1839 г.). К сожалению, деятельность учрежденной в 1990 г. Всесоюзной статистической ассоциации оказалась парализованной в результате развала СССР. Некоторую активность проявили созданные на базе ВСА Российская ассоциация статистических методов, Российская академия статистических методов, Белорусская статистическая ассоциация. Пришло время оживить их деятельность. В последние годы большие ежегодные конференции проводятся в Ташкенте (см., например, материалы III научно-практической конференции "Статистика и ее применения" [11]).

В ходе создания ВСА было проанализировано состояние и перспективы развития теоретической и прикладной статистики. Обсудим их.

 

2.5.2. Новые идеи последних десятилетий: точки роста

 

В работе [12] впервые выделены пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять «точек роста» статистической науки: непараметрика, робастность, бутстреп, интервальная статистика, статистика объектов нечисловой природы (см. также [13, 14]). Кратко обсудим эти актуальные направления.

Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, оценивать характеристики и плотность распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Математики думают, что это - экспериментальный факт, установленный в прикладных исследованиях. Прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных [2]. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях [1]. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами [15, 16]. Однако эта информация еще не вошла в массовое сознание. До сих пор тупиковой тематике параметрической статистики посвящены обширные разделы учебников и программных продуктов.

Основная идея работ по робастности, или устойчивости, состоит в том, что выводы, полученные на основе математических методов исследования, должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели [17, 18]. Здесь есть два круга задач [19, 20]. Один - это изучение устойчивости распространенных алгоритмов анализа данных. Второй - поиск робастных алгоритмов для решения тех или иных задач. Отметим, что сам по себе термин "робастность" не имеет точно определенного смысла. Всегда необходимо указывать конкретную вероятностно-статистическую модель. При этом модель «засорения» Тьюки - Хубера - Хампеля обычно не является практически полезной. Дело в том, что она ориентирована на «утяжеление хвостов», а в реальных ситуациях «хвосты» обрезаются априорными ограничениями на результаты наблюдений, связанными, например, с ограниченностью шкал используемых средств измерения.

Бутстреп - направление непараметрической статистики, опирающееся на интенсивное использование информационных технологий [21]. Основная идея состоит в «размножении выборок», т.е. в получении набора из многих выборок, напоминающих полученную в эксперименте. По такому набору можно непосредственно оценить свойства различных статистических процедур, не прибегая к излишне обременительным (а чаще и необоснованным) семействам вероятностно-статистических моделей. Простейший способ «размножении выборки» состоит в исключении из нее одного результата наблюдения. Исключаем первое наблюдение, получаем выборку, похожую на исходную, но с объемом, уменьшенным на 1. Затем возвращаем исключенный результат первого наблюдения, но исключаем второе наблюдение. Получаем вторую выборку, похожую на исходную. Затем возвращаем результат второго наблюдения, и т.д. Есть и иные способы «размножения выборок». Например, можно по исходной выборке построить ту или иную оценку функции распределения, а затем методом статистических испытаний смоделировать ряд выборок из элементов, функция распределения которых совпадает с этой оценкой. Обобщая, можно сказать, что к настоящему времени в дополнение к классическим инструментам прикладной статистики – предельным теоремам теории вероятностей – добавились новые, основанный на интенсивном использовании компьютеров [22]. Бутстреп – лишь один из таких инструментов. Метод статистических испытаний (Монте-Карло) – вот партнер и конкурент асимптотическим методам математической статистики.

Интервальная статистика - это совокупность методов анализа интервальных статистических данных. Вполне очевидно, что все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. Только недавно начала развиваться теория интервальной статистики, в которой предполагается, что исходные данные - это не числа, а интервалы. Интервальную статистику можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличны от классических. Основные результаты статистики интервальных данных рассмотрены в статьях [23, 24], а подробные изложения включены в учебники [1, 3, 25], а также в монографию [26].

 

2.5.3. Статистика объектов нечисловой природы

 

Перейдем к статистике объектов нечисловой природы (она же - статистика нечисловых данных, или нечисловая статистика) [25, 27]. Сначала напомним, что типичный исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

Примерами объектов нечисловой природы являются:

- значения качественных признаков, в том числе результаты кодировки объектов с помощью заданного перечня категорий (градаций);

- упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня, качества и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);

- классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);

- толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;

- результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;

- графы различных видов (неориентированные, ориентированные, с весами, иерархические структуры и т.п.);

- множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;

- слова, предложения, тексты;

- вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности организации или анкета эксперта, в которой ответы на часть вопросов носят качественный характер, а на часть - количественный;

- ответы на вопросы экспертной, медицинской, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

Рассмотренные выше интервальные данные тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств. Если характеристическая функция нечеткого множества равна 1 на некотором интервале и равна 0 вне этого интервала, то задание такого нечеткого множества эквивалентно заданию интервала. Напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств. Цикл соответствующих теорем приведен в работах [17, 28], а также в учебниках [1–3], монографии [26].

С 70-х годов в основном на основе запросов теории экспертных оценок [29–31] (а также технических исследований, экономики, социологии и медицины) развивались различные направления статистики объектов нечисловой природы. Были установлены основные связи между конкретными видами таких объектов, разработаны для них базовые вероятностные модели. Сводка дана в монографии [17].

Следующий этап (80-е годы) - выделение статистики объектов нечисловой природы в качестве самостоятельной дисциплины в рамках математических методов исследования, ядром которого являются методы статистического анализа данных произвольной природы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики.

К 90-м годам статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. И в 90-е годы наступило время перейти от теоретико-статистических исследований к применению полученных результатов на практике и включить их в учебный процесс, что и было сделано (см., например, учебники [1–3]).

Следует отметить, что в статистике объектов нечисловой природы одна и та же математическая схема может с успехом применяться во многих областях, для анализа данных различных типов, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.

 

2.5.4. Основные идеи статистики объектов нечисловой природы

 

В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.

Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Они нацелены на решение классических задач описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами. 

Первой обсудим проблему определения средних величин. В рамках теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения [17]. В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Теоретическое среднее определяется как решение задачи минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке [32]. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственными элементами рассматриваемого пространства, а являться некоторыми множествами таких элементов, которые могут оказаться и пустыми. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость (в специально определенном смысле) эмпирических средних к теоретическим [1, 2].

Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок [25]. К настоящему времени подобные оценки изучены также и в интервальной статистике.

В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в том числе в дискретных пространствах. В частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном пространстве с той, которая имеет быть в классической теории для числовых случайных величин [33, 34].

Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.

Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке, приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида, поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством [35].

Представляют практический интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы [36] и соответствующими математико-статистическими моделями порождения нечисловых данных [37], в частности, со статистикой нечетких множеств и со статистикой случайных множеств (напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств), с непараметрической теорией парных сравнений и люсианов (бернуллиевских бинарных векторов) [38], с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [39], а также с рядом других конкретных постановок. 

Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации [40]. Констатируем, что наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа) [41, 42].

 

2.5.5. О нерешенных проблемах теоретической и прикладной статистики

 

За каждым новым научным результатом открывается многообразие неизвестного. Рассмотрим несколько конкретных постановок.

В статистике в пространствах общей природы получены аналоги классического закона больших чисел. Но нет аналога центральной предельной теоремы. Какова скорость сходимости эмпирических средних к теоретическим? Как сравнить различные способы усреднения? В частности, что лучше применять для усреднения упорядочений – медиану Кемени или среднее по Кемени (среднее отличается от медианы тем, что в качестве показателя различия берется не расстояние Кемени, а его квадрат)? Какие конкретные представители различных классов непараметрических оценок плотности достойны рекомендации для использования в нацеленных на практическое применение алгоритмах анализа нечисловых данных?

До сих пор не проведена классификация классических статистических методов с точки зрения теории измерений. Законченные результаты получены только для теории средних [1–3]. Установлено, что для измерений в порядковой шкале в качестве средних можно использовать только порядковые статистики, например, медиану (при нечетном объеме выборки). Среднее арифметическое, столь любимое профанами, применять нельзя. Однако многочисленные эксперименты показывают, что упорядочения объектов по средним арифметическим рангов и по медианам рангов в подавляющем большинстве случаев совпадают. Нужна теория, объясняющая этот экспериментальный факт.

Все более широкое распространение получает теория нечеткости. Давно установлено, что она в определенном смысле сводится к теории случайных множеств [1–3]. Требуется на основе этого сведения проанализировать различные теоретические и прикладные постановки теории нечеткости и рассмотреть их в рамках вероятностно-статистического моделирования.

Перейдем к классическим областям статистики. Начнем с обсуждения влияния отклонений от традиционных предпосылок. В вероятностной теории статистических методов выборка обычно моделируется как конечная последовательность независимых одинаково распределенных случайных величин или векторов. В парадигме середины ХХ в. часто предполагают, что эти величины (вектора) имеют нормальное распределение.

При внимательном взгляде совершенно ясна нереалистичность приведенных классических предпосылок. Независимость результатов измерений обычно принимается "из общих предположений", между тем во многих случаях очевидна их коррелированность. Одинаковая распределенность также вызывает сомнения из-за изменения во времени свойств измеряемых образцов, средств измерения и психофизического состояния специалистов, проводящих измерения (испытания, анализы, опыты). Даже обоснованность самого применения вероятностных моделей иногда вызывает сомнения, например, при моделировании уникальных измерений (согласно классическим воззрениям, теорию вероятностей обычно привлекают при изучении массовых явлений). И уж совсем редко распределения результатов измерений можно считать нормальными [1, 2].

Итак, методы классической математической статистики обычно используют вне сферы их обоснованной применимости. Какова влияние отклонений от традиционных предпосылок на статистические выводы? В настоящее время об этом имеются лишь отрывочные сведения. Приведем три примера.

Пример 1. Построение доверительного интервала для математического ожидания обычно проводят с использованием распределения Стьюдента (при справедливости гипотезы нормальности). Как следует их Центральной предельной теоремы (ЦПТ) теории вероятностей, в асимптотике (при большом объеме выборки) такие расчетные методы дают правильные результаты (из ЦПТ вытекает использование квантилей нормального распределения, а из классической теории - квантилей распределения Стьюдента, но при росте объема выборки квантили распределения Стьюдента стремятся к соответствующим квантилям нормального распределения).

Пример 2. Для проверки однородности двух независимых выборок (на самом деле - для проверки равенства математических ожиданий) обычно рекомендуют использовать двухвыборочный критерий Стьюдента. Предпосылки его использования – это нормальность распределений, соответствующих выборкам, и равенство их дисперсий. Что будет при отклонении от нормальности распределений, из которых взяты выборки, от нормальности? Если объемы выборок равны или если дисперсии совпадают, то в асимптотике (когда объемы выборок безгранично возрастают) классический метод является корректным. Если же объемы выборок существенно отличаются или дисперсии различны, то критерий Стьюдента проверки гипотезы однородности применять нельзя, поскольку распределение двухвыборочной статистики Стьюдента будет существенно отличаться от классического. Поскольку проверка равенства дисперсий - более сложная задача, чем проверка равенства математических ожиданий, то для выборок разного объема использовать двухвыборочную статистику Стьюдента не следует, целесообразно применять критерий Крамера-Уэлча [1, 2, 43].

Пример 3. В задаче отбраковки (исключения) резко выделяющихся наблюдений (выбросов) расчетные методы, основанные на нормальности, являются крайне неустойчивыми по отношению к отклонениям от нормальности, что полностью лишает эти методы научной обоснованности [1, 2].

Примеры 1 - 3 показывают весь спектр возможных свойств классических расчетных методов в случае отклонения от нормальности. Методы примера 1 оказываются вполне пригодными при таких отклонениях, примера 2 - пригодными в некоторых случаях, примера 3 - полностью непригодными.

Итак, имеется необходимость изучения свойств расчетных методов классической математической статистики, опирающихся на предположение нормальности, в ситуациях, когда это предположение не выполнено. Аппаратом для такого изучения наряду с методом Монте-Карло могут послужить предельные теоремы теории вероятностей, прежде всего ЦПТ, поскольку интересующие нас расчетные методы обычно используют разнообразные суммы. Пока подобное изучение не проведено, остается неясной научная ценность, например, применения основанного на предположении многомерной нормальности факторного анализа к векторам из переменных, принимающих небольшое число градаций и к тому же измеренных в порядковой шкале.

Почему необходимо изучение классических алгоритмов, а не построение новых, специально предназначенных для работы в условиях отклонения от классических предпосылок?

Во-первых, потому, что классические алгоритмы в настоящее время наиболее распространены (благодаря сложившейся системе образования прикладников). Например, в научных медицинских исследованиях для проверки однородности двух независимых выборок традиционно используют критерий Стьюдента, при этом условия его применимости не проверяют. Насколько обоснованными являются выводы? Как следует из примера 2, во многих случаях выводы нет оснований подвергать сомнению, хотя они получены с помощью некорректной процедуры.

Во-вторых, более новые подходы зачастую методологически уязвимы. Так, известная робастная модель засорения Тьюки - Хубера нацелена на борьбу с большими выбросами, которые зачастую физически невозможны из-за ограниченности интервала значений измеряемой характеристики, в котором работает конкретное средство измерения. Следовательно, модель Тьюки - Хубера - Хампеля имеет скорее теоретическое значение, чем практическое. Сказанное, конечно, не обозначает, что следует прекратить разработку, изучение и внедрение непараметрических и устойчивых методов, выделенных выше как «точки роста» современной прикладной статистики.

Нерешенным проблемам теоретической и прикладной статистики посвящены статьи [44, 45]. Одна из важных проблем - использование асимптотических результатов при конечных объемах выборок. Конечно, естественно изучить свойства алгоритма с помощью метода Монте-Карло. Однако из какого конкретного распределения брать выборки при моделировании? От выбора распределения зависит результат. Кроме того, датчики псевдослучайных чисел лишь имитируют случайность. До сих пор неизвестно, каким датчиком целесообразно пользоваться в случае возможного безграничного роста размерности пространства.

Другая проблема – обоснование выбор одного из многих критериев для проверки конкретной гипотезы. Например, для проверки однородности двух независимых выборок можно предложить критерии Стьюдента, Крамера - Уэлча, Лорда, хи-квадрат, Вилкоксона (Манна-Уитни), Ван-дер-Вардена, Сэвиджа, Н. В. Смирнова, типа омега-квадрат (Лемана-Розенблатта), Реньи, Г. В. Мартынова и др. Какой выбрать?

Критерии однородности проанализированы в [46]. Естественных подходов к сравнению критериев несколько - на основе асимптотической относительной эффективности по Бахадуру, Ходжесу - Леману, Питмену. И каждый критерий является оптимальным при соответствующей альтернативе или подходящем распределении на множестве альтернатив. При этом математические выкладки обычно используют альтернативу сдвига, сравнительно редко встречающуюся в практике анализа реальных статистических данных. Итог печален - блестящая математическая техника, продемонстрированная в [46], не позволяет дать рекомендации для выбора критерия проверки однородности при анализе реальных данных.

Проблемы разработки высоких статистических технологий поставлены в [47, 48] (см. также одноименный сайт http://orlovs.pp.ru). Используемые при обработке реальных данных статистические технологии состоят из последовательности операций, каждая из которых, как правило, хорошо изучена, поскольку сводится к оцениванию (параметров, характеристик, распределений) или проверке той или иной гипотезы. Однако статистические свойства результатов обработки, полученных в результате последовательного применения таких операций, мало изучены. Необходима теория, позволяющая изучать свойства статистических технологий и так их конструировать, чтобы обеспечить высокое качество обработки данных.