3.2. ПРОГРАММА САМОСТОЯТЕЛЬНОЙ РАБОТЫ
СТУДЕНТА ПО ДИСЦИПЛИНЕ

 

3.2.1. Общие положения

 

Ниже приводятся примерные наименования тем для самостоятельной работы студентов. Каждая тема изучается одним студентом индивидуально. На изучение каждой темы отводится 38 часов самостоятельной работы. По результатам работы оформляется реферат.

 

3.2.2. Наименования тем
для самостоятельной работы студентов

 

Задания к самостоятельной работе (СР) студентов пронумерованы и снабжены индексом «Ю» или «Э», означающими, что эти задания рекомендуются студентам, обучающимся по «юридической» (Ю)  или «экономической» (Э) специальностям. Все самостоятельные работы выполняются с применением системы «Эйдос», кроме тех случаев, когда другие системы указаны конкретно.

Темы состоятельной работы студентов:

СР-1-Ю. Идентификация изображений местности по их вербальным описаниям.

СР-2-Ю. Оценка рисков правонарушений по признакам почерка (психографология).

СР-3-ЭЮ. Оценка рисков страхования и кредитования предприятий по их вербальным описаниям.

СР-4-Ю. Прогнозирование рисков совершения ДТП (дорожно-транспортных происшествий) по видам и времени на основе данных о владельце и автомобиле.

СР-5-Э. Прогнозирование успешности деятельности фирмы на основе оценки ее персонала.

СР-6-Ю. Прогнозирование продолжительности жизни пациентов, перенесших сердечный приступ, по данным эхокардиограммы на основе базы данных репозитария UCI.

СР-7. Классификация животных по внешним признакам на основе базы данных репозитария UCI.

СР-8. Диагностика фитопатологии по симптоматике и выработку рекомендаций по плану лечения на основе информации, содержащейся в учебниках.

СР-9-Ю. Идентификация изображений различных мест на территории КубГАУ по вербальным описаниям их фотографий (изображения взять с сайта КубГАУ: http://kubagro.ru, фотогалерея). СК-анализ семантической информационной модели.

СР-10. Прогнозирование успеваемости по ИИС на основе данных по социальному статусу студентов и их родителей.

СР-11. Прогнозирование направления деятельности фирмы на основе данных о расположении и внешнем виде ее офиса.  СК-анализ семантической информационной модели.

СР-12. Выбор автомобиля для приобретения по его признакам (обучающую выборку взять на автомобильном рынке). СК-анализ семантической информационной модели.

СР-13. Выбор вариантов приобретения жилья по его признакам. СК-анализ семантической информационной модели.

СР-14-Э. Оценка важности различных видов городского транспорта и различных маршрутов в разрезе по остановкам. СК-анализ семантической информационной модели.

СР-15. Исследование систем: FineReader, Cunie Form и других систем ввода текстов со сканера. Исследовать зависимость качества распознавания текста от разрешения сканирования для разных систем. Оценку качества производить по количеству ошибок распознавания на одном и том же тексте. Составить рейтинг систем и версий, дать рекомендации. Оценить тоже самое, после использования After Scan.

СР-16. Исследование систем Stylus (Promt), Сократ, и других систем автоматизированного перевода. Сравнить качество автоматизированного перевода с русского языка на английский язык и обратно для текстов различной направленности (юридические, технические, художественные, стихи) и с различной длиной и сложностью предложений (статистика). Составить рейтинг систем и версий, дать рекомендации. Оценку качества перевода осуществлять путем обобщения экспертных оценок экспертов с разным уровнем компетентности (студенты).

СР-17. Исследовать реальную систему распознавание образов, идентификации и прогнозирования при решении задач лабораторных работ.

СР-18. Исследовать реальную систему поддержки принятия решений при решении задач лабораторных работ.

СР-19. Исследовать реальную экспертную систему при решении задач лабораторных работ.

СР-20. Исследовать реальную систему класса: "Нейронная сеть" на примере пакета NeuroOffice при решении задач лабораторных работ.

СР-21. Исследовать реальную систему, реализующую генетические алгоритмы при решении задач лабораторных работ.

СР-22. Исследовать реальную систему когнитивного моделирования при решении задач лабораторных работ.

СР-23. Исследовать реальную систему выявления знаний из опыта (эмпирических фактов) и интеллектуального анализа данных при решении задач лабораторных работ.

СР-23+. Решение задач идентификации и прогнозирования на основе данных репозитория UCI по следующим направлениям:

Abalone, Adult, Annealing, Anonymous Microsoft Web Data, Arrhythmia, Artificial Characters, Audiologys, Auto-Mpg, Automobile, Badges, Balance Scale, Balloons, Breast Cancer, Wisconsin Breast Cancers, Pittsburgh Bridges, Car Evaluation, Census Income, Chesss, Bach Chorales (time-series), Connect-4 Opening, Credit Screenings, Computer Hardware, Contraceptive Method Choice, Covertype data, Cylinder Bands, Dermatology, Diabetes Data, The Second Data Generation Program - DGP/2, Document Understanding, EBL Domain Theories and Examples, Echocardiogram, Ecoli, Flags,Function Findings, Glass Identification, Haberman's Survival Data, Hayes-Roth, Heart Diseases, Hepatitis, Horse Colic, Housing (Boston), ICU Data, Image segmentation, Internet Advertisements, Ionosphere, Iris Plant, Isolet Spoken Letter Recognition, Kinship, Labor relations, LED Display Domains, Lenses, Letter Recognition, Liver-disorders, Logic-theorist, Lung Cancer, Lymphography, Mechanical Analysis Data, Meta-data, Mobile Robots, Molecular Biologys, MONK's Problems, Moral Reasoner, Multiple Features, Mushrooms, MUSKs, Nursery, Othello Domain Theory, Page Blocks Classification, Pima Indians Diabetes, Optical Recognition of Handwritten Digits, Pen-Based Recognition of Handwritten Digits, Postoperative Patient, Primary Tumor, Qualitative Structure Activity Relationships (QSARs), Quadraped Animals Data Generator, Servo, Shuttle Landing Control, Solar Flares, Soybeans, Challenger USA Space Shuttle O-Rings, Low Resolution Spectrometer, Spambase, SPECT and SPECTF hearts, Sponge, Statlog Projects, Student Loan Relational, Teaching Assistant Evaluation, Tic-Tac-Toe Endgame, Thyroid Disease, Trains, University, Congressional Voting Records, Water Treatement Plant, Waveform Data Generator, Wine Recognition, Yeast, Zoo, Undocumenteds.

 

3.2.3. Примерная структура реферата, курсовой или дипломной работы и элементы научного исследования в самостоятельной работе

 

Результаты самостоятельной работы оформляются студентами в форме реферата, примерная структура которого приведена ниже. Реферат оформляется как научная работа.

Во введении кратко описывается основное содержание и структура работы.

В первой главе с условным наименованием: "Постановка задачи и пути ее решения":

– обосновывается актуальность проблемы или задачи, решению которой посвящена работа;

– формулируются и обосновываются требования к методу решения поставленной проблемы или задачи. Если требования имеют "разный вес" или "разную значимость", то для оценки относительной важности критериев можно использовать экспертные оценки в какой-либо количественной шкале;

– делается аналитический обзор (по литературе и материалам Internet) традиционных методов решения, причем каждый метод оценивается по обоснованным критериям;

– по результатам литературного обзора составляется рейтинг традиционных методов и делается вывод, что такой-то метод является наилучшим. Однако и он не полностью соответствует сформулированным требованиям. Поэтому в следующей главе Вы предлагаете и реализуете свою концепцию решения поставленной задачи, свободную от указанных ограничений.

Во второй главе с условным наименованием: "Предлагаемое решение задачи":

– предлагаемая концепция может заключаться в том, что Вы как-то развиваете или модифицируете наилучший из рассмотренных методов;

– затем Вы подробно описываете свое решение, конкретизирующее концепцию: описываете математическую модель; методику численных расчетов, т.е. структуры данных и алгоритмы, реализующие математическую модель; программную реализацию математического метода и методики численных расчетов;

– после этого описываете, как созданный Вами инструментарий позволил решить поставленную проблему или задачу, приводите образцы входных и выходных форм с численными расчетами, подтверждающими эффективность предложенного подхода.

В третьей главе с условным наименованием: "Эффективность и перспективы":

– анализируя причины эффективности предложенной технологии показываете и ее ограничения, а потом делаете вывод о ее более широкой применимости, чем только для решения сформулированной проблемы или задачи;

– описываете перспективы развития предложенной технологии, в частности, пути преодоления сформулированных ее ограничений.

В заключении делается вывод о том, что предложенный подход к решению поставленной задачи оказался успешным и преспективным.

 

В научной статье каждый из пунктов может быть представлен одним абзацем, кроме 6-го, который составляет основной объем статьи. Если описывать более подробно, может получиться соответственно, реферат, курсовая, дипломная, кандидатская (решена практически важная задача) или докторская (решена теоретически важная научная проблема и, на основе этого, ряд практически важных задач).

 

3.2.4. Методика использования репозитария UCI для оценки качества математических моделей систем искусственного интеллекта

3.2.4.1. Постановка задачи и пути ее решения

Одним из важнейших направлений развития информационных систем является создание систем искусственного интеллекта (СИИ), в частности систем: с интеллектуальной обратной связью (биологическая обратная связь и семантический резонанс); распознавания образов; поддержки принятия решений; экспертных систем; нейронных сетей; генетических алгоритмов и машинной эволюции; когнитивного моделирования; выявления знаний из опыта (эмпирических фактов) и интеллектуального анализа данных (data mining), а также ряда других.

В связи с наличием многих альтернатив возникает необходимость оценки качества математических моделей и поддерживающих их систем искусственного интеллекта (ММ СИИ). Сопоставимое сравнение различных моделей актуально как для разработчиков моделей (адекватная самооценка своей работы), так и для потребителей моделей (адекватная оценка моделей и обоснованный выбор оптимальной из них по заданным критериям). Сопоставимость оценки может быть обеспечена, если модели будут протестированы на одних и тех же исходных данных по ряду типовых задач из области искусственного интеллекта.

Для этого необходимы:

1. Свободный доступ к тестовым исходным данным.

2. Методика, обеспечивающая преобразование исходных данных из формы, доступной через Internet, в форму, в которой они могут быть использованы в конкретной программной системе искусственного интеллекта, реализующей ту или иную математическую модель.

1-е условие выполнено сотрудниками Школы информации и компьютерных исследований Калифорнийского университета США (School of Information & Computer Science University of California, Irvine, USA, http://www.ics.uci.edu), которыми создан и размещен в Internet по адресу: http://www.ics.uci.edu/~mlearn/MLSummary.html банк исходных данных по задачам искусственного интеллекта.

На момент написания настоящей работы этот банк включает базы исходных данных по следующим задачам: Abalone, Adult, Annealing, Anonymous Microsoft Web Data, Arrhythmia, Artificial Characters, Audiologys, Auto-Mpg, Automobile, Badges, Balance Scale, Balloons, Breast Cancer, Wisconsin Breast Cancers, Pittsburgh Bridges, Car Evaluation, Census Income, Chesss, Bach Chorales (time-series), Connect-4 Opening, Credit Screenings, Computer Hardware, Contraceptive Method Choice, Covertype data, Cylinder Bands, Dermatology, Diabetes Data, The Second Data Generation Program - DGP/2, Document Understanding, EBL Domain Theories and Examples, Echocardiogram, Ecoli, Flags,Function Findings, Glass Identification, Haberman's Survival Data, Hayes-Roth, Heart Diseases, Hepatitis, Horse Colic, Housing (Boston), ICU Data, Image segmentation, Internet Advertisements, Ionosphere, Iris Plant, Isolet Spoken Letter Recognition, Kinship, Labor relations, LED Display Domains, Lenses, Letter Recognition, Liver-disorders, Logic-theorist, Lung Cancer, Lymphography, Mechanical Analysis Data, Meta-data, Mobile Robots, Molecular Biologys, MONK's Problems, Moral Reasoner, Multiple Features, Mushrooms, MUSKs, Nursery, Othello Domain Theory, Page Blocks Classification, Pima Indians Diabetes, Optical Recognition of Handwritten Digits, Pen-Based Recognition of Handwritten Digits, Postoperative Patient, Primary Tumor, Qualitative Structure Activity Relationships (QSARs), Quadraped Animals Data Generator, Servo, Shuttle Landing Control, Solar Flares, Soybeans, Challenger USA Space Shuttle O-Rings, Low Resolution Spectrometer, Spambase, SPECT and SPECTF hearts, Sponge, Statlog Projects, Student Loan Relational, Teaching Assistant Evaluation, Tic-Tac-Toe Endgame, Thyroid Disease, Trains, University, Congressional Voting Records, Water Treatement Plant, Waveform Data Generator, Wine Recognition, Yeast, Zoo, Undocumenteds.

Поэтому остается выполнить 2-е условие, а именно: разработать типовую методику использования баз данных репозитария UCI для оценки качества математических моделей систем искусственного интеллекта, что и является основной задачей данного раздела.

На первый взгляд решение этой задачи является относительно несложным, т.к. требует в основном знания и умения использования стандартных возможностей Internet-броузера, Word и Excel. Однако как показывает опыт, это вполне может представлять определенную сложность из-за большого числа операций преобразования формы информации и принципиальной неполной формализуемости этого процесса. Поэтому предмет данной данного раздела достаточно актуален.

Сформулируем основные требования к методикам, предназначенным для этих целей, а также критерии их оценки и сравнения:

1. Высокая степень автоматизированности, т.е. минимизация затрат ручного труда.

2. Высокая скорость преобразования информации и, как следствие, – несущественность ее объема.

3. Высокая достоверность преобразования, т.е. отсутствие ошибок.

Однако в литературе и в Internet не приводятся методики аналогичного назначения. Исходя из этого можно предположить, что в основном это преобразование осуществляется вручную, что не соответствует сформулированным требованиям ни по одному из приведенных критериев.

Поэтому предлагается методика, свободная от указанных ограничений. Основная идея этой методики состоит в том, что преобразование формы представления исходных данных из HTML-формата непосредственно в базы данных системы осуществляется в два основных этапа:

– на 1-м этапе с использованием стандартных возможностей Word и Excel осуществляется преобразование исходных данных из HTML-формата в промежуточные DBF-таблицы;

– на 2-м этапе с помощью специально разработанного программного интерфейса осуществляется преобразование исходных данных из промежуточных DBF-таблиц в стандарт баз данных используемой системы искусственного интеллекта.

Рассмотрим данную методику подробнее на примере преобразования баз данных репозитария UCI по примеру ZOO-database в стандарт баз данных универсальной когнитивной аналитической системы "Эйдос" [81].

 

3.2.4.2. Преобразование исходных данных из HTML-формата в промежуточные DBF- таблицы

3.2.4.2.1. Характеристика исходных данных

Из Internet по адресу: http://ftp.ics.uci.edu/pub/machine-learning-databases/zoo/zoo.names получаем исходную информацию: общее описание тестовой задачи (файл: zoo_names.htm) и обучающую выборку (файл: zoo_data.htm), которые приводятся далее без изменений.

Общее описание задачи (файл: zoo_names.htm):

Zoo Database

From Richard Forsyth

Artificial

7 classes of animals

17 attributes (besides name), 15 Boolean and 2 numeric-valued

No missing attribute values

Ftp Access

1. Title: Zoo database

2. Source Information

   -- Creator: Richard Forsyth

   -- Donor: Richard S. Forsyth

             8 Grosvenor Avenue

             Mapperley Park

             Nottingham NG3 5DX

             0602-621676

   -- Date: 5/15/1990

3. Past Usage:

   -- None known other than what is shown in Forsyth's PC/BEAGLE User's Guide.

4. Relevant Information:

   -- A simple database containing 17 Boolean-valued attributes.  The "type"

      attribute appears to be the class attribute.  Here is a breakdown of

      which animals are in which type: (I find it unusual that there are

      2 instances of "frog" and one of "girl"!)

      Class# Set of animals:

      ====== ===============================================================

           1 (41) aardvark, antelope, bear, boar, buffalo, calf,

                  cavy, cheetah, deer, dolphin, elephant,

                  fruitbat, giraffe, girl, goat, gorilla, hamster,

                  hare, leopard, lion, lynx, mink, mole, mongoose,

                  opossum, oryx, platypus, polecat, pony,

                  porpoise, puma, pussycat, raccoon, reindeer,

                  seal, sealion, squirrel, vampire, vole, wallaby,wolf

           2 (20) chicken, crow, dove, duck, flamingo, gull, hawk,

                  kiwi, lark, ostrich, parakeet, penguin, pheasant,

                  rhea, skimmer, skua, sparrow, swan, vulture, wren

           3 (5)  pitviper, seasnake, slowworm, tortoise, tuatara

           4 (13) bass, carp, catfish, chub, dogfish, haddock,

                  herring, pike, piranha, seahorse, sole, stingray, tuna

           5 (4)  frog, frog, newt, toad

           6 (8)  flea, gnat, honeybee, housefly, ladybird, moth, termite, wasp

           7 (10) clam, crab, crayfish, lobster, octopus,

                  scorpion, seawasp, slug, starfish, worm

5. Number of Instances: 101

6. Number of Attributes: 18 (animal name, 15 Boolean attributes, 2 numerics)

7. Attribute Information: (name of attribute and type of value domain)

   1. animal name:      Unique for each instance

   2. hair                 Boolean

   3. feathers             Boolean

   4. eggs                 Boolean

   5. milk                 Boolean

   6. airborne             Boolean

   7. aquatic              Boolean

   8. predator             Boolean

   9. toothed              Boolean

  10. backbone             Boolean

  11. breathes             Boolean

  12. venomous             Boolean

  13. fins                 Boolean

  14. legs                 Numeric (set of values: {0,2,4,5,6,8})

  15. tail                 Boolean

  16. domestic             Boolean

  17. catsize              Boolean

  18. type                 Numeric (integer values in range [1,7])

8. Missing Attribute Values: None

9. Class Distribution: Given above

 

Обучающая выборка (файл: zoo_data.htm)

 

aardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1

antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1

boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

buffalo,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

calf,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

carp,0,0,1,0,0,1,0,1,1,0,0,1,0,1,1,0,4

catfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

cavy,1,0,0,1,0,0,0,1,1,1,0,0,4,0,1,0,1

cheetah,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

chicken,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

chub,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

clam,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,7

crab,0,0,1,0,0,1,1,0,0,0,0,0,4,0,0,0,7

crayfish,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7

crow,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2

deer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

dogfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

dolphin,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1

dove,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

duck,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,0,2

elephant,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

flamingo,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,1,2

flea,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6

frog,0,0,1,0,0,1,1,1,1,1,0,0,4,0,0,0,5

frog,0,0,1,0,0,1,1,1,1,1,1,0,4,0,0,0,5

fruitbat,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1

giraffe,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

girl,1,0,0,1,0,0,1,1,1,1,0,0,2,0,1,1,1

gnat,0,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

goat,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

gorilla,1,0,0,1,0,0,0,1,1,1,0,0,2,0,0,1,1

gull,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

haddock,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

hamster,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,0,1

hare,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1

hawk,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2

herring,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

honeybee,1,0,1,0,1,0,0,0,0,1,1,0,6,0,1,0,6

housefly,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

kiwi,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,0,2

ladybird,0,0,1,0,1,0,1,0,0,1,0,0,6,0,0,0,6

lark,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

leopard,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

lion,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

lobster,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7

lynx,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

mink,1,0,0,1,0,1,1,1,1,1,0,0,4,1,0,1,1

mole,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1

mongoose,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

moth,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

newt,0,0,1,0,0,1,1,1,1,1,0,0,4,1,0,0,5

octopus,0,0,1,0,0,1,1,0,0,0,0,0,8,0,0,1,7

opossum,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1

oryx,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

ostrich,0,1,1,0,0,0,0,0,1,1,0,0,2,1,0,1,2

parakeet,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

penguin,0,1,1,0,0,1,1,0,1,1,0,0,2,1,0,1,2

pheasant,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

pike,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

piranha,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

pitviper,0,0,1,0,0,0,1,1,1,1,1,0,0,1,0,0,3

platypus,1,0,1,1,0,1,1,0,1,1,0,0,4,1,0,1,1

polecat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

pony,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

porpoise,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1

puma,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

pussycat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,1,1,1

raccoon,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

reindeer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

rhea,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,1,2

scorpion,0,0,0,0,0,0,1,0,0,1,1,0,8,1,0,0,7

seahorse,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

seal,1,0,0,1,0,1,1,1,1,1,0,1,0,0,0,1,1

sealion,1,0,0,1,0,1,1,1,1,1,0,1,2,1,0,1,1

seasnake,0,0,0,0,0,1,1,1,1,0,1,0,0,1,0,0,3

seawasp,0,0,1,0,0,1,1,0,0,0,1,0,0,0,0,0,7

skimmer,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

skua,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

slowworm,0,0,1,0,0,0,1,1,1,1,0,0,0,1,0,0,3

slug,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7

sole,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

sparrow,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

squirrel,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,0,1

starfish,0,0,1,0,0,1,1,0,0,0,0,0,5,0,0,0,7

stingray,0,0,1,0,0,1,1,1,1,0,1,1,0,1,0,1,4

swan,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,1,2

termite,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6

toad,0,0,1,0,0,1,0,1,1,1,0,0,4,0,0,0,5

tortoise,0,0,1,0,0,0,0,0,1,1,0,0,4,1,0,1,3

tuatara,0,0,1,0,0,0,1,1,1,1,0,0,4,1,0,0,3

tuna,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

vampire,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1

vole,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1

vulture,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,1,2

wallaby,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,1,1

wasp,1,0,1,0,1,0,0,0,0,1,1,0,6,0,0,0,6

wolf,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

worm,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7

wren,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

 

 

Некоторые замечания к общему описанию задачи

Считаем необходимым согласится с мнением модератора UCI, который отметил два несоответствия в общем описании задачи (см. п.4):

– во-первых, 18-й атрибут "type" на самом деле содержит информацию о принадлежности объекта к классу и, поэтому, относится не к описательным шкалам и градациям, а к классификационным;

– во-вторых,  в 5-м классе 2 раза указан один и тот же объект "frog" (возможно, они разного пола?).

Кроме того, проанализировав общее описание задачи, представленное репозитарием UCI,  мы также отмечаем ряд несоответствий. Так, 1-й атрибут "animal name" является прямым указанием на объект и не должен включаться в систему атрибутов, т.к. это делает задачу идентификации объектов тривиальной. Классы автором задачи никак не названы и мы дали им свои названия. Вызывает некоторое сомнение объединение в один класс, который мы условно назвали "Многоногие", представителей различных видов, например таких, как скорпион и осьминог.

 

3.2.4.2.2. Этапы разработки семантической информационной модели

Разработка семантической информационной модели (СИМ) в системе "Эйдос" осуществляется в ряд этапов [81]:

– формализация предметной области (разработка классификационных и описательных шкал и градаций);

– подготовка и ввод обучающей выборки;

– синтез СИМ;

– оптимизация СИМ;

– проверка адекватности СИМ (измерение внутренней и внешней дифференциальной и интегральной валидности).

Если модель обладает достаточной адекватностью, то принимается решение о ее использовании в режиме идентификации и прогнозирования, а также об анализе предметной области путем исследования ее семантической информационной модели.

 

3.2.4.2.3. Формализация предметной области: разработка классификационных и описательных шкал и градаций

С учетом сформулированных замечаний к общему описанию задачи классификационные шкалы и градации будут иметь вид:

1. Млекопитающие.

2. Птицы.

3. Пресмыкающиеся.

4. Рыбы.

5. Земноводные.

6. Насекомые.

7. Многоногие.

Описательные шкалы и градации, приведенные в общем описании задачи, включают в основном булевы атрибуты, а также один количественный: код: 14, наименование: legs (количество ног). Этот атрибут мы преобразовали в шкалу с булевыми градациями. После этого, с учетом сделанных замечаний к общему описанию задачи, описательные шкалы и градации приняли вид, представленный в таблице 50.

 

Таблица 50 – ОПИСАТЕЛЬНЫЕ ШКАЛЫ И ГРАДАЦИИ

Код

Наименование

Код

Наименование

Код

Наименование

2

hair

10

backbone

18

legs-4

3

feathers

11

breathes

19

legs-5

4

eggs

12

venomous

20

legs-6

5

milk

13

fins

21

legs-7

6

airborne

14

legs-0

22

legs-8

7

aquatic

15

legs-1

23

tail

8

predator

16

legs-2

24

domestic

9

toothed

17

legs-3

25

catsize

 

Таблица 50 преобразуется из HTML-формата в Excel следующим образом:

1. Отмечаем блоком в Internet-броузере ту часть раздела 7 общего описания задачи (файл: zoo_names.htm), в которой перечислены атрибуты, копируем ее в буфер обмена, переходим в Word и вставляем из буфера обмена в документ.

2. Записываем обучающую выборку в форме TXT-файла с именем zoo_names.txt в стандарте "Текст DOS с разбиением на строки".

3. Загружаем Excel и выполняем шаги:

– считываем файл zoo_names.txt в Excel, предварительно указав в окне "Тип файлов" вариант "Все файлы";

– задаем формат файла "DOS или OS/2 (PC-8) и нажимаем кнопку: "Далее";

– задаем символ-разделитель "Символ табуляции" и "считать последовательные разделители одним" и нажимаем кнопку "Готово". После некоторой корректировки получаем вид описательных шкал и градаций, представленный на рисунке 105;

– записываем Excel-файл с описательными шкалами и градациями с именем Prizn.xls.

 

Рисунок 105. Справочник атрибутов в Excel-представлении

 

3.2.4.2.4. Подготовка и ввод обучающей выборки

С обучающей выборкой осуществляем следующие преобразования формы представления:

1. Отмечаем блоком в Internet-броузере при просмотре файла zoo_data.htm весь файл, копируем его в буфер обмена, переходим в Word и вставляем из буфера обмена в документ.

2. Записываем обучающую выборку в форме TXT-файла с именем zoo_data.txt в стандарте "Текст DOS с разбиением на строки".

3. Загружаем Excel и выполняем шаги:

– считываем файл zoo_data.txt в Excel, предварительно указав в окне: "Тип файлов" вариант: "Все файлы", появляется 1-е окно (рисунок 106);

– в 1-м окне задаем формат файла: "DOS или OS/2 (PC-8) и нажимаем кнопку: "Далее", появляется 2-е окно (рисунок 107);

 

 

Рисунок 106. Excel-окно №1

Рисунок 107. Excel-окно №2

 

– во 2-м окне задаем символ-разделитель "запятая" и нажимаем кнопку: "Далее", появляется 3-е окно (рисунок 108);

– нажимаем "Готово" и появляется 4-е окно (рисунок 109):

 

Рисунок 108. Excel-окно №3

Рисунок 109. Excel-окно №4

 

4. Оформляем Excel-таблицу, представленную на рисунке 109, с использованием информации, содержащейся в общем описании задачи. В результате получаем таблицу (рисунок 110) и записываем ее в Excel-книге с именем: zoo_data.xls.

 

Рисунок 110. Вид фрагмента обучающей выборки в Excel

 

5. Создаем в Excel-книге zoo_data.xls еще один лист с именем Kod, в котором булевы значения, означающие "есть атрибут/нет атрибута", заменяются в описательных шкалах и градациях кодами атрибутов (рисунок 111):

 

Рисунок 111. Лист кодов обучающей выборки в Excel

6. Создаем Excel-страницу для преобразования в DBF-стандарт: модифицируем формулу, заменяя пробелы (нет кода) нулями, с целью сохранения единого типа данных для столбцов таблицы, которые станут полями базы данных. Получаем таблицу, фрагмент которой приведен на рисунке 112.

 

Рисунок 112. Лист кодов обучающей выборки в Excel
для преобразования в DBF-стандарт

 

7. Записываем лист "DBF" Excel-таблицы в DBF-стандарте:

– отмечаем блоком подтаблицу: A4:V105, в которой находятся коды атрибутов и классов;

– помещаем отмеченный блок в буфер обмена;

– выбираем режим "Файл – Сохранить как – Тип файла: DBF 4 (DBASE IV) – Сохранить".

8. Аналогично записываем в DBF-стандарте Excel-таблицу Prizn.xls.

В результате получаем промежуточные DBF-файлы с именами:

Zoo_data.dbf: база данных с кодами признаков (атрибутов);

Prizn.dbf: база данных с признаками (атрибутами).

Фрагменты этих баз данных, как они отображаются в просмотрщике, представлены на рисунках 113 и 114. Отметим, что эти промежуточные базы данных содержат всю необходимую и достаточную информацию в заданном стандарте для выполнения следующего – 2-го этапа работы.

 

Рисунок 113. Фрагмент базы данных: Zoo_data.DBF

Рисунок 114. Фрагмент базы данных: Prizn.DBF

3.2.4.3. Программный интерфейс для преобразования промежуточных DBF-файлов в базы данных системы "Эйдос"

 

Предлагается программный интерфейс, обеспечивающий автоматическое преобразование промежуточных DBF-файлов Zoo_data.dbf и Prizn.dbf в базы данных системы "Эйдос" (исходный текст на языке программирования – xBase приведен ниже):

 

********************************************************************************

*** ФОРМИРОВАНИЕ КЛАССИФИКАЦИОННЫХ И ОПИСАТЕЛЬНЫХ ШКАЛ И ГРАДАЦИЙ,

*** А ТАКЖЕ ОБУЧАЮЩЕЙ ВЫБОРКИ ИЗ DBF-Excel-файла РЕПОЗИТАРИЯ UCI ПО ЖИВОТНЫМ

*** http://ftp.ics.uci.edu/pub/machine-learning-databases/zoo/zoo.names

*** Луценко Е.В., 10/18/04 01:19pm *********************************************

scr23 = SAVESCREEN(0,0,24,79)

SET CURSOR OFF

SET DATE ITALIAN

SET DECIMALS TO 15

SET ESCAPE On

FOR J=0 TO 24

    @J,0 SAY REPLICATE(" ",80) COLOR "rg+/N"

NEXT

SHOWTIME(0,60,.F.,"rg+/n",.F.,.F.)

Mess = " === ФОРМИРОВАНИЕ СПРАВОЧНИКОВ КЛАССИФИКАЦИОННЫХ ШКАЛ  === "

@2,40-LEN(Mess)/2 SAY Mess COLOR "rg+/rb"

Vid = "Y"

@17, 6 SAY "Включать в признаки коды наименования животного и его вида <Y/N>? #" COLOR "w+/rb"

*     0123456789012345678901234567890123456789012345678901234567890123456789012345678

*     0         10        20        30        40        50        60        70

@17,72 GET Vid PICTURE "X" COLOR "rg+/r"

SET CURSOR ON;READ;SET CURSOR OFF

IF Vid <> "Y" .AND. Vid <> "N"

   Vid = "N"

ENDIF

USE Object   EXCLUSIVE NEW;ZAP

USE Zoo_data EXCLUSIVE NEW

ArObj := {}

AADD(ArObj,"МЛЕКОПИТАЮЩИЕ  ")

AADD(ArObj,"ПТИЦЫ          ")

AADD(ArObj,"ПРЕСМЫКАЮЩИЕСЯ?")

AADD(ArObj,"РЫБЫ           ")

AADD(ArObj,"ЗЕМНОВОДНЫЕ    ")

AADD(ArObj,"НАСЕКОМЫЕ      ")

AADD(ArObj,"МНОГОНОГИЕ     ")

SELECT Zoo_data

DBGOTOP()

DO WHILE .NOT. EOF()

   AADD(ArObj,FIELDGET(2))

   DBSKIP(1)

ENDDO

SELECT Object

DBGOTOP()

FOR j=1 TO LEN(ArObj)

   APPEND BLANK

   REPLACE Kod  WITH j

   REPLACE Name WITH ArObj[j]

NEXT

CLOSE ALL

Mess = " ====== ФОРМИРОВАНИЕ СПРАВОЧНИКОВ ОПИСАТЕЛЬНЫХ ШКАЛ ====== "

USE Prizn    EXCLUSIVE NEW

USE Priz_per EXCLUSIVE NEW;ZAP

ArPr := {}

SELECT Prizn

DBGOTOP()

DO WHILE .NOT. EOF()

   AADD(ArPr,FIELDGET(2))

   DBSKIP(1)

ENDDO

SELECT Priz_per

DBGOTOP()

FOR j=1 TO IF(Vid="Y",LEN(ArPr),25)

   APPEND BLANK

   REPLACE Kod  WITH j

   REPLACE Name WITH ArPr[j]

NEXT

@24,0 SAY REPLICATE("-",80) COLOR "rb/n"

CLOSE ALL

Mess = " ============ ФОРМИРОВАНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ ============= "

CLOSE ALL

USE Zoo_data EXCLUSIVE NEW

USE ObInfZag EXCLUSIVE NEW;ZAP

USE ObInfKpr EXCLUSIVE NEW;ZAP

N_Rec = RECCOUNT()

DBGOTOP()

@24,0 SAY REPLICATE("-",80) COLOR "rb/n"

SELECT Zoo_data

DBGOTOP()

DO WHILE .NOT. EOF()

   ArObj := {}

   FOR j=1 TO 2

       AADD(ArObj,FIELDGET(j))

   NEXT

   FOR j=21 TO 22

       AADD(ArObj,FIELDGET(j))

   NEXT

   ArPr := {}

   FOR j=3 TO 20

       Mv = FIELDGET(j)

       IF Mv > 0

          IF Vid = "Y"

             AADD(ArPr,Mv)

          ELSE

             IF Mv <= 25

                AADD(ArPr,Mv)

             ENDIF

          ENDIF

       ENDIF

   NEXT

   ****** Запись массива кодов классов из БД Zoo_data в БД ObInfZag

   SELECT ObInfZag

   APPEND BLANK

   FOR j=1 TO LEN(ArObj)

       FIELDPUT(j,ArObj[j])

   NEXT

   ****** Запись массива кодов признаков из БД Zoo_data в БД ObInfKpr

   SELECT ObInfKpr

   APPEND BLANK

   FIELDPUT(1,ArObj[1])

   k=2

   FOR j=1 TO LEN(ArPr)

       IF k <= 12

          FIELDPUT(k++,ArPr[j])

       ELSE

          APPEND BLANK

          FIELDPUT(1,ArObj[1])

          k=2

          FIELDPUT(k,ArPr[j])

       ENDIF

   NEXT

   SELECT Zoo_data

   DBSKIP(1)

ENDDO

RESTSCREEN(0,0,24,79,scr23)

CLOSE ALL

QUIT

 

Программный интерфейс автоматически заполняет исходными данными следующие базы данных системы "Эйдос":

Object.dbf: классы (классификационные шкалы и градации);

Priz_per.dbf: атрибуты (описательные шкалы и градации);

ObInfZag.dbf: обучающая выборка (главная база данных);

ObInfKpr.dbf: обучающая выборка (связанная база данных).

В результате система "Эйдос" готова к синтезу семантической информационной модели и выполнению последующих этапов работ.

 

3.2.4.4. Синтез семантической информационной модели

Синтез СИМ состоит в расчете ряда баз данных, главной из которых является матрица информативностей. Этот синтез осуществляется на основе информации, содержащейся в файлах, перечисленных в предыдущем разделе. Для этих целей используется режим: "Обучение – Синтез семантической информационной модели – Автоматическое выполнение 1-2-3-4" (рисунок 115):

Рисунок 115. Режим: "Синтез СИМ"

 

 

 

3.2.4.5. Оптимизация семантической информационной модели

 

Оптимизация СИМ состоит в удалении из модели атрибутов с низкой селективной силой (по сути это Парето-оптимизация или ортонормирование) и осуществляется в режиме: "Исключение признаков с низкой селективной силой" подсистемы "Оптимизация" (рисунок 116).

В данном случае оптимизации СИМ не требуется, т.к. система признаков в модели содержит всего 25 булевых градаций, и все они, в основном, имеют достаточно высокую значимость, что видно из характерной формы Парето-диаграммы с отсутствием выраженной "полочки" (рисунок 117):

 

Рисунок 116. Подсистема: "Оптимизация семантической
информационной модели"

 

 

Рисунок 117. Парето-диаграмма атрибутов
(накопительная, т.е. логистическая,

кривая значимости атрибутов)

3.2.4.6. Проверка адекватности семантической информационной модели

Верификацию модели предлагается проверить путем расчета внутренней дифференциальной и интегральной валидности [81].

Необходимо отметить, что внутренняя валидность варианта семантической информационной модели, не учитывающей сделанные выше замечания к общему описанию задачи, составляет 100 %.

Для измерения валидности модели выполняются следующие действия:

1. Скопировать обучающую выборку в распознаваемую в подсистеме: "F2 Обучение – ввод корректировка обучающей информации – F5 Об.инф.->Расп.анк. – F2 Перезапись БД распознаваемых анкет – F1 Копировать всю БД".

2. Выполнить пакетное распознавание в подсистеме: "F4 Распознавание – Пакетное распознавание – Критерий сходства 1-й (корреляция)".

3. Измерить внутреннюю интегральную и дифференциальную валидность информационной модели в подсистеме: "F6 Анализ".

Результаты измерения внутренней валидности семантической информационной модели приведены в таблице 51:

 

Таблица 51 – ИЗМЕРЕНИЕ ВАЛИДНОСТИ
СЕМАНТИЧЕСКОЙ ИНФОРМАЦИОННОЙ МОДЕЛИ

Обобщенные результаты распознавания представлены в таблице 52. Красным цветом и жирным шрифтом отмечены ошибочно идентифицированные объекты.

 

Таблица 52 – ИТОГОВЫЕ РЕЗУЛЬТАТЫ ИДЕНТИФИКАЦИИ

22-10-04            10:35:33                                            г.Краснодар

№ п/п

Наим.физ. источника

Результаты идентификации

Идентифицирован
как класс

Фактически является:

Уровень сходства %

Кач-во идент.

Ошибки по классам

Всего

Код

Наименование

Код

Наименование

1

2

3

4

5

6

7

1

aardvark

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

45.153

58.327

 

 

 

 

 

 

 

0

2

antelope

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

3

bass

4

РЫБЫ

4

РЫБЫ

69.091

69.802

 

 

 

 

 

 

 

0

4

bear

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

45.153

58.327

 

 

 

 

 

 

 

0

5

boar

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

6

buffalo

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

7

calf

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

50.381

79.729

 

 

 

 

 

 

 

0

8

carp

4

РЫБЫ

4

РЫБЫ

56.509

60.908

 

 

 

 

 

 

 

0

9

catfish

4

РЫБЫ

4

РЫБЫ

69.091

69.802

 

 

 

 

 

 

 

0

10

cavy

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

44.637

49.336

 

 

 

 

 

 

 

0

11

cheetah

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

12

chicken

2

ПТИЦЫ

2

ПТИЦЫ

68.532

81.600

 

 

 

 

 

 

 

0

13

chub

4

РЫБЫ

4

РЫБЫ

69.091

69.802

 

 

 

 

 

 

 

0

14

clam

3

ПРЕСМЫКАЮЩИЕСЯ

7

МНОГОНОГИЕ

39.293

22.460

 

 

 

 

 

 

1

1

15

crab

5

ЗЕМНОВОДНЫЕ

7

МНОГОНОГИЕ

56.552

56.270

 

 

 

 

 

 

1

1

16

crayfish

5

ЗЕМНОВОДНЫЕ

7

МНОГОНОГИЕ

31.918

14.669

 

 

 

 

 

 

1

1

17

crow

2

ПТИЦЫ

2

ПТИЦЫ

61.940

73.682

 

 

 

 

 

 

 

0

18

deer

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

19

dogfish

4

РЫБЫ

4

РЫБЫ

57.215

71.018

 

 

 

 

 

 

 

0

20

dolphin

4

РЫБЫ

1

МЛЕКОПИТАЮЩИЕ

45.813

59.973

1

 

 

 

 

 

 

1

21

dove

2

ПТИЦЫ

2

ПТИЦЫ

68.532

81.600

 

 

 

 

 

 

 

0

22

duck

2

ПТИЦЫ

2

ПТИЦЫ

62.602

69.240

 

 

 

 

 

 

 

0

23

elephant

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

24

flamingo

2

ПТИЦЫ

2

ПТИЦЫ

58.945

78.981

 

 

 

 

 

 

 

0

25

flea

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

57.880

53.753

 

 

 

 

 

 

 

0

26

frog

5

ЗЕМНОВОДНЫЕ

5

ЗЕМНОВОДНЫЕ

56.991

58.285

 

 

 

 

 

 

 

0

27

frog

5

ЗЕМНОВОДНЫЕ

5

ЗЕМНОВОДНЫЕ

74.297

59.241

 

 

 

 

 

 

 

0

28

fruitbat

2

ПТИЦЫ

1

МЛЕКОПИТАЮЩИЕ

29.712

33.413

1

 

 

 

 

 

 

1

29

giraffe

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

30

girl

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

37.676

59.877

 

 

 

 

 

 

 

0

31

gnat

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

70.170

62.829

 

 

 

 

 

 

 

0

32

goat

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

50.381

79.729

 

 

 

 

 

 

 

0

33

gorilla

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

34.549

50.131

 

 

 

 

 

 

 

0

34

gull

2

ПТИЦЫ

2

ПТИЦЫ

53.136

62.059

 

 

 

 

 

 

 

0

35

haddock

4

РЫБЫ

4

РЫБЫ

72.286

74.190

 

 

 

 

 

 

 

0

36

hamster

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

45.203

61.201

 

 

 

 

 

 

 

0

37

hare

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

41.787

52.991

 

 

 

 

 

 

 

0

38

hawk

2

ПТИЦЫ

2

ПТИЦЫ

61.940

73.682

 

 

 

 

 

 

 

0

39

herring

4

РЫБЫ

4

РЫБЫ

69.091

69.802

 

 

 

 

 

 

 

0

40

honeybee

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

77.866

63.618

 

 

 

 

 

 

 

0

41

housefly

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

68.475

65.459

 

 

 

 

 

 

 

0

42

kiwi

2

ПТИЦЫ

2

ПТИЦЫ

45.650

56.201

 

 

 

 

 

 

 

0

43

ladybird

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

46.561

40.244

 

 

 

 

 

 

 

0

44

lark

2

ПТИЦЫ

2

ПТИЦЫ

72.585

82.063

 

 

 

 

 

 

 

0

45

leopard

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

46

lion

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

47

lobster

5

ЗЕМНОВОДНЫЕ

7

МНОГОНОГИЕ

31.918

14.669

 

 

 

 

 

 

1

1

48

lynx

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

49

mink

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

37.537

54.433

 

 

 

 

 

 

 

0

50

mole

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

40.754

51.203

 

 

 

 

 

 

 

0

51

mongoose

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

52

moth

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

68.475

65.459

 

 

 

 

 

 

 

0

53

newt

5

ЗЕМНОВОДНЫЕ

5

ЗЕМНОВОДНЫЕ

31.652

34.274

 

 

 

 

 

 

 

0

54

octopus

7

МНОГОНОГИЕ

7

МНОГОНОГИЕ

32.232

37.177

 

 

 

 

 

 

 

0

55

opossum

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

40.754

51.203

 

 

 

 

 

 

 

0

56

oryx

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.860

72.096

 

 

 

 

 

 

 

0

57

ostrich

2

ПТИЦЫ

2

ПТИЦЫ

42.539

65.476

 

 

 

 

 

 

 

0

58

parakeet

2

ПТИЦЫ

2

ПТИЦЫ

68.532

81.600

 

 

 

 

 

 

 

0

59

penguin

2

ПТИЦЫ

2

ПТИЦЫ

25.030

42.429

 

 

 

 

 

 

 

0

60

pheasant

2

ПТИЦЫ

2

ПТИЦЫ

72.585

82.063

 

 

 

 

 

 

 

0

61

pike

4

РЫБЫ

4

РЫБЫ

57.215

71.018

 

 

 

 

 

 

 

0

62

piranha

4

РЫБЫ

4

РЫБЫ

69.091

69.802

 

 

 

 

 

 

 

0

63

pitviper

3

ПРЕСМЫКАЮЩИЕСЯ

3

ПРЕСМЫКАЮЩИЕСЯ

66.439

56.486

 

 

 

 

 

 

 

0

64

platypus

5

ЗЕМНОВОДНЫЕ

1

МЛЕКОПИТАЮЩИЕ

14.210

31.316

1

 

 

 

 

 

 

1

65

polecat

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

66

pony

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

50.381

79.729

 

 

 

 

 

 

 

0

67

porpoise

4

РЫБЫ

1

МЛЕКОПИТАЮЩИЕ

45.813

59.973

1

 

 

 

 

 

 

1

68

puma

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

69

pussycat

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

49.870

80.029

 

 

 

 

 

 

 

0

70

raccoon

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

71

reindeer

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

50.381

79.729

 

 

 

 

 

 

 

0

72

rhea

2

ПТИЦЫ

2

ПТИЦЫ

33.019

56.339

 

 

 

 

 

 

 

0

73

scorpion

3

ПРЕСМЫКАЮЩИЕСЯ

7

МНОГОНОГИЕ

41.478

34.054

 

 

 

 

 

 

1

1

74

seahorse

4

РЫБЫ

4

РЫБЫ

72.286

74.190

 

 

 

 

 

 

 

0

75

seal

4

РЫБЫ

1

МЛЕКОПИТАЮЩИЕ

42.257

46.155

1

 

 

 

 

 

 

1

76

sealion

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

22.089

34.131

 

 

 

 

 

 

 

0

77

seasnake

3

ПРЕСМЫКАЮЩИЕСЯ

3

ПРЕСМЫКАЮЩИЕСЯ

52.601

33.745

 

 

 

 

 

 

 

0

78

seawasp

5

ЗЕМНОВОДНЫЕ

7

МНОГОНОГИЕ

51.925

13.781

 

 

 

 

 

 

1

1

79

skimmer

2

ПТИЦЫ

2

ПТИЦЫ

53.136

62.059

 

 

 

 

 

 

 

0

80

skua

2

ПТИЦЫ

2

ПТИЦЫ

53.136

62.059

 

 

 

 

 

 

 

0

81

slowworm

3

ПРЕСМЫКАЮЩИЕСЯ

3

ПРЕСМЫКАЮЩИЕСЯ

38.461

37.271

 

 

 

 

 

 

 

0

82

slug

4

РЫБЫ

7

МНОГОНОГИЕ

32.953

16.992

 

 

 

 

 

 

1

1

83

sole

4

РЫБЫ

4

РЫБЫ

72.286

74.190

 

 

 

 

 

 

 

0

84

sparrow

2

ПТИЦЫ

2

ПТИЦЫ

72.585

82.063

 

 

 

 

 

 

 

0

85

squirrel

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

29.979

36.725

 

 

 

 

 

 

 

0

86

starfish

7

МНОГОНОГИЕ

7

МНОГОНОГИЕ

48.217

40.232

 

 

 

 

 

 

 

0

87

stingray

4

РЫБЫ

4

РЫБЫ

51.509

40.028

 

 

 

 

 

 

 

0

88

swan

2

ПТИЦЫ

2

ПТИЦЫ

50.226

66.336

 

 

 

 

 

 

 

0

89

termite

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

57.880

53.753

 

 

 

 

 

 

 

0

90

toad

5

ЗЕМНОВОДНЫЕ

5

ЗЕМНОВОДНЫЕ

56.315

55.604

 

 

 

 

 

 

 

0

91

tortoise

5

ЗЕМНОВОДНЫЕ

3

ПРЕСМЫКАЮЩИЕСЯ

0.892

15.775

 

 

1

 

 

 

 

1

92

tuatara

3

ПРЕСМЫКАЮЩИЕСЯ

3

ПРЕСМЫКАЮЩИЕСЯ

20.568

22.593

 

 

 

 

 

 

 

0

93

tuna

4

РЫБЫ

4

РЫБЫ

57.215

71.018

 

 

 

 

 

 

 

0

94

vampire

2

ПТИЦЫ

1

МЛЕКОПИТАЮЩИЕ

29.712

33.413

1

 

 

 

 

 

 

1

95

vole

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

41.787

52.991

 

 

 

 

 

 

 

0

96

vulture

2

ПТИЦЫ

2

ПТИЦЫ

49.581

73.319

 

 

 

 

 

 

 

0

97

wallaby

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

35.494

57.713

 

 

 

 

 

 

 

0

98

wasp

6

НАСЕКОМЫЕ.

6

НАСЕКОМЫЕ.

80.325

60.030

 

 

 

 

 

 

 

0

99

wolf

1

МЛЕКОПИТАЮЩИЕ

1

МЛЕКОПИТАЮЩИЕ

46.057

71.045

 

 

 

 

 

 

 

0

100

worm

4

РЫБЫ

7

МНОГОНОГИЕ

32.953

16.992

 

 

 

 

 

 

1

1

101

wren

2

ПТИЦЫ

2

ПТИЦЫ

72.585

82.063

 

 

 

 

 

 

 

0

ВСЕГО:

6

0

1

0

0

0

8

15

 

Низкая достоверность идентификации класса многоногих, по-видимому, обусловлена тем, что в этот класс включены представители нескольких различных видов. Если их разделить на разные классы, то адекватность модели возрастет. Аналогичное предположение можно высказать по классу, который мы условно назвали "Пресмыкающиеся". Возможно, автор задачи разрабатывал ее с определенной долей иронии. Вместе с тем это никак не отражается на методике, предлагаемой в данном разделе.

Что касается класса "Млекопитающие", то, по-видимому, необходимо включить в модель дополнительные атрибуты, характерные именно для этого класса. Это следует из анализа результатов идентификации летучей мыши и дельфина (рисунки 118 и 119). Летучая мышь отнесена к птицам, а дельфин – к рыбам, т.к. по совокупности использованных в модели атрибутов они оказались наиболее похожими на обобщенные образы именно этих классов. Это подтверждают информационные портреты классов "Vampir" и "Dolphin", приведенные на рисунках 120 и 121. Вместе с тем необходимо обратить внимание на то, что в обоих случаях на втором месте по уровню сходства стоит правильный класс "Млекопитающие".

 

Рисунок 118. Результаты идентификации летучей мыши

 

 

Рисунок 119. Результаты идентификации дельфина

 

Рисунок 120. Информационный портрет класса:
"Млекопитающие"

 

Рисунок 121. Информационный портрет класса: "Птицы"

3.2.4.7. Анализ семантической информационной модели

Так как модель показала достаточно высокую степень адекватности, то исследование модели может корректным образом в определенных отношениях заменить изучение реального объекта (предметной области). Здесь мы не будем подробно освещать все возможностей анализа модели, т.к. они подробно описаны в монографии [81]. Здесь мы ограничимся описанием лишь некоторых возможностей.

Результаты кластерно-конструктивного анализа классов представлены в графической форме семантической сети (рисунок 122).

 

Рисунок 122. Семантическая сеть классов

Из этого рисунка видно, что млекопитающие в используемой системе признаков в наибольшей степени отличаются от рыб (конструкт: "Млекопитающие – рыбы", коды 1 и 4), а земноводные очень похожи на пресмыкающихся (кластер: коды 3 и 5).

Внутренняя структура любой линии на рисунке 122 может быть расшифрована и представлена в виде когнитивной диаграммы, одна из которых (в качестве примера) показана на рисунке 123.

Результаты кластерно-конструктивного анализа атрибутов приведены в графической форме семантической сети на рисунке 124.

 

Рисунок 123. Расшифровка вклада атрибутов
в сходство-различие классов: "Млекопитающие" и "Птицы"

Рисунок 124. Семантическая сеть атрибутов

 

Из рисунка 124 видно, что атрибуты "Milk – eggs" (коды 5 и 4) образуют конструкт, как и, например, "наличие шерсти и отсутствие ног" (коды 2 и 14).

 

3.2.4.4. Резюме

Таким образом, можно сделать вывод о том, что приведенная методика обеспечивает решение поставленной задачи, т.е. оценку качества математических моделей систем искусственного интеллекта путем использования баз данных репозитария UCI.

Аналогичный подход может быть эффективен и в случае использования других источников исходных данных (не UCI), а также других систем искусственного интеллекта (не системы "Эйдос"). Репозитарий UCI, семантическая информационная модель и реализующая ее универсальная когнитивная аналитическая система "Эйдос" рассмотрены здесь лишь в качестве примеров для демонстрации основных элементов предлагаемой типовой методики. В случае необходимости данная методика может быть развита или адаптирована для других случаев.

 

Список литературы

1. Lutsenko E.V. Conceptual principles of the sistem (emergent) information theory & its application for the cognitive modelling of the active objects (entities) //2002 IEEE International Conference on Artificial Intelligence System (ICAIS 2002).–Computer society, IEEE, Los Alamos, California, Washington-Brussels-Tokyo, p.268–269.

2. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). –Краснодар: КубГАУ. 2002. –605 с.