Основы теории и технологии построения интеллектуальных систем

       

Основы теории и технологии построения интеллектуальных систем


Введение в предмет

Краткий исторический очерк.

                Наука под названием искусственный интеллект  входит в совокупность компьютерных наук, а создаваемые на ее основе технологии относятся к информационным технологиям.

Задачей этой науки является воссоздание с помощью вычислительных систем и иных искусственных устройств разумных рассуждений и действий.

На этом пути возникают следующие трудности:

а) в большинстве случаев до получения результата не известен точный алгоритм решения задачи (например, точно неизвестно, как  происходит понимание текста, доказательство теоремы, построение плана действий, узнавание изображения и т.д.)

б) искусственные устройства (например, компьютеры) не обладают достаточным уровнем начальной компетентности, в то время как специалист добивается результата, используя свою компетентность, в частности, обращаясь к своим знаниям и опыту и применяя их.

Это означает, что искусственный интеллект представляет собой экспериментальную науку. Экспериментальность искусственного интеллекта состоит в том, что создавая те или иные компьютерные представления и модели, исследователь сравнивает их поведение между собой и с примерами решения тех же задач специалистом, модифицирует их на основе этого сравнения, пытаясь добиться лучшего соответствия результатов. 

Однако надо иметь некоторые разумные исходные представления, чтобы весь процесс шел в нужном направлении и модификация программ «монотонным» образом улучшала их результаты.  «Поставщиком» таких исходных представлений и основанных на них моделей являются  психологические исследования сознания, в частности,  когнитивная психология. 

Таким образом, к  искусственному интеллекту относятся те, достаточно  различные области, где приходится действовать, не имея точного метода решения проблемы.  По существу,  это означает  возможность выбора между многими вариантами в условиях неопределенности (это, собственно, и является следствием  отсутствия точного алгоритма решения проблемы).

Второй важной характеристикой сферы применения методов искусственного интеллекта является представление информации, главным образом, в символьной форме.


Это означает, что искусственный интеллект имеет дело с теми механизмами компетентности, которые носят символьный или, как еще говорят, вербальный характер и, разумеется, далеко не покрывают все те механизмы, которые для решения задач использует человек.



Здесь, видимо, уместно подчеркнуть, что термин «искусственный интеллект» следует понимать исключительно как обозначение области исследований, но не  некоторого искусственно созданного агрегата. Иные толкования основаны на спекулятивной, не обремененной знанием существа исследований, интерпретации названия области.

Первые исследования, относимые к искусственному интеллекту были предприняты почти сразу же после появления первых вычислительных машин.

В 1954  году американский исследователь А.Ньюэлл решил написать программу для игры в шахматы. Этой идеей он поделился с аналитиками корпорации Рэнд Дж. Шоу и Г.Саймоном, которые предложили Ньюэллу свою помощь. В качестве теоретической основы такой программы было решено использовать метод, предложенный  в 1950 году К.Шенноном - основателем теории информации.  Точная формализация этого метода была выполнена А.Тьюрингом. Он же промоделировал его вручную.

          К работе была привлечена группа голландских психологов под руководством А. Де Гроота, изучавших стили игры выдающихся шахматистов.

          Через два года совместной работы этим коллективом был создан язык программирования ИПЛ1 - по-видимому первый символьный язык обработки списков, предшественник ЛИСПа.

          Однако первой программой, которую можно отнести к достижениям в области искусственного интеллекта, явилась не программа игры в шахматы, а программа  "Логик-Теоретик", предназначенная для автоматического доказательства теорем в исчислении высказываний. Программа "Логик-Теоретик" была реализована этой группой в 1956 г.

          Собственно программа для игры в шахматы - NSS была написана в 1957 г.  В основе ее работы лежали так называемые эвристики (правила, которые позволяют сделать выбор при отсутствии точных теоретических оснований)  и описания целей.


В том же 1964 году была опубликована работа ленинградского логика С.Ю.Маслова "Обратный метод установления выводимости в классическом исчислении предикатов", в которой впервые предлагался метод автоматического поиска доказательства теорем в исчислении предикатов.

На год позже (в 1965 г.) в США появляется работа Дж.А.Робинсона , посвященная несколько иному  методу автоматического поиска доказательства теорем в исчислении предикатов первого порядка. Этот метод был назван методом резолюций и послужил отправной точкой для создания нового языка программирования со встроенной процедурой логического вывода - языка Пролог (А.Колмрауэр, 1971).

При всех различиях, как Лисп так и Пролог были ориентированы, главным образом,  на символьные вычисления. Здесь надо отметить, что в 1966 году в СССР В.Ф.Турчиным  был разработан язык Рефал - язык рекурсивных функций, предназначенный для описания различных языков и различных видов обработки  языков. Хотя Рефал и был задуман как алгоритмический метаязык, но для пользователя  это был язык обработки символьной информации.

В конце 60-х годов появились  прикладные  системы, ориентированные на такие приложения как игры, интегральное исчисление, геометрия, элементарный анализ текста. Во всех этих системах  использовался похожий подход - упрощение комбинаторики, основанное на уменьшении перебора альтернатив, которое,  в свою очередь, базировалось на здравом смысле, применении числовых функций оценивания и различных эвристик. Этот подход  стали называть эвристическим программированием.  Дальнейшее развитие эвристического программирования  шло по пути усложнения алгоритмов и улучшения эвристик. Однако, специалисты, работающие в этой области, стали понимать, что существует некоторый предел, за которым никакие улучшения эвристик и усложнения алгоритма не повысят качества работы системы и, и главное, не расширят    ее возможностей. Программа, которая  играет в шахматы, никогда не будет играть в шашки или карточные игры.

Постепенно исследователи стали понимать, что всем ранее созданным программам  недостает самого важного - знаний в соответствующей области.


Специалисты, решая свои задачи, достигают высоких результатов, благодаря своим знаниям и опыту;  если программы будут обращаться к знаниям и применять их, то они тоже достигнут высокого качества работы.

Это понимание,  возникшее в начале  70-х годов, по существу, означало качественный скачок в работах по искусственному интеллекту. Основополагающие соображения на этот счет высказал в 1977 году американский ученый  Э.Фейгенбаум на  5-й Объединенной конференции по искусственному интеллекту.

Этому пониманию предшествовал и ряд пионерских работ в области создания методов и программных средств  для описания так называемых когнитивных структур – структур человеческого сознания, ответственных за отображение фрагментов действительности. Эти методы и программные средства стали называть, соответственно, методами и языками представления знаний.

 По-видимому, первое явное указание на использование специального формализма для представления знаний принадлежит М.Р. Квиллиану  из Кембриджа. В 1966 году при описании семантики английского глагола М.Р. Квиллиан ввел понятие семантической памяти. Семантическая память явилась  прообразом понятия   семантическая или ассоциативная сеть.

В искусственном интеллекте достаточно широко используется такой способ представления знаний как система правил или система продукций. Основные идеи этого формализма восходят к системам подстановок Поста и нормальным алгорифмам Маркова. Первые  применения их в задачах искусственного интеллекта связаны с работами Ньюэлла и Саймона  (1972) при моделировании различных типов человеческого поведения.

Важной вехой в этом направлении явилась работа американского логика Марвина Минского «Фреймы для представления знаний», опубликованная в отчете Массачусетскго технологического института в 1974 году. Понятие фрейма явилось прообразом понятия «объект» в объектно-ориентированном программировании.

Уже к середине 70-х годов появляются первые прикладные интеллектуальные системы, использующие знания и различные способы представления знаний для решения задач - экспертные системы.



Среди первых экспертных систем система DENDRAL, разработанная в Станфордском университете и предназначенная для порождения формул химических соединений на основе спектрального анализа. В настоящее время система поставляется покупателям вместе со спектрометром. Система MACSYMA, созданная в Массачусетском технологическом институте - экспертная система для символьных математических преобразований. Система производит дифференцирование и интегрирование в символьном виде и блестяще справляется с задачей упрощения алгебраических выражений. Система MYCIN предназначена для диагностики и лечения инфекционных заболеваний крови. Система PROSPECTOR, прогнозирует залежи полезных ископаемых. Имеются сведения о том, что система PROSPECTOR открыла залежи молибдена, ценность которых превосходит 100 миллионов долларов.

Принципы, заложенные в каждой из этих систем,  породили ряд новых направлений работ и, можно считать, что в настоящее время область экспертных систем достигла зрелости и является самостоятельной областью искусственного интеллекта.

          Начинают развиваться специальные программные средства для реализации интеллектуальных систем – языки высокого и сверхвысокого уровня для  представления знаний, такие как KRL, FRL, OPS5 и другие.

Появление специализированных  языков представления знаний означало, что начался новый этап в развитии интеллектуальных систем - этап создания инструментальных средств и технологий. Среди таких инструментальных средств - так называемые оболочки экспертных систем, т.е. программные средства, архитектурно являющиеся экспертными системами, но не содержащие необходимых для этого знаний; программные среды для интеллектуальных систем, т.е. наборы инструментальных средств, позволяющие быстро создать необходимую конфигурацию интеллектуальной системы; средства приобретения знаний - программные системы, позволяющие выявлять знания в различных источниках (в текстах, в массивах данных, интервьюировать экспертов) и переносить их в программную среду и, наконец, интегрированные методологии проектирования экспертных систем - программные средства, поддерживающие весь процесс проектирования.



Создание и развитие инструментальных средств  является сегодня одной из главных задач теории и технологии интеллектуальных систем.

         

Глава 1 Теоретические основы построения интеллектуальных систем. Методы представления знаний.

1.1.Формальные языки и формальные системы

Основным и, пожалуй, главным для человека средством описания большей части того, что ему известно, является естественный язык. Естественный язык обладает большим спектром свойств - лексической неоднозначностью,  неполнотой, избыточностью, возможностью противоречивых описаний, которые, безусловно, можно отнести к числу его достоинств. Однако, эти достоинства создают трудно преодолимые проблемы при попытке автоматического

анализа текстов, написанных на естественном языке.

Элементарную единицу лексики языка составляет слово, имеющее в большинстве случаев не одно, а несколько значений. Любой текст на естественном языке может содержать пробелы - явно не описанные, но подразумеваемые ситуации или их фрагменты. В тексте или речи возможны повторы, которые подчеркивают наиболее существенные соображения автора, расставляют акценты. Противоречия в языке - важный поэтический прием ("Речка движется и не движется...").

 Человек, читая  текст или слушая устную речь способен понять пишущего или говорящего благодаря контексту и наличию собственных представлений о действительности (собственной "модели мира"). Забегая вперед, можно  сказать, что глубокий  анализ естественного языка с помощью компьютеров и, тем более, задачи понимания естественно-языковых текстов являются, в значительной степени, предметом той науки, к изучению которой мы приступаем. Однако в этой главе речь идет о языке как о первичном  средстве описания действительности, т.е. такого описания, которое  составит основу компьютерной модели мира,   и будет лежать в основе  многих «интеллектуальных способностей» компьютера. Для того чтобы получить язык, применимый для этих целей, на естественный язык необходимо наложить ряд    существенных ограничений.


Ограничения эти состоят, в частности, в следующем: необходимо устранить лексическую многозначность (полисемию, как говорят лингвисты), ограничить вариативность структур предложений,  регламентировать использование знаков препинаний и иных знаков.  Но, как только  эти модификации будут выполнены, полученный язык перестанет быть естественным.  Такой язык правильнее отнести   к искусственным.

Если, к тому же,  задать исчерпывающую совокупность правил построения предложений языка, то такой язык будет называться формальным и окажется вполне пригодным для наших целей.

 Что касается возможной противоречивости описаний, то, собственно в языке, они допустимы, важно лишь, чтобы  система интерпретации текстов такого языка (или вывода в этом языке) могла имеющиеся противоречия обнаруживать и всякий раз в процессе решения конкретной задачи выбирать то высказывание (утверждение, гипотезу, посылку), которое  более аргументировано (т.е. обладает большей степенью истинности).

Перейдем к рассмотрению одного из таких формальных языков, который называется язык исчисления предикатов первого порядка. Хотя этот язык и можно рассматривать как язык представления знаний, все же это не главное его назначение и мы будем использовать его конструкции, главным образом, в качестве составной части  конструкций других языков, более ориентированных на представление знаний.

1.1.1.Язык исчисления предикатов первого порядка.

Основные конструкции языка L – языка исчисления предикатов первого порядка достаточно просты и называются формулами. Введем вначале алфавит языка L. Алфавит включает:

1. Счетное множество букв:
,…; которое будем называть множеством символов для обозначения переменных языка;

2.                        .Счетное множество букв 
;

которое будем называть множеством символов для обозначения констант языка;

3.                        Счетное множество прописных букв
; для обозначения   предикатных символов языка;



4.                        Счетное множество строчных букв
; для обозначения функциональных символов.

5.                        Символы для логических связок 
 (влечет),
(не).

6.                        "(для всех),  $(существует)- символы для кванторов;

7. (, )- скобки.

 Предикатные буквы P, Q, … и функциональные буквы f, g,…могут быть n – местными или, как еще говорят, n – арными. Иначе говоря, с каждым предикатным или функциональным символом будем связывать некоторое натуральное число, равное числу его аргументов.

        Определим теперь понятие формулы или правильно построенного выражения языка исчисления предикатов первого порядка.

 Формулы языка определяются индуктивным образом. Начнем с определения терма языка:

1.                        Переменная есть терм.

2.                        Константа есть терм.

3.                         Если  t1 ,t2 , …,tm  - термы, а  f  m – местный функциональный символ, то  f (t1 ,t2 , …,tm  )  терм.

4.                        Если t1 ,t2 , …,tm  - термы, а P m

– местный предикатный символ, то P(t1 ,t2 , …,tm  ) - атомарная формула.

5.                        Атомарная формула есть формула.



6.                        Если
- формулы, то

(A
B),
,
- также формулы.

7.                        Если A – формула,  то "xA – формула.

8.                        Всякое слово в алфавите языка является формулой тогда и только тогда, когда это можно показать с помощью конечного числа применений п.п. 1-7.

Таким образом, мы завершили одно из возможных определений языка исчисления предикатов первого порядка. Существуют и другие определения, однако, язык, определенный нами, является полным, т.е. в нем выразимо все то, что выразимо в  языках (исчисления предикатов первого порядка), определенных любым иным способом.

          Можно, например, определить логические связки
 (читается и и или), выразив их через связки ®  и Ø:

1.AÙB = Ø(A®ØB)

2. AÚ B =ØA®B

Квантор существования  - $ (существует) также выражается через квантор всеобщности и отрицание:

$xA(x) =  Ø"xØ A(x)

 Разумеется,
  и $ с тем же успехом можно было бы включить в язык в качестве трех дополнительных символов. Есть, однако, некоторые преимущества в том, чтобы сохранить список символов как можно более коротким. Например, индуктивные определения и доказательства по индукции оказываются в этом случае короче.

В дальнейшем нам придется использовать понятия свободного и связанного вхождения переменной в формулу. Вхождение переменной x в формулу   A называется связанным, если эта переменная находится в области действия квантора существования существования или всеобщности. В противном случае, вхождение переменной называется свободным.  Если в формуле A отсутствуют свободно входящие в нее переменные (т.е.


либо все переменные связаны, либо отсутствуют), то формула называется замкнутой формулой или предложением. Атомарная замкнутая формула называется фактом.

В том случае, если язык состоит только лишь из предложений, то он называется пропозициональным языком, а буквы A, B, …, входящие в формулы этого языка – пропозициональными переменными.

1.1.2.Исчисление предикатов первого порядка.

 Рассмотрим вкратце основные понятия исчисления предикатов первого порядка.

Введем вначале аксиомы исчисления предикатов:

1.


2.


3.


Правила вывода

1.     Правило отделения: если выводимо
 и выводимо
, то выводимо B;

2.     Правило подстановки: в любую аксиому  на место любой пропозициональной переменной можно подставить любое предложение, предварительно переименовав пропозициональные переменные подставляемого предложения так, чтобы они не совпадали с пропозициональными переменными аксиомы.

        Если в аксиомах 1. – 3. все переменные являются пропозициональными, то такое исчисление называется пропозициональным исчислением или исчислением высказываний.

        Рассмотрим пример вывода в исчислении высказываний. Возьмем, например, три закона логики, сформулированные Аристотелем и называемые постулатами Аристотеля. В языке исчисления высказываний они записываются следующим образом:

Пусть
 - пропозициональная переменная исчисления высказываний.

Ax 1.


Ax 2.


Ax 3.


Первый из постулатов Аристотеля – это так называемый закон тождества;

второй –  закон исключённого третьего и третий – закон противоречия.

Докажем один из постулатов, например
.

Используем  аксиому 1. и правило подстановки (вместо B

подставим
): получим


Из аксиомы 2:


Вместо
 подставим
:


Применим правило отделения: та часть последней формулы, которая обозначена через X является аксиомой, т.е. выводима, тогда в силу правила отделения, выводима формула, обозначенная через Y.

Теперь применим правило отделения к Y:

 

и, рассуждая таким же образом, получим, что Y’ -выводимо.


 D1= {
,
}.

П2 = <С2

 , A2, D2 >, где

С2= {
,
,
,

On (y, z) },

A2= {On (x, y)},

D2= {
,
}.

         

          Стратегия управления, которая нам потребуется для решения этой задачи, достаточно проста. Её можно описать следующим образом:

1. Выбрать из множества правил очередное правило, применимое к текущему состоянию; поместить его в множество применимых правил. Повторять этот процесс, пока множество правил не будет исчерпано.

2. Выбрать из множества применимых правил какое – либо правило и выполнить его . Перейти к п.1.

3.     Если множество применимых правил пусто или цель достигнута, то завершить работу.

Приведенная стратегия является недетерминированной, поскольку мы не дали  точного определения, как именно мы собираемся выбирать правило из множества применимых правил.

В большинстве случаев информации, доступной стратегии управления, недостаточно для точного решения этой задачи. Поэтому работу систем, основанных на правилах в искусственном интеллекте можно охарактеризовать как процесс поиска, при котором правила подвергаются испытанию до тех пор, пока не обнаружится, что некоторая их последовательность порождает состояние базы данных, удовлетворяющее целевому условию. Позже мы обсудим различные механизмы выбора (или как говорят, разрешения конфликтного множества), а пока продолжим рассмотрение примера.

В мире кубиков к начальному состоянию применимо лишь первое правило (т.к. в начальном состоянии таблица On пуста и, следовательно, формула
 не выполнима), поэтому, в соответствии с описанной стратегией, недетерминированности  не возникает и будет выполнено первое правило. При применении первого будет проверена выполнимость формул
,
,
условия правила. При этом вместо свободных переменных в формулы условия будут подставлены значения (например, X1 вместо y и X2 вместо x). Соответствующие подстановки будут выполнены также в формулах множеств добавляемых и удаляемых фактов. Тогда формулы  On (x, y) из множества добавляемых фактов а Em(y) и Er(x) из множества удаляемых фактов примут вид On (X2, X1) , Em(X1), Er(X2), соответственно.


Первая пара, т.е. (X2, X1 )  будет помещена в таблицу On, а значения переменных из второй и третьей формул,т.е. X1 и

X2 – удалены из таблиц Em и Er, соответственно. Таким образом, мир кубиков будет модифицирован и в базе данных появится описание второго состояния.

     К этому, второму состоянию оказываются применимы оба правила. Т.к. множество применимых правил будет теперь состоять   из двух правил, то необходимо уточнить п.2 стратегии управления. Наш принцип выбора правила из множества применимых правил (для этой задачи) будет состоять в том, что всякий раз будет выбираться то правило, условие которого более детально описывает состояние.

     В данном  случае мы используем то  обстоятельство, что условие второго правила содержит больше различных предикатных букв, чем условие первого правила и, как легко убедиться, более детально описывает состояние, чем условие первого правила.

          Таким образом, п.2. стратегии управления мы модифицируем следующим образом:  

“Выбрать из множества применимых правил то правило, условие которого содержит наибольшее число различных предикатных букв и выполнить его . Перейти к п.1.

Следовательно, на втором и всех последующих шагах будет выбираться  и исполняться второе правило.

Процесс завершится либо по исчерпании применимых правил, либо по достижении целевого состояния.

А теперь перейдем к рассмотрению возможных стратегий управления.

1.2.2.Сратегии управления.

Определение 1.2.4.

Конфликтным множеством называется множество правил, применимых к некоторому состоянию.

Разрешение конфликтного множества достигается использованием тех или иных стратегий управления.

Н. Нильсон различает два основных типа стратегий управления: безвозвратный и пробный В безвозвратном режиме управления  выбраное правило исполняется необратимо, без возможности пересмотра в дальнейшем. В пробном режиме резервируется возможность возврата к исходному  состянию для испытния другого правила.

Среди пробных режимов управления различаются режим  с возвращением, где фиксируется точка возврата и управление с поиском на графе, где происходит запоминаие результатов применения нескольких цепочек правил с дальнейшим поиском на графовых структурах.



Безвозвратные стратегии управления используются, главным образом, в коммутативных системах правил.

Определение 1.2.5.

Система правил коммутативна, если

а) каждое из  правил  множества правил П, применимое к состоянию базы данных D, применимо к состоянию базы данных D, полученному при применении любого правила из П к D;

б) целевое условие удовлетворяющееся некоторым состоянием S базы данных D, удовлетворяется состоянием, полученным из S выполнением любого прменимого правила из П;

в) состояние S базы  данных D, полученное в результате применения любой последовательности правил из П, инвариантно относительно перестановок правил в этой последовательности.

Коммутативные системы правил представляют собой важный класс правил, обладающий некоторыми полезными свойствами. Как было уже замечено, в коммутативных системах правил можно использовать безвозвратные стратегии управления, поскольку любое правило, которое было применимо к предыдущему состоянию, применимо и  к любому последующему. Иначе говоря, применение неудачного правила отодвигает, но не блокирует завершение вычислений.

Стратегии с возвращениями. Выбирается некоторое правило из множества применимых правил и если оно не ведет к решению, то последующие шаги «забываются» и вместо него выбирается другое правило. Стратегии с возвращениями можно использовать независимо от того, насколько полной информацией для выбора подходящего правила мы располагаем. Если такая информация вообще отсутствует, можно выбирать правила в соответствии с произвольной схемой. В конечном счете механизм возвращений позволит выбрать подходящее правило. Однако, если имеется информация о  том как выбрать подходящее правило, возвращения будут реже и вычисления окажутся более эффективными.

Стратегии поиска на графе. В стратегиях с возвращением управляющая система забывает все пробные пути, не приведшие к успеху. Однако, если бы стратегия запоминала все пробные пути, с тем, чтобы любой из них мог быть кандидатом на дальнейшее продолжение, такая стратегия была бы более гибкой.



          Стратегию управления с поиском на графе можно рассматривать как средство нахождения пути на графе от вершины, являющейся исходным состоянием базы данных к вершине, являющейся целевым состоянием базы данных. Часто оказывается полезным  каждой дуге графа (i, j) приписать некоторое положительное число c(i, j) – ее стоимость. Стоимость пути между двумя вершинами равна суме стоимостей всех дуг на этом пути.

          Задачи простейшего типа сводятся  к поиску пути (возможно, с минимальной стоимостью) между вершиной s,     соответствующей начальному состоянию базы данных и известной вершиной t, соответствующей состоянию базы данных, удовлетворяющему целевому условию. Нередко встречается ситуация,  в которой требуется найти путь между вершиной s  и любой вершиной из множества {t}, представляющего состояния базы данных, удовлетворяющие целевому условию.

          В большинстве практически интересных случаев стратегия управления используется для порождения фрагментов имплицитно заданных графов. Для  имплицитного задания графа необходимо задать начальную вершину, представляющую исходное состояние базы данных и правила изменения состояния.      Таким образом, стратегию управления с поиском на графе можно рассматривать как процесс выявления  подграфа имплицитного графа, содержащего целевую вершину.

Опишем в качестве примера процедуру SEARCH .

Procedure SEARCH.

1.     Создать списки INITIAL  и FINISH; FINISH:=Æ;

2.     Создать граф поиска, состоящий из начальной вершины g1. INITIAL :=INITIALÈg1;

3.     M1: если INITIAL =Æ , то неудача, останов.

4.     Упорядочить вершины в INITIAL в соответствии с некоторым  отношением;

5.     Выбрать первую ( в смысле порядка) вершину в INITIAL, обозначить ее через f, INITIAL:= INITIAL \ {f}; FINISH:= FINISHÈ{f};

6.     Если f-целевая вершина, то успешное завершение работы;

7.     Породить из вершины f множество M={m1,m2,…,mk } дочерних вершин; H:={ (f, m1 ), (f, m2),…,(f, mk )};



8.     INITIAL := INITIALÈH;

9.     Переход к п.3.

Эта процедура порождает граф H, называемый графом поиска.

На шаге 4 она должна упорядочивать вершины графа, так чтобы «лучшая»  из них была выбрана первой для порождения дочерних вершин. Это упорядочивание может основываться на различных эвристических идеях или иных критериях.

Рассмотрим некоторые из возможных эвристик (т.е. процедур выбора без достаточных теоретических оснований). Один из подходов основан на введении оценочной функции v. При этом  под v(n) часто понимается  оценка стоимости пути минимальной стоимости от исходной вершины к целевой, при условии, что этот путь проходит через вершину n. Упорядочение вершин графа в списке INITIAL  будем производить таким образом, чтобы вершины располагались в порядке возрастания соответствующих им функций v. При совпадении значений упорядочение осуществляется произвольным образом.

Если рассмотреть, например, игру в “8”, то для нее можно взять простую оценочную функцю v(n)=d(n)+W(n), где d(n) – глубина вершины n на дереве поиска и W(n) – число находящихся на нужном месте фишек в состоянии базы данных, соответствующем вершине n. Легко продемонстрировать, что  применение процедуры SEARCH приводит к решению с испытанием меньшего числа вершин, чем, например, при использовании оценочной функции v(n)=d(n).

Достаточно распространены эвристики с монотонными ограничениями: говорят, что эвристическая функция а удовлетворяет монотонному ограничению, если для всех вершин n и m, таких что m -  дочерняя вершина n,  c(n,m)³ v(n) – v(m), причем v(t) =0, где t – целевая вершина. Известен результат, что если   алгоритм SEARCH использует такую оценочную функцию, что ее значение v(n) для любой вершины n оценивает сумму стоимости пути минимальной стоимости от исходной вершины  s к вершине n и   стоимости аналогичного пути от вершины n  к целевой и эта функция удовлетворяет монотонному ограничению, то алгоритм SEARCH обнаруживает оптимальный путь к любой вершине.



1.4. Системы фреймов

Понятие фрейма было введено известным американским ученым Марвином Минским в 1975 году.

 М. Минский рассматривал фрейм как структуру данных для представления множества стереотипных ситуаций,  событий и объектов, а также их характеристик, признаков и свойств. Эта информация (о характеристикак, признаках и свойствах) хранится в слотах фрейма. Можно говорить о существовании трех типов слотов:

1.Именованные слоты, которые могут заполняться  данными, например, слот ЧИСЛО КОНЕЧНОСТЕЙ во  фрейме ЧЕТВЕРОНОГОЕ ЖИВОТНОЕ. Данные, заполняющие слот, могут быть строкового типа, целого, булевского и т.д. Некоторые слоты могут заполняться по умолчанию. Например, в том же фрейме, слот НАЛИЧИЕ ШЕРСТИ может заполняться по умолчанию, т.к. в большинстве случаев, это справедливо.

2. Слоты могут иметь тип  ISA или АКО. Слот ISA

указывает на участие рассматриваемого фрейма в иерархии фреймов и содержит имя фрейма, соответствующего большему классу; например, для фрейма ЧЕТВЕРОНОГОЕ ЖИВОТНОЕ, это может быть фрейм ЖИВОТНОЕ.

Слот АКО указывает на родовую принадлежность фрейма, т.е. на наличие у него родового или видового свойства; например, для фрейма ЖИВОТНОЕ это может быть свойство МЛЕКОПИТАЮЩЕЕ. При этом это свойство может наследоваться фреймом   ЧЕТВЕРОНОГОЕ ЖИВОТНОЕ по ISA – иерархии.

3.Слоты могут носить процедурный характер. Например, во фрейме СОБАКА, значение слота КОЛИЧЕСТВО ЕЖЕДНЕВНО ПОТРЕБЛЯЕМОЙ ПИЩИ вычисляется как функция ее размера, веса и возраста. Разумеется, фрейм должен содержать соответствующие слоты, а именно, ВЕС, РАЗМЕР, ВОЗРАСТ.

Заметим теперь, что один из слотов фрейма СОБАКА должен иметь тип ISA и содержать информацию о том, что собака есть ЧЕТВЕРОНОГОЕ ЖИВОТНОЕ. Это, кстати, означает, что СОБАКА будет наследовать значения слотов фрейма ЧЕТВЕРОНОГОЕ ЖИВОТНОЕ, таких как ЧИСЛО КОНЕЧНОСТЕЙ, НАЛИЧИЕ ШЕРСТИ и других.

Приведем теперь более точное определение фрейма в нотации Бэкуса-Наура:

<фрейм>::=<имя фрейма>{<тело фрейма>}



<тело фрейма>::=<множество слотов>

<множество слотов>::=<слот>|<слот>,<множество слотов>

<слот>::=<имя слота>:<значение слота>

<значение слота>::=<имя фрейма>|<имя процедуры>|<множество>

<множество>::=<дискретное множество>|<плотное множество>

<дискретное множество>::=<элемент множество>;<множество>

<элемент множества>::=<имя аспекта>[<значение аспекта>]

<значение аспекта>::=<имя фрейма>|<имя процедуры>|<множество>.

<плотное множество>::=<интервал>|<полуинтервал>|<отрезок>



Итак, фреймы могут ссылаться друг на друга через свои слоты. На них могут быть заданы отношения КЛАСС-ПОДКЛАСС (ISA) и РОД-ВИД (AKO). Иногда вводят понятие фрейма – примера. Фрейм-пример, это совокупность значений слотов, удовлетворяющих некоторому фрейму.

Фрейм - соединение отношений наблюдаемых признаков, определенных на слотах. Фрейм можно рассматривать как агрегат из отношений.

Фрейм-пример - это некоторая совокупность (соединение) кортежей, удовлетворяющая одному из фреймов-прототипов.

Глава 2. Теоретические основы построения интеллектуальных систем. Методы моделирования рассуждений.

2.1.Понятие о дедукции, абдукции, индукции, рассуждениях по аналогии, рассуждениях на основе прецедентов, рассуждениях на основе аргументации.

2.1.1.Дедуктивные рассуждения.

Дедуктивное рассуждение - это последовательность дедуктивных умозаключений. Дедуктивным называют такое умозаключение, в котором из знания большей степени общности выводится знание меньшей степени общности. Первые точные схемы дедуктивных умозаключений принадлежат великому древнегреческому мыслителю Аристотелю (384-322 г.г. до нашей эры). Эти схемы носят название силлогизмов. К числу основных силлогизмов Аристотеля относятся категорический силлогизм, условный силлогизм, разделительный силлогизм, условно-разделительный силлогизм; сокращенные, сложные и сложносокращенные силлогизмы или энтимемы.



Каждый из силлогизмов имеет несколько  разновидностей, отличающихся друг от друга количеством и качеством посылок и называемых модусами.  Связано такое разделение с тем, что все суждения по своему качеству делятся на четыре вида: общеутвердительные, общеотрицательные, частноутвердительные и частноотрицательные.

Так, простой категорический силлогизм состоит из трех суждений, два из которых выступают в качестве посылок, а одно – заключение. Первая из посылок носит общеутвердительный характер, вторая посылка  и заключение могут носить частноутвердительный характер. Например, «Каждый студент должен владеть  дедуктивным методом», «Сидоров – студент»; «Сидоров должен владеть дедуктивным методом». Здесь до точки с запятой приведены посылки, а  после точки с запятой – заключение силлогизма.

Существует определенный набор правил работы с силлогизмами, определяющих корректность их применения. Можно считать, что именно с этими событиями связано возникновение науки под названием логика.

С середины19 века (Дж.Буль, 1847, О. де Морган, 1858) появились первые работы по формализации аристотелевой логики. Г.Фреге (1848) и Ч.Пирс (1885) ввели в логику предикатные переменные, предметные переменные и кванторы. В ходе последовавших затем работ по применению логического подхода к изучению оснований математики был создан богатый логический аппарат и оформилась математическая научная дисциплина  под названием  математическая логика.

В классической математической логике основными правилами дедуктивных рассуждений являются аксиомы и правила вывода.

Например, правило модус поненс (правило отделения):


Или аксиомы:

;

;

 

Дедуктивные рассуждения относят к числу  достоверных рассуждений.

2.1.2.Индуктивные рассуждения

Индуктивные рассуждения основаны на индуктивных умозаключениях. Индуктивным называют умозаключение от знания меньшей степени общности к знанию большей степени общности, от частного к общему, от фактов к обобщениям. Индукция эффективна при выдвижении гипотез, нахождении причинных связей явлений.


Индуктивные заключения, вообще говоря, не относятся к числу достоверных; их следует назвать правдоподобными (не путать с индуктивными рассуждениями в математике, полной математической индукцией, неотъемлемым элементом которой является дедуктивное умозаключение).

Различается два вида индукции: полная и неполная. Полной индукцией называют индуктивное умозаключение, в котором заключается, что все представители рассматриваемого класса обладают определенным признаком на том основании, что этим признаком обладает каждый из представителей этого класса.

Неполной индукцией называется такое индуктивное умозаключение, в котором заключается, что все представители рассматриваемого класса обладают определенным признаком на том основании , что этим признаком обладают некоторые представители этого класса.

Можно  различать также популярную индукцию и научную индукцию. В основе этого различения лежат способы обоснования заключения. В популярной индукции вывод обо всех элементах класса делается на основании исследования некоторых элементах класса при отсутствии противоречащих примеров. В отличие от этого, в научной индукции производится анализ и отбор фактов, исключающих случайность  обобщения. Умозаключения научной индукции основаны на изучении причинной связи явлений.

Для изучения причинной связи явлений используются метод сходства, метод различий, метод сходства – различия и некоторые другие методы.

Приведу в качестве примеров определения методов сходства и различия.

Метод сходства – это умозаключение о причине явления, основанное на сравнении двух или более групп факторов, при наличии которых наступает это явление. Если все случаи наблюдаемого явления имеют только один общий фактор, то этот общий фактор и является причиной рассматриваемого явления.

Метод различия – это умозаключение  о причине явления, основанное на сравнении случаев, в которых исследуемое явление наступает и не наступает. Если оба случая сходны по всем факторам, кроме одного,  и этот фактор присутствует в случае, когда явление наступает, то он является причиной рассматриваемого явления.



2.1.3.Абдукция

Абдукция - это  способ порождения гипотез, основанный на переходе от частного суждения к частному. В простейшем случае она имеет следующую форму: « из А и В влечет А выводится В.  Абдуктивная гипотеза В может рассматриваться как возможное объяснение А. Разумеется этот способ рассуждений также относится к числу правдоподобных.

2.1.4.Аналогия 

Перенос свойств некоторого единичного явления, процесса или предмета на другое единичное явление, процесс или предмет если между ними замечено сходство их существенных свойств называют аналогией.

Различают строгую и нестрогую или простую аналогию.

При строгой аналогии должно быть достоверно установлено, что переносимый признак предмета А с необходимостью связан с признаками сходства. Тогда это обстоятельство служит достаточным основанием для достоверного переноса этого признака на предмет В.

При простой аналогии зависимость между признаками сходства и переносимым признаком носит правдоподобный характер.

2.1.5.Рассуждения на основе прецедентов

Рассуждения на основе прецедентов (МРП) составляют совокупность методов поиска решения некоторой  проблемы при известных решениях подпроблем. В частном случае подпроблема может совпасть с проблемой.

 Более точно: задано множество прецедентов как множество пар <СЛУЧАЙ, РЕШЕНИЕ>, целевая проблема ЦЕЛЬ,  сопоставление СЛУЧАЙ ® ЦЕЛЬ, множество зависимостей СЛУЧАЙ ® РЕШЕНИЕ. Вопрос состоит в следующем: каково же решение целевой проблемы? Т.е., какая пара  <ЦЕЛЬ, РЕШЕНИЕ>  решает целевую проблему?

          Основными задачами в моделировании рассуждений на основе прецедентов являются:

-идентификация текущей проблемы;

-поиск подходящего прецедента;

-использование  найденного прецедента для решения текущей проблемы; часто для этого следует выполнить адаптацию старого решения к текущей ситуации.

Некоторые алгоритмы МРП основаны  на  сравнении между  между прецедентами (точнее той их части, которая обозначена нами как СЛУЧАЙ) и целевой проблемой и на зависимостях внутри прецедентов.


Характеристики задачи  могут описываться атрибутами, имеющими численые значения или любыми такими, на множестве которых задан частичный порядок.

Построение такого рода алгоритмов сегодня можно считать важнейшим направлением исследований в области МРП.

Проблемами МРП являются, кроме того, проблема выбора подходящего прецедента и  адаптация.

2.1.6.Рассуждения на основе аргументации

Рассуждения на основе аргументации состоят в выдвижении правдоподобных гипотез и их последующем обосновании или опровержении. Для этой цели используется множество аргументов, среди которых имеются аргументы  "за" и "против". 

Более подробное изложение некоторых методов моделирования рассуждений будет приведено ниже, а начнем мы с моделирования дедуктивных рассуждений методом резолюций.

2.2. Автоматизация дедуктивных рассуждений. Доказательство теорем методом резолюций.

Многие интересные и практически важные задачи могут быть сформулированы как задачи доказательства теорем в некотором логическом исчислении.

Перечислим некоторые из таких задач.

Дедуктивные вопросно – ответные системы. В вопросно – ответных системах факты могут быть представлены логическими формулами. Тогда для ответа на некоторый вопрос следует доказать, что формула, соответствующая ответу, логически выводима из фактов.

Задача анализа программ. В задаче анализа программ выполнение программы можно описать формулой А, а условие завершения работы программы – формулой В. Тогда проверка того, что программа завершит работу эквивалентна доказательству того, что формула В следует из формулы А

Задача синтеза программ. Если условие и результат задачи можно представить в виде логических формул, то решение задачи можно рассматривать как логический вывод результата из формул условия.

Программа же решения задачи извлекается в этом случае из вывода.

Изоморфизм графов. Часто требуется выяснить, изоморфен ли граф   

подграфу другого графа. Задача может быть сформулирована как задача выводимости формулы, представляющий один граф из формулы, представляющей другой граф.



Поскольку все перечисленные задачи относятся к трудным вычислительным задачам, то через некоторое время после появления вычислительных машин, а именно, во второй половине 60-х годов наблюдался резкий всплеск интереса к машинному автоматическому доказательству теорем.

На самом деле поиск универсальной разрешающей процедуры для проверки общезначимости формул был начат еще Лейбницем в 17 веке. В дальнейшем эти попытки возобновили Пеано (на грани 20 века) и Гильберт  со своими учениками в 20-х годах 20 века.

Эти попытки продолжались до тех пор, пока Черч и Тьюринг в 1936 году не доказали, что никакой общей процедуры не существует,

не существует никакого универсального алгоритма, проверяющего общезначимость формул в логике первого порядка.

          Это не означает, однако, что общезначимость формулы установить невозможно. Существуют алгоритмы, которые могут установить, что формула общезначима, если она на самом деле общезначима. Если же она не является общезначимой, то эти алгоритмы  вообще говоря, никогда не закончат свою работу. Это лучшее, что можно ожидать  от алгоритмов поиска доказательства.

Теоретические основы соответствующих компьютерных методов были заложены  в 1930 г. Эрбраном. Первые же практически важные шаги на пути создания программ автоматического доказательства теорем были сделаны после основополагающих работ С.Ю.Маслова об обратном методе установления выводимости в классическом исчислении предикатов и Дж.А.Робинсона о методе резолюций , выполненных ими независимо в 1964 и 1965 годах, соответственно. .

2.2.1.Скулемовская стандартная форма.

          При поиске доказательства методом резолюций используются так называемые Скулемовские стандартные формы формул исчисления предикатов первого порядка.

При приведении формулы к Скулемовской стандартной форме используются следующие соображения.

Формула логики первого порядка может быть приведена к предваренной нормальной форме, в которой все кванторы содержатся в префиксе (т.е. ни одному квантору не предшествует предикатный символ).



Матрица (т.е., часть формулы, следующая за префиксом и не содержащая кванторов) может быть сведена к коньюктивной нормальной форме.

В формуле можно элиминировать кванторы существования с помощью скулемовских функций.

Рассмотрим вначале метод приведения формулы к предваренной нормальной форме. Для этого рассмотрим основные законы эквивалентности в логике первого порядка. Здесь мы полагаем, что х и y являются свободными переменными в А и В, соответственно:

-






 

.

Имеется и ряд других эквивалентностей,  которые будут использоваться по  мере необходимости.

          Здесь уместно заметить, что квантор всеобщности"и квантор существования $ нельзя проносить через дизъюнкцию и конъюнкцию, соответственно, т.е.

         

 

 


          В таких случаях, надо вспоминать, что связанная переменная – лишь место  для подстановки какой угодно переменной и, следовательно, каждую связанную переменную можно переименовать. Например,  формулу



можно преобразовать в формулу 
где z не встречается в А(x).  Тогда



Аналогичным образом преобразуется и формула



Далее, формулу следует привести к следующей форме:

                   (Q1х1).. (Qnхn)(M),

где каждое Qiхi (i=1,2,…,n) есть или ("xi

) или ($xi),а М есть формула, не содержащая кванторов. Такой вид и будет называться предваренной нормальной формой.

Тогда (Q1х1).. (Qnхn) называют префиксом, а М- матрицей формулы

 Опишем теперь кратко алгоритм приведения формул к предваренной нормальной форме:

Если в формуле присутствуют логические связки

и ®, то применим к ней законы

                            
 

                            


для исключения этих связок.

2.Если перед формулой имеется знак отрицания,  то используем законы

                                                Ø(ØF) = F

                                               


    и законы         

                                               


                                     
, для того чтобы пронести знак отрицания внутрь формулы.



3. Если необходимо, переименовываем связанные переменные.

Выносим кванторы в начало формулы, для чего используем законы





Далее следует М - матрицу формулы привести к конъюнктивной нормальной форме.

Определение 2.2.1. Литерой будем называть атомарную формулу или ее отрицание.

Определение 2.2.2. Формула F находится в конъюнктивной нормальной форме тогда и только тогда, когда F имеет вид

n³1, а каждая F1 ,F2,…,F

n  есть дизъюнкция литер.

Приведем схематическое описание процедуры преобразования к конъюнктивной нормальной форме (впрочем, следует заметить, что эта же схема годится и для дизъюнктивной нормальной формы):

1. Элиминируем логические связки ® и « применяя эквивалентности

                                     
 

                                     


2.Проносим знак отрицания к атомам, используя, (возможно, несколько раз) законы.

                                      Ø(ØF) = F

                                     


3.Используем (возможно, несколько раз) законы

для получения нормальной формы.

 После выполнения соответствующих процедур для приведения формулы к  Скулемовской нормальной форме осталось элиминировать кванторы существования. Это выполняется следующим образом:

пусть формула имеет вид (Q1х1).. (Qnхn)(M),  где М есть конъюнктивная нормальная форма и пусть некоторое Qi

 есть квантор существования в префиксе (Q1х1).. (Qnхn)(M). Если в указанном префиксе левее Qi

нет никакого квантора всеобщности, выбирается новая константа c, отличная от всех иных констант, входящих в М и все xi в М заменяются на с. Если же левее Qi

встречаются кванторы всеобщности Qa,…,Qc

выбирается новый m-местный функциональный символ f, отличный от всех иных функциональных символов в М, все xi в М заменяются на f(xa,…,xc) и (Qixi)вычеркивается из префикса. Затем это процесс применняется ко всем кванторам существования в префиксе. Последняя из полученных таким образом формул и есть скулемовская нормальная форма. Константы и функции, используемые для замены переменных, связаных кванторами существования,называются скулемовскими функциями.



Определение 2.2.3.Дизъюнкция литер называется дизъюнктом.

          Далее, там где это будет удобно, будем рассматривать как синоним дизъюнкта множество литер.

Определение 2.2.4. Если А – атомная формула, то две литеры А и ØА называют контрарными, а множество {A , ØА} – контрарной парой.

Заметим, что если дизъюнкт содержит контрарную пару, то он является тавтологией. .Если дизъюнкт не содержит литер, то он называется пустым дизъюнктом, если он содержит одну литеру, то называется однолитерным дизъюнктом, а если содержит к литер – к-литерным дизъюнктом. Так как пустой дизъюнкт не содержит литер, которые могли бы быть истинны, то он всегда ложен. Пустой дизъюнкт обозначается . Каждое множество дизъюнктов S, будем считать конъюнкцией всех дизъюнктов из S, где каждая переменная считается связанной квантором всеобщности. Тогда скулемовская стандартная форма может быть представлена множеством дизъюнктов.

Справедлива следующая

Теорема 2.2.1. Пусть S – множество дизъюнктов, представляющих Скулемовскую стандартную форму формулы F. Тогда F противоречива в том и только в том случае, когда S противоречиво.

Доказательство теоремы мы опустим.

Далее для множеств дизъюнктов будут использованы термины невыполнимо/выполнимо вместо противоречиво/непротиворечиво.

                            

                             2.2.2.Метод резолюций для исчисления высказываний.

          Основная идея метода резолюций состоит в том, чтобы проверить, содержит ли множество S пустой дизъюнкт . Если S содержит пустой дизъюнкт, то, как следует из предыдущего параграфа, S  невыполнимо. Если S не содержит , то проверяется: может ли  быть получен из S? Метод резолюций можно рассматривать как специальное правило вывода, используемое для порождения из S новых дизъюнктов. Это правило вывода таково:



          в том случае, если для любых двух дизъюнктов C1и C2

существует литера L1  в С1, которая контрарна литере L2 в С2

то, вычеркнув L1 и L2,  из C1 и C2 , соответственно, можно построить дизъюнкцию оставшихся дизъюнктов, которая будет являться следствием С1 и С2.


Эта последняя дизъюнкция называется резольвентой.

Корректность этого правила вывода устанавливае следующая



Теорема 2.2.2. Пусть даны два дизъюнкта С1 и С2. Тогда резольвента С дизъюнктов С1 и С2 есть логическое следствие С1 и С2.



Доказательство. Пусть



где Сa и Сb – дизъюнкции литер. Предположим, что С1 и С2  истинны в некоторой интерпретации I. Очевидно, либо L, либо ØL ложно в I. Пусть, например, L ложно в I. Тогда Сa

должен быть истинен в I (иначе предположение об истинности С1 неверно). Таким образом, резольвента, т.е.

истинна в I. Аналогично можно показать, что если ØL  ложно в I, то Сb должен быть истинен в I.Следовательно,

истинна в I, что требовалось доказать.

Пример 2.2.1.Рассмотрим множество дизъюнктов

Пример 2.2.2. Рассмотрим множество дизъюнктов

Из 1.и 2. получаем

                             4.


Из 3. и 4.получаем пустой дизъюнкт .

2.2.3. Метод резолюций для исчисления предикатов первого порядка.

          Как мы видели, наиболее существенным моментом в использовании метода резолюций является нахождение в дизъюнкте литеры, контрарной литере в некотором другом дизъюнкте. Если в исчислении высказываний это достаточно просто, то в исчислении предикатов, когда мы имеем дело с формулами, содержащими индивидные переменные, ситуация усложняется. Рассмотрим, например, дизъюнкты:

В С1 не существует литеры, контрарной какой-либо литере из С2. Однако, подставив f(x) в С1

вместо х, получим

Следовательно, можно получить резольвенту

Если в С1 и С2 подставлять на места переменных другие подходящие термы, можно получать новые резольвенты  С. Например, подставив a вместо х в С2 и f(a) вместо х С1, получим резольвенту

Здесь надо заметить, что резольвента

является, в некотором смысле, наиболее общей по отношению ко всем другим, т.к. все иные резольвенты (в частности, предыдущая) являются ее примерами.

          Таким образом, получение резольвент из дизъюнктов часто требует подстановок.



Определение 2.2.5.Подстановка – это конечное множество вида {t1/v1, …,t

n/vn}, где каждая v i – переменная, а каждый ti – терм, отличный от vi и все vi

различны. Подстановка, которая не содержит элементов, называется пустой и обозначается e.

Определение 2.2.6. Пусть q = {t1/v1, …,t

n/vn} – подстановка и Е –выражение. Тогда Еq - выражение, полученное из Е одновременной заменой всех вхождений переменной vi

на терм ti.

Еq называют примером Е.

Определение 2.2.7. Пусть q = {t1/v1, …,t

n/vn} и l={u1/y1,…, um/ym}- две подстановки. Тогда композиция ql  q и l есть  подстановка, которая получается из множества {t1l/x1,…, tnl/xn, u1/y1,…,um/ym} вычеркиванием всех элементов tjl/xj, для которых tjl =xjи всех элементов ui/yi для которых yiÎ{x1,…,xn}.

Определение 2.2.8.Подстановка q называется унификатором для множества

{E1,E2,…,E

k } тогда и только тогда, кода E1q

= E2q=…= Ekq. Если для множества Е существует унификатор, то оно называется унифицируемым.

Определение 2.2.9. Унификатор s для множества {E1,E2,…,E

k } будет наиболее общим унификатором тогда и только тогда, когда для каждого унификатора q этого множества найдется такая подстановка l, что q=sl

Пример. Множество  {P(a,y), P(x,f(b))} унифицируемо, так как подстановка q = {a/x, f(b)/y} является его унификатором.

          Таким образом, ключевой задачей метода резолюций для исчисления предикатов первого порядка является нахождение наиболее общего унификатора. Прежде чем переходить к изложению общего алгоритма  её решения дадим определение множества рассогласований.

Определение 2.2.8. Множество рассогласований непустого множества выражений W есть такое множество подвыражений, которые начинаются с различных символов, находящихся в одних и тех же позициях в выражениях из W.

Пример. 2.2.3. Если W = {P(x, f(y, z)), P(x, a), P(x, g(h(k(x))))}, то первой позицией, в которой появляются различные символы, является пятая (символы P(x, первых четырех позиций во всех выражениях из W совпадают); таким образом, множеством рассогласований будет являться множество W = {f(y, z), a, g(h(k(x)))}.



         

          Алгоритм унификации.

Положим k=0, Wk= W и s

k= e.

Если Wk

е – единичный дизъюнкт,  то s k– наиболее общий унификатор для W. В противном случае – поиск множества Dk

рассогласований для Wk.;

Если существуют такие элементы vk и t

k в Dk, что  vk - переменная, не входящая в t k, то перейти к п.4. Иначе W не унифицируемо;

Пусть sk+1=sk{tk

/ vk} тогда Wk+1= W

k{tk

/ vk};

k := к+1; переход к п.2.

Пример 2.2.4. Пусть W = {Q(f(a), g(x), Q(y, y)}

Положим s0 = e и W0 = W;

Множество рассогласований для W0  – D0 = {f(a), y}, т.е.

          v0 = y и t0 = f(a);

Тогда s1=s0{t0 / v0} = e{f(a)/y} = {f(a)/y};

W1= W0{ t0 / v0} = {Q(f(a), g(x), Q(y, y)} {f(a)/y}=

          {Q(f(a), g(x), Q(f(a), f(a))};

Множество рассогласований для W1  – D1= {g(x), f(a)},

Так как подстановки, исключающей последнее рассогласование не существует, то множество W не унифицируемо.

2.5. Рассуждения на основе прецедентов.

2.5.1. Некоторые общие соображения.



Идею, лежащую в основе МРП можно выразить словами: «напоминание о подходящем случае».  В основе механизма «напоминания» лежит использование семантической сети специального вида - сети выборки случаев, в которой реализованы ассоциативные связи между проблемой и подходящими случаями.

МРП следует рассматривать как такой метод решения проблем, когда каждый случай (или прецедент) есть  проблема + решение.

При появлении каждой новой проблемы выполняется поиск «похожей» проблемы и адаптация ее решения к новой проблеме.

Следует учитывать, что в МРП понятия проблемы и решения имеют некоторый ограниченный, фиксированный смысл. Понятие же задачи является более общим  может описывать несколько проблем и шагов их решения. При этом постановка задачи, как и при использовании  иных методов  искусственного интеллекта,  может быть незамкнутой. К числу таких задач относятся задачи диагностики, проектирования, консалтинга, планирования поведения и некоторые другие.

2.5.2. Информационные сущности и их типы.

Будем рассматривать прецедент как результат процесса пополнения задачи.  Будем далее полагать, что каждый шаг этого процесса  добавляет в задачу некоторые информационные сущности.


Информационные сущности суть основные атомарные единицы информации.

В дальнейшем будем обозначать через Е множество всех  информационных сущностей заданной предметной области, через сÍЕ– каждый из прецедентов, через СÍ P(E) – множество прецедентов и через q – запросы qÍ Е.

Возможны различные типы информационных сущностей. В большинстве приложений они суть пары атрибут-значение. Если прецеденты и запросы рассматривать как векторы атрибут-значение над конечным множеством атрибутов А1n, …,А n, то каждый прецедент (также как и запрос) может содержать, в основном, одну информационную сущность из каждого ЕА. Имеется ввиду, что каждое ЕА содержит  все пары атрибут-значение для определенного атрибута А.

2.5.3. Предпочтения.

Центральным звеном рассуждений на основе прецедентов является представление таких прецедентов, которые могут оказаться наиболее подходящими для заданного запроса.

          Можно полагать, что такую «предпочтительность» можно задать с помощью отношения предпочтения p  на множестве всех прецедентов, а запись с1 pqс2  означает что с1 предпочтительнее с2  в смысле запроса q.

          Однако, надо располагать некоторым априорным критерием, позволяющим использовать отношение предпочтения. Сформулировать такой критерий позволяет следующая гипотеза:

сходные проблемы имеют сходные решения.

Отсюда  получаем:

прецедент можно считать подходящим, если  он обладает сходством с запросом.

2.5.4. Глобальная и локальная функции согласования.

В этом разделе мы введем понятие согласования (acceptance). Coгласование можно рассматривать как количественную характеристику пары запрос – прецедент.

Пусть, по прежнему P(E) – множество прецедентов и  q – запрос. Ясно, что, если Q-множество запросов, то QÍ P(E).

Определение 2.5.1. Согласование между запросом и прецедентом описывается глобальной функцией согласования L:

L: P(E) x P(E) ® R,

 (где R- множество рациональных чисел)

такой, что большее значение L(q,c) соответствует большему согласованию прецедента с запросом.



Тогда отношение предпочтения на прецедентах с1 и с2, порождаемое запросом q, определяется следующим образом:

с1 pqс2   iff  L(q, с1)³ L(q, с2).

Функция согласования может принимать как положительные так и отрицательные и нулевое значения. Отрицательные значения  будут интерпретироваться как рассогласование, а нулевое - как нейтральное.

Вычисление глобальной функции согласования должно принимать во внимание соответствие между информационными сущностями запроса и  случаев.

Это соответствие задается локальной функцией согласования.

Определение 2.5.2.Согласование информационных сущностей описывается

локальной функцией согласования

                                                l: E ´ E ®R.

 Согласование  l( е, е1 ) можно рассматривать как меру сравнимости некоторой информационной сущности е1 и сущности е. Информационные сущности могут оказаться несравнимыми, тогда локальная функция согласования на них не определена.

Множество всех информационных сущностей е, с которыми сравнима информационная сущность е1 обозначим через Е ={e| если l ( е, е1 ) определена).

В некотором смысле согласование можно рассматривать как напоминание о е1 при поиске e, по той причине, что е1 описывает ситуацию, сходную с е или е1 есть альтернатива е или что-нибудь еще в том же духе. Значение l( е, е1 )=0 означает, что напоминание о е1 отсутствует, а  l( е, е1 )<0 недвусмысленно указывает, что е1 не может   рассматриваться в качестве напоминания если в запросе присутствует е.

2.5.5.Функция согласования для вектора признаков.

Информационные сущности могут иметь форму  пар вида <A, a>,

 где А - некоторый атрибут, а – значение этого атрибута из соответствующего домена  Dom(A). Тогда как запрос, так и релевантный прецедент могут рассматриваться как вектора признаков (а1 ,а2, …, а n), где аi – значение i-го

атрибута Ai.

                Определение 2.5.1. можно переписать в этом случае в следующем виде:

Определение 2.5.3. ПустьU = dom(A1) ´…´ dom(An) – множество всевозможных прецедентов и запросов.


Согласование запроса и прецедента тогда выражается  следующей общей функцией согласования

                                               

L: U´U®R;

локальная функция согласования выражается по-прежнему через информационные сущности, представленные в виде призначных пар:

                                li : dom(Ai) ´ dom(Ai) ®R

Если ввести функцию  ф - композиции локальных функций согласования,

то можно записать

                               

L((q1 ,…,qn), (c1,…,cn)) = ф(l1(q1,c1),…ln (qn,cn)).

Например, ф может быть линейной формой локальных функций согласования, коэффициенты которой gi являются весами соответствующих значений локальных функций, т.е.

                                L((q1 ,…,qn), (c1,…,cn)) = S gi·li(qi,ci)   (i=1,…,n).

Рассмотрим теперь несколько более сложный случай, а именно случай, когда в запросе присутствует несколько информационных сущностей е, сравнимых с некоторой информационной сущностью е1 прецедента.

Определение 2.5.4. Пусть  E = [e1 ,e2 ,…,en} – множество информационных сущностей, таких что, с каждой из них сравнима некоторая информационная сущность е (т.е.  Е ={e1 | что l ( е1, е) определена}).

Функцию

                                cе: R´…´R ® R , такую что

cе = cе (a1 ,…,an),       где                    ai = f(aq (еi), l(ei,e)),    aq (е) = 1 (если еÎq)  или aq (е) = 0 – в противном случае, будем называть функцией композиции.

Что касается функции f, то в простейшем случае можно считать, что она  есть произведение a и l, т.е. ai = aq (еi) ·l(ei,e).

2.5.6. Релевантность информационных сущностей запросу.

Поиск подходящих прецедентов можно рассматривать как процесс вспоминания. В соответствии с этой метафорой можно ввести некоторую величину, которая будет характеризовать релевантность “вспоминаемого” прецедента некоторой информаационной сущности или частичную функцию релевантности

r: E ´ C ® R,

так что r= r (e,c) 



ГЛАВА 3. Приобретение знаний и машинное обучение.

3.1.Источники  знаний  для построения интеллектуальных систем.

                    Проблемы приобретения знаний компьютерными системами являются ключевыми как с позиций понимания устойства человеческого знания, так и с позиций создания новых поколений компьютерных систем. Приобретение знаний можно рассматривать как процесс построения компьютерных моделей действительности.

Необходимая для работы интеллектуальной системы модель действительности должна  содержать описания основных объектов действительности, их имена, описания устойчивых свяей  и  зависимостей  между  объектами и    их    совокупностями, информацию об их важности, сведения о том, каким образом эти связи, зависимости и иные когнитивные структуры могут быть использованы.

     Среди  связей  и  зависимостей  могут   оказаться аналитические,   количественные   и   качественные;    среди информации о том,  как  их   использовать,  могут  оказаться

логические   условия,     правила    и эвристики.

 В качестве источников знаний для построения таких моделей выступают

     а)непосредственно специалисты предметных областей, обычно называемые экспертами;

     б)протоколы  рассуждений  (протоколы   "мыслей вслух")

экспертов;

     в) протоколы так назывемых диагностических игр;

     г) книги, инструкции,

     д) примеры и прецеденты решения задач;

   е) базы данных.

     Различные источники знаний  содержат  знания  различной природы и требуют применения различных методов. 

Будем различать  термины  «выявление  знаний»  и «приобретение знаний». Выявление знаний - выделение в  сообщениях, полученных из источника знаний фрагментов модели действительности или «модели мира».

Например: выделение каузальных структур в тексте на  естественном языке или выделение процедур принятия решений в  протоколах "мыслей вслух".

     Приобретение знаний - термин более общий и включает две фазы: выявление знаний и перенос их в базу знаний.     Экспертов мы будем считать прямыми источниками знаний, а все остальные источники -  непрямыми.



Долгое время выявление знаний считалось искусством, основанном на солидном фундаменте черой магии.

Центральной фигурой и единственным источником знаний для интеллектуальных систем считался эксперт. Второй центральной фигурой являлся инженер по знаниям, задача которого – беседы с экспертами. Целью этих бесед и являлось установление тех объектов и связей, о которых говорилось выше.

Практически немедленно обнаружился ряд трудностей на пути превращения такого метода приобретения знаний в промышленую технологию. Укажем здесь  наиболее существеные из них.

Трудности первого сорта состояли в неправильной оценке экспертами значения тех или иных знаний для решения задач. При наблюдении за решением задач экспертами можно было обнаружить, что они систематически обращают внимание на некоторую информацию, о которой не сообщают ничего. Иначе говоря, самые компетентные эксперты оказываются некомпетентными при попытке описать знания, которые они используют при поиске решения.  Этот эффект известен психологам и в литературе по когнитивной психологии отмечен как слабая корреляция между ментальным поведением и вербальными сообщениями эксперта.

                                 Следующая проблема состоит в существовании некоторого психологического барьера при передаче  одним человеком своих знаний другому человеку.

Можно указать еще «дискретность», неполноту человеческого знания.

Одной из серьёзнейших проблем явилось существование так называемой «когнитивной защиты личности». Механизм когнитивной защиты связывается с гипотезой о существовании так называемых личностных психологических конструктов, выдвинутой в 1955 году американским психологом Джорджем Келли в контексте клинической психологии. В соответствии с теорией Келли сложность модели мира в сознании человека определяется пространством особых шкал – конструктов, сформированных в его сознании на протяжении жизни. Конструкт в соответствии с этой теорией – особое субъективное средство, сконструированное самим человеком, проверенное им на практике, позволяющее ему понимать и воспринимать  окружающую действительность, оценивать и прогнозировать события.



Преодоление когнитивной защиты рассматривается с точки зрения теории Келли как  выявление пространства персональных конструктов и исследование его структуры.

Набор всех указаных и некоторых иных проблем привел к весьма пессимистическим оценкам числа экспертных систем, которые вобще могли быть разработаны.

Однако выход был найден и состоял он в том, что приобретение знаний интелектуальной системой стало считаться задачей самой системы. Это означало появление  новой технологии содания интеллектуальных систем – технологи автоматизированного приобретения знаний. Рассмотрению теоретических основ такой технологии посвящена настоящая глава, в частности, будут рассмотрены 

методы атоматизации приобретения знаний.    

Среди этих методов будем выделять  прямые и непрямые. Напомним, что задачей этих методов явялется выявление имен объектов предметной области, их свойств, связей на множестве объектов,  приемов  и правил расуждений.

Для решения этой задачи применяются  разичные техники – автоматизированное интервью, методы анализа текста и методы машинного обучения.

А именно, для выявления имен используются методы анализа текстов и методы интервью; для выявления свойств используются методы интервью, для выявления связей использутся методы машинного обучения, интервью и анализа текста, для выявления правил и приемов рассуждений – анализ протоколов, для оценки важности той или  иной информации – диагостичесие игры.

3.2. Прямые методы приобретения знаний

Рассмотрим вначале те элементы компетентности эксперта, которые можно выявлять с помощью прямых методов приобретения знаний.  

 

3.2.1.Имена. Имя  -  единица   языка, соответствующая   со   стороны семантики отражению отдельного предмета, объекта или  явления объективного мира,  со  стороны  синтаксиса  -  субъекту  или объекту высказывания, индивидной константе или переменной в предложении,месту   в   предикате   или   в структурной схеме предложения.

     Через всю лексику проходит различение  индивидных  имен, общих   имен  и  метаимен.  Это  различение  относительно.  В различных системах языка соотношение индивидных и общих  имен различно.


Здесь мы  ограничимся несколько схематическим рассмотрением этой проблемы.

     Индивидное имя - имя существительное, являющееся  именем объекта наинизшего типа, объекта, не являющегося множеством. Здесь  надо    заметить, что существуют  сферы  человеческой  деятельности,  в  которых потребность  различать  индивиды  весьма   слабо   выражена. Например, растения  (грибы, фрукты, овощи).  Растения идентифицируются с точностью до  вида. Название  вида  обычно служит индивидным именем. Рыжик, ромашка, морковь  означают одновременно  и  класс   и   любую   особь   этого   класса.Общее имя - имя, обозначающее неопределенный объект или множество  объектов.Заметим, что степень индивидности (или общности)  имени -  явление  относительное.   Если взять естественый язык, то   более  индивидное  из  двух имен тяготеет к  позиции  субъекта,  менее  индивидное  -  к позиции предиката.

     Метаимя - имя в той части языка, которая выступает  как метаязык  по  отношению  к  другой  части  того  же   языка. Метаименам не соответствует никаких множеств  объектов.  Они являются средствами  внутриязыковой классификации  и  служат целям самого языка в сфере  лексики.  (примеры:  слова  типа совокупность, множество, часть и т.д.). Метаимена по  большей части представляют предикаты.

     Индивидные имена обозначают конкретные объекты действительности. Общие имена  соотносят  предложения  с  множеством понятий. Понятие включает отработанную обществом совокупность признаков, хотя в разных употреблениях слова эта совокупность выступает в разных своих частях. В случае употребления  имени в функции субъекта высказывания реализуется минимальный набор признаков, достаточный для отождествления имени  с  предметом действительности.

     Подчеркнем, что построение модели действительности,  как следует из  приведенной  точки  зрения,  должно  предполагать выделение в источниках знаний не только имен -  индивидных  и общих - но и содержания тех понятий,  которые  этими  именами представлены.  Набор  признаков  содержания  каждого  понятия должен быть  достаточен  как  для  различения  его  от  других понятий так и для соотнесения с действительностью.



     Выступая в качестве имени понятия, т.е.  являясь  именем множества, общее имя определяет объем понятия. В  отличие  от этого совокупность  свойств  характеризует  вторую  сторону понятия - его содержание.

3.2.2.Свойства. В   общем   случае,   среди   свойств    понятия    могут присутствовать:

- адресат - признак,  характеризующий  компонент или лицо к которому обращено воздействие;

- делибератив  -  признак,  характеризующий   компонент   со значением  содержания  речи  -  мыслительного  действия  или восприятия;

- дестинатив   -   признак,   характеризующий   компонент, выражающий назначение;

- дименсив - признак,  характеризующий  размер,  исчисляемую меру величины;

- инструментив,   признак,   характеризующий   компонент   со значением орудия действия;

- квантитатив  -  признак,  характеризующий  количественные характеристики;

- квалитатив   -   признак,   обозначающий    качественные характеристики, свойства предмета;

- локатив - признак местонахождения;

- темпоратив - признак, выражающий временные характеристики;

- фабрикатив - признак, характеризующий материал,  вещество, из которого предмет изготовлен.

     Разумеется, фиксация проблемной области вносит  в  этот список коррективы.

3.2.3. Виды семантических связей.

     Под семантической связью в общем случае  будем  понимать отношение понятий  в понятийной системе  предметной  области. При этом мы полагаем, что каждый носитель знаний о предметной области обладает некоторой  концептуальной  моделью области,  по  крайней  мере,  ее   фрагментом,   и   свойства семантических связей, если о таковых ему приходится сообщать, согласуются с этой моделью.    Нашей ближайшей  целью  должна явиться типология связей, которая  могла  бы  стать  основой  способа классификации этих связей.

     Представителями семантических связей в лексике являются предикатные слова, т.е. лексемы, представляющие предикаты.  Именно они обеспечивают строение  основных  предложений.  Возникает вопрос, не являются  ли предикатные слова именами в  том смысле, в каком можно сказать,  что  собственно  имя  именует свои понятия и, в конечном счете,  соответствующие  им внеязыковые объекты? Иначе говоря, не именуют ли предикатные слова свои предикаты?



     Типичными представителями  предикатных слов  являются  такие  лексемы  как "больше",  "меньше",  ""равно",  "иметь  значение",   "иметь свойство", "если ... то ..."и т.д. Легко видеть, что сами  по себе они ничего не именуют в реальном мире, т.е. не имею  там денотатов.   Подобное   является    существенным    свойством предикатных слов.

    Это свойство предикатных слов означает, что их  выделения    в языковой конструкции оказывается    недостаточно    для классификации представляемых ими семантических связей. Таким образом, необходимо ещё  выявление  внелексических  свойств  семантических связей.

     Речь идет о свойствах, которые могут быть выявлены в интерактивном режиме.   Такими   свойствами оказались          симметричность, антисимметричность, рефлексивность  и  другие.     Обощенные связи, которые будут получены в результате, назовем   типами  семантических связей.  Однако вначале полезно выделить виды семантических связей:

- генеративная связь Gen, один компонент которой  обозначает лицо  или  предмет,  принадлежащий  некоторой  совокупности, категории, обозначаемой вторым компонентом;

- дестинативная связь Des, один компонент которой обозначает назначение для другого компонента;

- директивная связь Dir, в которой один компонент обозначает путь, направление второго компонента;

- инструментальная  связь  Ins,  один   компонент   которой обозначает    орудие    действия,    обозначаемого    другим компонентом;

- каузальная связь Cous, один компонент  которой  обозначает причину проявления другого компонента спустя какое-то время;

- комитативная связь Com, один компонент которой  обозначает сопровождающее   другой   компонент   действие, сопутствующий предмет, сопровождающее лицо;

- коррелятивная связь Cor, один компонент  которой  выражает возможность наблюдения другого компонента  или  соответствия предмета другому предмету, назначению;

- негативная связь Neg,  один  компонент  которой  отрицает, исключает возможность проявления другого компонента;



- лимитативная связь Lim, один компонент которой  обозначает сферу применения, назначения другого компонента;

- медиативная  связь  Med,  один  компонент  которой  имеет значение способа, средства действия другого;

- поссесивная связь Pos, один  компонент  которой   выражает отношение владения другим компонентом;

- потенсивная связь Pot, в которой один компонент приводит к увеличению возможности появления  другого  спустя  некоторое

время;

- результативная  связь  Res,  в  которой  один   компонент выражает следствие действия второго;

- репродуктивная  связь  Rep,  в  которой  один   компонент обозначает   исходную   точку   для   воспроизведения    или превращения для другого компонента;

- ситуативная связь Sit, в которой один компонент обозначает ситуацию,  определяющую  состояние   или   область  действия второго компонента;

- трансгрессивная  связь  Trg,  в  которой  один  компонент обозначает результат превращения второго;

-          финитивная связь  Fin,  в  которой  один  компонент  имеет значение цели, назначения другого.

Разумеется, этот список нельзя считать исчерпывающим.

3.2.3.1. Типы семантических связей

     Дадим  краткое  описание  свойств  перечисленных   видов связей. Но перед этим обсудим один достаточно тонкий  момент. Связи, которые фиксируются в текстах на  естественном  языке, это еще не точные математические конструкции. Поэтому,  когда мы будем приписывать  этим  связям  некоторые  свойства, а именно,     рефлексивность,   нерефлексивность, антирефлексивность,     симметричность,     несимметричность, антисимметричность,   транзитивность,   нетранзитивность    и антитранзитивность, то мы будем поступать не совсем корректно; поэтому пока будем считать, что речь идет не более чем о некоторых метафорах. В дальнейшем с каждой такой метафорой будут связаны некоторые точные процедуры и утверждения.

     Наряду с  привычными  названиями  свойств связей  будем использовать еще одну характеристику, которую  можно  назвать асимметричностью связи.


Будем  называть  семантическую  связь асимметричной,  если  ее  "обращение",  (смысл  этого  термина станет ясен из примеров,  которые  мы  приведем  ниже)  также является семантической связью из нашего  списка не совпадающей с исходной связью.

     Анализ связей мы  начнем  с  каузальных  связей,  т.е. связей, говорящих о причинах и следствиях и ,  следовательно, обладающих   такой   характеристикой   как    транзитивность. Причинность будем различать разномоментную  или диахронную (X вызывает  Y  в  будущем)  и  причинность  одномоментную   или синхронную(X вызывает Y в настоящем). С этой точки зрения  за связью, отражающей одномоментную причинность следует признать свойство антисимметричности (А вызывает В и В  вызывает  А  и все это одновременно, в идеале означает их  эквивалентность). Иначе обстоит дело с причинностью будущего: из  того,  что  А вызывает В и В вызывает А в различные моменты  времени  вовсе не следует  никакого  рода  эквивалентности  А  и  В.  Из  "А вызывает В" в этом случае можно заключить лишь, что  "В  есть следствие  А». Именно  за  такой  связью  мы  сохраним   право называться  каузальной. Таким   образом,   в   общем   случае каузальная связь несимметрична.  Из того что A вызывает  B  в будущем, разумеется, не следует, что само A в  этом  будущем будет иметь  место.  Поэтому  связь  Cous   нерефлексивна  (в отличие от одномоментной причинности) .

     Комитативная связь "А сопровождает В"- это как  раз  та связь, которая отражает причинность  настоящего.  Изложенные выше  соображения  позволяют  считать  ее  антисимметричной, рефлексивной:  "А  сопровождает  А"   (во   всяком   случае, утверждение "А вызывает А"  является  менее  абсурдным,  чем утверждение  "А  запрещает  А")  и   транзитивной   :из   "А сопровождает В" и "В сопровождает С" следует "А сопровождает С".

     Коррелятивная связь - связь - "толерантность". "А может наблюдаться   при   В"   разумно    считать    симметричной, рефлексивной   и    нетранзитивной    связью.   По-видимому, действительно, из "А может наблюдаться при  В"  и  "В  может наблюдаться при С", вообще говоря, не следует, что "А  может наблюдаться при С".



     Негативная связь -  "А  отрицается  В",   очевидно, антирефлексивна, нетранзитивна и симметрична.

     Дестинативная  связь  "А   предназначено   для В"   - нетранзитивна, нерефлексивна и асимметрична.  Асимметричность здесь, как  уже  было  замечено,  понимается  как  некоторое контекстное свойство, означающее, что "обращение" связи дает некоторую иную связь, содержащуюся в списке видов связей.  В данном случае обращение связи означает "В ограничивает сферу применения  А", т.е. лимитативную связь.

     Инструментальная  связь  "А  есть  орудие  для  В"   не обладает   свойством   транзитивности   и    рефлексивности. Обращение  этой  связи, если  таковое  трактовать   как    "В выполняется посредством А" является медиативной связью, т.е. инструментальная связь асимметрична.

     Лимитативную связь "А ограничивает сферу применения В" следует признать транзитивной, антирефлексивной, т.к. А и  В необходимо не совпадают, и асимметричной. Последнее  в  силу того,  что  ее  обращение  "В  действует   в   ситуации  А" представляет либо ситуативную связь, либо дестинативную.

     Медиативная  связь  "В   выполняется   посредством  А" нетранзитивна, нерефлексивна и  асимметрична.

     Поссесивная связь выражает отношение  владения,  которое также    является    нетранзитивным,    нерефлексивным     и асимметричным (обращение этой связи дает  либо генеративную, либо лимитативную либо партитивную связь) .

    Потенсивная связь отражает отношение частичной причинности и, в силу этого, не обладает транзитивностью  (из "А- частичная причина В» и "В - частичная причина С"  вовсе  не следует, что "А- частичная причина С"), в силу направленного ее характера она несимметрична и по  аналогии  с  каузальной связью - нерефлексивна.

     Репродуктивная связь  транзитивна,  так  как  отношение воспроизведения  или  превращения  является   таковым,   она асимметрична, ибо ее обращение дает трансгрессивную связь и, очевидно, нерефлексивна, ибо результат превращения не обязан совпадать с исходной точкой, начальным пунктом превращения.



     Ситуативная связь транзитивна: из "А в ситуации В",  "В в ситуации С" ничто не мешает заключить, что "А  в  ситуации С", вообще говоря, антирефлексивна - А и В по определению не совпадают;  и   асимметрична:   обращение   ее   дает   либо лимитативную связь "С - сфера действия А", либо комитативную связь "А - сопровождает С".

     Директивная  связь  "А  по  (над,  через,  сквозь)  В", очевидно, транзитивна; антирефлексивна: А не перемещается по (над,  через,  сквозь)  А;  асимметрична:  ее  обращение   - лимитативная связь .

     Трансгрессивная   связь   транзитивна   (по   тем    же соображениям, что  и  репродуктивная  связь),  асимметрична, т.к. ее обращение суть репродуктивная связь, и также, как  и репродуктивная  связь,  нерефлексивна.

     Финитивная   связь   нетранзитивна,   несимметрична   и нерефлексивна.

     Генеративную связь - принадлежность  к  совокупности - будем  считать  примером  отношения  включения  элемента   в множество;  т.е.  она  антитранзитивна,  антирефлексивна   и несимметрична.

     Результативная связь обладает теми же свойствами, что и каузальная. Обращение ее дает каузальную связь.

     Введем   обозначения   для   свойств    транзитивности, рефлексивности и других.

                            Таблица 3.1

СВОЙСТВА

ОБОЗНАЧЕНИЯ

Транзитивность         

Нетранзитивность       

Антитранзитивность     

Симметричность          

Антисимметричность     

Асимметричность        

Несимметричность       

Рефлексивность         

Антирефлексивность     

Нерефлексивность       

Tr  

Ntr 

Atr 

Sm  

Ans 

As  

Ns  

Rf  

Arf 

Nrf

Сведем сказанное о видах и свойствах  связей  в  таблицу 3.2,  по  вертикали  которой  укажем  виды   связей,   а   по горизонтали - их свойства. В последнем столбце таблицы укажем вид "обращенной" связи.

                                             Таблица 3.2

Значения свойств связей

Вид связи

Tr

Ntr

Atr

Rf

Nrf

Arf

Sm

Ans

As

Ns

Обращенная связь

Gen

+

+

+

-

Des

+

+

+

Lim

Ins

+

+

+

Med

Cous

+

+

+

Res

Com

+

+

+

*

Cor

+

+

+

*

Lim

+

+

+

Sit,Des

Med

+

+

+

-

Neg

+

+

+

Pos

Pos

+

+

+

Gen,Lim,Par

Pot

+

+

+

-

Res

+

+

+

Cous

Rep

+

+

+

Trg

Sit

+

+

+

Lim,Com

Dir

+

+

+

Lim

Trg

+

+

+

Rep

Fin

+

+

+

-

<


      Применим теперь к таблице 3.2  процедуру  факторизации  - расщепления исходной таблицы на подтаблицы,  строки  которых имеют одинаковые  значения  свойств  (без  учета  последнего столбца).

Получим следующие девять таблиц:

                                               Таблица 3.3

Значения свойств связей

Вид связи

Tr

Ntr

Atr

Rf

Nrf

Arf

Sm

Ans

As

Ns

Обращенная связь

Cous

+

+

+

Res

Trg

+

+

+

Rep

Res

+

+

+

Cous

Rep

+

+

+

Trg

Таблица 3.4

Lim

+

+

+

Sit

Sit

+

+

+

Lim,Com

Dir

+

+

+

Lim

                                               Таблица 3.5

Des

+

+

+

Lim

Ins

+

+

+

Med

Pos

+

+

+

-

Med

+

+

+

-

                                               Таблица 3.6

Fin

+

+

+

-

Таблица 3.7

Neg

+

+

+

-

Таблица 3.8

Gen

+

+

+

-

<


                                               Таблица 3.9

Cor

+

+

+

*

                                               Таблица 3.10

Com

+

+

+

*

                                               Таблица 3.11

Pot

+

+

+

-

     Получили 9 фактор-таблиц, каждая  из  которых  содержит связи  ,определяемые  одной  комбинацией  значений   свойств симметричности, рефлексивности и транзитивности.

     Множество видов семантических  связей,  характеризуемых одинаковой  совокупностью  значений  свойств  симметричности, рефлексивности  и  транзитивности,  будем   называть   типом семантической связи.

     Таким образом, мы получили девять  типов  семантических связей.

     Первый   тип   связи   будем   называть   каузально   - трансгрессивным.     К нему  относятся  четыре  вида  связи, представленные в  таблице  4.3.  В  списке  типов  связей  его обращение уже не совпадает ни  с  одним  из  типов,  поэтому каузально  -  трансгрессивная  связь  по-прежнему  является несимметричной, уже, однако, не являясь асимметричной.

     Второй тип связи назовем ситуативным.  Он,  как  и  его "прародители", является асимметричным и его  обращение  дает комитативную связь(см. табл. 3.4).

     Третий    тип    связи    (табл.3.5)     назовем инструментальным. Его обращение может ( не во всех случаях ) давать ситуативную  связь.  Поэтому  ситуативный  тип  связи несимметричен.

     За остальными  типами    связи    сохраним    названия соответствующих им  видов  семантической  связи,  а  именно: финитивный,   негативный,    генеративный,    коррелятивный, комитативный, потенсивный.

     Рассматривая  таблицу  3.3,  можно  заключить,  что  для отнесения  какой-либо  языковой  конструкции,  представляющей семантическую   связь, к   каузально-трансгрессивному    типу необходимо   установить   принадлежность   ее   к   множеству конструкций, обладающему транзитивностью,  нерефлексивностью  и асимметричностью.     (В  дальнейшем,  вместо  словосочетания "языковая конструкция,  представляющая  семантическую  связь" будем  употреблять  термин  "высказывание",  а  вместо  фразы "высказывание   принадлежит   к    множеству    высказываний, обладающему свойствами x, y, z" будем говорить  "высказывание обладает свойствами x, y, z".)



     Последний  столбец  таблиц  3.3-3.11  свидетельствует  о принадлежности   (или    не    принадлежности)    обращенного высказывания"  одному  из  видов  семантических   связей   из приведенного  нами   списка,   т.   е.   об   асимметричности высказывания (или об отсутствии таковой).

     Заметим еще, что как виды так и типы  связей,  описанные здесь,      подразумевают      модальность      необходимости соответствующих высказываний. Например, для каузальной  связи "А вызывает В" имеется в  виду  "всегда  (или  необходимо)  А вызывает  В",  иначе  говоря,  в  случае  отсутствия  символа

модальности подразумевается  модальность  необходимости  (или универсальная квантификация по всем мирам) для  фиксированных А и В.

     Рассматривая  высказывания  с  другими   модальностями, следует, прежде всего, заметить, что  попытки  рассматривать оценки типа "возможно",  "часто",  "редко",  "нередко",  как функции принадлежности к некоторым  нечетким  отношениям, не дают механизма для описания  семантики  высказывания.  Кроме того, можно считать установленным, что  каждый  эксперт  при попытке  назначения  такой  оценки   учитывает   "глобальный контекст",  (т.е.   большое   число   различных   признаков, характеризующих ситуацию  в  целом);  иначе  говоря,  оценки такого рода  являются  глобальными  оценками,  определяемыми всей моделью мира каждого эксперта, т.е. его личным  опытом, некоторыми  другими  соображениями,  поэтому   естественно, значения  оценок   существенно  субъективны. Это  приводит  к тому, что  осознавая  это,  квалифицированные  эксперты  "на всякий случай" указывают оценки из середины шкалы.

     С другой стороны и  процедурное  значение  оценок  типа "часто", "редко" и т.д., понимаемых в количественном смысле, невелико. Самое большее они позволяют  ранжировать  гипотезы по степени их  субъективного  правдоподобия,  но  не  отдать предпочтение  той  или  иной  гипотезе.  При   решении   же, например, диагностической задачи важно выяснить,  при  какой болезни  наблюдаются  обнаруженные  у  больного  симптомы  и признаки и совсем неважно, частая эта болезнь или редкая.



     В то же время, по  поводу  качественных  высказываний вида "А есть признак В" или  "А  может  наблюдаться  при  В" мнения  различных  экспертов,  как  правило,   близки,   что свидетельствует как о локальности, (бинарности) связей в них зафиксированных, так и об их устойчивости, т.е. о достаточно высокой степени их объективности. В такой ситуации  разумным пониманием высказывания "А часто вызывает В" или "А  нередко сопровождается В" следует признать следующее: "наблюдение  А увеличивает возможность  наблюдения  В",  а  семантика  этих высказываний  связана  либо  с  наличием   общих   признаков содержания примеров А и В или с функциональной  зависимостью признаков В от признаков  А.  Иными  словами,  существует  a -пример А доставляющий  признаки  b - примера В.  Семантику

высказывания  "А  редко  сопровождается  В"  будем,   напротив, связывать с отсутствием общих признаков примеров a

и b или отсутствием  какой-либо  зависимости.    Модальности    "как правило"   и   "обычно"   будем   "элиминировать",    считая

высказывания "при a как  правило b"  и  "при a обычно b" эквивалентными высказыванию "b

характерно для a".

     Таким  образом,  наряду  со  связями   с   модальностью необходимости  можно   рассматривать   еще   и   связи   с модальностью возможности.  Эти  связи  отличаются  от  своих основных     форм     (с     модальностью     необходимости) нетранзитивностью.

     Примером связи   такого  рода  является   коррелятивная связь.

     Способы установления того или иного типа высказывания в интерактивном режиме основаны,  в  частности,  на  выявлении значений свойств  высказываний  и  реализованы  в  некоторых стратегиях   интерактивного    интерпретатора    экспертизы. Соответствующие методы описаны ниже.

     Однако совокупность рассмотренных  свойств  не  позволяет уточнить вид высказывания, т.е. отнести высказывание к одной из  связей  внутри  типа.


По-видимому,  это   принципиальное явление - семантически эти связи неразличимы, и если решение этого вопроса существует, то оно лежит не в семантике (в том смысле, в каком мы  употребляем  это  понятие  здесь),  а  в лексике.

3.2.4. Интервью. Интервью - основной из прямых методов.  Введем понятия понятия

стратегии и сценария интервью.

Определение 1.1. Приемы интервью, направленные  на выявление  каких-либо 

       элементов   модели  мира будем называть стратегиями.

     Определение 1.2. Схему применения тех или иных  стратегий  будем называть

           сценарием.

Если интервью не имеет сценария, то оно назывется неструктурированным, в противном случае – структурированным. Разумеется, если имеется ввиду автоматизированное интервью, то оно всегда - структурированное.

3.2.4.1. Выявение базиса понятий и их свойств.Стратегии

разбиения на ступени и репертуарной решетки.   

    

    Стратегия   разбиения   на ступени предназначена для выявления таксонометрической  структуры   событий

предметной  области, а также их  структурных и  классификационных   свойств. Она используется сценариями под названиями

     1. "Имя - свойство"  и

     2. "Множество имен - свойство".

      Сценарий выбирается экспертом. Возможны комбинированные сценарии.

     Сценарий "Имя - свойство".

Стратегия разбиения на ступени.

     1.1. Вопрос системы об имени события.

          Сообщение эксперта об имени события.

                1.2. Вопрос системы об имени признака события.

          Сообщение эксперта об имени признака.

                1.3. Вопрос  системы  о  существовании  множества  значений

признака.

          Ответ эксперта (Да/Нет).

     В   случае   отрицательного   ответа,   имя    признака

воспринимается  как  имя  события.  При  этом:  а)пара  (имя

события, введенного на шаге 1.1, имя события,  образованного

на шаге 1.3) считается принадлежащей отношению R1;

б)если имя события, образованного на шаге 1.3, отсутствовало



в базе знаний, то это событие рассматривается  как  новое  и

выполняется переход к п.1.2

     1.4. Вопрос системы о типе множества значений  признака

(непрерывное/дискретное).

          Соответствующий ответ эксперта.

     1.5. Вопрос системы о единице измерения признака.

          Сообщение эксперта о единице измерения.

     1.6.  Вопрос системы о  множестве   значений   признака

(границы непрерывного множества/элементы дискретного).

          Сообщения эксперта о множестве значений признака.

В процессе выполнения  шагов  1.2-1.6  создается  глобальный

объект: имя атрибута и область  его  значений.  Совокупность

таких объектов будем называть базисом  области.

     1.7. Вопрос системы о подмножестве  значений  атрибута,

характерного для описываемого события.

          Сообщения   эксперта   о   подмножестве   значений

атрибута.

     В результате выполнения шага 1.7 с описываемым объектом связывается один  из  элементов  базиса  области с указанием

подмножества    области    значений     элемента     базиса,

характеризующего   описываемый   объект,  т.е.  формируется

признак объекта.

    

Сценарий "Множество имен - свойство".

     При работе сценария «Множество имен – свойство» шаг 1.1 повторяется многократно,  а затем для каждого события выполняются шаги 1.2 - 1.7.

    

Стратегия репертуарной  решетки для выявления свойств объектов.

     Стратегия  репертуарной  решетки  использует   механизм

преодоления  когнитивной  защиты  эксперта,  основанный   на

методах когнитивной психологии.

     Механизм  преодоления  когнитивной  защиты  основан  на

выявлении  системы  личностных  психологических  конструктов

эксперта.    Каждый    конструкт   формируется в результате некоторой факторизации  множества   шкал,  каждая из которых,  в   свою   очередь,образуется оппозицией свойств. Наиболее  эффективный  способ выявления оппозитных свойств - предъявление  эксперту  триад семантически  связанных  событий  с   предложением   назвать свойство, отличающее  одно  событие  от  двух  других .  На следующем шаге эксперту предлагается назвать имя оппозитного свойства.



Таким  образом, выявляются   элементы   множества

личностных психологических конструктов конкретного эксперта.

С другой стороны, свойства, различающие события, это как раз

те свойства, которые влияют на формирование решения.

     Эта  процедура также используется  для  формирования  базиса области. Пополнение  базиса   области  осуществляется  путем повторения этой процедуры с другими триадами.

   3.2.4.2. Выявление    семантических    связей.

Выявление  и  представление  в системе семантических связей основано на  использовании их свойств, описанных выше.

Для этой цели будет использован сценарий выявления сходства.

     Сценарий выявления сходства основан на установлении в интерактивном  режиме  некоторых  свойств  высказываний (и, тем самым, предикатных слов), а именно, сохранения или изменения истинности высказывания  при перестановке  имен  событий;    сохранения   или   изменения истинности высказывания  при  подстановке  имен  совпадающих событий;    сравнении    истинности    двух    высказываний, отличающихся одно  от  другого  модальностью;  на  изменении формулировки высказывания  путем  уточнения  предикатного слова,  и порождении на этом основании гипотез  о  принадлежности  пар событий тем или иным семантическим связям.

Напомним вначале  рассмотренные  в  предыдущих  главах  типы высказываний и их свойства:

                                                                                     Табл 3.12.

ТИП СВЯЗИ

КАНОНИЧЕСКАЯ ФОРМА

СВОЙСТВА

I.   Gen(X,Y)

     Sit(X,Y)

     Neg(X,Y)

II.  Ins(X,Y)

III. Com(X,Y)

     Cor(X,Y)

IV.  Fin(X,Y)

     Cous(X,Y

     Pot(X,Y)

"X  является  элементом  Y"        

"X находится в ситуации   Y"       

"X отрицает Y"                     

"X  является  средством  Y"        

"X  сопровождается  Y"             

"X иногда увеличивает возможность Y"

"X  является  целью  Y"            

"X  вызывает  Y  "                 

"X  может вызывать Y"

Ntr Arf Ns

Tr  Arf  As

Ntr Arf  Sm

Ntr Nrf  Ns

Tr Rf   Ans

Ntr Rf   Sm

Ntr Arf  Ns

Tr  Nrf  Ns

Ntr Nrf  Ns

<


Возможны   и   модальные   формы семантических  связей,  которые  образуются  из  приведенных использованием   лексических   модальностей   "может"    или "иногда".

 Например,  модальная  форма  комитативной  связи, модально-комитативная связь с канонической формой  "X  может

сопровождаться Y", является нетранзитивной,  рефлексивной  и

несимметричной. Мы можем пополнить  таблицу этими связями.

    Рассматривая таблицу 3.1 2, обратим  вначале  внимание  на

то, что она разбита на 4 части.  В  первых  трех  частях  ее

содержатся     канонические     высказывательные      формы,

соответствующие семантическим связям, отражающим, синхронные

зависимости. Семантические связи из четвертой части отражают

диахронные зависимости.

     В   части  I  содержатся  связи,  обладающие  свойством

антирефлексивности, во второй - нерефлексивные, в третьей  -

рефлексивные.

     Среди антирефлексивных связей одна асимметричная,  одна

несимметричная  и  одна  симметричная.  Среди   рефлексивных

связей одна антисимметричная и одна симметричная.

     Таким образом, для определения типа связи среди связей,

имеющих синхронный характер, достаточно выявления свойств

рефлексивности и симметричности.

     В части  IV  ситуация  иная.  Все  три  связи  являются

несимметричными. Поэтому  для  определения  типа  связи  для

связей из группы IV требуется выявление  свойств рефлексивности и транзитивности.

     Приведенные соображения будут  использованы  далее  для

отнесения высказываний эксперта о тех  или  иных  конкретных

событиях к одному из  описанных  и  исследованных типов

связей.

     Необходимость использования этих  соображений   основана

на том, что отнесение высказывания эксперта к тому  или

иному  типу  связи  на  основании   лишь  его   лексического

выражения, к сожалению, невозможно.

     В частности, этот вывод следует из того,  что, как уже упоминалось,  сами  по себе предикатные слова ничего не именуют.   Это же  следует  и  из  других  хорошо известных  языковых явлений,   таких,   например, как полисемия естественного языка.



    При попытке классификации высказываний "в лоб"  эксперт

может опираться лишь на лексическое выражение предикатора  и

свою   собственную   его   интерпретацию. Однако, хорошо  известны случаи, когда  интерпретация  различными экспертами

даже,  казалось  бы  "очевидных"  предикатных слов,  таких   как "сопровождается",  "вызывает",  совпадала  "с  точностью  до  наоборот".  Поэтому  первоначальные соображения эксперта об отнесении некоторого  высказывания  к тому или иному типу связи мы будем  рассматривать  не  более чем гипотезу, нуждающуюся в уточнении.    

    Такое уточнение будет выполняться в интерактивном режиме с помощью сценария выявления сходства.

  

Сценарий выявления сходства.

 

     Сценарий выявления сходства реализуется с помощью некоторых стратегий, которые мы здесь опишем.

Каждая стратегия  S – интерактивная процедура, строящая минимальный универсум, обладающий определенным свойством,  соответствующим «метафорическому» свойству исследуемого высказывания.

Например,    если в процессе работы стратегии устанавливается, что    рассматриваемое высказывание обладает свойством Rf, то стратегия помещает пару имен (A,B), где A и B -   субъект  и объект этого высказывания, в множество, являющееся отношением, обладающим рефлексивностью. Иначе говоря, в это же множество вместе с парой (А.В) помещаются   и две пары:  (A,A)  и  (B,B). Затем к этому высказыванию применяются и другие стратегии, до тех пор, пока выявленных свойств высказывания не окажется достаточным, для однозначного отнесения его к определенному типу семантической связи. В результате этого процесса стратегия относит высказывание к определенному типу семантической связи, а множества, построенные таким образом, являются отношениями в точном  смысле этого слова. 

Таким  образом,  каждому  набору  «метафорических» свойств,  выявленных   для некоторого   высказывания,    оказывается    поставлено    в соответствие бинарное отношение, обладающее  именно  таковым набором свойств,  но  уже не в «метафорическом», но  в  точном  смысле.



 В  результате  каждое высказывание оказывается элементом  некоторого  отношения  с известными свойствами.

Опишем   упомянутые стратегии для   выявления   свойств

высказываний.

     Для выявления  свойств Rf,  Nrf  или  Arf  используется

Стратегия подстановки.

     Стратегия     подстановки.   Эксперту     предъявляется

высказывание, полученное  из  канонической  формы, в которой  вместо имен обоих событий подставлено  одно из  них  с  призывом  к  эксперту   сообщить   свое   мнение относительно истинности этого высказывания. В зависимости от ответа  эксперта  высказыванию  приписывается  то  или  иное значение Rf, Nrf или Arf.

     Пусть, например, речь  идет   о   поиске   типа семантической   связи    между    событиями    "вегетативные

расстройства"(X)  и  "головная  боль"(Y) и исследуется следующее высказывание "вегетативные расстройства сопровождаются головной болью».

Тогда из списка канонических форм (Табл. 3.12.)

 выбирается форма "X  сопровождается  Y", далее, стратегия               

выполняет подстановки: "вегетативные расстройства" -  вместо

X и  "вегетативные  расстройства"  вместо  Y  и  предъявляет

эксперту следующие вопросы:

     - считаете ли Вы высказывание

     "вегетативные расстройства сопровождаются вегетативными

расстройствами"  утверждением, которое

     1. является тавтологией;

     2. не исключено;

     3. невозможно.

Если  эксперт  указывает  первый  ответ,   то   высказыванию

"вегетативные расстройства  сопровождаются  головной  болью"

приписывается  свойство  Rf,

второй - Nrf; третий - Arf.

               

Опишем теперь три  процедуры, интерпретирующие ответы эксперта: [L], R1([L]) и R2([L]) и строящие множества, которые для простоты будут иметь те же обозначения, что и процедуры.

   

     Пусть высказывание Li = "A <предикатное слово> B" - из  некоторого множества  высказываний L. 

а)положим  [Li]= {(A,B)}; через [Li] обозначим множество, полученное на i-ом шаге процесса; [L0]= Æ;



 тогда

[Li]=[Li-1]È[ Li]; иначе говоря, процедура [Li] состоит в пополнении множества [Li-1] парой (A,B);

б)положим R1[Li]= {(A,B)} È {(A,A)} È {(B,B)};

R 1 [Li] = R1 [Li-1]È R1[Li]- т.е. для каждого высказывания L i  = множество [Li]пополняется парой  (A,B)  и  парами (A,A) и (B,B);

в) R2[Li] = R2[Li-1] È[ Li] если и только если A¹B;

    

    

     Лемма   3.1. Отношение R1[L] рефлексивно, R2[L]

антирефлексивно, [L] нерефлексивно.    

     Для определения  свойства Sm  или  отсутствия  такового

используется Стратегия перестановки.

Стратегия   перестановки.   Вместе    с    высказыванием

"A<предикатор>B",  эксперту  предъявляется  высказывание,  в

котором объект A заменен на B,  а B - на A. В  рассмотренном

выше примере ему будет предложено ответить,  справедливо  ли

утверждение, что

 "головная   боль   всегда   сопровождается    вегетативными

расстройствами ?"

                           ДА

                           НЕТ

     В   случае   утвердительного    ответа,    высказыванию

приписывается свойство Sm, в случае отрицательного - Ns.   С

Критерием перестановки  свяжем  следующую  процедуру R3(Li)

пополнения  множества  Mi-1:для  каждого  высказывания  Li="A

<предикатор> B" из L:   в  множество  Mi-1  помещаются  пары

(A,B)  и (B,A).

     Как и выше, положим   R3(L)= R3(L\Li)È R3(Li).

     Лемма 6.2. Отношение R3(L) симметрично.

     В том случае, если  высказывание  антирефлексивно  и  не

оказывается  симметричным,  для   идентификации   его   типа

необходимо уточнить характер  несимметричности  -  возможную

асимметричность.

     Для установления асимметричности используется  Критерий

обращения.

     Критерий   обращения.   Для   некоторого    конкретного

высказывания "A  <предикатор>  B",    эксперту  предлагается

подтвердить принадлежность высказывания "B  <предикатор>  A"



какому- либо высказыванию из последней  графы  таблиц  1-9  из

главы 2. Если  эксперт  подтвердил,   и   высказывания   "A

<предикатор> B" и "B  <предикатор>  A"  оказались  в  разных

таблицах, то высказыванию "A <предикатор>  B"  приписывается

свойство As.

     Для  выявления  транзитивности  используется   Критерий

трансформации.

     Критерий   трансформации.   Критерий   заключается    в

предъявлении  эксперту  новой   формулировки   высказывания,

такой, которая, с  одной  стороны,  исключает  неоднозначное

толкование  экспертом,  с  другой  - уточняет   формулировку

высказывания. Так, для каузального типа такой трансформацией

(уточнением) является "Если A то необходимо появится B".

 В   случае   подтверждения   ее   экспертом,   высказыванию

приписывается свойство Tr, иначе связь - Ntr.

     Этот критерий основан на том,  что  в  четвертой  части

приведенной выше таблицы две   похожие  канонических  формы

Cоus и Pot отличаются друг от друга тем, что в Pot участвует

модальность возможности, в отличие от  Cous,  в  образовании

которой участвует модальность  необходимости.  Что  касается

формы   Fin,   то    она    отличается    от    них    своей

антирефлексивностью.

     Если рассмотреть процесс  R4(Li),  который  для  каждого

высказывания  "A  <предикатор>  B"  из  L  высказывания   "B

<предикатор>  C"  (или  высказывания  "D  <предикатор>   A")

помещает  в  Mi-1 пары   (A,B)   и   (A,C)   (или   (D,B)),

соответственно, то легко видеть, что имеет место

   Лемма 6.3.  Отношение R4(L) транзитивно.  (Как  и  ранее,

полагаем  R4(L)= R4(L\Li)È R4(Li)).

     И, наконец, процедура R0(Li,M), которая для пары  (A,B)

высказывания Li

="A<предикатор>B" из L и бинарного  отношения

Mi-1    строит в Mi-1  все цепи  вида  (A1,A2),...(Ak,A)  и

образует множество Mi-1È(A,B) если и только если B¹Ak  ни для



какого k, т.е., если пара (A,B) не превращает никакую цепь из

Mi-1 в цикл.

  

  Лемма  6.4. R3(R2(Q))= R2(R3(Q)); R3(R1(Q)= R1(R3(Q ))

  Лемма 6.5. Если в Q нет циклов, то

           

 R4(R2(Q))= R2(R4(Q));

            R4(R1(Q))= R1(R4(Q)).

     Используем введенные Критерии и установленные факты для

описания   метода   установления   типов   тех   или    иных

высказываний.

     Этот метод будем называть стратегией выявления сходства

SAS.

    

Сценарий выявления сходства опишем как систему правил.

     Через Li  будем обозначать текущее высказывание.

     Введем  вначале  метаправило,  определяющее  дисциплину

выполнения выписанных ниже правил:

     0. Во  всех  тех  случаях,  когда  в  приведенных  ниже

правилах переход явно не  определен,  запускается  ближайшее

следующее в порядке  возрастания  номеров  правило,  условие

которого к этому моменту оказалось выполненным.

     1. Эксперту  предъявляется  множество  имен  событий  и

предлагается  указать  в  этом  множестве  пару  имен  таких

событий, которые, на его взгляд, связаны между собой.

     2.Если эксперт  отказывается  указать  такую  пару,  то

сценарий  заканчивает  ;   если указывает,  например,  A  и  B, то  эта  пара  имен  событий

подставляется  в  канонические  формы  высказываний  вначале

всюду вместо X - A и вместо Y -  B  (первая  часть  списка),

затем, всюду вместо X -  B,  вместо  Y  -  A  (вторая  часть

списка), формируя тем самым некоторый  список  (в  указанном

порядке).

     3.Полученные в  результате  высказывания  предъявляются

эксперту в виде указанного списка с предложением выбрать  из

них высказывание, наиболее соответствующее связи между A и B.

     4.Если эксперт отказывается указать какую-либо из  них,

стратегия заканчивает работу; если указывает какое-либо из  высказываний,  то  формируется признак F,  если  высказывание  указано  в  первой  половине

списка, и признак S, если во второй;

     5. Для указанного в п  4.  высказывания  Li (пусть,  для



определенности, "A<предикатор>B"  ),  эксперту  предлагается

уточнить, появляются ли оба события A и B этого высказывания

одновременно или в разные моменты времени;

     6. Если ответ- одновременно, то формируется  признак  J,

иначе,  формируется  признак  D.

     7. Запускается работа Критерия подстановки применительно

 к указанному экспертом высказыванию "A<предикатор>B".

     8. Если сформирован признак J и один  из  признаков  Rf

или Arf, то применительно к   высказыванию  "A<предикатор>B"

запускается Критерий перестановки;

     9. Если сформирован признак J и не  сформирован  признак

Sm,  то  применительно  к    высказыванию   "A<предикатор>B"

запускается Критерий обращения;

     10. Если сформирован признак J, не сформирован  признак

Sm и сформирован признак Rf  или  Arf,  то  применительно  к

высказыванию    "A<предикатор>B"    запускается     Критерий

трансформации;

     11. Если  сформирован  признак  D  и  признак  Nrf,  то

применительно к  высказыванию  "A<предикатор>B"  запускается

Критерий трансформации;

     12. Если сформированы признаки F,J,Arf и не сформирован

признак  Sm,  то  Li   относится  к  типу  связи    Gen(A,B);

Q10 :=Q10 È Li ; выполняется процедура R2(Q10);

     13. Если  сформированы  признаки  F,J,Arf,As,Tr  то  Li

относится к  типу  связи  Sit(A,B);Q6 := R0(Q6,Li);выполняется

процедура R4(R2(Q6));

     14.  Если  сформированы  признаки  F,J,Arf,Sm   то   Li

относится к типу связи  Neg(A,B);  Q4 :=Q4 È Li;  выполняется

процедура R3(R2(Q4));

     15. Если сформированы признаки F,J,Nrf и не сформирован

признак Sm, то тип связи Ins(A,B); Q5:=Q5 È Li;  выполняется

процедура [Q5];

     16.  Если  сформированы   признаки   F,J,Rf,Tr   и   не

сформирован       признак       Sm,то       тип        связи

Com(A,B);Q1 := R0(Q1,Li);выполняется процедура  R4(R1(Q1));

     17.  Если  сформированы  признаки   F,J,Rf,Ntr   и   не



сформирован признак Sm, то тип связи  Mcom(A,B);  Q2:=Q2ÈLi;

выполняется процедура R1(Q2));

     18. Если сформированы признаки F,J,Rf,Sm, то тип  связи

       Cor(A,B);Q3 :=Q3 È Li ; выполняется процедура R3(R1(Q3));

     19.Если сформированы признаки F,D,Ntr,Arf, то тип связи

       Fin(A,B);Q9 :=Q9 È Li ; выполняется процедура R2(Q9));

     20.Если сформированы признаки F,D,Tr,Nrf, то тип  связи

      Cous(A,B);Q7 :=Q7 È Li; выполняется процедура  R4(Q7));

     21.Если сформированы признаки F,D,Ntr,Nrf, то тип связи

          Pot(A,B);Q8 :=Q8 È Li; выполняется процедура [Q8].

     Приведем без доказательства следующие утверждения.

     Теорема   6.1.   (О   корректности   стратегии).   Если

высказыванию  Li   "A<предикатор>B"  (где  A   и   B   - имена

конкретных  событий)  стратегией  приписан   некоторый   тип

семантической связи, то этот тип - единственный.

     Теорема 6.2. Каждое высказывание, отнесенное стратегией

к  некоторому  типу,  однозначным  образом  преобразуется  в

элемент некоторого бинарного отношения на множестве  событий

, обладающего следующими свойствами:

а)нетранзитивное, антирефлексивное, несимметричное -  R2(Q10);

б)транзитивное,     антирефлексивное,     несимметричное -

  R4(R2(Q6));

в)нетранзитивное, антирефлексивное, симметричное- R3(R2(Q4));

г)нетранзитивное, нерефлексивное  и несимметричное- [Q5];

д)транзитивное, рефлексивное и антисимметричное-  R4(R1(Q1));

е)нетранзитивное, нерефлексивное, и несимметричное -   R1(Q2);

ж) нетранзитивное, рефлексивное, симметричное-  R3(R1(Q3));

з)нетранзитивное, антирефлексимное, несимметричное- R2(Q9));

и)транзитивное, нерефлексивное, несимметричное-  R4(Q7));

к)нетранзитивное, нерефлексивное, несимметричное-   [Q8].

     Таким  образом,  стратегия  выявления  сходства  каждое

высказывание  превращает  в  элемент  некоторого  отношения,

которое задается своими  свойствами.  Причем  это  отнесение



выполняется в полном  соответствии  с  такими  неформальными

свойствами высказываний , как Ntr, Rf,Ns, Sm, Arf и другими,

которые выявляются в процессе  работы  стратегии  выявления

сходства.

     Если мы сейчас рассмотрим те отношения, которые  строит

стратегия выявления сходства (обозначим это семейство  через

S), то увидим, что по совокупностям свойств  отношений  и  с

учетом их синхронного или диахронного  характера,

т.е. с учетом  признака  J  или  D,  у   отношений   из  S,

вырабатываемого  стратегией,  и   признака   f*  (или   его

отсутствия) у  отношений  из  R (см.  гл.3),  можно  задать

взаимно однозначное соответствие  двух  семейств  отношений:

построенного здесь  семейства  S   и  описанного  в  главе  3

семейства R.

    

Лемма 6.6. Каждому отношению из семейства S,  указанному

совокупностью    своих    свойств    {J,D},     {тр.,нетр.},

{реф.,антир.,нер.},   {сим.,    антис.,нес.,ас.} по    одному

свойству из каждого  множества,  соответствует  единственное

отношение из  семейства  R,  также  указанное  совокупностью

своих свойств   {функц.,  нефункц.},  {тр.,  нетр.},  {реф.,

антир., нер.}, {сим., антис., нес., ас.} по одному  свойству

из каждого множества.

     (Здесь обозначения "функц.,нефункц."  указывают на  то,

является ли отношение функциональным или нет, т.е. имеет  ли

оно верхний индекс f*  или не имеет (см. гл.3); для  экономии

места употреблены сокращения названий свойств).

    Теорема   6.3.  Стратегия   выявления   сходства   есть

(частичное)  отображение   из   множества   высказываний   в

семейство отношений R.

    Вернемся  к интуитивной семантике высказываний, описанной

в конце второй главы. На основе ее анализа был сформулирован

принцип наименьшей сложности экспертизы. Этот  принцип

и интуитивная семантика высказываний   легли в основу

теоретико-множественной семантики отношений из семейства R.

     Уже  на  основании  этого  можно  сделать  вывод,   что

высказывания, рассматриваемые нами, устроены таким  образом,



что  они  вполне  могут  являться  элементами  отношений  из

семейства R.

     Далее, с  помощью  стратегии  SAS  выявляются  свойства

высказываний. Для каждого набора этих  свойств  строятся  те

отношения (семейство S),на которых эти свойства реализуются.

Причем  сами  высказывания,  точнее,  входящие  в  них   пары

событий, становятся элементами  отношений  из  семейства S.

Оказалось, что построенные таким образом отношения  обладают

теми же совокупностями свойств, что и отношения из семейства

R. Это позволило установить взаимно-однозначное соответствие

между S и R.

     Таким образом,

 а) элементы отношений из S (полученные из  высказываний)  и

элементы отношений из R имеют  одинаковое  устройство;

  б) существует взаимно-однозначное отображение из  S   в R.

Эти соображения служат достаточно веским обоснованием вывода

о том, что все элементы  каждого  отношения  из S являются

элементами  соответствующего  (в   смысле   отображения X)

отношения из R.

    

3.3. Приобретение знаний из примеров

     Следующий источник  знаний  -  это  множество  примеров предметной  области.  В  этой   связи   можно   говорить   о соответствующих методах приобретения знаний  -  приобретении знаний из примеров.

     Приобретение знаний из примеров тесно связано с  обучением по примерам или машинным обучением.      Традиционно к задачам обучения  по  примерам  относятся

задачи  прогнозирования,  идентификации  (синтеза)  функций, расшифровки языков, индуктивного вывода и синтеза с дополнительной информацией.

 В широком смысле к обучению по  примерам  можно  отнести  и методы обучения распознаванию образов , методы  вывода по аналогии, обучение по прецедентам.

    Обучение на основе прецедентов  -  настройка  алгоритма распознавания на задачу посредством  предъявления  примеров, классификация которых известна.

Наиболее продвинутыми среди методов машинного  обучения  является алгебраический подход к распознаванию образов, предложеный Ю.И.Журавлевым,  в  котором  предусматривается обогащение исходных эвристических алгоритмов с  помощью  алгебраических  операций и построение семейства алгоритмов,  гарантирующего получение  корректного  алгоритма  для  решения изучаемого класса задач, т.е.


алгоритма, правильно классифицирующего выборку по всем классам.

Методам распознвания образов посвящена обширная литература и они образуют самостоятельную научную дисцилину.

Здесь мы коснемся одного из типов методов машинного обучения, так называемых методов конструктивной индукции.

3.3.1  Индуктивный алгоритм  построения деревьев решений.

 Введение.  Раасмотрим  классический вариант top – down индукции для построения деревьев решений (TDIDT). Коротко можно сказать что в его основе лежит принцип  «разделяй и властвуй». Строится дерево решений, рекурсивно разделяющее области пространства примеров  на подобласти, таким образом, что каждая вершина дерева соответствует при этом подобласти пространства примеров. Корень дерева соответствует всему пространству примеров. Его потомки делят пространство примеров на непересекающиеся области. Этот процесс  применяется к каждому листу дерева. Каждая такая вершина (лист) помечается меткой, которая обозначает множество примеров, принадлежащих соответствующей области. Каждая внутренняя вершина класса (т.е. вершина, не обозначающая ничего, кроме самой себя) соответствует  какому-либо значению некоторого атрибута. 

TDIDT обычно включает два шага – построение новых ветвей и редукцию, т.е. удаление ветвей. На первом шаге дерево решений строится так, чтобы в максимальной степени соответствовать обучающей выборке. На втором шаге этот «изоморфизм» превращается в «гомоморфизм», так редукция дерева приводит к уменьшению числа его вершин

Алгоритм построения новых ветвей.

Пусть S – полное множество примеров.

Шаг 1. Поиск «лучшего» атрибута Ai;

Шаг 2.Расщепление множества S на подмножества S1, S2, …, Sn,  так, чтобы все примеры из подмножества Sj имели одинаковые значения  vij

атрибута Ai;

Шаг 3. Для каждого множества Sj: если все примеры в Sj

принадлежат одному и тому же классу Ck

(имеющему ту же метку класса), то создать лист дерева решений и пометить меткой этого класса. Иначе перейти к  1, положив  S = Sj.

Алгоритм заканчивает работу, когда все подмножества помечены, либо отсутствуют атрибуты, разделяющие непомеченные множества.



Что такое лучший атрибут и как его найти? Достаточно разумный критерий основан на подсчете количества классов  Ck в каждом из подмножеств, порожденных различными значениями атрибутов.    Более точно, функция, используемая для выбора каждого очередного атрибута - кандидата Ai,  должна увеличивать (по сравнению с  исходной ситуацией) информацию о классах, помечающих   обучающие выборки при разбиении рассматриваемого множества S  на подмножества S1, S2, …, Sn в соответствии со значением атрибута  Ai. Эта функция  реализуется  некоторой  индуктивной процедурой. Общая цель этих действий состоит в том, чтобы построенное дерево было минимальным, насколько это возможно без потери точности.

В частности, для оценки «качества» признака можно использовать информационную функцию полезности. 

Пусть
 вероятность того, что случайно взятый из Sj пример есть Ck.  Она может быть оценена относительной частотой
, где
 - число примеров Ck  в Sj и nj – число классов в Sj. Энтропия (по Шеннону) подмножества Sj  вычисляется по следующей формуле:

.

Пусть значения атрибута Ai расщепляют множество S примеров на подмножества Sj. Тогда энтропия семейства  подмножеств Sj порожденных значениями   Ai есть:

  
,

где P(Sj) есть вероятность принадлежности некоторого примера Sj и оценивается отношением мощностей подмножеств Sj  к мощности S:

  
.

Увеличение информации при таком расщеплении происходит благодаря уменьшению энтропии:

  
,

где H(S) есть априорная (до расщепления) энтропия S.

Таким образом, вариант TDIDT алгоритма для численных значений признаков выглядит следующим образом:

1.        Использовать величину энтропии для поиска оптимального расщепления для каждого числового атрибута;

2.        Определить такой атрибут, расщепление посредством которого максимизирует энтропию при делении множества примеров на два подмножества;

3.        Если критерий окончания не выполняется, повторить процедуру для каждого из подмножеств.



Отсечение ветвей. Ряд проблем может существенно снизить качество полученного решения. Одна из них связана с тем, что часть дерева,  заканчивающаяся меткой класса, может быть порождена примерами, являющимися «шумными»  в том  смысле, что значимость признака выбрана  ошибочным образом. Вторая связана с тем, что если число признаков велико, дерево может содержать ветви, порожденные случайными свойствами, являющиеся нерелевантными корректной классификации. Наконец, очень большие деревья трудно интерпретировать, и для пользователя они будут «черными ящиками». 

                        По всем указанным  причинам иногда может быть  полезно сократить построенное дерево, отсекая некоторые ветви. В принципе, возможны два подхода к отсечению ветовей: он-лайновый интерактивный и постсокращение. Онлайновое  отсечение ветвей не позволяет дереву расти, когда значение функции полезности, связанное с  разделением набора примеров падает ниже некоторого порога. Постсокращение позволяет отсечь некоторые ветви дерева после завершения его построения.

                        Один из наиболее известных подходов к сокращению был разработан И.Братко в 1986 году. И.Братко предложил отсекать ветви таким образом, чтобы минимизирвать полную ожидаемую ошибку классификации на новых примерах. Для этой цели ошибка классификации подсчитывается для каждого узла в дереве. В листьях дерева для оценки ошибки используются методы теории вероятности. Например, можно использовать формулу Лапласа. 

                        Для узлов, не являющихся листьями дерева решения,  ошибка классификации вычисляется как взвешенная сумма  ошибок классификации поддеревьев каждого из узлов. Вес полагается равной относительной частоте примеров, «передаваемых» из узла в соответствующие поддеревья. Далее ошибка классификации в «нелиственном» узле оценивается для случая отсечения ветвей, исходящих из него так что он становится листом.  Если эта оценка меньше, чем предыдущая, то соответствующие поддеревья отсекаются.


Этот процесс распространяется от основания дерева к его листьям до тех пор, пока оценки ошибки уменьшаются.

                Преимущества постсокращения  по сравнению с интерактивными методами состоят в том, что при постсокращении можно учесть глобальные свойства дерева классификации, в то время как при интерактивном отсечении ветвей минимум ошибки может оказаться локальным. Возможны и комбинированные подходы.

3.4. Приобретение знаний из текстов

Методы выявления знаний из текста наименее разработаны. В  тех  же  немногих  случаях,  когда  они  так  или   иначе используются  в  интересующем  нас  качестве,   речь,    как правило,    идет    о    достаточно    почтенных     методах лексико-семантического анализа, а  также  моделях  понимания текста на лингвистическом  и  семантическом  уровнях.  Более продвинутыми являются модели  понимания  на  лингвистическом уровне. Системы, основанные на  них,  состоят  в  большинстве случаев  из  двух  частей:  первая   -   морфологический   и синтаксический анализ; вторая - семантический анализ,  который использует результаты работы первой части, а также словарную или справочную информацию  для  построения  формализованного образа текста.

     Понимание текста на семантическом  уровне  предполагает выявление  не   только   лингвистических, но   и   логических отношений  между  языковыми  объектами.  Среди  подходов   к пониманию текста на семантическом  уровне  следует  выделить модели типа  "Cмысл-Текст".  В  частности,  модель  семантик предпочтения , модель концептуальной зависимости.  В  модели

"Смысл - Текст" предлагается семантическое представление  на основе  семантического  графа   и  описания  коммуникативной структуры текста.

    Уточняя задачу,  можно  сказать,  что  всякие  отношения текста с его семантикой начинаются после того, как  в  нашем распоряжении оказывается некоторая модель  действительности. Объектами такой модели, в частности, могут являться индивиды и отношения.

     Отношения  модели  можно  определить  одним   из   двух способов: перечислением всех n-ок, т.е.


экстенсионально,  или описанием   свойств   отношения,   т.е. интенсионально.   Нет необходимости доказывать, что первый способ далеко не всегда применим.

    

3.2.5. Проблемы приобретения знаний.

Для  использования  методов  обучения   по   примерам  в построении семиотических систем необходимо решение следующих  задач:

-сопряжение   независимо  созданных  баз   данных,   имеющих

различные схемы, с семиотической базой знаний;

-установление соответствия между набором полей базы данных и

множеством элементов декларативной компоненты СБЗ;

-преобразование результата работы алгоритма обучения в способ

представления, поддерживаемый СБЗ.

     Первая проблема,  встающая  при  попытках автоматического извлечения знаний  из  текста - это  выявление свойств элементов текста для соотнесения  этих  элементов  с объектами модели. Крайне редко эти свойства  присутствуют  в тексте эксплицитно.  Например, информацию  о  транзитивности некоторого бинарного  отношения,  выявленного  на  основании анализа текста, вряд ли можно извлечь из текста,  но  именно

она важна для идентификации и использования этого отношения.      Вторая   особенность   существующих   систем    анализа текста - это, как правило, необходимость использования словаря предметной области как компоненты   системы  для  выполнения ряда  фаз  выявления  знаний   из   текста,   в   частности, морфологического анализа, выделения имен и словосочетаний  и т.д. Однако, требование  предварительного  создания  словаря предметной области,  сильно  осложняет  задачу  и  уменьшает степень   универсальности   получаемой   системы.   Поэтому,

возникает задача рассматривать построение словаря предметной области также как задачу приобретения знаний.

     Таким образом, использовании методов анализа  текста  в качестве источника знаний  для  построения  СБЗ  осложняется следующими трудностями:

-в тексте  отсутствует  в  эксплицитном  виде  информация  о свойствах элементов текста (имен, предикатов,  предложений), необходимая  для  работы  методов  приобретения  знаний   из текстов. - в большинстве случаев отсутствует заранее  "заготовленный" словарь предметной области.



3.4. Индуктивный алгоритм  построения деревьев решений.

 Введение

Классический вариант top – down индукции для построения деревьев решений (TDIDT) основан на методе «разделяй и властвуй». Дерево решений рекурсивно разделяет области пространства примеров  на подобласти, таким образом, что каждая вершина дерева соответствует при этом подобласти пространства примеров. Корень дерева соответствует всему пространству примеров. Его потомки делят пространство примеров на непересекающиеся области. Этот процесс  применяется к каждому листу дерева. Каждая такая вершина (лист) помечается меткой, которая обозначает множество примеров, принадлежащих соответствующей области. Каждая внутренняя вершина класса (т.е. вершина, не обозначающая ничего, кроме самой себя) соответствует  какому-либо значению некоторого атрибута. 

TDIDT обычно включает два шага – построение новых ветвей и редукцию, т.е. удаление ветвей. На первом шаге дерево решений строится так, чтобы в максимальной степени соответствовать обучающей выборке. На втором шаге этот «изоморфизм» превращается в «гомоморфизм», так редукция дерева приводит к уменьшению числа его вершин.

3.4.1. Алгоритмы.

Алгоритм построения новых ветвей.

Пусть S – полное множество примеров.

1. Поиск «лучшего» атрибута Ai;

2.        Расщепление множества S на подмножества S1, S2, …, Sn,  так, чтобы все примеры из подмножества Sj имели одинаковые значения  vij

атрибута Ai;

3.        Для каждого множества Sj: если все примеры в Sj

принадлежат одному и тому же классу Ck

(имеющему ту же метку класса), то создать лист дерева решений и пометить меткой этого класса. Иначе перейти к  1, положив  S = Sj.

Алгоритм заканчивает работу, когда все подмножества помечены, либо отсутствуют атрибуты, разделяющие непомеченные множества.

Что такое лучший атрибут и как его найти? Достаточно разумный критерий основан на подсчете количества классов  Ck в каждом из подмножеств, порожденных различными значениями атрибутов.    Более точно, функция, используемая для выбора каждого очередного атрибута - кандидата Ai,  должна увеличивать (по сравнению с  исходной ситуацией) информацию о классах, помечающих   обучающие выборки при разбиении рассматриваемого множества S  на подмножества S1, S2, …, Sn в соответствии со значением атрибута  Ai.


Эта функция  реализуется  некоторой  индуктивной процедурой. Общая цель этих действий состоит в том, чтобы построенное дерево было минимальным, насколько это возможно без потери точности.

В частности, для оценки «качества» признака можно использовать информационную функцию полезности. 

Пусть
 вероятность того, что случайно взятый из Sj пример есть Ck.  Она может быть оценена относительной частотой
, где
 - число примеров Ck  в Sj и nj – число классов в Sj. Энтропия (по Шеннону) подмножества Sj  вычисляется по следующей формуле:

.

Пусть значения атрибута Ai расщепляют множество S примеров на подмножества Sj. Тогда энтропия семейства  подмножеств Sj порожденных значениями   Ai есть:

  
,

где P(Sj) есть вероятность принадлежности некоторого примера Sj и оценивается отношением мощностей подмножеств Sj  к мощности S:

  
.

Увеличение информации при таком расщеплении происходит благодаря уменьшению энтропии:

  
,

где H(S) есть априорная (до расщепления) энтропия S.

Таким образом, численная версия  TDIDT алгоритма выглядит следующим образом:

4.        Использовать величину энтропии для поиска оптимального расщепления для каждого числового атрибута;

5.        Определить такой атрибут, расщепление посредством которого максимизирует энтропию при делении множества примеров на два подмножества;

6.        Если критерий окончания не выполняется, повторить процедуру для каждого из подмножеств.

Отсечение ветвей.

Ряд проблем может существенно снизить качество полученного решения. Одна из них связана с тем, что часть дерева,  заканчивающаяся меткой класса, может быть порождена примерами, являющимися «шумными»  в том  смысле, что значимость признака выбрана  ошибочным образом. Вторая связана с тем, что если число признаков велико, дерево может содержать ветви, порожденные случайными свойствами, являющиеся нерелевантными корректной классификации.


Наконец, очень большие деревья трудно интерпретировать, и для пользователя они будут «черными ящиками». 

                        По всем указанным  причинам иногда может быть  полезно сократить построенное дерево, отсекая некоторые ветви. В принципе, возможны два подхода к отсечению ветовей: он-лайновый интерактивный и постсокращение. Онлайновое  отсечение ветвей не позволяет дереву расти, когда значение функции полезности, связанное с  разделением набора примеров падает ниже некоторого порога. Постсокращение позволяет отсечь некоторые ветви дерева после завершения его построения.

                        Один из наиболее известных подходов к сокращению был разработан И.Братко [1986]. И.Братко предложил отсекать ветви таким образом, чтобы минимизирвать полную ожидаемую ошибку классификации на новых примерах. Для этой цели ошибка классификации подсчитывается для каждого узла в дереве. В листьях дерева для оценки ошибки используются методы теории вероятности. Например, можно использовать формулу Лапласа. 

                        Для узлов, не являющихся листьями дерева решения,  ошибка классификации вычисляется как взвешенная сумма  ошибок классификации поддеревьев каждого из узлов. Вес полагается равной относительной частоте примеров, «передаваемых» из узла в соответствующие поддеревья. Далее ошибка классификации в «нелиственном» узле оценивается для случая отсечения ветвей, исходящих из него, так что он становится листом.  Если эта оценка меньше, чем предыдущая, то соответствующие поддеревья отсекаются. Этот процесс распространяется от основания дерева к его листьям до тех пор, пока оценки ошибки уменьшаются.

                        Преимущества постсокращения  по сравнению с интерактивными методами состоят в том, что при постсокращении можно учесть глобальные свойства дерева классификации, в то время как при интерактивном отсечении ветвей минимум ошибки может оказаться локальным. Возможны и комбинированные подходы.


Содержание раздела