Главная
страница 1страница 2 ... страница 4страница 5


МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ

(государственный университет)
Факультет общей и прикладной физики
КАФЕДРА СИСТЕМНОЙ ИНТЕГРАЦИИ И МЕНЕДЖМЕНТА
Рыков В.В.


ОБРАБОТКА НЕЧИСЛОВОЙ ИНФОРМАЦИИ. УПРАВЛЕНИЕ ЗНАНИЯМИ.

Методическое пособие по спецкурсам



Москва. МФТИ 2005 г.
Содержание

Аннотация 4

Предисловие 5

Часть 1. Знаковые системы и информатика 10

Знаковые системы. 13

Знаковые системы в культуре. Типы знаков. Классификация знаков по Ч. Пирсу 13

Понятие коннотата. 14

Проблема похожести знака на денотат - ономатопея 15

Случайность и закономерность в знаках и знаковых системах 16

Словари и слова. Теория тезауруса. Тезаурусы в информатике. 16

Акты именования. Семиотические универсалии. 17

Треугольник Фреге. Связь между знаком, денотатом и понятием. 18

Теория тезауруса. 19

Парадигмы реализации знаковых систем. 26

Семиотические основы организации эффективной бизнес деятельности. 26

Основы теории документа. 26

Теории автоматического анализа знаковых систем 26


Аннотация


Настоящее методическое пособие написано по материалам курсов «Обработка нечисловой информации» и «Управление знаниями», читавшихся в качестве спецкурсов в МФТИ, и описывает базовые понятия, вошедшие в состав обоих курсов. В частности, в данном пособии описываются основы функционирования знаковых систем (семиотика), парадигмы обработки наиболее массовых знаковых структур (текстов), основы и критерии эффективности знаковой коммуникации. В работе далее описываются синтактика, семантика и прагматика основных когнитивных структур, применяемых в системах обработки знаний. В заключение описывается пример приложения этих понятий для описания элементарных процессов экономической деятельности (бизнес процессов).

Предисловие

На современном этапе развития научно-технического деятельности характерно нарастание и даже доминирования неформализуемых или плохо формализуемых проблем, алгоритмического решения которых не существует или не может быть реализовано на базе существующих программно-аппаратных средств. Более того, при попытках реализации некоторых проблем часто приходится сталкиваться с необходимостью взаимодействия с пользователями, не являющимися профессиональными программистами или математиками. Приходится организовывать их взаимодействие с самого различного рода системами на понятном им естественном языке. Следовательно, нужно знать самые общие закономерности обработки нечисловой информации и организации знаний. Исходя из этих соображений построен состав учебного материала и цели двух семестровых курсов – «Обработка нечисловой информации» и «Управление знаниями». Они определяются двумя описанными выше факторами – наличием пользователей, не являющимися профессионалами в информатике, и необходимостью решать плохо формализуемые проблемы.

Настоящее пособие написано по материалам этих двух семестровых спецкурсов, которые читаются на кафедре СИМ ФОПФ с 1999 года. Эти спецкурсы также являются курсами по выбору кафедры Информатики МФТИ. В эти курсы входят достаточно сложные понятия из разных наук, которые необходимо освоить для успешного построения эффективных информационных систем, удовлетворяющим сформулированным выше принципам. Поэтому изложение, как правило, преследует цель объяснить эти понятия максимально просто, не вдаваясь в ненужные непосвященному читателю подробности. По этой же причине материал пособия содержит достаточно живые примеры, которые приводятся также для того, чтобы облегчить читателю понимание теоретической части курсов.

Тем не менее, в состав курсов входят также лабораторные работы, помогающие на практике освоить излагаемые теоретические основы. Так, лабораторная работа по теории грамматического разбора предложения, построенная на базе программы SENAN, написанной на языке пролог, позволяет студенту самостоятельно сконструировать свою программу грамматического разбора предложения на естественном языке (английском, русском), реализовав и проанализировав простейший диалог с пользователем на естественном языке.. Другая лабораторная работа, построенная на базе прологовской программы GEOBASE, реализует не только интерфейс на естественном языке с самостоятельно построенной базой знаний по любой предметной области, но и обрабатывать сформулированные на выбранном языке информационные запросы. В состав курсов входят также лабораторные работы по построению экспертных систем, описанию знаний на языке высокого уровня, а также самостоятельное описание простейших структур, описывающих знания - онтологий. Завершает курс лабораторная работа по бизнес моделированию. При необходимости лабораторные работы могут быть изданы отдельным пособием.

Автор выражает благодарность коллективу кафедр СИМ ФОПФ и межфакультетской кафедры Информатики за поддержку.

Введение

Практическая деятельность человека чаще всего выражается в его действиях над самыми разными объектами. В процессе интеграции такой деятельности в современную информационную систему (ИС) ее принято описывать так называемыми бизнес процессами, состоящими из бизнес действий над бизнес объектами. Сейчас так модно описывать многие виды и составные части деятельности человека словами с приставкой «бизнес». Причины и необходимость этого явления также изучаются в данном курсе.

Как правило, проектирование ИС происходит при той или иной форме взаимодействия заказчика, знающего свою предметную область (ПО), в которой протекает деятельность, которую требуется интегрировать в ИС, и постановщиком (аналитиком). Взаимодействие между ними реализуется сначала на словесном (знаковом) уровне и начинается с выяснения границ ПО – то есть набора объектов и действий над ними. Как правило, желательным результатом этого первого этапа создания ИС является процессная схема, представленная в графическом виде в определенной знаковой нотации. Существуют программные системы, позволяющие проверить такую нотацию на непротиворечивость и соответствие стандартам (ARIS, BPwin и др.) [1, 4, 5, 6].

На втором этапе приходится расщеплять составленную ранее процессную схему на рутинную и творческую составляющие. Здесь реализуется так называемый принцип рутинного подкрепления творческих процессов принятия решений - процедура проектирования сводится к выделению автоматизируемых бизнес процессов, которые могли бы протекать без вмешательства человека и последующей инкорпорации их в построенную процессную схему, соединение их с творческими, неформализуемыми составляющими ИС. Далее, на третьем этапе, каждый из объектов, определяющих рутинные составляющие, подвергается дальнейшей формализации с целью записи их в базу данных (БД) – т.е. с целью описания их как частей полностью автоматизированного бизнес процесса [1].

В процессе выполнения этих трех этапов ставшей уже классической схемы приходится сталкиваться в той или иной форме с проблемами интеграции в единую ИС совершенно разнородных бизнес объектов. Наиболее проблемным является третий этап – построение формальной модели программно реализованного бизнес процесса, выполняемого без вмешательства человека. В сфере финансовых услуг, где такие процессы используются в наибольшей степени, их называют процессами класса Straight Through Processing (STP) или по-русски это называется «сквозная обработка данных» [4,5].

Следовательно, для того, чтобы спроектировать такой бизнес процесс, который на многих этапах может выполняться без вмешательства человека, нужно решить следующие проблемы [3,6,7]:



  1. Интегрировать в него все необходимые бизнес объекты (Datasource Integration). Дело в том, что они могут иметь самый разнообразный формат и природу. Это могут быть БД разных систем, сообщения, файлы и многое другое, содержащие, в свою очередь таблицы, документы, транзакции и т.д.

  2. Синхронизовать бизнес действия над этими бизнес объектами (Event Integration). Действительно, бизнес действия, входящие в состав данного STP бизнес процесса протекают в определенных временных интервалах и находятся зачастую в сложных временных зависимостях. Начало, конец, особые ситуации в процессе выполнения любого действия обозначаются как асинхронные события (business events). Для описания этого существуют уже языки или знаковые системы (например, PSL – Process Specification Language).

  3. Решить проблему именования. (Vocabulary Integration). Здесь речь идет о компоненте, пока отсутствующей на рынке интеграционных платформ [6,7]. Имеется в виду не только управление справочно-нормативной информацией. Одни и те же единицы интеграции разных уровней (поля БД и многое другое) могут иметь разные имена и наоборот – у разных единиц одинаковые имена, в силу того, что они могли создаваться в разное время разными людьми. Другими словами, нужно разрешить проблему Вавилонской башни в рамках данного проекта.

Конечно, эти проблемы присутствуют в разной степени и в разном объеме при проектировании современных ИС. Однако, успешные и достаточно общие подходы к решению этих проблем безусловно повышает скорость и качество проектирования, а также различные параметры производительности уже готовых ИС. Также может быть много подходов к решению этих проблем – в зависимости от многих причин. Так, разработаны форматы так называемых метаданных (данных о данных) для единообразного описания любых источников данных (CWM), существуют технологии отображения (мэппинга) этих метаданных в специальные когнитивные структуры (онтологии), отражающие самые существенные свойства интегрируемых частей. Резко повышает гибкость и оперативность процедур отображения (мэппинга) технологии интеллектуальных так называемых многоагентных автономных самообучающихся программных систем, способных поддерживать диалог с пользователем при решении данной проблемы или поддержке какого-либо бизнес процесса. Такие системы приобретают все большую популярность в информатике [3,4,5,6,7].

Все это в целом позволяет говорить о возможности реализации когнитивной структуры – метаонтологии, представляющей собой динамический образ работающего без вмешательства человека бизнес процесса, формирующейся методом мэппинга из интегрируемых источников данных (бизнес объектов) при помощи технологии интеллектуальных агентов как практически реализуемой в разных формах информационной технологии интеграции разнородных бизнес объектов и бизнес действий в STP бизнес процесс. При необходимости такое онтологическое описание БП может быть преобразовано в более удобные для обработки знаковые формы (XPDL, BPML, BPEL, RDF/T) [2,5,7] .


Как уже говорилось в самом начале, приведенный выше отрывок описывает типовую технологию интеграции некоторого фрагмента человеческой деятельности в компьютерную информационную систему. Одной из целей курсов и настоящего пособия есть умение владеть такими технологиями. Из приведенного текста видны некоторые характерные особенности таких технологий – прежде всего при кажущейся простоте описания и отсутствия сложных формул большое число описывающих их различных знаковых систем и самые разнообразные режимы их применения. Это не случайно. В современном обществе резко возрастает число и разнообразие использующихся в самых различных целях знаковых систем. Они используются не только для удобства описания существующих процессов в обществе, но и в научных исследованиях для получения и описания новых и существующих знаний. Необходимо знать законы их построения, развития, уметь пользоваться ими и эффективно строить их самому не только для отражения существующей действительности, но и для получения с их помощью новых знаний. Это необходимо не только экономистам или гуманитариям, но и техническим специалистам. Технологии построения и использования таких систем (если их можно назвать технологиями) имеют свои особенности, несколько отличающиеся от привычных техническим специалистам технологиям и парадигмам (например - дифференцирования, интегрирования и т.п. - хотя и эти технологии являются знаковыми процедурами).

Для иллюстрации необходимости таких знаний можно привести один простой, но показательный пример. Почти одновременно с созданием НАСА в США были развернуты работы по конструированию так называемого тезауруса НАСА. Эта знаковая конструкция позволила успешно интегрировать не только самую разнообразную информацию об аэрокосмическом оборудовании и технологиях, но и связанных с ними производственную деятельность занятых в этой отрасли людей, некоторые из которых зачастую не вполне хорошо владели английским языком даже на бытовом уровне. Тем самым был не только изначально устранен эффект так называемой Вавилонской башни, но и созданы дополнительные условия для повышения эффективности очень ответственной деятельности огромного коллектива людей. Поэтому настоящее пособие начинается с изучения знаков и знаковых систем.




следующая страница >>
Смотрите также:
Методическое пособие по спецкурсам Москва. Мфти 2005 г
389.27kb.
5 стр.
Учебно-методическое пособие москва военное издательство 1987
961.99kb.
6 стр.
Методическое пособие по дисциплине «Статистика» для специальности «Экономика и бухгалтерский учет (по отраслям): Методическое пособие /Под редакцией В. Ю. Ершовой
1269.9kb.
12 стр.
Методическое пособие для учителя. М., 2005 147 с. «Родное Подмосковье»
321.69kb.
1 стр.
Учебно-методическое пособие Ижевск 2012 резьбовые соединения учебно-методическое пособие Ижевск 2012 (075)
420.54kb.
3 стр.
Методическое пособие для студентов высших и средних сельскохозяйственных заведений
1135.14kb.
6 стр.
Учебно-методическое пособие Москва Издательство мгту им. Н. Э. Баумана 2009
259.14kb.
6 стр.
Методическое пособие по выполнению курсовых работ по курсу
153.17kb.
1 стр.
Методическое пособие санкт-петербург 2005
2300.38kb.
11 стр.
Методическое пособие по курсам "Электрическая часть электростанций и подстанций"
344.65kb.
1 стр.
Учебно-методическое пособие для курсового проектирования Барнаул 2009 (072) Скребковые конвейеры: Учебно-методическое пособие для курсовогоо проектирования / Сост.: И. Л. Новожилов, В. Н. Самородова, Барнаул, 2009. 25 с
403.45kb.
2 стр.
Обеспечение гбоускоши №17. № п/п
545.52kb.
5 стр.