Главная
страница 1страница 2
http://semanticfuture.net/

Категория:Онтологии



Материал из Semantic Future

Ключевое звено любой семантически-ориентированной системы - семантика предметной области, т.е. смысл тех категорий, в которых мы описываем предметную область для системы. В жёстко структурированных моделях данных, таких как реляционная модель, семантика закладывается в схему базы данных: мы даем имя полю таблицы базы данных, хотя бы отчасти отражающих смысл значений в этом поле.

Однако, ставить знак равенства между схемой базы данных и онтологией, между XML DTD (или XML Schema) и онтологией неверно. Почему? Те, кто знаком с философскими категориями, наверняка вспомнят, что онтология - это, буквально, учение о бытии (ontos + logos)- о том, как устроен мир, какова его структура, каковы и насколько сильны слабы взаимодействия между элементами этого мира.

Однако, в середине 80х гг. XX века происходит переоткрытие понятия "онтология". Отчасти это случилось в связи с нашумевшим тогда проектом CYC - проектом создания базы так называемых "общеизвестных" знаний (common sense knowledge). Оказалось, что многие "кусочки" знаний, закодированные в CYC, имеют универсальное значение и одинаково воспринимаются разными людьми и сообществами. Так появилось понимание того факта, что взаимодействие разных исследовательских сообществ невозможно без наличия "слоя-посредника". В таком "слое-посреднике" должен определяться словарь некой предметной области - те термины, которые используют все исследователи в этой области. Таким посредником и выступили онтологии предметных областей (domain ontologies).

На первых порах, в сфере информационных технологий часто противопоставляли два определения онтологии: более философское (определение Николы Гуарино) и более практическое (определение Томаса Грабера).

В философском контексте, онтология[1] – система категорий, используемая для рассмотрения с учетом конкретного видения мира. John Sowa так и пишет: предметом онтологии являются категории (потенциально) существующих вещей.

В контексте информационных систем, онтология[2] – формализованное описание общепринятого понимания некоторой предметной области, с помощью которого могут общаться люди, компьютерные системы.

На самом деле, вопрос в отличии двух определений сводится к разным требованиям к "слою-посреднику": в одном случае нужна строгая формальная теория, формальный язык (например, язык исчисления предикатов 1-го порядка, или его фрагменты, лежащие в основе логик дескрипций - description logics), в другом - достаточно списка терминов предметной области (онтологии - словари).





  1. ↑ Guarino N. Formal Ontology and Information Systems / N. Guarino // Formal Ontology in Information Systems : (Frontiers in Artificial Intelligence and Applications) : proceedings. — Amsterdam : IOS Press / Ohmsha, 1998. — P. 3—15.

  2. ↑ Uschold M. Ontologies: Principles, Methods and Applications / M. Uschold, M. Gruninger // Knowledge Engineering Review. — 1996. — Vol. 11, No. 2. — P. 99—155.

Подкатегории

Показано 2 подкатегории из 2.



O

  • [+] OWL (0)

  • [×] Ontology (0)

Страницы в категории «Онтологии»

Показано 10 страниц этой категории из 10.



"

  • "Семейная история" или как применить онтологию на практике

P

  • Pronto

В

  • Вероятностные онтологии

Н

  • На пути к 4D

  • Некоторые аспекты анализа развития нечетких онтологий

  • Немного о неопределенности и нечеткости в онтологиях

  • Несколько слов о протоколе Open Knowledge Base Connectivity (OKBC) и редакторе онтологий Protégé

О

  • О формальных основах OWL

Ч

  • Что же такое онтология?

Э

  • Экстенсивное развитие онтологических структур

На пути к 4D



Материал из Semantic Future

Щербак Сергей Сергеевич

Shcherbak Sergey



Род деятельности:

научно-исследовательская деятельность, блогинг, web-разработка

Роль участника:

Участник, Бюрократ

Основной раздел:

Semantic Web

Круг интересов:

Искусственный интеллект, Инженерия знаний

Дата рождения:

15.12.1979

Место рождения:

Богодухов, Украина

Гражданство:

Украина

Сайт:

http://shcherbak.net

Nickname

Shcherbak

Подробнее:

рус.

Рассуждая на тему онтологий, столкнулся с тем, что Semantic Web при всей своей полезности может уйти с арены намного раньше, чем получит широкое признание и внедрение.

Причем его уход будет связан с введением какого-то нового понятия или бренда, типа Semantic Web 2 или Web 3.0. Естественно, опыт полученный в рамках Semantic Web не будет утрачен и в полной мере будет использоваться в рамках «нового бренда», но вот Semantic Web в том виде который мы знаем (пирог Semantic Web) вряд ли будет существовать. Уже четыре года Semantic Web пытается привлечь к себе внимание, а результаты с учетом глобальности Web не очень то и большие.

Конечно, сделано очень много... и стандарты представления знаний, алгоритмы обработки и программные средства, позволяющие обрабатывать знания(?!). Но все упирается в то, что человек должен (!) сам подготовить информацию в доступном для «машинного понимания» виде.

А это как минимум требует определенных знаний и навыков в моделировании предметных областей и т.п.

Кроме того, мы говорим пока, не о том, что самый посещаемый ресурс на сегодня – это DBpedia, где собраны в машинопонятном виде огромные запасы знаний о различных предметных областях, а о том, что зайдя, например, на WikiPedia мы получаем информацию быстро и по существу. Подчеркивая тот факт, что мы(!) что-то ищем и мы (!) потребляем какую-то информацию. А ведь одна из целей Semantic Web именно в том, что бы вы набрали запрос, а ваш программный агент, нашел и самую-самую интересную(и главное релевантную) информацию Вам предоставил. Т.е. нужно для начала хотя бы исключить один элемент из цепочки “потребления” информации – наше участие в поиске.

Читая, интервью с Тимом Бернесом Ли на тему “Semantic Web открыт для бизнеса”, смотрю на все изменяющуюся картинку «пирога» Semantic Web и понимаю, что упрощение Semantic Web приведет, конечно, к увеличению числа пользователей, активно использующих технологии и сервисы Semantic Web, но революции, которая наблюдалась при появлении технологии XML в 1999 году не будет. По крайней мере пока. А жаль!

Скорее всего, тенденции развития Semantic Web будут идти в сторону интеграции с другими не поддерживаемыми W3C стандартами. Здесь прежде всего стоит упомянуть о языке веб-онтологий OWL.

OWL – это язык для представления знаний о реальном мире. Причем описание объектов осуществляется в настоящем времени и нет ни какой возможности на уровне языка посмотреть состояния объектов ” вчера ”, «позавчера» и т.д . Т.Е. в OWL нет поддержки «версионности» объектов. Что, на мой взгляд, является серьезным недостатком.

Конечно, версионность в онтологии на OWL можно привнести извне, например, применяя системы контроля версии SVN или CVS. Но это возможно только в случаях, если мы говорим о «файловых» онтологиях. А что делать с онтологиями, которые хранятся в базах данных или в rdf store? Здесь тоже можно найти весьма эффективное решение, но это все частности, а ведь Semantic Web претендует прежде всего на универсализм и унифицированные решения.

В OWL, представляются знания о трехмерных объектах вне учета изменения их состояния во времени. OWL – онтологии называют еще трехмерными онтологиями или 3D онтологиями. В тоже время, онтологии, которые поддерживают четвертое измерение – время – называют четырехмерными онтологиями или 4D онтологиями.

Вот бы поддержку 4D в OWL… Но в скором времени, это вряд ли возможно. Скорее всего подобная функциональность будет привлечена из других стандартов онтологий. Например, из стандарта ISO-15926 ([1]). В рамках которого в части 2 (ISO 15926-2) описана модель 4D-онтологии, а в ISO 15926-7 предложены способы реализации методов интеграции распределенных систем на основе стандартов W3C.

Для скорейшей интеграции стандартов онтологий можно разрабатывать средства трансляции онтологий, например, на языке ATL (ATLAS Transformation Language) ([2]).

Поддерживая оптимизм Тима Бернеса Ли по поводу дальнейшего развития Semantic Web надеемся на лучшее :)


http://www.dialog-21.ru/dialog2008/materials/html/Zagorulko.htm

Портал знаний по компьютерной лингвистике: содержательный доступ к лингвистическим информационным ресурсам1[1]



Загорулько Ю.А. (zagor@iis.nsk.su), Боровикова О.И. (olesya@iis.nsk.su), Загорулько Г.Б. (gal@iis.nsk.su)
Институт систем информатики имени А.П.Ершова СО РАН, Новосибирск, Россия
Рассматривается Интернет-портал знаний, обеспечивающий систематизацию знаний и информационных ресурсов по компьютерной лингвистике, их интеграцию в единое информационное пространство, а также содержательный доступ к ним (поиск информации в терминах предметной области портала и управляемую знаниями навигацию).
Введение
В связи с постоянно растущими потребностями в средствах автоматической обработки документов и естественно-языковых, в том числе речевых, интерфейсах, возникает необходимость в эффективном доступе не только к публикациям, описывающим методы и подходы к обработке текстов, но и разного рода словарям, программным компонентам и алгоритмам, реализующим различные задачи обработки текста или речи. И, хотя в настоящее время в сети Интернет представлен большой объем знаний и информационных ресурсов по этой тематике, доступ к таким ресурсам значительно затруднен, так как они лишь частично систематизированы и при этом рассредоточены по различным Интернет-сайтам, каталогам и электронным архивам.

Для решения этой проблемы существует несколько подходов. В рамках одного из них создаются различные Интернет-ресурсы (форумы, рассылки, комьюнити-порталы), выполняющие информационную поддержку разнообразных тематических сообществ. Самым известным ресурсом такого рода, имеющим отношение к компьютерной лингвистике, является англоязычный каталог LINGUIST List (http://linguistlist.org/), созданный для общения и обмена знаниями между лингвистами и содержащий информацию о публикациях, персоналиях, научных учреждениях и других организациях лингвистического направления, грантах, конкурсах, проектах, фондах и источниках финансирования, конференциях и семинарах лингвистической тематики. LINGUIST List предоставляет возможность поиска ресурсов по таким параметрам, как страна, язык, раздел лингвистики.

К российским аналогам LINGUIST List можно отнести научно-образовательный портал "Лингвистика в России: ресурсы для исследователей" (http://uisrussia.msu.ru/linguist/index.jsp) и сайт “Российская лингвистика (RUSLING)” (http://rusling.narod.ru), создаваемый в Отделении лингвистических исследований ВИНИТИ РАН. Портал "Лингвистика в России” содержит иерархически организованный каталог ссылок на наиболее значимые лингвистические ресурсы и позволяет осуществлять навигацию по разделам портала с помощью иерархических связей внутри этих разделов и по ссылкам на связанные с ними области (разделы). Тематические категории этого портала представлены разделами по компьютерной, теоретической и прикладной лингвистике и их приложениям (смежным областям), а также разделами, посвященными русскому языку, языкам мира и народов РФ. Портал “Российская лингвистика” предлагает лингвистам «информационную карту» для поиска информации об организациях, научных исследованиях и публикациях, лингвистических ресурсах и персоналиях. Он содержит обширный каталог ссылок на словари и корпуса текстов для различных языков (в том числе славянских), а также сведения о российских лингвистах, предоставляя возможность их поиска не только по алфавиту, но и по области и объекту (языку) исследования.

Информационное наполнение порталов такого типа в значительной мере зависит от способа сбора информации (его автоматизированности) и личного вклада и активности каждого участника сообщества.

Другой подход направлен на представление лингвистических ресурсов непосредственно для работы с лингвистическими данными. К таким проектам относятся работы по переводу текстов в цифровые форматы, созданию средств их хранения и обработки, построению лингвистических онтологий и web-интерфейсов для описания и наполнения ресурсов лингвистическими данными. Среди таких проектов можно отметить проект E-MELD (http://emeld.org), в рамках которого создается лингвистическая онтология GOLD (General Ontology for Linguistic Description), представляющая общеязыковые знания в виде иерархических структур.

Как правило, проекты, разрабатываемые в рамках описанных выше подходов, направлены на описание и сохранение общеязыковой лингвистической информации, а не для интеграции ресурсов по компьютерной лингвистике и обеспечения к ним содержательного доступа широкому кругу пользователей.

Для решения этой проблемы нами разрабатывается специализированный Интернет-портал знаний – портал знаний по компьютерной лингвистике. Как информационный ресурс такой портал знаний обеспечивает следующие возможности:


  • представление научной дисциплины «компьютерная лингвистика» (используемых в ней терминов и понятий, тематических разделов, объектов и методов исследования, научных результатов и т.п.) и участников научной деятельности в рамках этой дисциплины (персоналий, групп, сообществ и других организаций, включенных в процесс исследования);

  • интеграцию доступных информационных ресурсов по компьютерной лингвистике в единое информационное пространство;

  • содержательный доступ к систематизированным знаниям и данным, относящимся к компьютерной лингвистике, т.е. возможность поиска и получения информации в терминах предметной области портала, а также удобную навигацию по всему информационному пространству портала, базирующуюся на модели предметной области;

  • персонификацию пользовательского интерфейса (способа и степени подробности предоставления информации, поиска и навигации по порталу);

  • информационную поддержку пользователей, т.е. анонсирование разного рода событий и мероприятий, касающихся данной дисциплины.


1. Информационная модель портала
Информационная модель портала должна обеспечивать унифицированное представление и хранение знаний и информационных ресурсов по компьютерной лингвистике, а также содержательный доступ к ним: поиск информации в терминах предметной области портала и удобную навигацию по его информационному пространству. Поэтому в качестве основы такой модели выбрана онтология [1], содержащая наряду с традиционным описанием проблемной и предметной областей соотнесенное с ним описание соответствующих сетевых ресурсов [2].

С содержательной точки зрения, онтология портала служит для представления понятий, необходимых для описания как научной деятельности и научного знания в целом, так и конкретной научной дисциплины, в частности. В связи с этим онтология портала включает универсальные онтологии научной деятельности и научного знания [3], а также онтологию предметной области.

Первые две из перечисленных онтологий не зависят от предметной области (ПО) и могут использоваться практически в любом портале знаний, независимо от его тематики. В связи с этим эти онтологии выделе в качестве базовых (Рис.1). Рассмотрим их подробнее.


Рис. 1 Базовые онтологии портала

Онтология научной деятельности является онтологией верхнего уровня и включает базовые понятия, относящиеся к организации научно-исследовательской деятельности, такие как Персона, Организация, Событие, Деятельность, Публикация, используемые для описания участников научной деятельности, мероприятий, научных программ и проектов, различного типа публикаций. В эту онтологию также включено понятие Информационный ресурс, которое служит для описания информационных ресурсов, представленных в сети Интернет.

Онтология научного знания, по своей сути, является метаонтологией. Она содержит метапонятия и отношения, задающие структуры для описания рассматриваемой предметной области, такие как Раздел науки, Предмет исследования, Объект исследования, Метод исследования, Научный результат, позволяющие выделить в данной науке значимые разделы и подразделы, задать типизацию предметов, объектов и методов исследования, описать результаты научной деятельности.

Понятия базовых онтологий связаны между собой ассоциативными отношениями (см. Рис.1), выбор которых осуществлялся не столько исходя из полноты представления проблемной и предметной областей портала, сколько исходя из удобства навигации по его информационному пространству и поиска информации. Свойства каждого понятия описываются с помощью атрибутов и ограничений, наложенных на область их значений.

Так как портал предназначен для организации содержательного доступа к лингвистическим ресурсам, то в качестве онтологии предметной области он включает онтологию компьютерной лингвистики (КЛ). Понятия этой онтологии являются реализациями метапонятий онтологии научного знания и организованы в 5 иерархий «общее-частное»: Иерархия Объектов исследования, Иерархия Предметов исследования, Иерархия Методов исследования, Иерархия Разделов науки, Иерархия Научных результатов (см. Рис.2). Все эти иерархии связаны между собой посредством ассоциативных отношений, часть которых наследуется из базовых онтологий, а часть отражает специфику данной предметной области.


Рис. 2 Ядро онтологии компьютерной лингвистики

Таким образом, вводя формальные описания понятий проблемной и предметной области в виде понятий и отношений между ними, онтология портала задает структуры для представления реальных объектов и связей между ними.

В соответствии с принятой моделью данные на портале представлены в виде множества разнотипных информационных объектов и связей между ними. Информационный объект (ИО) – это структурированная совокупность данных, представляющая описание некоторого объекта выбранной области знаний или релевантного ей информационного ресурса. Каждый ИО соответствует некоторому понятию онтологии (является экземпляром этого понятия) и имеет заданную им структуру. Между конкретными информационными объектами могут существовать связи, семантика которых определяется отношениями, заданными между соответствующими понятиями онтологии.
2. Информационное содержание портала
Информационное содержание (контент) портала включает как знания общего характера (представлены в онтологии), так и конкретные знания о реальных объектах и информационных ресурсах, систематизированные в соответствии с онтологиями портала.

Так как портал посвящен компьютерной лингвистике, в его контенте, в первую очередь, представлены знания об основных разделах компьютерной лингвистики, о ее предметах и объектах исследования, используемых в ней моделях и методах, разработанных прикладных и инструментальных системах, алгоритмах и лингвистических ресурсах. Кроме этого, пользователи портала могут получить представление не только о компьютерной лингвистике как научной дисциплине, но и найти информацию о выполняемой в этой области научной деятельности. В первую очередь, это информация об ученых, исследовательских группах и организациях и их деятельности.

В деятельности организаций и исследователей особое место занимают научные и коммерческие проекты, в рамках которых большей частью и создаются лингвистические знания и ресурсы. Результаты этой деятельности находят отражение в публикациях - монографиях, статьях, материалах конференций и семинаров, отчетах и других текстовых ресурсах, доступ к которым обеспечивается порталом.

Таким образом, ресурсы компьютерной лингвистики представлены непосредственно результатами деятельности организаций и отдельных исследователей, полученных в ходе выполнения научных и коммерческих проектов. К таким ресурсам относятся как технологии, программные продукты, прикладные системы, так и лингвистические ресурсы: словари, корпуса и лингвистические БД. Для организации более эффективного доступа к таким ресурсам в контенте представлена информация о различных аспектах их разработки: организациях, персонах и проектах, с которыми связано их появление, а также о таких содержательных характеристиках ресурсов, как отнесенность к разделу науки, объекту или предмету исследования, методам исследования. Эта информация связывает ресурсы с остальными данными и знаниями, представленными в контенте портала, что позволяет пользователю выделить группы ресурсов, созданные, например, в ходе осуществления некоторой исследовательской деятельности (гранта, проекта, конкурса) или с использованием определенного класса методов исследования.

Важным компонентом информационного контента портала является описание Интернет-ресурсов. К таким ресурсам относятся сайты организаций, конференций, проектов, порталы и каталоги, а также отдельные страницы с материалами графического, мультимедийного или текстового типа. Как было сказано выше, каждый Интернет-ресурс, представленный на портале, соответствует такому понятию онтологии, как Информационный ресурс. Описание каждого ресурса включает экземпляр данного понятия (информационный объект) и набор экземпляров отношений, связывающих данный ИО с другими информационными объектами, представляющими организации, персоны, публикации, события, разделы науки и т.д.
3. Настройка портала и управление его контентом
Настройка портала на предметную область и управление его информационным контентом осуществляются с помощью специализированных редакторов (редактора онтологии и редактора данных), реализованных как web-приложения и доступных зарегистрированным пользователям через Интернет, а также коллекционера онтологической информации о ресурсах.

С помощью редактора онтологии можно создавать, модифицировать и удалять любые элементы онтологии: понятия, отношения, домены, задавать и модифицировать иерархии понятий.

Для более удобного представления информации пользователю портала в редактор онтологий также включены средства настройки визуализации знаний и данных. Эти средства позволяют для каждого понятия онтологии задать шаблон визуализации объектов – экземпляров этого понятия и шаблон визуализации ссылок на них.

Редактор данных, функционирование которого основано на онтологии портала, позволяет создавать, редактировать и удалять информационные объекты, а также связывать их с введенными ранее объектами и понятиями.

Коллекционер онтологической информации о ресурсах предназначен для автоматизации сбора релевантных Интернет-ресурсов [4]. Он включает модуль сбора информации и модуль автоматического индексирования и классификации.

Модуль сбора информации обеспечивает поиск текстовых ресурсов или документов по ключевым словам, характеризующим область знаний портала, на сайтах и Интернет-страницах, ссылки на которые хранятся в специальной базе данных. Эта база данных может пополняться вручную (экспертом) или автоматически (за счет ссылок, обнаруженных в скачанных документах).

Модуль автоматического индексирования и классификации, используя онтологию и предметный словарь, строит содержательный индекс (семантическую аннотацию) для каждого документа и определяет раздел науки, к которому он относится. Затем эти данные представляются в информационном пространстве портала в виде информационных объектов и их связей и могут быть использованы при поиске информации и навигации.
4. Обеспечение доступа к ресурсам по компьютерной лингвистике
Основное назначение рассматриваемого портала знаний – обеспечить содержательный доступ к систематизированным знаниям и информационным ресурсам по компьютерной лингвистике. Доступ к знаниям и данным портала осуществляется путем навигации по дереву понятий онтологии и информационному пространству портала, а также через развитые средства содержательного поиска (с использованием понятий и отношений онтологии).
4.1. Навигация по информационному пространству портала
Для конечного пользователя данные на портале представлены в виде множества связанных информационных объектов. При навигации по порталу обеспечивается возможность выбора ИО, относящихся к интересующему нас понятию, просмотра и фильтрации списков выбранных ИО, навигации по конкретным ИО, а также просмотра описания выбранного нами информационного ресурса.

Список ИО отображается в виде страницы, содержащей набор ссылок на эти объекты. Для больших списков формируется составная страница, включающая список страниц с элементами навигации по этому списку.

Вся информация о конкретном объекте и его связях отображается в виде HTML-страницы (Рис.3), формат и наполнение которой зависят от свойств понятия, экземпляром которого является данный объект, и заданного для него шаблона визуализации. При этом объекты, связанные с данным объектом, представляются на его странице в виде гиперссылок, по которым можно перейти к их детальному описанию.



Рис. 3 Представление информационного объекта и его связей

Таким образом, навигация по данным портала представляет собой процесс перехода от одних информационных объектов к другим по заданным между ними связям.

Например, при просмотре информации о конкретном проекте (см. Рис.3) мы можем видеть значения его атрибутов и его связи с другими объектами. Используя представленные связи в качестве элементов навигации, можно перейти к просмотру подробной информации как по прямым связям (об объекте исследования, об используемых методах и научных результатах, полученных в ходе выполнения проекта), так и по обратным (об участниках проекта, публикациях о проекте, информационном ресурсе, описывающем данный проект).

При переходе по конкретной связи любого информационного объекта мы можем получить достаточно большой список объектов (например, список людей, работающих в некоторой организации). В связи с этим был введен механизм фильтрации списков информационных объектов. Фильтрация есть способ выборки подмножества ИО из списка путем задания условий, которые определяют допустимые значения атрибутов ИО и требования к существованию связей с другими информационными объектами. Этот метод позволяет, например, отфильтровать множество публикаций как по дате публикации (условия на атрибут), так и по описываемому научному результату или объекту исследования (условия на связанный объект).


4.2. Поиск в терминах предметной области
При поиске информации пользователю предоставляется возможность задания запроса в терминах предметной области портала. При этом пользователь должен выбрать понятие, к которому относятся искомые информационные объекты, и определить ограничения, которым должны удовлетворять атрибуты выбранного понятия и его связи с другими понятиями.

Ограничения на отдельные атрибуты интерпретируются как конъюнкция условий. Допустимые ограничения для атрибута зависят от типа его значений. Так, например, для атрибутов типа «integer» и «date» задается точное значение или допустимый интервал значений.

Пользователю также предоставляется возможность задать условия на значения атрибутов объектов, связанных с искомым объектом. При этом могут быть заданы ограничения и на значения атрибутов соответствующих отношений.

Например, запрос "Найти методы исследования, которые использовались для обработки деловых писем на русском языке в проектах в период с 1998 по 2005 год" будет выглядеть следующим образом:



Понятие "Метод исследования":

Отношение "Применяется к":

Понятие "Деловое письмо"

Атрибут "Язык" = "русский"

Отношение "Использует метод":

Понятие "Проект"

Атрибут "Дата начала": (>= 1998) & (<=2005)

Атрибут "Дата окончания": (>= 1998) & (<=2005)

Поисковые запросы задаются через специальный графический интерфейс, управляемый онтологией портала знаний. При выборе пользователем понятия автоматически генерируется поисковая форма, в которой можно задать ограничения на значения атрибутов объектов выбранного понятия, а также на значения атрибутов объектов, связанных с данным объектом ассоциативными отношениями.


Заключение
В докладе представлен подход к организации содержательного доступа к информационным ресурсам по компьютерной лингвистике путем построения специализированного (тематического) Интернет-портала.

Портал представляет знания об основных разделах компьютерной лингвистики, о ее предмете и объектах исследования, используемых в ней моделях и методах, разработанных системах, алгоритмах и лингвистических ресурсах, а также информацию об ученых, сообществах, организациях, включенных в процесс исследования по компьютерной лингвистике и о выполняемых проектах в этой области. Таким образом, пользователи портала имеют доступ не только к информационным текстовым ресурсам по компьютерной лингвистике, но и к ресурсам, представляющим реальные прикладные системы, технологии и программные продукты для обработки ЕЯ, лингвистические ресурсы и базы данных.

Для целостного представления знаний и данных по компьютерной лингвистике их систематизация и структуризация выполнены на основе онтологии. Благодаря этому, вся информация на портале представлена в виде сети взаимосвязанных информационных объектов.

Доступ к знаниям и данным портала осуществляется путем навигации по дереву понятий онтологии и информационному пространству портала, а также через средства содержательного поиска.

Портал знаний по компьютерной лингвистике разработан и доступен по адресу http://speedy.iis.nsk.su/cl/. При его создании использовалась технология, разработанная в ходе построения портала знаний по археологии [5, 6]. Для портала было разработано представительное ядро онтологии компьютерной лингвистики, которое на данный момент включает около 130 базовых понятий. В настоящее время выполняется информационное наполнение портала.

Ближайшей целью авторов является доработка онтологии компьютерной лингвистики, сбор и интеграция в информационное пространство портала новых лингвистических ресурсов.


Список литературы:
1. Guariano N., Giaretta P. Ontologies and Knowledge Bases. Towards a Terminological Clarification // Towards Very Large Knowledge Bases: Knowledge Building and Knowledge Sharing. Amsterdam: IOS Press, 1995. P.25–32.

2. Боровикова О.И., Загорулько Ю.А. Организация порталов знаний на основе онтологий // Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара “Диалог 2002” (Протвино, 6-11 июня 2002 г.). М.: Наука, 2002. Т.2, С.76–82.

3. Borovikova O., Bulgakov S., Zagorulko Y., Sidorova E. Ontology-based approach to development of adjustable knowledge internet portal for support of research activity // Bulletin of NCC. Novosibirsk: NCC Publisher, 2005. Ser.: Computer Science. Is. 23, P.45–56.

4. Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Подход к автоматизации сбора онтологической информации для интернет-портала знаний // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции “Диалог 2005” (Звенигород, 1-5 июня 2005 г.). М.: Наука, 2005. С.65-70.

5. Загорулько Ю.А., Боровикова О.И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием “Знания-Онтологии-Теории ”(ЗОНТ-07). Новосибирск, 2007. Т.1, С.191-200.

6. Андреева О.А., Боровикова О.И., Булгаков С.В., Загорулько Ю.А., Сидорова Е.А., Циркин Б.Г., Холюшкин Ю.П. Археологический портал знаний: содержательный доступ к знаниям и информационным ресурсам по археологии // Труды 10-й национальной конференции по искусственному интеллекту с международным участием КИИ'2006. М.: Физматлит, 2006. Т.3, С.832-840.

Разработка онтологической модели представления знаний дистанционных курсов

Материал из Semantic Future

Данченко Алла Леонидовна

Alla Danchenko



Род деятельности:

научно-педагогическая деятельность,разработка приложений баз данных, программирование

Роль участника:

Участник

Основной раздел:

Семантизация дистанционного обучения

Круг интересов:

Дистанционное образование, искусственный интеллект, приложения баз данных

Дата рождения:

12.06.1981

Место рождения:

с. Нижнетеплое (Луганская обл.), Украина

Гражданство:

Украина

Сайт:

http://semanticfuture.net

Nickname

Danallen




Публикация

Тип публикации:

подано к публикации

Оригинал:

А.Л. Данченко. Розробка онтологічної моделі представлення знань дистанційних курсів//Вісник Східноукраїнського університету. – 2009. №12




Содержание

[убрать]


  • 1 Введение

  • 2 Постановка задачи

  • 3 Анализ типовых компонентов дистанционного курса

  • 4 Разработка онтологии

  • 5 Заключение

  • 6 Список литературы:

Введение

Современное дистанционное обучение (ДО) является способом организации процесса обучения на базе современных информационных технологий посредством объединения научных достижений в области информатики, педагогики, математики, искусственного интеллекта и психологии. Согласно Концепции Развития Дистанционного Образования Украины [1] развитие и внедрение технологий дистанционного обучения во все формы образования необходимо для достижения «индивидуализации обучения при массовости образования». Таким образом, научные исследования в области технологий дистанционного обучения являются актуальными.

Постановка задачи

Появление огромного количества несовместимых друг с другом дистанционных курсов (ДК) разных разработчиков показало неэффективность отсутствия единых научных подходов и принципов: курсы несовместимы между собой, знания курсов не могут быть повторно использованы при создании нового курса либо изменении требований к содержимому курса. Проблема совместимости ДК сегодня решена с помощью международных стандартов дистанционного обучения. В частности, последняя редакция SCORM (SCORM 2004.4th Edition от 31 марта 2009 года) объединяет в себе наилучшие разработки целого ряда организаций для обеспечения интероперабельности ДК разных разработчиков, адаптивности, обратной совместимости со старыми версиями ДК, интегрируемости с Веб [2].

Однако стандарты SCORM не предъявляют требований к внутренней семантике знаний ДК и основаны только на предоставлении дополнительной информации в виде метаданных о целях, достигаемых при изучении текущего блока. Внутренняя семантика знаний при этом скрыта от средств автоматизированной обработки. Существующие системы дистанционного обучения Прометей, WebTutor, Moodle, REDCLASS, STELLUS [3-7] соответствуют международным стандартам SCORM, однако не обеспечивают семантических связей между знаниями ДК.

Для обеспечения более эффективной работы системы дистанционного обучения (СДО) необходимо разработать способ представления данных ДК, обеспечивающий совместимость с существующими стандартами ДО и дополнительные возможности автоматического анализа знаний ДК на основе смысловых связей между знаниями ДК.



Целью данной статьи является разработка модели представления знаний ДК, основанной на семантических связях между знаниями.

Анализ типовых компонентов дистанционного курса

ДК может относиться к любой предметной области, поэтому на этапе проектирования необходимо выделить наиболее общие элементы, присущие для любого ДК.

Рассмотрим обобщенную структуру дистанционного курса. Любой ДК можно представить как набор модулей, объединяющих в себе множества лекционных, практических, лабораторных занятий и тестов. При этом практические и лабораторные занятия строятся на теории лекционных занятий, а тесты могут предшествовать любому виду занятия, завершать любое занятие или могут быть частью любого занятия.



,

где M – множество модулей.

,

где Lec – множество лекций,

Pract – множество практических занятий, основанных на материале лекций,

Lab – множество лабораторный занятий, основанный на материале лекций,

Test – множество входных и итоговых тестов, основанных на материале лекций.

Схематически любой ДК может быть представлен в виде Рис. 1.:



Рис. 1. Обобщенная схема ДК

Обычно ограничения на вложенность блоков не накладываются, но чаще всего используется не больше трех уровней иерархии в пределах 1 лекции – Тема, Раздел, Пункт. При этом любой блок ДК (лекция, тема, раздел, пункт) может начинаться или завершаться блоком тестов либо содержать множество блоков тестов внутри. Материалы тестов зависят от содержимого учебных материалов, то есть соответствие данного теста текущему учебному материалу имеет место, если задания теста и материалы занятия пересекаются. Внутреннее наполнение курса зависит от специфики материала и личных предпочтений разработчика. Таким образом, представленная структура удовлетворяет требованиям любого ДК и применима для любой дисциплины. В таком виде ДК понятен человеку, однако не предоставляет никакой информации автоматизированным средствам анализа, а также не дает представления о связях с другими ДК.

Разработка онтологии

В контексте искусственного интеллекта (ИИ) онтология определяет набор основных понятий предметной области и связи между ними. Обоснованность онтологического подхода определена рекомендациями [8]. При построении онтологии ДК было учтено следующее:

1. Онтология определяет иерархию базы знаний ДК; 2. Онтология используется для реализации механизма построения адаптивных курсов обучения, для консультирования обучаемых, ответы выдаются с привязкой к предметной области изучаемого курса; 3. Онтология является расширяемой в рамках каждой предметной области; 4. Поддержкой онтологии занимаются преподаватели-разработчики курсов; 5. Знания ДК представлены в виде текстов; 6. Многоцелевое использование знаний ДК; 7. Разнородность и противоречие данных; 8. Необходимость осуществления информационного поиска в ДК.

Таким образом, онтология ДК отражает общие принципы организации ДК и при этом определять связи и противоречия между знаниями разных предметных областей (дисциплин). Учитывая то, что ДК в первую очередь является учебным материалом, важными характеристиками будут Направление, Тематика, Дисциплина. Известно, что термины разных предметных областей могут иметь различные понятия. Так, например, «Поле» в контексте информационных технологий может представлять переменную, объявленную внутри структуры записи, в контексте баз данных – столбец таблицы базы данных, а в области физических явлений или сельского хозяйства у этого термина совсем другие толкования. Зная Направление и Тематику курса, можно будет избавляться от семантического шума на первых этапах информационного поиска.

Онтология ДК представлена на Рис.2.



Рис.2. Онтология ДК

Таким образом, ДК определяется набором классов-Терминов. Термином может быть любое понятие, рассматриваемое в контексте учебного материала. Термин содержится внутри Ресурса Темы, Раздела или Пункта Лекции и, таким образом, наследует Направление, Тематику и Дисциплину. Ресурс определяет ссылку на первоисточники относительно своего содержимого. Внутри Термина определяется набор свойств – ссылки на определения, формулировки и задачи, истолковывающие данный Термин. Подклассами Термина являются связи с другими терминами. Термины можно объявить связанными или несвязанными. В дальнейшем эта информация будет использована в логических выводах, при поиске информации и обновлении ДК базы знаний.

Для связанных терминов указывается тип отношения. Термины могут быть в отношении Синонима или Антонима. Синоним определяет контекст, в котором Термины могут равнозначно использоваться. Антоним определяет противоположное, инверсное значение по отношению к данному термину. Антонимы часто используются при построении ассоциативных связей между понятиями, поэтому являются значимой характеристикой.

Употребление – некоторые Термины часто используются вместе. Данная характеристика также полезна при осуществлении информационного поиска в текстах лекций.

Наследование – отношения между Терминами могут строиться на иерархической связи (КЛАСС-ПОДКЛАСС, ЧАСТЬ-ЦЕЛОЕ). Таким образом, отношения между терминами T1, T2:



Наличие или отсутствие между Терминами явно указывается. Классы НеСвязаны и Связаны являются непересекающимися, так как противоречат друг другу. В OWL не предпринимается никаких допущений касательно того, что если что-то не сказано, то это неправда [9]. Поэтому в случае, когда связи между Терминами не указаны, будет возникать неразрешимость.

Параметр Порядок изложения является целым числом и определяет последовательность изложения Частей внутри Дисциплины, Лекций, Практических занятий, Лабораторных работ внутри Частей и т.д. Начало последовательности изложения начинается со значения 0 и увеличивается по ходу изложения материала. Материал с большим индексом не может быть изложен раньше, чем материал с меньшим индексом. Равенство значений последовательности изложения указывает на равнозначность в порядке подачи материала. Онтология решает две основные задачи – формирование долгосрочного плана и формирование краткосрочных планов обучения (в виде ответа на текущий запрос обучаемого).

Пусть R - условия для формирования долгосрочного плана обучения, определяющие перечень тем для рассмотрения, Направление, Тематику и название Дисциплины. Тогда для каждого ДК верно:



где resource(R) – область текста, определяющая Термин, paragraph(R) – параграф лекции, topic(R) – раздел лекции, subject(R) – тема лекции, classes(R,lecture,labs,pract) – практические и лабораторные работы. index – индекс упорядочивания ученых материалов В случае формирования краткосрочного плана в качестве исходных условий R выступают текст запроса, а также данные о текущем ДК. Тогда выполняется правило:



При сохранении результатов запроса в долгосрочном плане выполняется:




где Ri-1 – условия на предыдущем шаге, Ri – условия на текущем шаге.

Заключение

В статье выполнены следующие задачи: • анализ существующих систем дистанционного обучения на предмет изучения семантических связей между знаниями ДК; • анализ типовых компонентов ДК для определения общей структуры ДК и определения связей между типовыми структурными единицами ДК; • разработка онтологической модели ДК, основанной на семантических связях между знаниями ДК.

Список литературы:

1. http://comparative.edu.ru:9080/PortalWeb/document/show.action? document.id=18.

2. SCORM® 2004 4th Edition Content Aggregation Model (CAM) Version 1.0.

3. Система дистанционного обучения «Прометей». Общее описание. http://www.prometeus.ru/actual/01_products/lms/opisanie.html

4. http://www.e-learning.kvazar-micro.com/index.php/moodle-.html

5. О системе дистанционного обучения STELLUS. http://www.stel.ru/do/about/.

6. Основные принципы СДТ REDCLASS. http://www.redcenter.ru/ ?sid=337.

7. Система WebTutor. http://www.websoft.ru/ db/wb/root_id/ webtutor/ doc.html.

8. http://protege.stanford.edu/publications/ontology_development/ontology101.html.

9. OWL Web Ontology Language. http://www.w3.org/TR/2004/REC-webont-req-20040210/.

Источник — «http://semanticfuture.net/index.php?title=%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BE%D0%BD%D1%82%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_%D0%B4%D0%B8%D1%81%D1%82%D0%B0%D0%BD%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D1%85_%D0%BA%D1%83%D1%80%D1%81%D0%BE%D0%B2»

Категории: Данченко Алла | Модели представления знаний

Категория:OWL

Материал из Semantic Future

OWL: язык онтологий в Web

OWL - это логический язык для формального описания онтологий. Применительно к OWL под онтологиями понимаются иерархические структуры понятий (классов), связанных отношениями (свойствами). OWL предоставляет средства для логического описания семантики (т.е. смысла) понятий, благодаря чему последние могут согласованно использоваться как людьми, так и приложениями в различных информационных системах (Web-сайтах, базах данных, экспертных системах, системах поддержки принятия решений и т.д.).

Основные принципы и возможности

Выражаясь неформально, OWL позволяет гарантировать, что в условиях высокой гетерогенности современных информационных систем (ИС), термины, объявленные в одной системе будут корректно интерпретированы в другой системе, причем независимо от технических особенностей систем и сценариев работы с ними. Важность подобной согласованности легко представить на примере двух медицинских ИС - электронных медицинских карточек и системы помощи в постановке диагнозов. Обе системы оперируют медицинскими терминами, в частности, симптомами, наименованиями болезней, тестов и медикаментов. При этом если "симптом Х", указанный в карточке пациента, будет неверно интерпретирован системой постановки диагноза, то последствия (как для пациента, так и для врача) могут оказаться самыми нежелательными.

OWL предоставляет данные возможности благодаря своим логическим основам, а именно, описательной логике (Description Logic или DL). Одним из ключевых преимуществ логики является формальная семантика (смысл) логических утверждений. Проще говоря, это означает, что семантика логический утверждений (или смысл понятий в OWL) не зависит от того, как, кем и в каком контексте они используются. Смысл описывает декларативным образом, не оставляя возможностей для неоднозначной интерпретации.

Рассмотрим пример описания термина НесчастныйРебенок в виде сын или дочь инженера и врача (заранее прошу прощения, если кому-то шутка покажется неуместной в современных реалиях!). Итак, налицо двусмысленность: кто-то скажет, что имеются в виду дети, у которых один родитель - врач, а другой - инженер, а кому-то покажется, что речь идет о детях, у которых хотя бы один родитель и врач и инженер одновременно. Это может вызвать улыбку, но если бы речь шла об описании специфических болезней, то некорректная интерпретация симптомов могла бы легко привести к неверному диагнозу.

OWL позволяет определить термин следующим образом: НесчастныйРебенок SubClassOf ребенок some (Инженер and Врач) (синтаксис будет рассматриваться ниже), что недвусмысленно означает, что один из родителей должен быть инженером и врачом одновременно (другой вариант тоже легко описывается, но несколько длиннее). Таким образом, все клиенты (пользователи или приложения), использующие корректные средства для работы с OWL, будут одинаково интерпретировать термины.

Варианты применения

Варианты применения OWL весьма разнообразны, поэтому ниже приведены лишь наиболее классические сценарии. В целом, будучи языком представления знаний, OWL может быть полезен в любой информационной системе, которой требуется явное описание метаинформации (т.е. информации или знаний о структуре данных). При этом, чем сложнее и разнообразнее подобные знания, тем лучше подходит OWL для этой задачи.

Итак, на данный момент варианты применения OWL включают следующие:

Согласованное представление терминологии в медицине, химии и биоинформатике.

Эти области активно развиваются и непрекращающиеся исследования приводят к появлению все большего объема данных и знаний. При этом основная проблема заключается в том, что накапливаемые знания зачастую описываются неформальными образом и содержатся во множестве различных, неинтегрированных источников. Одной из актуальных проблем являются трудности в проверке согласованности результатов научных исследований. Например, разные исследовательские проекты могут прийти к заключениям, что "протеин Х взаимодействует с протеином Y при условии Z1" и "не взаимодействует при условии Z2". При этом автоматически проанализировать и сопоставить эти результаты можно только в том случае, если, в частности, термины "условия Z1 и Z2" описаны формально, скажем, в виде классов OWL. В этом случае несовместимость (disjointness) классов УсловияZ1 и УсловияZ2 будет означать полную согласованность результатов, включение УсловияZ1 в УсловияZ2 (или наоборот) — несогласованность (противоречивость) результатов, а отсутствие какого-либо отношения может говорить о том, что необходимо дополнительное исследование взаимодействия протеинов в случае, если условия Z1 и Z2 наблюдаются одновременно. Последний случай может служить примером того, как существующие знания могут использоваться для выбора направления исследований.



Интеграция гетерогенных информационных систем (в особенности баз данных)

Во многих областях наблюдается ситуация, при которой важная информация распределяется по множеству баз данных. Основная проблема заключается в том, что эти базы данных, как правило, создавались разными людьми, в разное время и с использованием разных технологий, поэтому схемы данных также оказываются весьма различными. В результате крайне осложняется задача интеграции данных, которая необходима, в частности, для прозрачного выполнения запросов над всеми имеющимися данными.

Онтологии в целом, и OWL в частности, могут использоваться в этой ситуации для формального описания и интеграции схем баз данных (тех самых метаданных). Это позволяет организовать дополнительный метауровень, который создает интегрированную картину данных для внешних клиентов. Таким образом, клиенты могут использовать запросы к интегрированному представлению данных, которые затем разделяются на части, выполняются над отдельными БД, после чего результаты вновь объединяются в соответствии с интеграцией схем.

К сожалению, насколько я знаю, полностью готовых решений на данный момент не существует, поэтому подобная метаинтеграция в каждом конкретном случае разрабатывается отдельно.



Описание расширенных классификаций для Web-порталов.

Web-порталы, обладающие богатым информационным содержимым, могут использовать онтологии OWL и SKOS для улучшения качества поиска и просмотра информации, а также упрощения сопровождения. Яркими примерами подобных порталов могут служить ebay.com, amazon.com, craigslist.org, gumtree.com и т. д., на которых продаются практически любые виды товаров. Описание модели информации (категорий товаров и связей между ними) имеет следующие преимущества:



  • Позволяет выполнять поиск с учетом семантики терминов.

  • Позволяет просматривать связанные товары с переходами по семантическим связям (которые могут быть между товарами как одной, так и разных категорий).

  • Позволяет динамически менять представление информации без повторного развертывания Web-приложения (например, можно осуществлять реорганизацию каталога путем изменения онтологий).

  • Открывает дополнительные возможности персонализации и анализа активности клиентов.

  • Упрощает добавление семантических аннотаций на страницы, тем самым поддерживая использование портала приложениями-агентами

Описание ограничений целостности данных

С некоторыми оговорками OWL может использоваться в качестве выразительного языка для ограничений целостности и валидации данных. Выше уже упоминалось, что OWL можно применять для описания и интеграции схем данных, но проверка ограничений целостности представляет собой отдельную задачу. Главным моментом здесь является то, что OWL изначально ориентирован на логический вывод новых знаний, а не на проверку целостности существующих данных. То же самое, кстати, относится и к RDFS. Разницу можно пояснить на следующем примере:

Person SubClassOf hasMother exactly 1 Woman

hasMother(John, Maria)

hasMother(John, Jessica)

Первая аксиома означает, что у любого человека есть одна и только одна мать, являющаяся женщиной. Следующие две аксиомы означают, что Мария и Джессика являются матерями Джона. Казалось бы, налицо нарушение ограничения целостности. Однако, с точки зрения семантики OWL здесь нет противоречия, но делается логический вывод, что Мария и Джессика являются одним и тем же человеком (другим логическим выводом является то, что обе они — женщины). Разумеется, если явно указать, что они — разные объекты (для этого в OWL есть специальная конструкция — owl:differentFrom), то противоречие будет выведено.

Тем не менее, поскольку ограничения целостности идут рука об руку с описанием схем (метаданных), то были созданы специальные решения, позволяющие использовать OWL для их описания. В частности, Pellet предоставляет специальное расширение для проверки данных на соответствие ограничениям целостности, описанным в виде аксиом OWL (оно было представлено на конференциях "Semantic Technologies 2009" и "OWL: Experience and Directions 2009"). Причем существует возможность использовать одни и те же онтологии, как для представления знаний, так и для валидации данных.

Задать вопрос по использованию OWL или предложить свои примеры использования OWL можно в разделе нашего форума Представление, извлечение знаний и вывод над ними



Дерево категорий:

[] OWL

 "Семейная история" или как применить онтологию на практике

 Знания


 Pronto

 Вероятностные онтологии

 Задачник OWL

 Немного о неопределенности и нечеткости в онтологиях

 О формальных основах OWL


Страницы в категории «OWL»

Показано 7 страниц этой категории из 7.



"

  • "Семейная история" или как применить онтологию на практике

O

  • Знания

P

  • Pronto

В

  • Вероятностные онтологии

З

  • Задачник OWL

Н

  • Немного о неопределенности и нечеткости в онтологиях

О

  • О формальных основах OWL

Источник — «http://semanticfuture.net/index.php?title=%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:OWL»

Категории: Semantic Web | Онтологии




следующая страница >>
Смотрите также:
Материал из Semantic Future
425.22kb.
2 стр.
Доклада Роджера Гаррисона на конференции «Воот, Bust, and the Future: a private Retreat with Austrian Economists»
50.96kb.
1 стр.
Figury production представляет Новый альбом Bosson «Future's Gone Tomorrow/Life Is Here Today»
26.22kb.
1 стр.
Технологии Semantic Web в практике работы электронного журнала по математике
160.48kb.
1 стр.
Сеть магазинов ooo "cd-com", пр. Ленина, д. 93 Фирма «Future Electronics»
85.58kb.
1 стр.
Future Simple, совершенствование лексических навыков
37.83kb.
1 стр.
Grammar reference unit 1 Future Способы выражения будущего времени
1627.26kb.
10 стр.
Краеведческий материал на уроках биологии и во внеклассной работе
117.59kb.
1 стр.
JНоам Хомский Государство будущего Noam Chomsky Government in the future
424.05kb.
5 стр.
Урок английского языка в 4 классе по теме «Future Simple
49.23kb.
1 стр.
Информационный материал
574.67kb.
3 стр.
«В гаванях афинского порта Пирей»
91.93kb.
1 стр.