Главная
страница 1
УДК 541.127+539.196+533.6.011

ОПЫТ РАЗРАБОТКИ НАУЧНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ



А.Л.Сергиевская, Е.Г.Колесниченко, С.А.Лосев

Институт механики МГУ им. М.В.Ломоносова,

Москва, Россия, sergievska@imec.msu.ru

В статье рассматривается концепция информационной технологии, обеспечивающей информационные потребности научных исследований и приложений в конкретной предметной области. Рассмотрение проводится на примере разработки научной информационной системы АВОГАДРО для физико-химической газовой динамики. Развитие этой системы предполагает создание функционирующей в сети Интернет открытой сопровождаемой системы, способной к непрерывному развитию и позволяющей заинтересованному специалисту принять участие в ее создании и сопровождении.

ВВЕДЕНИЕ
Высокий уровень структурирования знаний и применение математического аппарата, характерные для механики, способствовали первостепенному и эффективному применению вычислительных средств (компьютеров, методов приближенных вычислений, разностных схем, теории алгоритмов, и т.д.). В этой же области впервые появилась необходимость в накоплении и обработке больших массивов числовых данных, что привело к разработкам эффективных методов доступа, и далее - к возникновению баз данных, информационных технологий и интеллектуальных систем. Если прогресс в построении информационных систем связывался в 70-80-ые годы с базами данных, с реляционным подходом к базам данных, построением систем управления базами данных и стандартизацией обращения к базам данных, то прогресс в построении информационных систем в настоящее время в большой степени связывается с решением аналогичных задач в отношении баз математических моделей, их компонентов и понятий.

Институт механики МГУ может служить примером такого развития. От использования самых первых вычислительных машин до создания локальной сети основной задачей «информационной службы» Института была задача освобождения пользователя от рутинной работы по поиску, экспертизе и подготовке к применению известной информации, а также реализация единой линии математической технологии решения задач – от выбора математических моделей, полного информационного обеспечения этих моделей всеми необходимыми физико-химическими данными до формирования программных комплексов и проведения решения поставленных задач.
1. Система АВОГАДРО
Начало работ по проектированию, наполнению и вводу в эксплуатацию научной информационной системы АВтоматизированного Обеспечения ГАзовой Динамики Рекомендациями с Оценками достоверности относится к 1985 году [1-3].

Перед коллективом разработчиков была поставлена важная цель - обеспечение единой линии информационно-математической технологии решения задач в физико-химической газовой динамике.

Обычная практика подготовки решения газодинамической задачи кроме выбора разностной схемы и программирования включает поиск и накопление термодинамических данных о компонентах среды, о динамических и кинетических параметрах процессов, протекающих в газовой среде. При этом, если термодинамическая информация о компонентах рассматриваемой среды достаточно согласована и достоверна, то по характеристикам физико-химических процессов почти всегда оказывается невозможной какая-либо априорная оценка достоверности и согласованности данных, выбираемых из различных литературных источников или из кумулятивных баз данных исходной информации. Проблема выбора набора данных, соответствующих решаемой задаче, решается благодаря базам рекомендуемых данных с экспертными оценками достоверности

Кроме сбора, анализа, накопления и хранения больших объемов информации по свойствам перечисленных классов процессов в задачи системы входило также обеспечение пользователей заранее сформированными математическими моделями среды, оптимальными вычислительными средствами решения комплексных задач, включая средства сборки целевых программных цепочек из стандартных системных модулей, организация внутренних и внешних интерфейсов, обеспечивающих потоки данных между системными блоками и интерактивное взаимодействие системы с пользователем.

Исходные позиции проектирования системы с такими многообразными функциональными задачами состояли в том, что вся предметная область и, следовательно, разрабатываемые компоненты классифицировались по единой схеме предметных сущностей ЧАСТИЦА - ПРОЦЕСС – СРЕДА. Отображение каждой сущности в информационную среду проходит три последовательных этапа: физический, математический, информационный.

Первыми заметными результатами на пути создания системы АВОГАДРО были базы данных по свойствам химических реакций и процессам энергообмена, а также по свойствам частиц, составляющих исследуемые газовые среды [4]. База данных ПРОЦЕСС содержала рекомендуемые коэффициенты математических моделей сечений и констант скорости конкретных физико-химических процессов (более 2000 процессов) на определенных диапазонах температуры и давления с указанием погрешности и уровня рекомендуемости. Источник информации - экспертные обзоры экспериментальных и теоретических данных, выполненные специалистами ведущих научных учреждений. Инфологическая схема базы данных построена в виде многоуровневого ациклического ориентированного графа. В результате построения этой базы данных кроме самой базы данных была разработана методика структурированного описания и классификации математических моделей физико-химических процессов.

Одновременно были разработана структура базы данных ЧАСТИЦА, содержащая сведения о свойствах частиц (молекулярный вес, потенциал ионизации, энергия сродства к электрону, энтальпия образования, энергии связей, характеристики электронных состояний, колебательные и вращательные постоянные, и др.), а также характеристики взаимодействующих частиц (параметры потенциалов межмолекулярного взаимодействия). Структура базы соответствует потребностям прикладных газодинамических задач.

Отличительной особенностью баз данных системы АВОГАДРО являлась их спецификация по признаку достоверности фактографических данных. Если известные базы данных ограничиваются только сбором и накоплением литературных сведений, то разработчики системы АВОГАДРО одну из своих задач видели в том, чтобы предоставить возможность экспертам высокой квалификации выполнить обработку или оценку этих данных для того, чтобы предоставлять пользователю только рекомендованные данные, с указанием степени их достоверности.

Кроме того, в рамках самой системы были предусмотрены процедуры обработки информации от различных авторов, позволяющие повысить степень достоверности данных, оценить их погрешность и дать оптимальные рекомендации.

Спецификация данных по достоверности является причиной разделения всего информационного фонда на базы данных двух основных категорий:



  • база исходной информации, где накапливаются литературные данные из статей, отчетов, докладов, устных сообщений на семинарах и т.п.; в этой базе по каждому конкретному процессу может быть несколько несовпадающих записей от различных авторов,

  • база рекомендуемых данных, в которой по каждому конкретному процессу имеется единственная обработанная информация, снабженная признаком степени достоверности, экспертным комментарием и возможными предупреждениями о правилах использования данных рекомендаций.

В процессе подготовки и обработки исходной информации должны участвовать эксперты, способные отслеживать актуальное состояние литературных потоков и давать адекватные оценки новым данным.

По степени обработанности и достоверности в базе рекомендуемых данных введен специальный базовый признак - категория рекомендуемости. Возможными значениями этого признака являются: исходные данные, информационные данные, предварительно-рекомендуемые данные, рекомендуемые данные, справочные данные.

Исходные данные поступают в базу исходной информации непосредственно из оригинальных авторских публикаций или с экспериментальных установок, а также из обзорных публикаций, и могут сопровождаться экспертным комментарием.

Информационные данные получаются в результате первичной экспертной обработки данных предыдущей категории, для них уже выполняется экспертная оценка погрешности. Эти категории данных относятся к базам рекомендуемых данных, но они считаются данными с самой низкой степенью достоверности. Здесь по каждому конкретному процессу в базе имеется единственная запись. Для этой категории желательны числовые оценки погрешности, хотя эти оценки нельзя считать вполне точными (требуется дополнительное согласование с экспертным советом системы).

Категория "рекомендуемые данные" присваивается данным, которые получены в результате тщательной экспертной обработки данных всех предыдущих категорий. Эти данные обязательно проходят процедуру рецензирования в экспертном совете системы.

Перемещение информации в системных базах данных происходит постепенно вместе с повышением категории рекомендуемости по мере поступления новой информации, благодаря совершенствованию процедур обработки и привлечению квалифицированных экспертов.

Данные самой высокой категории рекомендуемости - справочные данные - записываются в отдельный раздел базы рекомендуемых данных и считаются стандартными данными, не подлежащими исправлению или усовершенствованию в рабочем режиме ведения базы данных.

В этой базе данных в отличие от базы исходной информации по каждому конкретному физико-химическому процессу имеется единственная обработанная порция информации, снабженная признаком степени достоверности, экспертным комментарием и возможными предупреждениями о правилах использования данных рекомендаций.

Качественная информация о процессе содержит поля, необходимые для однозначной идентификации процесса, описательную информацию, классифицирующую его принадлежность к определенному типу и классу, а также сведения о размерности хранимой числовой информации.

Количественная информация о характеристиках целевого процесса может храниться в базе данных в нескольких строках, обычно не более пяти, которые составляют полный диапазон аргументов среды, но отражают наличие присвоенных экспертом значений атрибута «категории рекомендуемости» на поддиапазонах аргументов среды (температура, давление, колебательная температура). При графической визуализации таких данных система отмечает наличие различных экспертных оценок разным цветом. Типовая строка данных в этой базе содержала следующие поля: уникальный код процесса, по которому можно найти соответствующую качественную информацию об этом процессе, поддиапазон газовой температуры, на котором эксперт рекомендует соответствующую модель для расчета константы скорости химической реакции, имя модели, которая аппроксимирует имеющиеся данные, числовые значения коэффициентов этой модели, подобранные экспертом, поле для хранения категории рекомендуемости, погрешность приведенных данных, ссылка на экспертный комментарий к этому поддиапазону данных и имя эксперта, представившего эту информацию в базу данных. Первая версия базы рекомендуемых данных системы АВОГАДРО была реализована в начале 90-х годов.

На рис.1 демонстрируется схема представления информации, извлеченной из базы рекомендуемых данных.

Реакция: N2+O N+N+O

Кс(Т)[cm**3/mol*s]





Диапазон Т: 290- 20000K

Тип реакции: Диссоциация

Класс: C

Комментарий эксперта:

При Т<6000К экспериментальных данных нет; дается рекомендация величин Кс, полученных согласно теории одноквантового ступенчатого возбуждения; при Т=300К расхождение приводимых данных с литературными данными по Кс обратной реакции характеризуется множителем 1.5-4.0. При Т>6000К приведенные величины Кс соответствуют результатам экспериментов на ударных трубах. Эффективность нереагирующей частицы совпадает с эффективностью N; это предположение может приводить к погрешности Кс, сравнимой с величиной этой Кс.



Tmin

Tmax

модель

КР

погрешность

С1

С2

С3

290.

6000.

ODSTUP

ID

dLG=1.00

7.1E16

113200.

3354.

6000.

20000.

ARROBK

ID

dLG=1.00

8.5E25

-2.5

113200.

Рис.1 Схема представления информации


На диапазоне T=290-6000K константа скорости представлена моделью, которая имела в базе данных имя ODSTUP. В этом случае , где – энергия диссоциации, - характеристическая колебательная температура молекулы N2.

Формула Аррениуса дополнена множителем в соответствии с теорией одноквантового ступенчатого возбуждения Никитина.

На диапазоне T=6000- 20000K константа скорости была представлена моделью, которая имела в базе данных имя ARROBK. Эта модель – формула Аррениуса ,

где - показатель степени



- энергия диссоциации.

На обоих диапазонах приведены значения погрешности и указан тип рекомендации – ID (информационные данные).

Кроме двух баз рекомендуемых данных по кинетическим характеристикам физико-химических процессов в системе АВОГАДРО были разработаны фрагменты Генератора Моделей Среды - Селектор признаков решаемой задачи и Конструктор программного комплекса формирования среды [5]. Проводились работы по созданию базы математических моделей физико-химических процессов, программного комплекса для решения прямой и обратной кинетической задачи, генерации кинетических моделей среды с минимальным количеством компонентов и процессов при заданном пороге чувствительности целевой функции, программного комплекса для экспертизы математических моделей физико-химических процессов. Таким образом был создан прототип научной информационной среды. Все сотрудники Института могли обратиться к базам данных непосредственно со своих рабочих мест и использовать полученную информацию в своих расчетах. Для внешних пользователей обслуживание велось в режиме подготавливаемого по заказу отторгаемого программного продукта.
2. Интернет-технологии для баз данных
Сохранение и поддержка всей технологической цепочки существования баз рекомендуемых данных без целевого финансирования, а только на условиях проведения научно-исследовательских работ, приводит к обеднению контента, а затем и к быстрому старению информации. И, следовательно, уводит эти базы из набора активных научных инструментов. Использование Интернет-технологии для реализации баз данных может активизировать работу по их созданию и более длительному функционированию. Размещенные в сети Интернет ресурсы более доступны для пользователей и экспертов, что помогает разработчикам поддерживать активную обратную связь с клиентами, участвовать в актуальных научных проектах, что позволяет находить необходимую финансовую поддержку, ориентироваться в потребностях предметной области, для которой готовятся рекомендации.

Работа в Интернет удобна пользователю, потому что ему не нужно заботиться об обновлении версий базы данных, о приобретении дополнительного программного обеспечения. Он может получить необходимые ему данные в любом удобном для работы месте. Разработчики такой базы также имеют ряд преимуществ при работе с клиентами - они могут обновлять информацию не от версии к версии, а непосредственно сразу после получения новой порции информации, независимо от ее размера. Работа экспертов Интернет - базы данных может проходить удаленно от места хранения основных фондов. При организации дополнительных сервисов для общения экспертов возможна коллективная работа по экспертизе новых данных и выработке рекомендаций.

В настоящее время разработан новый Интернет интерфейс к определенной части базы данных ПРОЦЕСС. Он позволяет задать в удобной, понятной пользователю форме набор различных критериев выборки, в частности:


  • уникальный номер (код) реакции в системе (диапазон кодов);

  • класс (подкласс) реакции;

  • тип реакции (например, диссоциация, рекомбинация, и т.п.);

  • система атомов процесса;

  • набор веществ, в который должны входить все реагенты искомой реакции;

  • набор веществ, участвующих в реакции.

Результат поиска информации в новой базе данных представляется в виде трех взаимодополняющих частей:

  1. Качественные данные о реакции – тип и класс реакции, химическая формула, единица измерения константы скорости, комментарий эксперта, фамилия эксперта.

  1. Количественные данные – диапазон температуры и значения коэффициентов формулы Аррениуса. Все константы скорости, представленные в новой базе данных представлены в форме Аррениуса.

  1. Графики зависимости константы скорости от температуры в координатах lg(k) – T и lg(k) – 1000/Т

Если пользователь задал критерии поиска таким образом, что в результате получился список реакций, то интерфейс предоставляет пользователю возможность просмотра полной информации по отдельной реакции или одновременного просмотра информации о нескольких реакциях одного типа.

Эксперт, как и прежде, может представить данные по константе скорости реакции на отдельных температурных интервалах разными моделями. Разработанный модуль построения графиков позволяет построить зависимость константы скорости на всем температурной диапазоне. При этом отдельные температурные интервалы со своей собственной моделью будут выделены отдельным цветом. Эксперт может менять модели и изменять размер диапазонов температуры для того, чтобы получить рекомендуемое значение константы скорости. Эксперт также может экстраполировать данные, известные в одном диапазоне, на другой диапазон. В конце сеанса работы эксперт записывает полученные им данные в базу данных. После этого эти данные становятся доступны пользователю. Эксперты новой версии базы данных ПРОЦЕСС, также как и пользователи, работают в сети Интернет, имея удаленный доступ к базе данных. Протоколы административного интерфейса позволяют регулировать принятие окончательных решений по выработке рекомендаций. Особенно это важно в тех случаях, когда с одной и той же реакцией работают одновременно несколько экспертов.



  1. Компоненты открытой научной информационной системы

Кроме модернизации баз данных системы АВОГАДРО продолжаются работы по формированию концепции открытой научной информационной системы, функционирующей в сети Интернет. Предполагается, что такая система должна содержать в структурированном виде изложение современного состояния физико-химической газовой динамики, представляемой как совокупность математических моделей с описанием метатеоретической информации о соотношениях и связях между различными моделями. Кроме того, в ее состав должны входить базы данных по параметрам различных математических моделей. Эта система представляется состоящей из нескольких слоев, различающихся степенью формализации описания, начиная с чисто вербального описания в коммуникативном языке и кончая чисто формальными описаниями в языке различных формальных систем типа прикладного исчисления предикатов, формальной теории множеств, теории категорий, вычислительных моделей в различных языках программирования и т.д. Таким образом, начальные слои ориентированы на человеческое восприятие, а конечные – на машинное восприятие, обработку и на межмашинный обмен информацией.

Для восполнения отсутствующей в базах рекомендуемых данных информации в научной информационной системе формируются соответствующие компоненты – базы моделей физико-химических процессов и прикладные информационно-вычислительные комплексы. Примерами таких компонентов являются Справочник «Физико-химические процессы в газовой динамике» [6] и Интернет-каталог моделей физико-химических процессов [7] (www.chemphys.edu.ru/kintvt ) .

В тексте Справочника представлены экспертные описания физико-математических моделей, в кратком структурированном виде даются основные физические допущения и ограничения, сделанные авторами моделей при разработке моделей, краткое указание на метод моделирования, все необходимые математические формулировки (уравнения, соотношения, формулы), указываются примеры реализации модели, ее адекватность моделируемому процессу и области применимости. Компьютерная версия Справочника, содержащая программную реализацию наиболее популярных моделей, может быть установлена пользователем на его компьютере в виде независимого приложения.

Каталог рекомендуемых моделей физико-химических процессов является согласованным объединением физико-математического описания моделей и алгоритмов, реализующих модели физико-химических процессов, и обеспечивает выполнение расчетов по каждой модели в диапазоне аргументов, задаваемых пользователем, с полной информационной поддержкой, которая осуществляется за счет подключения базы рекомендуемых данных.

Важным компонентом научной информационной системы является электронный журнал [8]. Его основная роль как части научной информационной системы - обеспечить ее пополнение новыми моделями и данными. В Институте механики МГУ электронный журнал «Физико-химическая кинетика в газовой динамике» (www.chemphys.edu.ru) функционирует с 2003года. Статьи в журнале располагаются по разделам. Кроме обычных статей редакция предполагает публиковать и накапливать исчерпывающие протоколы экспериментов для обеспечения возможности последующей их переобработки, выставлять демонстрационные версии информационных систем и вычислительных комплексов по заявленной тематике или предоставлять ссылки на действующие системы. Для обеспечения работы журнала разработан специальный программный комплекс.

ЗАКЛЮЧЕНИЕ

Создание научной информационной системы имеет смысл в том случае, если представленная в ней информация будет полной, точной и актуальной. Для решения этой проблемы обычно применяют несколько методов: четкое определение границ отображаемой предметной области, создание классификатора информационных элементов предметной области и толкового словаря терминов, разработка полнотекстового поиска и иерархического рубрикатора.

Для установления однозначной интерпретации баз данных по тем или иным разделам предметной области, необходима их явная привязка к конкретным теориям и математическим моделям. Большинство существующих баз данных формировалось либо из авторских коллекций фактографических и литературных данных, либо в результате вторичной обработки большого объема литературных источников. Как правило, эти базы данных не содержат никаких рекомендаций по применению хранящихся в них величин.

СПИСОК ЛИТЕРАТУРЫ


  1. Ковач Э.А., Лосев С.А., Сергиевская А.Л. Опыт создания автоматизированной системы научных исследований в области физико-химической газодинамики // Известия АН, Металлы, 1993, N 4, с.70 - 76.

  1. Лосев С.А. Система автоматизированного обеспечения физико-химической газодинамики АВОГАДРО: разработка и наполнение // Химия плазмы. Вып.17. М.: Энергоатомиздат. 1993. с. 288-306.

  1. Сергиевская А.Л., Ковач Э.А., Лосев С.А. Опыт информационно-математического моделирования в физико-химической кинетике. – М: Изд-во Моск. ун-та, 1995, 311 с.

  1. Информатика в физико-химической газодинамике (под ред. С.А.Лосева, О.П.Шаталова), Тр. Института механики МГУ, 1992, 80 с.

  1. Лосев С.А., Ковач Э.А., Сергиевская А.Л., Баева Н.В. Генератор моделей среды в физико-химической газовой динамике // Препринт Института механики МГУ, № 61-2000, 68 с.

  1. Физико-химические процессы в газовой динамике, Справочник. / Под ред. Г.Г.Черного, С.А.Лосева, том.1, М.: Изд-во «Научный мир». 2007, 400с.

  1. Лосев С.А., Сергиевская А.Л, Спичков А.В. Информационное обеспечение моделирования физико-химических процессов в газах с использованием Интернет-технологий//Мат.моделирование, 2007, №10, с.68-76.

  1. Сергиевская А.Л, Колесниченко Е.Г., Погосбекян М.Ю. Проблемы организации порталов для научных исследований//Тезисы докладов Всероссийской научной конференции «Научный сервис в сети ИНТЕРНЕТ ‘2004», 20 - 25 сентября 2004 г, Новороссийск, 2004, c. 248-250.


Сергиевская Алла Леонидовна 119192, г.Москва, Мичуринский пр.1, Институт механики МГУ, тел. (495) 939-5472, sergievsdka@imec.msu.ru



Колесниченко Евгений Григорьевич 119192, г.Москва, Мичуринский пр.1, Институт механики МГУ, тел. (495) 939-2598, egkol@imec.msu.ru

Лосев Сталий Андреевич 119192, г.Москва, Мичуринский пр.1, Институт механики МГУ, тел. (495) 939-5472, losev@imec.msu.ru


Смотрите также:
Опыт разработки научной информационной системы
168.24kb.
1 стр.
Тема семестровой работы
69.78kb.
1 стр.
Методика применения методов программной инженерии на этапах разработки информационной системы
77.28kb.
1 стр.
Исследование Объекта разработки и внедрения кисуп. 1 Предварительный анализ требований
155.11kb.
1 стр.
Мобильная версия информационной системы «е-услуги. Образование» для оказания электронных услуг населению в сфере образования
47.44kb.
1 стр.
Как важная составляющая информационной среды региона в. В. Глаголев, А. Н. Мерцалов
42.58kb.
1 стр.
Статья посвящена разработке системы единого информационного образовательного пространства. В статье рассматривается разработка комплексной информационной системы на базе
58.5kb.
1 стр.
А. А. Вишнякова // Опыт и перспективы создания модульно рейтинговой системы в тгту. Тверь, 2008. 49-51 с
27.13kb.
1 стр.
Проблемы адаптации библиотечной статистики к деятельности в электронной среде
118.19kb.
1 стр.
Разработка автоматизированной информационной системы «кафедра» с помощью современных средств web-программирования
24.63kb.
1 стр.
Методология и технология разработки информационных систем
97.82kb.
1 стр.
Подходы к информационной политике в контексте перехода к информационному обществу
227.51kb.
1 стр.