Главная
страница 1

ИНФОРМАЦИОННАЯ И ТЕЛЕКОММУНИКАЦИОННАЯ СРЕДА ДЛЯ РЕШЕНИЯ ЗАДАЧ ВЫЧИСЛИТЕЛЬНОЙ БИОЛОГИИ

А.Ю.Зайцев, В.В.Корнилов, В.Д.Лахно, М.Н.Устинин

Институт математических проблем биологии РАН, Пущинский научный центр РАН, Пущино Московской обл.

Тел.: (0967) 73-24-08, (0967) 79-05-70, e-mail: lak@impb.psn.ru


В биологических исследованиях компьютеры и суперкомпьютеры становятся все более важным инструментом познания и получения прикладных результатов. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, позволяющее использовать ее для решения весьма трудоемких задач компьютерной биологии, в частности, появление суперкомпьютеров с параллельной архитектурой, так и рост ее применения в биологии.

Необходимо широкое развёртывание работ по информационному и вычислительному обеспечению фундаментальной и прикладной физико-химической биологии. Можно сказать, что развитие высокопроизводительных вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии.

Задачи, решаемые компьютерной биологией, предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств. В 2000 г. на базе Института математических проблем биологии РАН был создан высокопроизводительный вычислительный кластер Пущинского научного центра РАН. Ведется работа по созданию и отладке программного обеспечения для расчетов на компьютерах с параллельной архитектурой и по обеспечению надежного высокопроизводительного доступа в Интернет, что является необходимым условием проведения работ по вычислительной биологии и биоинформатике.

Кластер ПНЦ РАН состоит из 16 однопроцессорных узлов на базе микропроцессора Intel Pentium III. В качестве сетевой среды выступает Fast Ethernet. Дополнительно установлен однопроцессорный компьютер, который используется как файл-сервер и как головная машина для загрузки задач на кластер. Он оснащен двумя сетевыми адаптерами Fast Ethernet, один из которых служит для доступа на кластер извне.



Аппаратное обеспечение кластера

Конфигурация узла:

Материнская плата ASUS P3B-F, чипсет BX, системная шина 133 МГц, процессор Pentium III-800EB, 256 Мбайт оперативной памяти, жесткий диск IDE 10.2 Гбайт Seagate; видео-контроллер Matrox Millenium PCI 2M; Адаптер Fast Ethernet 3Com 3C905TX (10/100)

Конфигурация головной машины:

Материнская плата ASUS P3B-F, чипсет BX, процессор Pentium III-800E, 256 Мбайт оперативной памяти, 2 жестких диска SCSI 18 Гбайт IBM; 40-скоростной привод CD-ROM; Видео-контроллер Matrox Millenium G400; 2 адаптера Fast Ethernet 3Com 3C905TX (10/100); монитор 17".

Сетевая инфраструктура:

24-портовый коммутатор Fast Ethernet – D-Link/DES 1024.

Дополнительная аппаратура: электронный переключатель для монитора/клавиатуры на 16 позиций; два металлических шкафа для установки узлов; 3 источника бесперебойного питания Powercom.



Программное обеспечение

Программное обеспечение строится на базе свободно распространяемой OS Linux (GNU Debian) и интерфейса передачи сообщений MPI как основного средства программной реализации параллельных вычислений.

В качестве основного программного средства организации параллельных вычислений используется LAM/MPI версии 6.3.2 – реализация MPI и среда разработки MPI-программ для гетерогенных кластеров из UNIX-машин, разработанная в Ohio Supercomputer Center.

Также доступны MPICH/MPI, PVM и некоторые специализированные библиотеки:



  • ATLAS (Automatically Tuned Linear Algebra Software)

  • PBLAS

  • ScaLAPACK

  • BLACS

  • P4

  • PVM

  • ROMIO

Для тестирования общей производительности кластера использовались тесты NASA Benchmarks класса A. По результатам тестирования можно сделать вывод о том, что производительность кластера ПНЦ сопоставима с производительностью других параллельных машин.

Спектр задач, решаемых с использованием кластера, охватывает широкий круг проблем математической биологии и биоинформатики. В настоящее время решаются следующие задачи:



  • Изучение влияния гидратации на структуру двойной спирали ДНК. Выполнено большое число вычислительных экспериментов с фрагментами ДНК различных нуклеотидных последовательностей и конформаций. В ходе анализа полученных данных был выявлен целый ряд закономерностей в строении водной оболочки двуспиральной ДНК.

  • Моделирование различных биомолекулярных систем таких как фосфолипидные бислои различного состава, белки (ферредоксин Thermotga Maritima и HiPIP Rhodocyclus tenuis), карбосилановые дендримеры и др. Были рассчитаны различные структурные, механические и энергетические характеристики. Расчеты проводились с использованием программ и методик, разработанных в Лаборатории молекулярной динамики ИМПБ РАН.

  • Моделирование пространственной структуры молекул н-алканов в вакууме и в водном окружении. Выявлен осциллирующий характер зависимости “диаметра” молекулярного клубка от количества мономерных звеньев, образующих молекулу алкана.

  • Реконструкция упругих свойств биологических тканей человека, определяющих степень патологии.

  • Перенос заряда в многосайтовой нуклеотидной цепочке. Были найдены области параметров, в которых возможен необратимый перенос заряда с первого сайта в конец цепи.

По результатам тестирования и решения конкретных задач можно сделать следующие выводы:

  • Кластер показывает хорошую производительность на задачах, не требующих интенсивного межпроцессорного обмена.

  • Существующая сетевая инфраструктура существенно снижает производительность кластера при решении хорошо распараллеленных задач, требующих большого числа пересылок коротких сообщений. Одна из причин этого заключается в высокой латентности существующей сети.

Можно наметить следующие пути развития проекта:

  • Покупка коммерческого программного обеспечения.

  • Добавление новых узлов, объединенных высокоскоростной сетью.

  • Увеличение количества узлов кластера.

В настоящее время ведется работа по увеличению количества узлов за счет подключения к кластеру восьми компьютеров ИМПБ РАН в нерабочее время. Подключение производится посредством создания виртуальных туннелей, обеспечивающих шифрование и защиту сетевого трафика. Таким образом, достигается динамическая конфигурация кластера с переменным количеством узлов. Следует иметь в виду, что по причине загруженности внутренней институтской сети такие динамические узлы нельзя рассматривать в качестве серьезных кандидатов на решение параллельных задач. Однако наличие большого количества последовательных пользовательских программ делает этот вариант вполне оправданным и позволяет надеяться, что его реализация существенно разгрузит кластер и даст возможность сосредоточиться на решении основных задач.

Следует отметить, что уже на начальном этапе использования кластера ПНЦ РАН он, как правило, полностью загружен. При этом потребность в вычислительных ресурсах для решения задач компьютерной биологии остается очень высокой.

Наряду с повышением мощности кластера следует искать другие пути привлечения вычислительных ресурсов.

В настоящее время активно ведется работа по проведению расчетов на удаленных высокопроизводительных компьютерах. Прежде всего, это ресурсы МСЦ, ИПМ РАН, НИВЦ МГУ, ИАПУ РАН и др. Однако, для решения многих задач вычислительной биологии необходима передача большого объема данных, а также привлечение распределенных информационных ресурсов (имеется свыше 500 баз данных по биоинформатике). Это предъявляет серьезные требования как к каналам связи между Пущино и Москвой, так и к международным каналам выхода в Интернет. Следует признать. что в настоящее время мощности этих каналов явно недостаточны. В рамках проекта ФЦП "Интеграция" совместно с НИВЦ МГУ начата работа по метакомпьютингу – привлечению через Интернет большого числа компьютеров к решению задач вычислительной биологии.



Работа выполняется при поддержке ФЦП “Интеграция“, проект В0018, и грантов РФФИ 01-07-90317, 00-01-05000, 01-01-00894.



Смотрите также:
Информационная и телекоммуникационная среда для решения задач вычислительной биологии
54.06kb.
1 стр.
Ивс для решения задач вычислительной гидродинамики с кластерной поддержкой
44.58kb.
1 стр.
Методы решения задач гидроупругости с использованием cae-технологий
17.4kb.
1 стр.
Программа дисциплины "Информационная среда как ресурс развития образовательного учреждения " для направления подготовки магистра
244.86kb.
1 стр.
Глобальная сеть интернет и информационная среда
41.87kb.
1 стр.
Информационная технология
130.96kb.
1 стр.
Сборник задач по аналитической химии титриметрические и гравиметрические методы анализа. Для студентов химико технологических
454.64kb.
4 стр.
Учебно-методический комплекс по дисциплине «Практикум по решению задач на Эвм»
734.83kb.
9 стр.
Компьютерная гидродинамика
21.7kb.
1 стр.
Учебное пособие «Методика решения задач по химии»
882.54kb.
6 стр.
1 этап. Алгебраический способ решения задач
47.9kb.
1 стр.
Партнеры sap представили новые выгодные предложения для быстрорастущего бизнеса в Казахстане
77.31kb.
1 стр.