Проект «Оракул»: создание суперкомпьютера для ускоренной разработки новых материалов для промышленности

Заказчик:
Центр НТИ по Новым функциональным материалам в НГУ (ЦНФМ)
Руководитель проекта со стороны заказчика
Поставщик
К2Тех
Год завершения проекта
2023
Сроки выполнения проекта
Декабрь, 2022 - Май, 2023
Масштаб проекта
800 человеко-часов
Цели
Цель проекта — возвести в дата-центре на площадке Центра НТИ по Новым функциональным материалам в НГУ суперкомпьютерный комплекс, спроектированный на аппаратных и программных решениях в соответствии с требованиями импортозамещения.
Кроме того, в кластере HPC (High Performance Computing, высокопроизводительные вычисления) должна быть предусмотрена возможность масштабирования для запланированного расширения вычислительных мощностей.

Результаты
За счет внедрения суперкомпьютера удалось снизить время выполнения расчетных задач в среднем в 10-12 раз, что в свою очередь увеличивает возможное количество выполняемых расчетов в месяц. Как следствие, Центр НТИ по Новым функциональным материалам в НГУ (ЦНФМ) имеет возможность:
  • выполнять большее количество заказов и повышать свою значимость среди заказчиков наукоемких исследований
  • увеличить объем средств, поступающих в университет, что положительно влияет на дальнейшее развитие команды и привлечение новых специалистов с высоким уровнем навыков.

Уникальность проекта

Проект, имеющий стратегическое значение для промышленности РФ, был реализован экспертами ИТ-отрасли с минимальными трудозатратами.
«Оракул» — это не классическое «коробочное решение» от иностранного вендора, а комплекс импортонезависимых аппаратных и программных компонентов от разных поставщиков, интегрированных между собой; Компоненты HPC были тщательно протестированы на совместимость между собой, а также на возможность работы под предельными нагрузками в режиме 24/7. По результатам тестирования вендорам давали обратную связь по работе компонентов, и они вносили изменения под запрос;«Оракул» предназначен для решения нетипичных задач. Как правило, суперкомпьютеры применяются исключительно для научно-исследовательских или образовательных целей. Результаты работы «Оракула» будут использованы при производстве деталей, конструкций и иных изделий предприятиями авиационной, космической, энергетической и иных промышленных отраслей РФ;

Проект решает задачи импортозамещения
Да
Использованное ПО
  • Вычислительный блок — 392 процессорных ядра, установленных в 7 высокопроизводительных серверах; в качестве CPU используется Intel Xeon Scalable Gen3 с 28 ядрами и 256 ГБ RAM; в качестве GPU — NVIDIA A100 80G;
  • Два сервера управления с установленной платформой виртуализации zVirt;
  • Два сервера с СХД — JBOD, 24 HDD SAS 2,4 ТБ 10k;
  • Высокоскоростная сеть «Ангара» с ПО для настройки и отладки сети и поддержки параллельного программирования на C/C++ и Fortran (библиотеки SHMEM, MPI);
  • Источник бесперебойного питания Mirotek М3;
  • Планировщик Slurm с поддержкой библиотек параллельного программирования Intel MPI, MPICH, MVAPICH2, Open MP
Сложность реализации
Раньше западные вендоры (IBM, HPE, Lenovo и др.) предлагали суперкомпьютеры как «коробочные решения». То есть готовые отлаженные конфигурации оборудования, заточенные под определенное ПО, с преднастроенными проприетарными планировщиками. В отсутствие «простого» решения экспертам по HPC К2Тех было необходимо:
  • Самостоятельно подобрать конфигурацию и спроектировать архитектуру суперкомпьютера под конкретный запрос Центра НТИ и с учетом требования — ориентироваться на лучшие решения, обеспечивающие технологический суверенитет;

  • Проконтролировать процессы и сроки поставок оборудования;

  • Тщательно проверить спецификации пришедшего оборудования на соответствие заявленным параметрам;

  • В рамках тестирования возвести кластер HPC в лабораторных условиях в Москве, проверить оборудование, устранить неполадки, настроить интеграции между решениями разных вендоров;

  • Доставить кластер HPC из Москвы в Новосибирск, возвести его в дата-центре на базе НГУ и провести пусконаладочные работы.

Описание проекта
В 2022 году Центр НТИ на базе Новосибирского государственного университета приступил к реализации программы развития сквозной технологии в области моделирования и разработки новых функциональных материалов с заданными свойствами. Поставки мощных серверов было бы недостаточно для осуществления этих инициатив. Единственным решением был суперкомпьютер. Кроме того, на текущий момент Центр НТИ нацелен на создание и ускоренный вывод на рынок новых типов материалов и продуктов на их основе. Их применение при проектировании деталей, конструкций и прочих изделий способствует развитию отечественных авиационной, космической, энергетической и иных промышленных отраслей, обеспечению технологического суверенитета. В этой связи Центру НТИ была важна не только высокая производительность вычислительного кластера, но и его компонентная и программная независимость. А это значит — соответствие требованиям импортозамещения. Поэтому к развертыванию суперкомпьютерного кластера была привлечена компания-партнер Центра — К2Тех.

Эксперты по HPC К2Тех развернули суперкомпьютер «Оракул» из 11 узлов (7 вычислительных, 2 узла управления, 2 узла хранения) в ЦОД на базе НГУ. Вычислительная подсистема состоит из 392 процессорных ядер, установленных в 7 высокопроизводительных серверах. В их составе как серверы на базе CPU, так и графические с GPU-ускорителями для обработки визуальных данных. Обмен данными между серверами обеспечивает первый российский интерконнект «Ангара» разработки АО «НИЦЭВТ». Номинальная скорость передачи данных — не менее 75 Гбит/c, без блокировок и с низкими задержками. Ожидаемая пиковая производительность суперкомпьютера — не менее 47 Тфлопс. Вместимость отказоустойчивого NFS-хранилища — не менее 40 Тбайт данных. К2Тех развернул и настроил среду виртуализации на основе российской платформы zVirt от Orion soft для эффективной утилизации вычислительных мощностей серверов. К2Тех спроектировал систему бесперебойного электроснабжения для непрерывного питания оборудования вычислительного кластера.

Суперкомпьютер «Оракул» должен решать широкий спектр задач:

  1. Дизайн материалов для термобарьерных покрытий;
  2. Разработка подходов, физико-математических моделей и программного обеспечения для моделирования процесса горения материалов и конструкций;
  3. Компьютерное материаловедение многокомпонентных наноструктурных эластомерных материалов с заданными свойствами для экстремальных условий эксплуатации;
  4. Разработка технологических процессов производства деталей и узлов газотурбинных установок из новых модифицированных сплавов с многослойным теплозащитным покрытием;
  5. Разработка алгоритмов решения обратных задач оптимизации композитных конструкций по различным критериям прочности;
  6. Разработка математического аппарата и его программной реализации для моделирования сложных анизогридных конструкций;
  7. Моделирование статической и циклической прочности системы «материал – покрытие»;
  8. Моделирование горения и пожара;
  9. Разработка программных модулей и многое другое

Таким образом, в итоге суперкомпьютер позволит внедрить технологии машинного обучения и искусственного интеллекта в генерацию новых материалов, разработку прототипа цифрового паспорта материала и создание цифровых двойников технологических процессов.

География проекта
г. Москва, г. Новосибирск
Коментарии: 1

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Вячеслав Чупраков
    Рейтинг: 1279
    Прагматика Эксперт
    Заместитель ИТ директора по инфраструктуре и сервисам
    05.01.2024 01:48

    Добрый день, правильно ли я понимаю, что был собран кластер под существующий софт? Сам софт дорабатывался под новое железо?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.