Инженерный взгляд на мониторинг оборудования ЦОД
Опыт внедрения.
В статье описывается система мониторинга инженерного оборудования ЕИВЦ ОАО «КРЭК» на базе MasterSCADA. Особенностью системы является отказ от традиционных для IT подходов в пользу решений общепромышленной автоматизаци .
Потребителям информации кажется, что Центр Обработки Данных (ЦОД) – это исключительно область IT технологий: сервера, маршрутизаторы, дисковые массивы, трафик…
Это все правильно. Средства мониторинга сетевого оборудования, захвата и анализа трафика, в том числе в средах виртуализации, помогают улучшать доступность и качество предоставляемых ЦОДами услуг, но ориентированы исключительно на сетевое оборудование, то еесть. из множества стандартных средств общения понимают только протокол SNMP.
Рисунок 1. Структура мониторинга IT сервисов ЦОД.
А службы, эксплуатирующие вычислительные центры (даже те, которые не удостоились громкого звания ЦОД), кроме основой задачи предоставления сервисов, отвечают за множество других процессов: охлаждение стоек с серверами, бесперебойное электроснабжение, пожаротушение – огромное хозяйство, требующее постоянного контроля. Вопросы мониторинга оборудования жизнеобеспечения ложатся или на производителя оборудования (например, производитель используемых в ЕИВЦ источников бесперебойного питания APC Schneider Electric имеет систему контроля параметров окружающей среды NetBotz, к которой можно подключить датчики температуры, влажности, несколько дискретных сигналов, видеокамеру), или на интегратора. Но все частнофирменные системы мониторинга, как правило, только «собственное» оборудование и поддерживают.
Специалисты, выпустившие в конце 80-х годов описание протокола управления сетевым оборудованием SNMP (Simple Network Management Protocol), были энтузиастами развития Интернета, и им не нравилось, что каждый производитель сетевого оборудования создает собственные продукты для мониторинга и конфигурирования. Они не могли не задумываться о разнообразии протоколов вообще, о том, что в других отраслях есть многими годами успешно работающие протоколы, но время требовало скорейшего решения насущной задачи… И созданный для простых задач «простой» протокол, успев распространиться, не оставил места для более развитых решений мониторинга IT-инфраструктуры. Что мы имеем в результате? Оборудование (маршрутизаторы, серверы), всегда использующееся в сетях TCP/IP, в большинстве случаев поддерживает протокол SNMP. Оборудование, преимущественно использующееся для поддержки серверной и сетевой инфраструктуры (в основном, ИБП), опционально может иметь сетевые карты с поддержкой SNMP. Оборудование общепромышленного назначения (кондиционеры, дизель-генераторы, автоматы ввода резерва, системы пожарной сигнализации и контроля доступа), иногда использующееся для организации упомянутой инфраструктуры, обычно такой поддержки не имеет и вряд ли будет иметь. В них традиционно используются другие протоколы, ориентированные на наиболее тиражные для них области. Так для дизель-генераторов, используемых «везде», наиболее характерен общепромышленный протокол связи Modbus, а для кондиционеров – распространенный в системах автоматизации зданий протокол LonWorks. При стихийном росте системы мониторинга ЦОД по мере оснащения разным оборудованием и возникновения потребностей руководства и обслуживающего персонала в получении информации, можно получить такую схему:
Рисунок 2. Вариант несистемного подхода к построению системы мониторинга.
Даже упрощенная, она выглядит избыточной и фрагментированной, а, значит, плохо обслуживаемой. Большинство современных комплексных средств мониторинга IT инфраструктуры, как с подходом «от предоставляемых сервисов», так и с подходом «от оборудования и программ» помогают разным группам системных администраторов в своевременном обнаружении инцидентов, связанных с предоставлением IT сервисов. Организация эксплуатации инженерного оборудования ЦОДа должна продумываться до начала исполнения проекта. Упустил это заказчик – получит непредвиденные расходы на начальном этапе, увеличение сроков окупаемости. Кто поможет инженеру, эксплуатирующему не сетевое, но очень важноеоборудование?
А давайте привлечем в IT область технологии промышленной автоматизации. Почему бы не взглянуть на ЦОД, как на технологическую систему? Если это одна технологическая система, то логичнее все реализовать в одной программной системе (см. Рисунок 3) и единственный вариант, конечно, система типа SCADA. Решаемая задача полностью адекватна термину «Supervisory Control And Data Acquisition». И, чем раньше выбор будет сделан в пользу такого подхода, тем лучше. Например, решили вы выбрать хорошее оборудование, прекрасно выполняющее технологическую задачу, допустим, кондиционирования. И объем воздуха и необходимую разность температур подсчитали, мощность установки определили, куда поставить выбрали…
Все прекрасно! А стоимость преобразования нестандартного протокола связи встроенного в нее управляющего контроллера в любой стандартный – может в некоторых случаях достигать четырехзначных цифр в чужой валюте. Прежде чем купить и поставить, определитесь, за что и когда вы готовы платить. Выбор большой, есть возможность найти те же характеристики у другого, более лояльного к клиентам производителя!
Рисунок 3. Системный подход к мониторингу оборудования.
Итак, начав разработку для КРЭК, мы пошли путем перехода от структуры, отображенной на рис. 2, к виду рис. 3, для чего заменили оборудование с нестандартными протоколами. На практике никто не меняет дизель-генератор из-за того, что он не вписывается в систему мониторинга. Но иногда можно заменить управляющий контроллер! Если и этого нельзя – у MasterSCADA есть средства подключения оборудования без написания драйверов (например, мастер форматированного обмена по каналам связи MasterLink). Его пришлось использовать для подключения системы автоматического пожаротушения. Подключить можно всё, но с разными затратами.
Подход к мониторингу ЦОД не только со стороны сервисов, не только с заботой о тяжелой судьбе сисадминов, но и с продумыванием нужд инженеров-эксплуатационников и диспетчеров, позволяет построить по-настоящему комплексную систему мониторинга. Именно такую задачу ставило перед собой руководство ЦОД ОАО «КРЭК», когда создавало концепцию системы мониторинга.
К сожалению |
К счастью |
эта концепция созрела не на этапе проектирования ЕИВЦ, а в результате опыта эксплуатации |
эта концепция – не теоретизирование на этапе проектирования, а результат анализа эксплуатационных проблем |
Стандартная задача мониторинга: непрерывный контроль состояния, доступности, производительности оборудования, получение сообщений об авариях и их устранении, отображение этих сведений на АРМ диспетчера и эксплуатирующего персонала. Мониторингу подлежат параметры электроснабжения и среды в помещениях с установленным оборудованием (температура, влажность, наличие протечек воды, утечка фреона), серверные шкафы (температура), оборудование электроснабжения (состояние АВР, параметры ИБП, параметры генератора резервного питания, контроль автоматов групп электроснабжения), состояние вентиляционного оборудования, система пожаротушения.
Дополнительная задача, которая была возложена на систему мониторинга: измерение температуры каждой батареи во всех ИБП Simmetra. Доступное решение от производителя ИБП, компании Schneider Electric, при большом количестве точек измерения становится громоздким (позволяет подключить всего до 8-ми датчиков температуры на контроллер мониторинга высотой в 1U) и дорогим. Примененный нами альтернативный вариант выигрывает и по компактности (20 датчиков на 1U) и по стоимости.
Рисунок 4. Структура мониторинга инженерных систем ЦОД на базе MasterSCADA.
Система мониторинга, созданная на базе MasterSCADA, включает выделенный архивный сервер и 8 клиентских рабочих мест, а также видеостену на 6 экранов в центральной диспетчерской. Сбор данных и управление обеспечивают контроллеры B-Tune с исполнительной системой MasterPLC через которые осуществляется контроль более 400 температурных сигналов 1-wire, 25 модулей M-7000, к которым подключено более 150 сигналов от датчиков (протечки, температуры, влажности, уровня, контроля напряжения, открывания двери). Оборудование, поддерживающее стандартные протоколы, подключено к MasterSCADA при помощи OPC северов. Universal MODBUS MasterOPC Server опрашивает дизель-генераторную установку FG Wilson с панелью Power Wizard, автоматы ввода резерва AtyS, модули ввода сигналов ICP DAS и ОВЕН, согласователь работы кондиционеров СРК-М, регистраторы параметров качества электроэнергии Парма, насосы Grundfos - всего более 400 сигналов. MasterOPC Multiprotocol Server (плагин SNMP) занимается опросом источников бесперебойного питания APC Symmetra, в т.ч. Symmetra PX160kW – более 3000 сигналов. Сигналы системы пожаротушения Дозор-16 через мультипортовую плату интерфейса RS485 (MOXA) читаются в MasterSCADA c помощью визарда обмена данными SmartLink.
Успешного внедрения системы удалось добиться совместными усилиями. Всем, пожалуй, известно, что на начальном этапе реализации подобного проекта Заказчик довольно схематично представляет задачу автоматизации. Поэтому с ключевыми специалистами ЕИВЦ КРЭК обсуждение Технического Задания велось поэтапно, с перерывами на осмысление и уточнение задач. Этап за этапом желания стыковались с возможностями, рождая действительно функциональную и эффективную систему мониторинга инженерного оборудования. Новые задачи и пожелания появлялись и после ввода в промышленную эксплуатацию, что доказало верность нашего утверждения: система, построенная на базе MasterSCADA, может быть безболезненно расширена или модернизирована на любом этапе жизненного цикла.
Стартовые мнемосхемы для АРМ диспетчера и других пользователей системы отличаются. В диспетчерском пункте требуется более оперативное предоставление информации, поэтому для отображения состояния всех подсистем одновременно выводятся 6 мнемосхем на 6 мониторов видеостены.
Рисунок 5 Стартовая мнемосхема АРМ инженера и руководителя.
При возникновении важных событий в подсистемах, не поместившихся на 6 мониторах, их изображение автоматически появляется поверх стартовых окон. Например, в случае пропадания напряжения на обоих вводах и запуске дизель-генератора, появляется его детальная мнемосхема с подробной информацией состоянии и режимах:
Рисунок 6 .Мнемосхема ДГУ
В данном случае задача была структурирована Заказчиком по целевым критериям:
· снижение эксплуатационных расходов
· увеличение надежности
· автоматизация простейших эксплуатационных операций.
И созданная система полностью достигает поставленных целей! Она также обладает мощными средствами и для «разбора полетов» после каких-либо инцидентов: фиксация всех событий системы в специализированных журналах, объединение графиков параметров с журналами, позволяющее произвести анализ взаимозависимости значений параметров и событий, происходящих в системе.
Рисунок 7. Тренд параметров электроснабжения с развернутой таблицей значений.
Развитые средства анализа позволяют точно определять причины аварийных ситуаций. Например, на Рисунок 8 наглядно видно пропадание напряжения на вводе.
Рисунок 8. Фиксация пропадания напряжения на вводе.
Специалист легко проверит, как сработала подсистема гарантированного электроснабжения именно в это время (какие АВР переключились, потребовалось ли включение питание от ИБП или дизель-генератора, какие потребители могли остаться без питания и т.п.). И никому не придется тратить время на оправдания, написание и чтение служебных записок.
Таким образом, подход к мониторингу ЦОДа, как технологической системы доказал свои преимущества, а возможности MasterSCADAс запасом перекрывают любые, даже самые требовательные, запросы Заказчика.
Веселуха_Г.Л.Мониторинг_ЦОД.pdf
2015 г.
Заместитель генерального директора ООО «ИнСАТ»
Веселуха Г.Л.