Система управления эксплуатацией центра обработки данных.
Система управления эксплуатацией Центра Обработки Данных.
Типичный дата-центр состоит из:
• информационной инфраструктуры, включающей в себя серверное оборудование и обеспечивающей основные функции дата-центра — обработку и хранение информации;
• телекоммуникационной инфраструктуры, обеспечивающей взаимосвязь элементов дата-центра, а также передачу данных между дата-центром и пользователями;
• инженерной инфраструктуры, обеспечивающей нормальное функционирование основных систем дата-центра.
Инженерная инфраструктура включает в себя: кондиционирование для поддержания температуры и уровня влажности в заданных параметрах; бесперебойное электроснабжение для автономной работы дата-центра в случаях отключения центральных источников электроэнергии; охранно-пожарную сигнализацию и система газового пожаротушения; системы удаленного IP контроля, управления питанием и контроля доступа.
Команды квалифицированных специалистов круглосуточно производят мониторинг всех систем. Необходимо отметить, что услуги дата-центров сильно отличаются в цене и количестве услуг.
Нельзя построить ЦОД, запустить в работу инженерные системы и думать, что дальнейшая эксплуатация наладится сама собой. Если к этому моменту у вас не будет стройной системы управления эксплуатацией, велика вероятность, что негативные явления не заставят себя ждать.
Когда нужно начинать думать об эксплуатации ЦОДа? С технического задания на создание ЦОДа. Именно заказчик, он же пользователь, первым должен задумываться об эксплуатации и закладывать соответствующие требования в техзадание. Для этого обычно привлекаются либо собственная служба эксплуатации, если объект данного типа у заказчика не первый и есть реальный опыт эксплуатации, либо внешние консультанты. Можно пойти и третьим путем, довериться генподрядчику, который, основываясь на своем опыте, разработает технические и эксплуатационные решения и воплотит их в жизнь, после чего примет объект в эксплуатацию. К сожалению, в России еще мало организаций, обладающих таким опытом, чтобы наряду с проектной документацией разработать алгоритмы и регламенты системы эксплуатации.
Начинаем с проектирования
При проектировании ЦОДа следует руководствоваться принципами эргономичности: простотой, удобством и безопасностью, а также ориентированностью на человека.
Простота. В данном случае простота – это понимание системы обслуживающим персоналом, исключающее допущение ошибок.
Удобство и безопасность. Речь идет о возможности для человека любой комплекции и физической формы обслуживать систему без травм и других критических последствий.
Ориентированность на человека. На всех этапах создания ЦОДа необходимо помнить, что человек – его неотъемлемая часть.
Приведем несколько примеров того, на что необходимо обращать внимание при разработке инженерной системы дата-центра.
Цветовая маркировка
Сквозная маркировка оборудования. Этот подход упрощает идентификацию оборудования, как на стадии проектирования, так и при эксплуатации. Также он значительно сокращает время поиска необходимого элемента и снижает риск ошибочного выбора другого элемента. При создании единой системы маркировки в нее заносится каждый предварительно промаркированный элемент. Указывается его положение в системе, модель и производитель, наличие на складе ЗИП, а также аналоги для замены. Это позволит значительно уменьшить время локализации и устранения проблем.
Унификация оборудования. Применение типового оборудования и типовых узлов также позволяет упростить обслуживание систем ЦОДа.
· Во-первых, чем больше однотипного оборудования в системе, тем меньше оборудования на складе ЗИП.
· Во-вторых, при использовании типового оборудования проще обучить персонал качественно его обслуживать.
Ограничение размера компонентов. Следует еще на этапе проектирования ограничивать габариты оборудования. Не говоря уже о логистических преимуществах, смонтировать, обслужить и демонтировать такое оборудование смогут один-два человека за короткий промежуток времени без применения специальных механизмов.
Зонирование технологических помещений. Маркировка сильно упрощает поиск необходимого элемента, но риск ошибки все же остается. Для его минимизации применяют метод зонирования. Обеспечение беспрепятственной транспортировки ЗИП. Ко всем элементам ЦОДа необходим свободный доступ.
Но все-таки конечная оценка проектных решений будет сделана на стадии эксплуатации. Уже при монтаже инженерных систем необходимо начинать выстраивать систему управления эксплуатацией. А к моменту перехода от опытной эксплуатации к производственной она должна быть окончательно сформирована.
Система управления эксплуатацией центра обработки данных состоит из нескольких связанных друг с другом больших разделов:
• управление персоналом;
• поддержание документации в актуальном состоянии;
• управление договорами;
• техническое обслуживание и ремонт;
• управление движением расходных материалов и запасных частей;
• мониторинг состояния систем и организация оперативного управления.
Персонал. Служба эксплуатации может комплектоваться как собственным персоналом, так и привлеченным из сторонних компаний, которые на аутсорсинговой основе выполняют какие-либо работы. Наем собственного персонала – непростая задача для HR-служб, так как для большинства позиций требуется достаточно высокая квалификация. Если в крупных городах среди соискателей приходится проводить конкурс, то в удаленных регионах, где в последнее время стали появляться ЦОДы, отделу кадров бывает нелегко найти хотя бы одного кандидата, отвечающего всем требованиям.
Документация. Перечислим типы документации, без которых невозможна правильная эксплуатация дата-центра:
• проектная и исполнительная документация по всем разделам, начиная с генплана и заканчивая специальными разделами проектов;
• инструкции по эксплуатации каждой инженерной системы;
• инструкции по эксплуатации оборудования в инженерных системах;
• паспорта на системы, оборудование;
• сертификаты;
• гарантийная документация;
• акты испытаний, поверки и т.д.;
• карты технического обслуживания оборудования, регламенты проведения работ;
• список запасных частей и расходных материалов для каждой инженерной системы;
• журналы проведения инструктажей по технике безопасности и пожарной безопасности;
• карточки учета средств индивидуальной защиты и спецодежды;
• должностные инструкции;
• инструкции по действиям в нештатных ситуациях;
• инструкции по правилам поведения в дата-центре для посетителей;
• договоры с внешними организациями (поставки топлива, аренды, уборки и т.п.).
ЦОД – «живая» система, в которой постоянно что-то модернизируется, налаживается или демонтируется. Все эти изменения должны надлежащим образом отображаться в исполнительной документации и соответствующих инструкциях.
Техническое обслуживание и ремонт. Важнейшая часть эксплуатации ЦОДа – поддержание всех инженерных систем в работоспособном состоянии. Эта задача решается путем проведения планового технического обслуживания оборудования и систем на основании регламентов, а также ремонта или замены оборудования, вышедшего из строя. Служба эксплуатации дата-центра своими силами или с помощью подрядчиков должна разработать регламенты технического обслуживания всех систем. В регламенты включаются сведения об оборудовании, периодичности или сроках проведения ТО, описание операций по обслуживанию, информация о необходимом инструменте, расходных материалах и запасных частях. На основании регламентов составляются перечни материалов и запчастей, которые передаются в службы закупки. Поставки комплектов расходников должны осуществляться в строго оговоренные сроки. Для быстрого восстановления работоспособности оборудования в дата-центре должен храниться комплект запчастей. Перечень ЗИП для ремонта инженерных систем обычно разрабатывается с участием поставщиков (вендоров), а также исходя из практического опыта эксплуатации и статистики выхода из строя элементов систем. Актуальная информация о ЗИП должна быть доступна ремонтным службам. Система хранения должна обеспечивать быстрый поиск необходимой детали и ее выдачу. По мере расходования комплекта ЗИП его необходимо пополнять, обеспечивая некий неснижаемый остаток (запас).
Существуют три основных подхода к техническому обслуживанию и ремонту:
• выполнение работ собственными силами;
• выполнение работ сотрудниками сторонних организаций;
• выполнение работ как собственными силами, так и сотрудниками сторонних организаций.
В большинстве российских дата-центров практикуется смешанный вариант. Это позволяет минимизировать затраты и гарантировать качество работ. Как правило, на аутсорсинг отдаются сложные работы, требующие высокой квалификации работников и специализированного инструмента.
Контракты со сторонними организациями. Сторонние организации привлекаются не только для технического обслуживания оборудования. Поставка электроэнергии и дизельного топлива, вывоз мусора, утилизация отработанных масел и технических жидкостей, уборка помещений – полный список всех договоров крупного дата-центра может содержать несколько десятков пунктов. Они имеют разную значимость для функционирования ЦОДа, но ни об одном из них не следует забывать.
Мониторинг инженерных систем дата-центра. Постоянный мониторинг существенно облегчает контроль состояния систем, позволяет быстро выявлять различные неисправности или прогнозировать их развитие. Система мониторинга – это сложная инженерная система, поэтому для нормального функционирования она требует технического обслуживания, замены неисправных элементов, обновления ПО.
Учет инцидентов. Важную информацию о реальном состоянии инженерных систем дата-центра можно получить при скрупулезном учете всех происходящих в нем инцидентов (событий. Должна быть описана причина возникновения инцидента. Если же назвать точную причину возникновения сбоя сразу невозможно, то в графе «причина» записывается «выход из строя по неизвестной причине», и такие случаи рассматриваются с особой тщательностью. Следующий важный параметр, который должен фиксироваться, – это степень влияния инцидента на работу ЦОДа.
Все события можно разбить на три группы:
• практически не влияющие на работу;
• снижающие проектную избыточность инженерных систем;
• влияющие на работу серверных, вплоть до полной остановки дата-центра;
Анализируя данные об инцидентах, можно выявить некоторые тенденции в состоянии инженерных систем и получить статистические данные. Всё это служит материалом для дальнейшего улучшения системы эксплуатации ЦОДа.
Помимо этих технических аспектов на службах и отделах эксплуатации инженерных систем лежит ответственность за обеспечение соблюдения организационных и технических способов обеспечения безопасности труда, а это и создание система распределения ответственности, и назначение ответственного за электрохозяйство, и организация работ и допуска к работам.
Организация системы эксплуатации инженерных систем ЦОД процесс сложный и многогранный и только внимательный, комплексный подход ко всем вопросам, внимание к мелочам, может обеспечить достижение приемлемого результата.
Ссылка для скачивания.
Система управления эксплуатацией ЦОД.pdf
Хрестоматия: https://yadi.sk/i/2GO04kg63VY3iy
Дополнительно: http://www.alldc.ru/documentation/document/624.html