Статьи

Надежность в облаке: правильные вопросы

В 2011 году широкая публика была представлена ​​в облаке. К сожалению, во многих случаях это введение произошло в результате сбоев облака. Апрельские сбои Amazon в их дата-центре в Северной Вирджинии были первыми среди нескольких сбоев облачных сервисов, которые привлекли внимание крупных новостей. Популярные веб-сайты и веб-приложения, такие как FourSquare, Reddit и HootSuite, одновременно исчезли из Интернета, когда Amazon и ее клиенты изо всех сил пытались восстановиться.

Критики Облака быстро указали на этот перерыв в качестве доказательства того, что Облаку нельзя доверять для критически важных для бизнеса веб-приложений. Независимо от того, правы ли критики, перебои в работе, безусловно, поднимают серьезные вопросы о надежности Cloud для разумного ИТ-директора.

В то время как облачные сервисы предоставляют новые широкие возможности в отношении гибкости и масштабируемости, операционным командам все еще необходимо поддерживать высокий уровень усердия при разработке облачных архитектур. Когда услуги передаются на аутсорсинг в облако, становится проще думать об основных проблемах надежности как о «чужой проблеме». Но это не может быть дальше от истины. Лучший способ приблизиться к работе с облаком — это задать те же вопросы о надежности, которые вы задали бы традиционному поставщику.

планирование

Прежде чем разрабатывать какую-либо архитектуру, будь то размещенная или облачная, соберите информацию от своих коллег, чтобы определить ожидания для вашей инфраструктуры.

  • Какие веб-приложения являются критически важными и требуют 100% безотказной работы?
  • Существуют ли фоновые приложения, которые могут быть отключены на несколько дней в случае аварии?
  • Какова стоимость простоя или потери данных?

Любой проектный план, который не начинается с этих основ, обречен на провал — и вы можете быть удивлены тем, сколько организаций забывают планировать!

поставщик

Теперь, когда вы знаете, что ищете, начните искать поставщиков. Начните с создания широкой сети — выберите как минимум пять провайдеров, которые предоставляют услуги, отвечающие вашим потребностям. Для всех проектов, кроме самых простых, обязательно начните с реального разговора с настоящим человеком. Обсудите начальные цены на этом этапе, чтобы у вас было лучшее представление о рынке. Наличие нескольких провайдеров на картинке поможет сохранить честность каждого.

Места

Первый шаг в определении местоположения должен быть основан на ответах на следующие вопросы:

  • Требует ли ваше приложение определенных задержек или гарантий производительности, которые будут зависеть от размещения в сети?
  • Соответствует ли предприятие стандартам Tier 3 или Tier 4, установленным Uptime Institute?

Если все ваши пользователи или посетители находятся в Нью-Йорке, вероятно, нет смысла размещать ваш центр обработки данных в Лос-Анджелесе. Приложения, требующие 100% безотказной работы, должны размещаться в нескольких местах, а последующие местоположения должны быть географически разными. Даже на объектах с наилучшим управлением иногда случается незапланированная чрезвычайная ситуация.

Если для вашего приложения требуется 100% времени безотказной работы, вам следует сделать еще один шаг к анализу местоположения.

  • Есть ли предсказуемые события, которые могут повлиять на несколько мест?

Например, один зимний шторм может повлиять как на Чикаго, так и на Нью-Йорк. Бедствия хороши в поиске вашего слабого места. Планируйте заранее.

Хорошая новость в том, что с моделью Cloud резервная емкость дешевая. У вас может быть только несколько серверов — или их вообще нет — работающих в резервном центре данных, с возможностью увеличения количества экземпляров в случае аварии. Работая с поставщиками, попросите дополнительную информацию о том, как они рекомендуют настраивать аварийное восстановление. Возможно, вы даже захотите рассмотреть возможность использования другого поставщика для своих основных сред и сред аварийного восстановления — что снижает риск того, что изменение направления бизнеса одного из ваших поставщиков повлияет на ваши услуги.

сеть

Теперь, когда у вас есть хорошее представление о поставщиках и расположениях, углубитесь в сетевое подключение объекта.

  • Подключен ли провайдер к нескольким интернет-провайдерам первого уровня?
  • Какие шаги предпринимает поставщик, чтобы убедиться, что в его сетевом доступе нет единой точки отказа?

Данные и мониторинг

К настоящему времени вы должны иметь четкое представление о вопросах, которые необходимо задать, чтобы убедиться, что ваш поставщик облачных услуг надежен. Но есть еще один шаг, который вы можете забыть — и он снова возвращается к этому важному этапу планирования. Лучший план резервирования ЦОД не будет иметь абсолютно никакой ценности, если у вас нет документированного, регулярно проверяемого процесса для отработки отказа.

  • Где хранятся ваши данные?
  • Все ли важные данные все еще доступны, если ваш основной центр обработки данных выходит из строя?
  • Сколько времени займет переход на центр обработки данных DR — и сможете ли вы улучшить это время?

Благоразумная команда Web Operations будет проверять процесс DR на ежеквартальной основе, предпочтительно путем полного переключения на DR и обратно. Как минимум, ваша команда должна сидеть вместе и проходить через процесс, даже если нецелесообразно делать живое переключение при сбое.

Наконец, не забудьте мониторинг! Как вы узнаете, что критически важный сервис отключен? Если вы не узнаете об отключении до прибытия на работу в понедельник утром, все ваши планы аварийного восстановления будут скомпрометированы.

  • Все критические системы контролируются?
  • Есть ли у людей, получающих оповещения о мониторинге, документированный способ задействовать процесс аварийного восстановления и сообщить о состоянии?

Во время разворачивающейся катастрофы никогда не бывает подходящего момента, чтобы понять, что у вас нет телефонных номеров для вашей команды базы данных. Убедитесь, что вы сообщаете контактную информацию и процессы заранее всему критически важному персоналу.

Облако идеально подходит для компаний, желающих развернуть масштабируемые и надежные веб-сайты и веб-приложения, но оно не меняет основ хорошего планирования. Будет ли 2012 год годом, в котором ваша компания серьезно пострадает из-за отсутствия избыточности и хорошего плана? Или это будет год, когда вы сможете сообщить своим клиентам, что ваши операции остались без изменений, в то время как CNN сообщает о массовых сбоях?

Надежность изображения через Shutterstock