Технологии, процессы и концепции СХД – Setevuha

Технологии, процессы и концепции СХД

Система Хранения Данных (СХД) - это комплексное программно-аппаратное решение по организации надёжного хранения информационных ресурсов и предоставления гарантированного доступа к ним. СХД могут быть как частью ..., так и основой Центра Обработки Данных (ЦОД).

Содержание статьи:

Резервное копирование (Back-up)

Превентивное создание дополнительных копий пользовательской информации с целью возможности последующего восстановления в случае их утраты или повреждения. Ключевыми параметрами бекапа являются: RPO - Recovery Point Objective и RTO - Recovery Time Objective.

RPO определяет точку отката -- момент времени в прошлом на который будут восстановлены данные RTO определяет время, необходимое для восстановления бекапа.


Репликация

синхронная

Синхронная репликация — это зеркалирование данных на две системы хранения или два дисковых раздела внутри одной системы. Популярный RAID-1 («зеркало») для дисковых контроллеров есть по сути просто синхронная репликация на два диска, выполняемая контроллером диска. При этом каждый блок данных записывается более или менее одновременно, параллельно, на оба устройства. Аналогичным образом это осуществляется на два «диска» в разных дисковых системах хранения. Это «идеальная репликация», обе копии данных полностью идентичны, потому что пока данные не будут гарантированно записаны на оба устройства, оно не может приступить к записи следующего блока. Однако теоретическая идеальность в реальной жизни оказывается ограничением.

Общая скорость системы ограничена самым узким каналом передачи данных. Если мы соединены с системой хранения FC-каналом в 4GB/s, а система хранения синхронно реплицируется на удаленную систему по каналу в 10MB/s, то скорость обмена по FC-каналу 4GB/s будет только 10MB/s и не больше.

асинхронная

Асинхронной называют репликацию, которая осуществляется не в тот же момент, когда осуществляется запись оригинального блока данных, а в «удобное время». Это позволяет преодолеть вышеописанный недостаток синхронной репликации, поскольку процесс записи данных и процесс их переноса на «реплику» разделены и не связаны больше.

При этом сама репликация может быть осуществлена более оптимальным путем, можно провести дополнительную оптимизацию процесса, она может осуществляться по гораздо более дешевым и менее быстродействующим каналам, но копия данных, создаваемая асинхронной репликацией (в отличие от cинхронной), строго говоря, никогда не будет полностью абсолютно идентичной оригиналу, хотя и будет постоянно стремиться к этому соответствию.

полусинхронная

Вариантом, сочетающим в себе возможности синхронной и асинхронной репликации, является так называемая «semi-synchronous» репликация, или «полусинхронная». В этом случае репликация проводится синхронной до тех пор, пока это позволяет быстродействие системы или канала связи. А затем, вместо замедления и остановки операций записи, временно переключается в асинхронный режим, продолжая обрабатывать поступающие данные без задержек, отправляя данные репликации в асинхронном режиме до тех пор, пока не возникнет возможность восстановить синхронный режим.


Дедупликация

Дедупликация данных — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.

В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера (англ. chunks). По мере выполнения анализа сравниваются все новые и новые элементы. При выявлении дублирующегося элемента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.

Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.

проблемы и решения

Дедупликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. Системы резервирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.

В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.

Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.


Иерархическое хранение (HSM)

Перемещение (либо автоматическое перемещение в фоновом режиме) пользовательских данных между дисками и/или СХД различных классов стоимости и производительности. Так, например, наиболее востребованные пользовательские данные хранятся на быстрых (Flash, FC) дисках, либо на дисковых массивах Hi-End класса, тогда как данные, к которым давно не было обращения переносятся на более дешевые носители (SAS, SATA), СХД более низкого класса, либо даже на архивные хранилища. Примеры реализации: EMC FAST, Hitachi Tiered Storage Manager (HTSM).


Виртуализация систем хранения

Что такое Виртуализация? Для чего она нужна? Пример программно-аппаратного комплекса

Виртуализация СХД - технология при которой дисковый массив может подключаться к другому дисковому массиву таким образом, что для подключенного к нему серверу они видятся как одно единое устройство, но при этом обладающее совокупной дисковой ёмкостью и функционалом. Применяется в дисковых массивах USP-V, VSP фирмы "Hitachi Data Systems" и др. Пример комплекса: Дисковый массив USP-V подключен к серверу. К нему подключен дисковый массив более низкого класса AMS-2500, таким образом, что USP-V представляет серверу диски подключенного ("виртуализированного") устройства AMS-2500 как свои собственные. Это позволяет значительно упростить топологию CХД с точки зрения сервера, а также использовать весь функционал и производительность устройства более высокого класса USP-V за счет более дешевых носителей устройства AMS-2500.


Multipathing

Доступ к системе хранения данных по двум или более путям. Это позволяет значительно повысить отказоустойчивость и также скорость доступа к СХД. Примеры использования: EMC PowerPath, MPIO, Veritas DMP

Оцените эту статью:

Интересные статьи по теме «Системы хранения данных (СХД)»

Виды систем хранения данных
Технология хранения Redundant array of independent disks (RAID)

Технология хранения Redundant array of independent disks (RAID)

RAID — аббревиатура, расшифровываемая как Redundant Array of Independent Disks — «отказоустойчивый массив из независимых дисков» (раньше иногда вместо Independent использовалось слово Inexpensive). Концепция структуры, состоящей из нескольких дисков, объединенных в группу, обеспечивающую отказоустойчивость родилась в 1987 году в основополагающей работе Паттерсона, Гибсона и Катца.

Протоколы - системы хранения данных

Протоколы - системы хранения данных

Система Хранения Данных (СХД) - это комплексное программно-аппаратное решение по организации надёжного хранения информационных ресурсов и предоставления гарантированного доступа к ним. СХД могут быть как частью ..., так и основой Центра Обработки Данных (ЦОД).

Файловый сервер

Файловый сервер

Файл-сервер — это выделенный сервер, предназначенный для выполнения файловых операций ввода-вывода и хранящий файлы любого типа. Как правило, обладает большим объемом дискового пространства, реализованном в форме RAID-массива для обеспечения бесперебойной работы и повышенной скорости записи и чтения данных.