СРЕДНЕЕ ВРЕМЯ ДО ПОТЕРИ ДАННЫХ ДВУХДИСКОВОГО МАССИВА

Рахман П.А. 1

1 ФГБОУ ВПО «Уфимский государственный нефтяной технический университет» Филиал в г. Стерлитамаке

Рассматриваются системы хранения данных на базе отказоустойчивого двухдискового массива RAID-1, которые широко используются на практике и имеют приемлемую аппаратную избыточность. Также рассматривается модель надежности двухдискового массива RAID-1 на базе цепей Маркова, учитывающая конечного время замены неисправного диска, различные интенсивности отказов дисков при нормальной работе и при синхронизации данных после замены неисправного диска, и вероятность ошибки чтения данных при репликации данных. Также представлены математическая модель надежности, методика расчета среднего времени до потери данных, методика оценки параметров надежности диска и контроллера массива, и пример расчета.

Статья в формате PDF

2355 KB

Избыточный массив недорогих дисков

отказоустойчивая система хранения данных

среднее время до потери данных

цепь Маркова с непрерывным временем

1. Черкесов Г.Н. Надежность аппаратно-программных комплексов. СПб.: Питер, 2005.

2. Половко А.М., Гуров С.В. Основы теории надежности. 2-е изд. СПб.: БХВ-Петербург, 2006.

3. Martin L. Shooman. Reliability of computer systems and networks. John Wiley & Sons Inc., 2002.

4. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности двухуровневых магистральных сетей // Вестник Уфимского государственного авиационного технического университета. 2014. Т. 18. № 2 (63). С. 197-207.

5. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности локальных компьютерных сетей // Вестник Уфимского государственного авиационного технического университета. 2013. Т. 17. № 5 (58). С. 140-149.

6. Каяшев А.И., Рахман П.А., Шарипов М.И. Анализ показателей надежности избыточных дисковых массивов // Вестник Уфимского государственного авиационного технического университета. 2013. Т. 17. № 2 (55). С. 163-170.

7. Рахман П.А., Каяшев А.И., Шарипов М.И. Марковская цепь гибели и размножения в моделях надежности технических систем // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 140-154.

8. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивой пограничной маршрутизации с двумя интернет-провайдерами // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 131-139.

9. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивых систем хранения данных // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1. С. 155-166.

10. Рахман П.А., Шарипов М.И. Модель надежности двухузлового кластера приложений высокой готовности в системах управления предприятием // Экономика и менеджмент систем управления, 2015. № 3 (17). С. 85-102.

Введение

В последние три десятилетия наблюдается бурное развитие информационных технологий и их внедрение в самые различные сферы деятельности человека, и информация, представленная в электронном виде, стала ключевой частью жизни и работы не только организаций, но и каждого отдельного человека. Более того, сохранность и доступность информации для ее пользователей, как правило, имеет критическую важность, а потеря данных нередко может приводить к катастрофическим последствиям. В такой ситуации анализ показателей надежности дисковых массивов имеет достаточно высокую актуальность, особенно для предприятий среднего и крупного масштабов, поскольку такой анализ также позволяет оценивать риски потери данных и принимать соответствующие решения, и при необходимости внедрять дополнительные технические средства.

В настоящее время существует множество вариантов построения дисковых хранилищ с применением одного или нескольких дисковых массивов по той или иной технологии RAID (Redundant Array of Inexpensive Disks), причем как классических (RAID-0, RAID-1, RAID-5, RAID-6), так и каскадных (RAID-10, RAID-50, RAID-60, RAID-51, RAID-61), матричных и других специализированных видов массивов.

С целью достижения высокой отказоустойчивости (особенно для баз данных), как правило, применяются RAID-1 массивы (также известные как «зеркало»), в котором все диски хранят одни и те же данные, и массив сохраняет работоспособность до тех пор, пока хотя бы один диск работоспособен. В силу высоких накладных расходов (при любом количестве дисков полезная емкость массива всегда равна емкости одного диска), на практике, как правило, используют двухдисковый RAID-1 массив.

Что касается моделей надежности, то с одной стороны имеется ряд академических учебников по теории надежности [1, 2], в которых рассматриваются обобщенные модели надежности технических систем, но нет конкретных примеров по современным системам хранения данных, в частности, избыточным дисковым массивам. С другой стороны имеется специализированная литература [3], посвященная надежности вычислительных машин, систем и сетей, в которых рассматриваются дисковые массивы, но приведенные модели надежности слишком упрощены и дают завышенные значения для показателей надежности.

Соответственно, в рамках научных исследований автора в области надежности систем [4-10] возникла научная задача разработки специализированной модели надежности для двухдискового массива RAID-1, для последующего использования полученных результатов при проектировании систем хранения данных для промышленных предприятий.

Базовая модель надежности двухдискового массива

Рассмотрим сначала известную упрощенную модель надежности двухдискового массива на базе модели дублированной системы с двумя с независимыми элементами.

Введем следующее множество состояний двухдискового массива RAID-1 и условий переходов из одного состояния в другое:

Состояние 0 (online) – оба диска исправны, данные массива доступны. Из этого состояния массив может с интенсивностью 2λ_D (отказ любого из исправных дисков) перейти в состояние 1.

Состояние 1 (degraded) – один диск исправен, другой диск отказал. Из этого состояния массив может с интенсивностью λ_D (отказ оставшегося диска) перейти в состояние 2, либо с интенсивностью μ_D(замена отказавшего диска и репликация данных с оставшегося диска) в состояние 0.

Состояние 2 (offline) – оба диска отказали, и массив разрушен.

где, λ_D – интенсивность отказов дисков в исправном состоянии.

μ_R– интенсивность замены диска и репликации данных.

Ниже на рис. 1 приведена марковская цепь, отражающая множество состояний системы и условия переходов:

missing image file

Рис. 1. Базовая модель надежности двухдискового массива RAID-1

Соответственно, система дифференциальных уравнений Колмогорова-Чепмена для этой цепи выглядит следующим образом:

5tech.eps (1)

Тогда, учитывая, что состояние 0 является начальным, а состояние 2 – финальным, при котором массив разрушается, и теряются данные, мы имеем следующую формулу для расчета среднего времени наработки массива до потери данных:

5tech1.eps (2)

Усовершенствованная модель надежности двухдискового массива

Теперь рассмотрим предлагаемую автором модель надежности двухдискового массив RAID-1 с учетом конечного времени обнаружения и замены вышедшего из строя диска, конечного времени репликации данных (процедура rebuild) на замененном диске, возможности отказа как оставшегося диска, так реплицируемого диска, а также возможности срыва процедуры репликации из-за ошибки чтения данных с оставшегося диска.

Состояние 1 (degraded) – один диск исправен, другой диск отказал и ожидает замены, данные массива доступны. Из этого состояния массив может с интенсивностью λ_D (отказ исправного диска) перейти в состояние 2, либо с интенсивностью μ_D (замена отказавшего диска) в состояние 3.

Состояние 2 (offline 2) – оба диска отказали, и массив разрушен.

Состояние 3 (rebuild) – один диск исправен, другой диск заменен, на замененном диске идет репликация данных с исправного диска, данные массива доступны. Из этого состояния массив может с интенсивностью μ_R (завершение репликации данных на замененном диске) перейти в состояние 0, либо с интенсивностью λ_R (отказ реплицируемого диска) в состояние 1, либо с интенсивностью λ_D (отказ исправного диска) в состояние 4, либо с интенсивностью ε_D(критическая ошибка чтения данных исправного диска в процессе репликации) в состояние 5.

Состояние 4 (offline 1) – один из ранее отказавших дисков заменен, но данные на него не успели реплицироваться, так как другой диск, с которого выполнялась репликация данных, отказал, и массив разрушен.

Состояние 5 (offline 0) – оба диска исправны, но произошла ошибка при репликации данных на замененный диск, и массив разрушен.

где, λ_D – интенсивность отказов дисков в исправном состоянии.

μ_D– интенсивность замены отказавшего диска.

λ_R – интенсивность отказов при репликации или восстановлении данных на замененный диск (большой объем операций записи).

μ_R – интенсивность восстановления или репликации данных.

ε_D – интенсивность ошибок чтения данных исправного диска при репликации данных на другой диск (большой объем операций чтения).

Ниже на рис. 2 приведена марковская цепь, отражающая множество состояний системы и условия переходов.

5tech2.eps (3)

Тогда, учитывая, что состояние 0 является начальным, а состояния 2, 4 и 5 – финальными, при котором массив разрушается, и теряются данные, мы имеем следующую формулу для расчета среднего времени наработки до потери данных:

5tech3.eps (4)

missing image file

Рис. 2. Усовершенствованная модель надежности двухдискового массива RAID-1

Оценка исходных параметров надежности дисков и массива. Интенсивность отказов дисков λ_D можно оценить на основе параметра MTTF (Mean Time To Failure), предоставленного производителем дисков или полученного из практического опыта эксплуатации. Следует отметить, что производители часто завышают MTTF, указывая более миллиона часов. Практика же показывает, что MTTF диска лежит в пределах 50-300 тысяч часов. Что касается интенсивности отказов в режиме репликации (восстановления) данных λ_R, то в силу большого объема операций записи интенсивность отказов реплицируемого диска выше базовой интенсивности. Мы будем упрощенно полагать, что интенсивность реплицируемого диска втрое выше:

5tech9.eps (5)

Интенсивность замены диска зависит от того, происходит ли замена автоматически за счет применения дополнительных дисков (помимо основных дисков в массиве) и технологии горячего резерва, или же обнаружения и замена диска осуществляется специалистами. В первом случае замена может занимать несколько минут, во втором – несколько часов. Соответственно, обобщая оба случая можно сказать, что интенсивность замены определяется параметром MTWS (Mean Time Waiting for Spare):

5tech4.eps (6)

Интенсивность репликации данных μ_R для массивов RAID-1 зависит от емкости диска V (в байтах), средней скорости записи ν_WR на диск (в байт/сек) и средней скорости чтения ν_RD данных (в байт/сек), и может быть оценена следующим образом:

5tech5.eps (7)

Например, для диска емкости 10¹² байтов, скорости записи 5tech6.eps байт/сек и скорости чтения 5tech8.eps байт/сек, интенсивность репликации данных составит 5tech7.eps час^-1 (в среднем репликация данных длится 9 часов).

Интенсивность ошибок чтения ε_D диска можно определить на основе параметра missing image file (вероятности невосстанавливаемой ошибки чтения бита), предоставленного производителем дисков или полученного из практического опыта эксплуатации, емкости диска V (в байтах) и среднего времени репликации данных, равного 1/μ_R (в часах). Для дисков персональных компьютеров missing image file составляет ~10-14, для дисков серверных систем ~10-15.

Тогда, учитывая, что при репликации данных в массиве RAID-1 требуется считывать весь диск размером 8V битов, то вероятность ошибки чтения missing image file . С другой стороны полагая, что время наработки на ошибку – экспоненциально распределенная случайная величина с параметром ε_D, и регенерация длится в течение 1/μ_R часов, имеем равенство 5tech10.eps . Тогда, из двух тождеств получаем 5tech11.eps . Тогда, учитывая, что missing image file очень малая величина, и , окончательно получаем:

5tech12.eps (8)

Например, для диска емкости V = 10¹²байтов, интенсивности репликации данных μ_R = 1/9 час^-1 и вероятности невосстанавливаемой ошибки чтения бита 5tech14.eps , интенсивность ошибок чтения составит ε_D ≈ 1/112 час^-1.

Пример расчета

Имеется массив RAID-1 с двумя дисками емкостью V = 10¹² байтов. Среднее время наработки до отказа диска составляет missing image file часов. Интенсивность отказов реплицируемого диска втрое выше. Вероятность невосстанавливаемой ошибки чтения бита 5tech15.eps . Средняя скорость чтения данных 5tech16.eps байт/сек. Средняя скорость записи данных 5tech17.eps байт/сек. Среднее время замены дисков missing image file часов.

Оценим сначала исходные параметры надежности по формулам 5-8.

Интенсивность отказов диска:

5tech18.eps час^-1.

Интенсивность отказов реплицируемого диска: 5tech20.eps час^-1.

Интенсивность замены дисков: 5tech19.eps час^-1.

Интенсивность репликации данных в массиве: 5tech21.eps час^-1.

Интенсивность ошибок чтения при репликации: 5tech22.eps час^-1.

Рассчитаем среднее время наработки до потери данных дискового массива по известной упрощенной модели (формула 2):

5tech23.eps 800180000 часов.

Теперь рассчитаем среднее время наработки до потери данных дискового массива по предложенной автором модели (формула 4):

5tech24.eps

805522 часа.

Нетрудно заметить, что специализированная модель, учитывающая ряд дополнительных параметров надежности дисков и массива, дает значительно более низкую и реалистичную оценку среднего времени наработки массива RAID-1 до потери данных, нежели чем известная упрощенная модель.

Заключение

Таким образом, в рамках данной статьи рассмотрены двухдисковый массив RAID-1, известная упрощенная модельная надежности и предложенная автором специализированная модель надежности для расчета среднего времени наработки массива до потери данных. Также рассмотрены методика оценки исходных параметров надежности дисков и массива, и приведен пример расчета среднего времени наработки.

Полученные научные результаты использовались автором при проектировании систем хранения данных для НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.

Библиографическая ссылка

Рахман П.А. СРЕДНЕЕ ВРЕМЯ ДО ПОТЕРИ ДАННЫХ ДВУХДИСКОВОГО МАССИВА // Международный журнал прикладных и фундаментальных исследований. – 2015. – № 9-4. – С. 603-607;
URL: https://applied-research.ru/ru/article/view?id=7555 (дата обращения: 25.04.2024).

Переводная версия журнала "Современные проблемы науки и образования"
"Modern Problems of Science and Education. Surgery» (ISSN - 2686-9101)

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Современные проблемы науки и образования» список ВАК ИФ РИНЦ = 1,006

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674

«Современные наукоемкие технологии» список ВАК ИФ РИНЦ = 0,940

«Успехи современного естествознания» список ВАК ИФ РИНЦ = 0,775

«Международный журнал прикладных и фундаментальных исследований» ИФ РИНЦ = 0,593

«Международный журнал экспериментального образования» ИФ РИНЦ = 0,425

«Научное Обозрение. Биологические Науки» ИФ РИНЦ = 0,400

«Научное Обозрение. Медицинские Науки» ИФ РИНЦ = 0,801

«Научное Обозрение. Экономические Науки» ИФ РИНЦ = 0,871

«Научное Обозрение. Педагогические Науки» ИФ РИНЦ = 0,733

«Научное Обозрение. Технические Науки» ИФ РИНЦ = 0,695

«European journal of natural history» ИФ РИНЦ = 0,301

«Международный студенческий научный вестник»

Издание научной и учебно-методической литературы ISBN РИНЦ DOI

РЕЦЕНЗИИ и ОТЗЫВЫ
кандидатов и докторов наук
на статьи, авторефераты, диссертации, монографии, учебники, учебные пособия

Академия Естествознания готовит к изданию реестр новых научных направлений, разработанных российскими учеными

Научный журнал
Международный журнал прикладных и фундаментальных исследований

ISSN 1996-3955

ИФ РИНЦ = 0,593

Библиографическая ссылка

Международный журнал прикладных и фундаментальных исследований
Научный журнал | ISSN 1996-3955 | ПИ №77-60735