Software RAID Linux alatt

A lap 2007. október 2., 00:22-kori változata

Linux alatt két programcsomag hivatott a szoftveres RAID kezelésére: a raidtools2 és az mdadm. Mi most csak az mdadm-mal foglalkozunk, mert a raidtools2 kihalófélben van: ha valaki akarja, házi feladatként bemutathatja.

1 RAID-tömbök

Linux alatt a RAID-tömböknek is lehet szuperblokkja; ez a tömböt alkotó blockdevice végén (vagy elején) található, és a tömb (automatikus) összerakásához nyújt segítséget. Ebből adódóan a RAID-tömbök tetszőleges mélységben egymásba ágyazhatók (vagyis olyan elrendezésben csinálunk RAID0 fölött RAID1-et vagy fordítva, ahogyan jól esik).

Többféle szuperblokk-verzió van, az alábbi előnyökkel/hátrányokkal:

0.90:
- a kernel össze tudja rakni a tömböket boot közben
- nem hordozható architektúrák között
- az eszköz végén van
- előfordulhat, hogy egy diszk és a rajta levő utolsó partíció RAID-szuperblokkja ugyanoda esik
- legfeljebb 28 elemű tömböket támogat

1.[012]:
- csak userspace-ből rakhatók össze a tömbök
  - vagyis ha RAIDről akarunk bootolni, initrd vagy initramfs kell
- lehet az eszköz elején és végén is
- többszáz tömbelemet támogat

A szuperblokk nem minden konfigurációhoz szükséges (de a redundánsokhoz speciális esetektől eltekintve igen).

A /dev/md* eszközökön keresztül érhetjük el a RAID-tömbjeinket, miután "elindítottuk" őket (l. később). (md="multiple device")

Amúgy az mdadm kezeli az ún. multipath konfigurációkat is (amikor redundáns útvonalak vannak a gép és a háttértár között), de ezzel itt nem foglalkozunk.

1.1 RAID-szintek

A Linux a következő RAID-szinteket támogatja:

LINEAR: csak összefűzi az eszközöket, nincs se csíkozás, se redundancia; cserébe bővíthető.
RAID0: csíkozás. Ha nem egyforma nagyok az eszközök, akkor is az összes helyet használhatjuk, legfeljebb a végére nem lesz annyíra csíkos.
- Egy csík (stripe) itt egy valamennyi fizikai eszközre kiterjedő, logikailag folytonos blokkcsoportot jelent.
- Az egy diszkre eső csíkszelet neve chunk.
- Jelenleg nem bővíthető.
RAID1: minden diszken pontosan ugyanaz van.
- Párhuzamosan ír minden eszközre.
- Az olvasásokat igyekszik elosztani az eszközök között (ennek főleg többszálú I/O esetén van érezhető hatása).
- Ha nem minden diszk egyforma nagy, a nagyobbak pluszkapacitását nem tudjuk kihasználni (a tömbben levő logikai hely annyi lesz, mint a tömb legkisebb elemén levő).
- "Bővíthető": ha az összes diszket nagyobbra cseréljük benne (szép sorban), akkor a tömb is megnőhet.
RAID4: mint a RAID0, de egy külön eszközön (az utolsó aktívon) van a csíkok paritása.
- Itt is minden eszközből csak annyi kapacitás hasznosul, amennyi a tömb legkisebb elemén rendelkezésre áll.
- Nem érdemes használni (kivéve, ha az egyik diszk sokkal gyorsabb, mint a többi).
- Jelenleg nem bővíthető (csak mint a RAID1).
RAID5: mint a RAID4, de a paritást is csíkozza.
- A legújabb kernelek (2.6.17+) már tudják bővíteni (ehhez a teljes tömböt újra kell írni, úgyhogy nem egyszerű és nem gyors művelet, de legalább lehetséges).
RAID6: mint a RAID5, de kétféle paritást tárol, így nem egy, hanem két diszk kiesését viseli el.
- Általában kicsit lassúbb a RAID5-nél (két diszk kiesése esetén sokkal lassúbb, de legalább még működik).
- Kb. 2007. nyarától bővíthető, mint a RAID5.
RAID10: egy absztrakciós szinten megvalósított RAID1+0.
- Csíkoz, és minden adatot legalább n példányban tárol.
- Csinálhatunk pl. 5 diszkből álló csíkozott tömböt, amelynek nettó kapacitása 2,5 diszknyi, és minden adatot két példányban tárol, vagyis egy tetszőleges diszk kiesését túléli.
- De csinálhatunk az 5 diszkből két diszk kiesését túlélő tömböt is, 5/3-ad diszknyi kapacitással.
- Lehet hozzá hotspare-t adni (RAID0-hoz nem, RAID1+0-hoz sem, RAID0+1-hez pedig legalább kettő kellene).
- Háromféle replika-elhelyezési módszert tud:
  - near: egy csíkban (vagyis egymáshoz közel) helyezi el a replikákat.
  - far: egymástól távol helyezi el a replikákat.
    - Előnye: jobb szekvenciális olvasási teljesítmény.
    - Hátránya: lassúbb írás.
  - offset: egy adat másolata a következő csíkban, a következő eszközön kap helyet. (2.6.18-as kerneltől)
    - Előnye: a far-ral összemérhető szekvenciális olvasási teljesítmény.
    - Kevesebb fejmozgatással megúszható a replikák kiírása, vagyis kevésbé lassul az írás.
  - Ezeknek a hatását persze igazából ki kéne mérni.
- A replika-elhelyezési módszerek keverhetők: kérhetünk pl. egy near és egy far replikát. Jó ez valamire?
- Jelenleg nem bővíthető.

1.2 A konzisztencia biztosítása, hibakezelés

Alapesetben írás előtt dirtynek jelöli a tömböt
A tömb leállításakor clean lesz
- Tehát bootkor elvileg mindig clean
De RAID1, RAID4, RAID5, RAID6 és RAID10 esetén legalább két írás kell a konzisztens állapot megőrzéséhéz, és ezek nem biztos, hogy pontosan egyszerre mennek végbe
- Vagyis van egy időablak, ami alatt ha eltűnik a táp, inkonzisztens (dirty) lesz a tömb
Ha indításkor dirty, resync:
- RAID1: az első diszkről a többire másolja a tartalmat
- RAID4, RAID5, RAID6: a diszken található adatokból újraszámolja a paritást és azt írja a paritásblokkba
- RAID10: minden adat első replikáját rámásolja a többire
Resync közben a tömb írható és olvasható
- Igyekszik úgy ütemezni, hogy a resyncre ne nagyon kelljen várnia a többi processznek
- sysfs, procfs: speed_limit_min, speed_limit_max
Ha már nincs redundancia, akkor a 2.6-os kernel a dirty arrayt nem is hajlandó automatikusan elindítani
Ha írás közben hibát észlel egy tömb egy elemén, azt az elemet hibásnak (faulty) jelöli, és nem használja
Ha van hotspare (tartalék), azonnal elkezd rá szinkronizálni
Ha olvasási hiba van, először megpróbálja javítani úgy, hogy az oda való adatot kiszámítja és kiírja, majd megpróbálja visszaolvasni. Ha ez nem megy, akkor jelöli hibásnak a diszket.
- Ez jól hangzik, de nem biztos, hogy a gyakorlatban is jó - lehet, hogy jobb lenne cserélni azt a diszket.

1.3 Bitmap write-intent logging

2.6.13 óta az md driver egy bitmap-naplóban jelzi, hogy hova fog írni
2.6.13-ban RAID1, 2.6.15-től a többi RAID-hez is megvan
Ez a "szándéknapló" utólag is hozzáadható működő tömbhöz, és el is távolítható belőle
Ha az adott területre hosszabb ideig nem történik több írás, a vonatkozó bitet törli
Ha kiveszünk egy diszket a tömbből, a biteket a többin sem törli már

Így:

Tápvesztés és dirty indulás után nem kell teljes resync, csak a bitmap alapján piszkos részekhez kell nyúlni
Ha egy diszket kiveszünk a tömbből, majd visszarakjuk, nem az egész tömböt kell újraszinkronizálni

Persze az írási sebesség valamennyivel biztos kisebb, ha a szándéknaplót is frissítgetni kell; ki kellene mérni, mekkora a különbség.

1.4 Write-mostly

RAID1-en
Ha így jelölünk meg egy tömbelemet, akkor a kernel arról csak akkor fog olvasni, ha muszáj, de írni ír rá
Így nem lassul le (annyira) a tömb, ha pl. hálózaton át is mirrorozunk

1.5 Write-behind

2.6.14 óta
RAID1-en
Csak write-mostly tömbelemen
Hatása: az adott eszközre aszinkron módon ír
Értelme: ha aránylag lassú elérésű (mondjuk hálózati) diszk is van a tömbben, az is nagyjából szinkronban lesz, de még annyira sem lassítja a rendszer működését, mint a write-mostly esetén
- Túl lassú (szaturált) kapcsolat esetén persze nem jó

1.6 Újracsíkozás

Restriping, reshaping
A tömb újraírása a struktúra megváltoztatása érdekében, pl:
- Diszkek számának növelése ("szélesebb" csíkok)
- Blokkméret csökkentése ("sekélyebb" csíkok)
- Blokkméret növelése ("mélyebb" csíkok)
- Adat- és/vagy paritásstruktúra megváltoztatása (pl. áttérés RAID1-ről RAID5-re vagy RAID5-ről RAID6-ra)
2.6.17-től a Linux a RAID5-öt tudja újabb diszkkel bővíteni; a többi műveletet is tervezik
- Ráadásul a művelet biztonságos is, ha közben elmegy az áram, nem vesztünk adatot (l. man mdadm)

2 Kernel-paraméterek

raid=noautodetect: ne ismerje fel és indítsa el automatikusan a 0xfd típusú partíciókat
raid=partitionable: particionálható tömböket szeretnénk
md_mod.start_dirty_degraded=1: akkor is elindítja a tömböt, ha degradált is és dirty is - hasznos, ha ez a root filerendszer.
md=n,dev,dev,...: az mdn a megadott eszközökből állítandó össze boot közben.
A szinkronizálás sebessége állítható a /sys/block/mdX/md/sync_speed_{max,min} átírásával (van/volt /proc tunable is hozzá, de ezen a héten a sysfs-t szeretjük jobban)
A szinkronizálás sorrendjét befolyásolhatjuk így: echo idle >/sys/block/md1/md/sync_action. Ekkor az md1 szinkronizálása felfüggesztődik és helyette a sorban következő tömbé kezdődik meg.

3 Az mdadm használata

Üzemmódjai:

Assemble
- "Elindítja" (láthatóvá teszi) a megadott tömböt
Build
- Szuperblokkmentes tömböt rak össze
- Ilyenkor természetszerűen az első létrehozás és a későbbi újbóli elindítás ugyanaz a művelet
Create
- Új (szuperblokkos) tömb létrehozása
Follow/Monitor
- A megadott tömbök állapotát figyeli, reagál a változásokra
- Csak redundánds tömbökre van értelme
Grow
- Újracsíkozás
Manage
- Eszköz hozzáadása tömbhöz, kiszedése, hibásnak jelölése stb
Misc
- "Egyéb": pl. RAID szuperblokk törlése; információkérés
  - akkor kell törölni a szuperblokkot, ha végleg el akarunk távolítani egy eszközt egy tömbből

Néhány tipikus felhasználás:

3.1 Új tömb létrehozása

mdadm --create -l1 -n2 -x1 /dev/md0 /dev/sd[abc]1   # RAID 1, 1 spare
mdadm --create -l5 -n3 -x1 /dev/md0 /dev/sd[abcd]1  # RAID 5, 1 spare
mdadm --create -l6 -n4 -x1 /dev/md0 /dev/sd[abcde]1 # RAID 6, 1 spare

3.2 Degradált tömb létrehozása

("Féllábúnak" vagy hiányosnak is mondják.)

A tényleges eszköznév helyére írjuk azt, hogy "missing":

mdadm --create -l5 -n3 /dev/md0 /dev/sda1 missing /dev/sdb1
mdadm --create -l6 -n4 /dev/md0 /dev/sda1 missing /dev/sdb1 missing

3.3 Tömb összeillesztése

Ha már egyszer korábban létrehoztuk, de a kernel még nem inicializálta:

mdadm --assemble --auto=yes /dev/md0 /dev/sd[abc]1

Ha hiányos, nem indul el magától, kell a --run:

mdadm --assemble --auto=yes --run /dev/md0 /dev/sd[ab]1

Vagy összerakás után külön elindíthatjuk:

mdadm --run /dev/md0

A /etc/mdadm/mdadm.conf-ban felsorolt összes tömb összeillesztése és elindítása (ilyesmit csinál az initramfs/initrd:

mdadm --assemble --auto=yes --scan

Hiányos, piszkos tömb összeillesztése és elindítása (a konzisztencia így nem biztosított!):

mdadm --assemble --auto=yes --force /dev/md0 /dev/sd[ab]1
mdadm --run /dev/md0

3.4 Tömbök leállítása

</pre> mdadm --stop /dev/md0 </pre>

Vagy az összesé, ami a configban van:

mdadm --stop --scan

3.5 Tömbelemek hozzáadása

Ha már fut a tömb:

mdadm --add /dev/md0 /dev/sdc1

Ha többet adunk hozzá, mint ahányból létrehozáskor állt, a többletből melegtartalék lesz.

3.6 Tömbelemek eltávolítása

Először jelöljük hibásnak, amit ki akarunk venni:

mdadm --fail /dev/md0 /dev/sdb1

Ekkor elkezdi szinkronizálni a(z egyik) melegtartalékot
Szedjük is ki a tömbből a hibásnak jelölt eszköz:

mdadm --remove /dev/md0 /dev/sdb1

3.7 Hibás diszk cseréje

Ha a /dev/sdb failed állapotban van:

mdadm --remove /dev/md0 /dev/sdb
halt # ha nem hot-swappable...
# diszkcsere
mdadm --add /dev/md0 /dev/sdb

3.8 Új aktív diszk hozzáadása RAID1-hez

Már fusson a tömb, és:

mdadm --grow -n3 /dev/md0
mdadm --add /dev/md0 /dev/sdc1

3.9 Aktív diszkek számának csökkentése RAID1-ben

mdadm --fail /dev/md0 /dev/sdc1
mdadm --remove /dev/md0 /dev/sdc1
mdadm --grow -n2 /dev/md0

3.10 Meglevő fájlrendszer RAID1-esítése

Bebootolunk egy live CD-ről (hogy biztosan ne írjon semmi a fájlrendszerbe, miközben másoljuk)
Létrehozunk egy új, féllábú RAID1-et a második diszken
Rámásoljuk az adatokat
Hozzáadjuk a tömbhöz az első diszket
Rebootolunk a szép új RAIDes fájlrendszerünkkel

Ha a /dev/sda1 a meglevő fájlrendszer és a /dev/sdb1 az új diszk, akkor:

mdadm --create /dev/md0 -l1 -n2 /dev/sdb1 missing
mkfs -t <type> /dev/md0
mount /dev/sda1 /mnt/sda1
mount /dev/md0 /mnt/md0
rsync -aHSA /mnt/sda1/. /mnt/md0/
vim /mnt/md0/etc/fstab
vim /mnt/md0/boot/grub/menu.lst
umount /mnt/md0
umount /mnt/sda1
mdadm --add /dev/md0 /dev/sda1

Ezt amúgy lehetne helyben is, ha úgy 1 MB-tal összezsugorítanánk előtte a fájlrendszert, de azért nem ajánlott.

3.11 Meglevő fájlrendszer RAID5/6-ra helyezése

Kb. mint fent, de:

# RAID5:
mdadm --create /dev/md0 -l5 -n3 /dev/sdb1 /dev/sdc1 missing
# _vagy_ RAID6:
mdadm --create /dev/md0 -l6 -n4 /dev/sdb1 /dev/sdc1 /dev/sdd1 missing
mkfs -t <type> /dev/md0
mount /dev/sda1 /mnt/sda1
mount /dev/md0 /mnt/md0
rsync -aHSA /mnt/sda1/. /mnt/md0/
vim /mnt/md0/etc/fstab
vim /mnt/md0/boot/grub/menu.lst
umount /mnt/sda1
umount /mnt/md0
mdadm --add /dev/md0 /dev/sda1

RAID5/6-ról egyetlen elterjedt bootloader sem tud bootolni, úgyhogy a kernel-image-et tartalmazó fs legfeljebb RAID1 legyen...

3.12 Tömb sorszámának átírása

Ha a /dev/mdX-ből mondjuk /dev/md4-et szeretnénk csinálni:

mdadm --assemble /dev/md4 /dev/sd[abc]1

Ezt meg fogja jegyezni, a továbbiakban az a tömb magától is md4 lesz
... legalábbis 2.6-os kernel és legalább RAID1 esetén

4 Potenciális zh-kérdések

Hasonlítsa össze a RAID0+1 és a RAID1+0 elrendezést! Miért jobb az egyik, mint a másik? Esetleg egyformán jók?
A RAID0, a RAID1, a RAID5, a RAID6, a RAID10, RAID1 over RAID0 és a RAID0 over RAID1 elrendezés közül melyikhez lehet értelmesen hozzáadni egy darab hotspare-t? (Tegyük fel, hogy a RAIDx over RAIDy esetében az egymás fölött megvalósított RAID-tömbök nem tudnak egymásról.)
Milyen RAID-elrendezést választana, ha a következő feltételeknek kell megfelelni?
- 6 darab egyforma nagyságú diszkünk van.
- Minden adatot legalább két példányban akarunk tárolni, két különböző diszken.
- Legalább 2,5 diszknyi kapacitásra van szükségünk.
- Linux softraidet szeretnénk használni.
- Legalább egy diszkünk legyen hotspare.
Mit csinál a Linux újraszinkronizáláskor RAID1, RAID5, RAID6 ill. RAID10 esetén?
Mi a bitmap write intent logging, és mire jó?
Mi a write-behind a linuxos softraid kontextusában, és mire jó?