Wie man mit Ceph das Datenwachstum kontrollieren und optimieren kann
Wenn man den neuesten Prognosen Glauben schenkt, so wird der Speicherplatzbedarf weltweit noch weiter zunehmen. Durch Big Data Analytics sowie unzählige Sensordaten, die zu jeder Zeit des Tages entstehen, lässt sich das Datenwachstum nicht mehr aufhalten.¹
Diese Entwicklung führt bei den meisten Unternehmen zu einem Problem. Sie müssen den eigenen Bedarf an Speicherplatz so gut wie möglich vorhersehen. Nur so können sie entsprechende Kapazitäten dort zur Verfügung stellen, wo sie dringend von Nöten sind. In den verschiedenen Bereichen steigt die Datenmenge auch unterschiedlich an. Des Weiteren sind sehr unterschiedliche Anforderungen an diese Daten gegeben. Eine einfache Erhöhung der Brutto-Speicherkapazität der Systeme reicht daher nicht mehr aus. Bestimmte Bereiche benötigen genau zur richtigen Zeit diese erhöhte Speicherkapazität.
Eine „Modernisierung“ ist Pflicht!
Beim Thema Datenwachstum denken viele Administratoren hauptsächlich darüber nach, wie sie es schaffen können, so viel Speicher wie möglich frei zu bekommen. Dies könnte durch die Ankopplung einer (weiteren) JBOD Erweiterung an den vorhandenen netzwerkgebundenen Speicher (NAS) geschehen. Schließlich ist dieses Vorgehen bis dato in vielen Bereichen das Standardverfahren.
Allerdings müssen die Ressourcen in einer zeitgemäßen IT-Infrastruktur flexibel bereit gestellt sein und vor allem auch genau dann, wenn sie von Nöten sind. Um diesen neuen Anforderungen zu entsprechen, sollte Sie die Speicherumgebung ab jetzt modernisieren.
Wer an dieser Stelle mit hohen Kosten rechnet, kann aber aufatmen. Die vorhandene Infrastruktur kann man durchaus weiter verwenden, falls sie noch nicht veraltet ist. Sie wird lediglich mit entsprechenden Technologien so flexibel und skalierbar wie möglich gemacht. Denn so wie sich die Geschäftsbereiche sehr schnell an sich ändernde Anforderungen anpassen, muss dies auch die Infrastruktur der IT tun. Mit Ceph ist die Umsetzung dieser Modernisierung einfacher umsetzbar.
Was ist Ceph?
Bei Ceph handelt es sich um eine verteilte Storage-Lösung. Gemeinsam mit RADOS (reliable autonomic distributed object store) ist Ceph ein Objektspeicher, der sich über eine beliebige Anzahl an Servern überreichlich verteilen lässt. Drei Arten von Speicher sind dem Nutzer hier geboten: Der Objektspeicher, der Blockspeicher und CephFS. Letzteres ist ein verteiltes Dateisystem. Kopien der Objekte werden hier gespeichert. Sollten Daten beschädigt sein, so kann Ceph diese durch die Kopien, die sich auf anderen Speichermedien befinden, wiederherstellen. So heilt es sich quasi selbst und kann einen Ausfall der verschiedenen Komponenten jederzeit auffangen.²
An anderer Stelle wurden die mit dieser Software-Defined-Storage-Lösung einhergehenden Herausforderungen schon rudimentär erklärt. In diesem Artikel wird nun genauer erläutert, mit welchen Möglichkeiten die Speichersysteme durch Ceph ideal genutzt werden können. Des Weiteren geht es hier auch darum, wie sich die Investitionskosten schnellstmöglich auszahlen.
Möchte man sein bestehendes RAID erweitern, so geht dies nur mühsam vonstatten. Und irgendwann kommt der Punkt, an dem keine zusätzlichen Erweiterungen mehr verwaltet werden können. Legt man zusätzlich auch noch Wert auf Markenprodukte, so kann eine Erweiterung recht teuer werden. Daher sollte man derartige Investitionen im Vorfeld gründlich überdenken. Ebenso sollte die vorhandene IT-Infrastruktur in dem Punkt hinterfragt werden, ob sie in ihrem momentanen Zustand noch für die Arbeitsweisen und Unternehmensziele passt.
Kosten durch intelligent verteilte Objekte minimieren
Ceph als Software-Defined-Straoge-Lösung ist bestens geeignet, um den Preis, der für ein GB ansteht, zu reduzieren. Dies geschieht zum einen durch das Einsetzen von commodity Hardware und zum anderen dadurch, dass teure SAS- oder SSD-Festplatten für eine gute Leistung nicht notwendig sind. Durch wenige, als I/O-Cache eingesetze, SSD-Festplatten erreicht man dennoch die benötigte Performance. Dazu werden diese SSD-Festplatten beispielsweise den SATA HDDs vorgeschalten, die um einiges langsamer, jedoch auch deutlich günstiger sind. Die Kosten für ein GB sinken und bei vielen Anwendungen ist hiermit schon ein gutes Preis-/Leistungsverhältnis erreicht.
Für die optimale Nutzung des Speichersystems gibt es jedoch einen Punkt, der noch viel wichtiger ist. Ceph hat die Möglichkeit verschiedene Pools zu erzeugen, die man wiederum verschiedenen Festplatten zuordnen kann. Diese Festplatten heißen in der Sprache von Ceph OSDs.Auf diese Weise kann der Administrator für unterschiedliche Anwendungsmöglichkeiten gezielt verschiedene Pools verwenden. Hierfür genügt ihm der Zugriff auf immer denselben Cluster, was dazu führt, dass der Aufwand für Administrationsarbeiten sinkt.
Ein konkretes Beispiel für die Kostensenkung
Für eine Datenbankanwendung würde so beispielsweise das Betreiben auf einem eher kleinen Pool nur mit SSDs ausreichen. Die Virtuelle Maschine nutzt hingegen nur SATA HDDs, vor die evtl. noch ein Cache geschalten ist. Die Virtuelle Maschine kann auf vglw. günstigem Speicher betrieben werden, da die Leistung ihres Betriebssystems nicht sehr stark von den Zugriffszeiten abhängt. Die kostspieligen SSDs können also optimal für die Datenbanken genutzt werden.
Man kann also durch Pools sehr granulär entscheiden, welcher Typ I/O innerhalb eines Ceph Clusters welche Art Festplatte nutzt. Dass man hierbei alles innerhalb eines denkbar logischen Systems verwalten kann, ist im Gegensatz zu lokalen Speicherpools, bzw. unterschiedlichen NAS- oder SAN-Systemen der große Vorteil. Das Ceph Cluster System liegt hierbei über der vorhandenen Hardware. So ist es problemlos möglich, bei Bedarf die Kapazität zu erhöhen.
Außerdem ist es möglich, dass man nur einzelne Pools bei Bedarf durch passende Erweiterungen oder Festplatten erweitert. Dies kann man jederzeit kurzfristig und kostengünstig umsetzen. Auf diese Weise nutzt man den Speicherplatz dann und dort, wo man ihn benötigt und verschwendet seine Kapazität nicht über längere Zeiträume. Wurde zuvor zusätzlicher Speicherplatz benötigt und eingebunden, so kann dieser jederzeit problemlos an anderer Stelle eingesetzt werden. Hierfür ist kein physisches Eingreifen nötig und der laufende Betrieb wird nicht gestört.
Angepassten Replikationsraten sorgen für das Feintuning
Bei der Wahl eines passenden Level bei einem klassischen RAID, kommt es drauf an, welcher Anwendungszweck für dieses RAID angedacht ist. Ceph ermöglicht auch hier eine sehr individuelle und auch kurzfristige Entscheidung. Die Anzahl der anzulegenden Replikationen für jedes einzelne Objekt, definiert man, sobald man einen neuen Pool anlegt. Für ein Backup ist möglicherweise eine einfache Kopie eines unwichtigen Dokumentes ausreichend.
Wichtige geschäftliche Unterlagen sollten bei einem Backup jedoch evtl. mehrfach kopiert werden. Es ist außerdem möglich, den Speicherort für diese Kopien festzulegen. So ist beispielsweise die Speicherung auf einer anderen Festplatte oder sogar in einem anderen Brandabschnitt möglich. Auf diese Weise kann man Ceph noch idealer nutzen. Der Speicherplatz, der durch die einzelne Kopie der unwichtigen Unterlagen gespart wird, kann an anderer Stelle gewinnbringend eingesetzt werden.
Zusammenfassung
Ceph ist also ideal geeignet, wenn man trotz zu erwartendem Datenwachstum Kosten sparen möchte. Die bereits vorhandene Hardware kann man weiter nutzen. Bei eventuell anstehenden Neuanschaffungen muss man nicht auf teure Marken setzen. Durch die Möglichkeit, die unterschiedlichen Anwendungen mit ihren unterschiedlichen Geschwindigkeiten auf verschiedene Pools zu verteilen, sorgt für eine optimale Nutzung der Hardwareleistung.
Ebenso gewinnbringend ist die Möglichkeit, das Replikationslevel individuell festlegen zu können. Hierbei werden zusätzliche Kapazitäten frei, die an anderer Stelle sinnvoll eingesetzt werden können. Hohe Kosten für Markenprodukte entfallen. Der Administrationsaufwand reduziert sich dadurch, dass man sich statt auf viele verschiedene Speichersysteme, nur noch auf ein einzelnes stützt. Wenn man das Ceph Cluster optimal auf sein Unternehmen und dessen spezifische Anwendungen anpasst, erhält man einen sehr guten ROI in vielen Bereichen. Deshalb lohnt es sich, einmal über die Anschaffung eines solchen modernen Speichersystems Gedanken zu machen. Denken Sie an das unvermeidbare Datenwachstum.
Verweise:
1. https://www.storage-insider.de/weltweite-datenmenge-soll-sich-bis-2020-verzehnfachen-a-442411/
2. https://de.wikipedia.org/wiki/Ceph
vgl. https://www.eetimes.com/author.asp?section_id=36&doc_id=1330462
vgl. http://ceph.com/geen-categorie/how-data-is-stored-in-ceph-cluster/
vgl. http://docs.ceph.com/docs/