RecoverHDD.de

Intelligentes Schnitzen: Die Zukunft der Datenwiederherstellung

In einem kĂŒrzlich erschienenen Artikel mit dem Titel „Content Aware Recovery and Data Carving Explained“ habe ich ĂŒber einige der fortschrittlicheren Algorithmen geschrieben, die in zeitgenössischen Datenrettungstools verwendet werden. Obwohl diese Methoden oft als „File Carving“, „Signature Search“ oder „Content-Aware Recovery“ bezeichnet werden, ist das zugrunde liegende Prinzip Ă€hnlich. Die Unterschiede zwischen den fortschrittlichen Datenrettungsalgorithmen sind gering, aber sie beeinflussen tatsĂ€chlich das Endergebnis. In diesem Beitrag werfen wir einen Blick in die Zukunft.

Intelligentes Schnitzen: Die Zukunft der Datenwiederherstellung

Inhalt

  1. Die Grenzen heutiger Datenwiederherstellungsalgorithmen
  2. Das Dateisystem
  3. Data Carving heute: Textdateien

Die Grenzen heutiger Datenwiederherstellungsalgorithmen

Wenn Sie diesem Blog folgen, wissen Sie vielleicht bereits, dass Fragmentierung Ihr schlimmster Feind ist, wenn es darum geht, Informationen wiederherzustellen. TatsĂ€chlich können Sie normalerweise zusammenhĂ€ngende Dateien mit einem der einfachsten inhaltsbewussten Algorithmen wiederherstellen, aber wenn der Inhalt dieser Datei auf der Festplatte verstreut ist, haben Sie Pech. Die heutigen inhaltsbewussten Algorithmen basieren auf der Signatursuche, was bedeutet, dass sie nur den Anfang einer Datei in einem von ihnen bekannten Format erkennen können. Ob der tatsĂ€chliche Inhalt zur Datei gehört oder nicht, bleibt außerhalb ihres Bereichs.

Lassen Sie uns zum Beispiel sehen, wie ein typischer signaturbasierte Algorithmus mit einer großen MKV-Datei umgeht. ZunĂ€chst stĂ¶ĂŸt er auf den Header der Datei. Das Tool berechnet die LĂ€nge der MKV-Datei und speichert so viele Datenblöcke in einer neu erstellten Datei mit demselben Namen. Fall erledigt, gehen wir zur nĂ€chsten Datei ĂŒber. Einige der intelligenteren Algorithmen lesen zuerst das Dateisystem und extrahieren nur Datenblöcke, die zu keiner anderen Datei gehören (und selbst dieser Aufwand ist selten unter den heutigen Datenrettungstools). Egal was sie tun, sie können sich nicht mit der Fragmentierung der Festplatte auseinandersetzen.

Eine völlig andere Methode mit viel mehr KontextabhĂ€ngigkeit wird benötigt, um diese Videodatei tatsĂ€chlich zu schnitzen. Wenn wir unbegrenzte Ressourcen hĂ€tten und uns nur um diese eine Datei kĂŒmmern wĂŒrden, könnten wir diesen Algorithmus so einstellen, dass er den Header der Datei liest, dann den nĂ€chsten Datenblock anhĂ€ngt und ĂŒberprĂŒft, ob die resultierende Datei immer noch ein gĂŒltiges Video mit allen richtigen Frames ist. Wenn ja, fĂŒgen Sie den nĂ€chsten Block hinzu und ĂŒberprĂŒfen Sie das Video. Wenn es ungĂŒltig wird UND wir die erforderliche Anzahl von Blöcken noch nicht erreicht haben, lesen Sie die gesamte Festplatte und versuchen Sie, jeden Datenblock an das Ende der Videodatei anzuhĂ€ngen, wobei Sie das Video jedes Mal auf GĂŒltigkeit ĂŒberprĂŒfen. Dies wĂ€re schmerzhaft langsam und wĂŒrde Stunden dauern, um nur eine einzige Datei wiederherzustellen, aber am Ende hĂ€tten wir die bestmögliche Rekonstruktion einer bestimmten Datei. Wir könnten das tun. Aber nur, wenn wir unbegrenzte Ressourcen und unbegrenzte Zeit hĂ€tten. Heutzutage werden solche umfassenden Schnitzmethoden nur in der Intelligenz und digitalen Forensik eingesetzt (und selbst dort nur in sehr, sehr wenigen FĂ€llen).

Was ist Ihre „nĂ€chstbeste Option“ im Vergleich zur eigentlichen Datenwiederherstellung? Möglicherweise bieten viele der heutigen inhaltsbewussten Algorithmen eine Ă€hnliche Leistung im realen Leben, indem sie einige andere Dinge berĂŒcksichtigen.

Das Dateisystem

ZunĂ€chst einmal sollten wir das Dateisystem nicht vergessen. Szenarien mit vollstĂ€ndig gelöschten oder leeren Dateisystemen sind relativ selten. TatsĂ€chlich kann das Löschen des gesamten Dateisystems ein schwieriger und zeitaufwĂ€ndiger Prozess sein. Wenn Sie beispielsweise die Festplatte neu partitionieren, wird das ursprĂŒngliche Dateisystem NICHT geleert. Stattdessen bleibt es auf der Festplatte erhalten. Wenn Sie ein NTFS-Volume formatieren, wird das Dateisystem ($MFT-Datei) genauso gelöscht wie jede andere Datei. Es bleibt jedoch wiederherstellbar – genauso wie jede andere Datei! Daher ist die Wiederherstellung des ursprĂŒnglichen Dateisystems (durch Verwendung einer kontextsensitiven Suche oder Carving) der sehr empfehlenswerte erste Schritt, der in praktisch jedem hochwertigen Datenrettungstool auf dem Markt verfĂŒgbar ist. Und wenn das Dateisystem zur VerfĂŒgung steht, kann ein Datenrettungstool die meisten Dateien wiederherstellen, ohne die Signatursuche zu verwenden, selbst wenn das Dateisystem beschĂ€digt oder korrupt ist.

Wenn Sie das Dateisystem zur VerfĂŒgung haben, wird die inhaltsbezogene Analyse so viel einfacher. ZunĂ€chst werden vorhandene Dateien und Ordner, die sich auf das Dateisystem beziehen, von leerem Speicherplatz getrennt. Zweitens behandelt der Signatursuchalgorithmus alle nicht referenzierten Datenblöcke als zusammenhĂ€ngenden Speicherplatz und rekonstruiert gelöschte Dateien aus Blöcken, die von keiner anderen Datei verwendet werden. WĂ€hrend der obige Absatz natĂŒrlich eine Vereinfachung darstellt (lassen Sie uns beispielsweise nicht die sparse Dateien vergessen), trĂ€gt die Behandlung nicht zugewiesener Festplattensektoren als zusammenhĂ€ngender Bereich anstelle einer Vermischung mit vorhandenen Dateien wesentlich zur Wiederherstellung Ihrer Daten bei.

Data Carving heute: Textdateien

Wussten Sie, dass Sie heute möglicherweise echtes Data Carving verwenden? WĂ€hrend es immer noch nicht fĂŒr alle, außer den anspruchsvollsten Anwendungen und arbeitsintensivsten Jobs, machbar ist, den Kontext wĂ€hrend des gesamten Datenwiederherstellungsprozesses aufrechtzuerhalten und nach einzelnen Fragmenten global zu suchen, ist echtes Data Carving bereits fĂŒr mindestens einen Datentyp verfĂŒgbar: Text.

Textdateien haben keine Header. TatsĂ€chlich unterscheidet sich die Struktur von Textdateien sehr wenig von der Struktur zufĂ€lliger BinĂ€rdaten, mit einer Ausnahme. Textdateien verwenden begrenzte ZeichensĂ€tze. Was bedeutet das im Kontext der Datenwiederherstellung? Das bedeutet, dass das Tool nach Festplattenclustern suchen kann, die nur Zeichen im Bereich von 0-9, A-Z, Leerzeichen und einer Handvoll Sonderzeichen enthalten. Wenn ein Cluster mit diesem begrenzten Zeichensatz erkannt wird, wird er als Beginn einer Textdatei behandelt. Nachfolgende Cluster werden analysiert und, wenn ihr Inhalt ebenfalls innerhalb des begrenzten Zeichenbereichs liegt, an die Textdatei angehĂ€ngt. Der Prozess wird fortgesetzt, bis der Algorithmus auf einen Cluster stĂ¶ĂŸt, der nicht mehr in die Kategorie „Text“ fĂ€llt, wonach die Textdatei gespeichert, der Kontext zurĂŒckgesetzt und das Tool nach anderen Datentypen sucht.

Wie Sie sehen können, ist dieser Ansatz in heutigen Tools so nah wie möglich am eigentlichen Data Carving. Es garantiert, dass alle Bits und StĂŒcke von textbasierten Daten extrahiert und in einzelne Textdateien gespeichert werden. Selbst wenn Ihre Festplatte stark fragmentiert ist, erhalten Sie immer noch alle Bits und StĂŒcke und können diese möglicherweise manuell in Ihre ursprĂŒnglichen Textdateien zusammenfĂŒhren.

NatĂŒrlich sind die Dinge im wirklichen Leben nicht so rosig. Der saubere 0-9, A-Z-Bereich ist nur typisch fĂŒr Englisch und einige andere Sprachen, wĂ€hrend andere Sprachen Akzente und nicht-lateinische Zeichen verwenden, die dazu fĂŒhren könnten, dass ein falsch geschriebenes Tool den Text in einer der Fremdsprachen ignoriert. Es gibt auch Zweibyte-Codierungen wie Unicode und variable LĂ€ngencodierungen wie UTF-8, die einen völlig anderen Ansatz erfordern. Selbst in diesem einfachsten Fall verwenden die verschiedenen Datenwiederherstellungstools viele verschiedene Tricks und Workarounds wie die Erkennung der regionalen Einstellungen des Systems (die möglicherweise nicht mit denen der wiederhergestellten Festplatte ĂŒbereinstimmen!), die Aufforderung an den Benutzer, den Zeichensatz (oder die ZeichensĂ€tze) manuell anzugeben, nach Codierungen zu suchen, die in einer bestimmten geografischen Region beliebt sind (z.B. lateinische, westeuropĂ€ische, osteuropĂ€ische und kyrillische ZeichensĂ€tze).

Einige fortschrittlichere Tools verwenden neuronale Netze, um die tatsĂ€chliche Codierung eines bestimmten Zeichensatzes zu erkennen. Haben Sie schon einmal Google Translate oder Bing Translators verwendet? FĂŒgen Sie etwas fremden Text in ihr Übersetzungsfenster ein, und wenn Sie mehr als ein paar Wörter eingegeben haben, sehen Sie, dass das Tool die Eingangssprache automatisch erkennt. WĂ€hrend eine solche Spracherkennung fĂŒr ein Datenwiederherstellungstool wahrscheinlich ĂŒberflĂŒssig ist, können tatsĂ€chliche ZeichensĂ€tze mit relativ einfachen Algorithmen ziemlich zuverlĂ€ssig erkannt werden.

Eine Àhnliche Technik kann verwendet werden, um XML- und HTML-Dateien sowie einige RTF-Dokumente zu entdecken.

Die mobile Version verlassen