![Proteïnosomen als platform voor opslag van DNA-gegevens. a, Schema van proteïnosomen gebruikt voor DNA-gecodeerde gegevensopslag. Proteïnosomen met BSA-PNIPAm-gebaseerde thermoresponsieve membranen kapselen Tamavidin 2-HOT44 en magnetische deeltjes in (Methoden). Digitale gegevens kunnen worden gecodeerd in meerdere DNA-sequenties met vaste lengte die worden toegevoegd met voorwaartse en achterwaartse primerplaatsen om een DNA-gecodeerd bestand te creëren (aanvullende afbeelding 8 toont een grafische weergave). Met behulp van gebiotinyleerde primers tijdens PCR kunnen DNA-bestanden worden gelabeld met biotine, dat stabiel kan worden gelokaliseerd in proteïnosomen via de biotine-Tamavidin 2-HOT-interactie. Verschillende DNA-gecodeerde bestanden kunnen in andere proteïnosomen worden gelokaliseerd om eenvoudig meerdere afzonderlijke gelokaliseerde bestanden te creëren. b, Na lokalisatie wisselen bestanden niet uit tussen proteïnosomen; daarom kunnen meerdere bestanden worden samengevoegd in een enkele bibliotheek. Deze bibliotheek kan worden geamplificeerd met behulp van multiplex-PCR zonder moleculaire overspraak en worden teruggewonnen met behulp van magnetische scheiding na PCR. Bovendien kunnen bibliotheken met fluorescerende streepjescodes worden gesorteerd in afzonderlijke populaties met behulp van sortering met behulp van fluorescentie. Krediet: Nanotechnologie in de natuur (2023). DOI: 10.1038/s41565-023-01377-4 De toekomst van gegevensopslag ligt in DNA-microcapsules](https://scx1.b-cdn.net/csz/news/800a/2023/the-future-of-data-sto.jpg)
Proteïnosomen als platform voor opslag van DNA-gegevens. A, Schematische voorstelling van proteïnosomen die worden gebruikt voor DNA-gecodeerde gegevensopslag. Proteïnosomen met op BSA-PNIPAm gebaseerde thermoresponsieve membranen36 kapsel Tamavidin 2-HOT in44 en magnetische deeltjes (methoden). Digitale gegevens kunnen worden gecodeerd in meerdere DNA-sequenties met vaste lengte die worden toegevoegd met voorwaartse en achterwaartse primerplaatsen om een DNA-gecodeerd bestand te creëren (aanvullende afbeelding 8 toont een grafische weergave). Met behulp van gebiotinyleerde primers tijdens PCR kunnen DNA-bestanden worden gelabeld met biotine, dat stabiel kan worden gelokaliseerd in proteïnosomen via de biotine-Tamavidin 2-HOT-interactie. Verschillende DNA-gecodeerde bestanden kunnen in andere proteïnosomen worden gelokaliseerd om eenvoudig meerdere afzonderlijke gelokaliseerde bestanden te creëren. B, Na lokalisatie wisselen bestanden niet uit tussen proteïnosomen; daarom kunnen meerdere bestanden worden samengevoegd in een enkele bibliotheek. Deze bibliotheek kan worden geamplificeerd met behulp van multiplex-PCR zonder moleculaire overspraak en worden teruggewonnen met behulp van magnetische scheiding na PCR. Bovendien kunnen bibliotheken met fluorescerende streepjescodes worden gesorteerd in afzonderlijke populaties met behulp van sortering met behulp van fluorescentie. Credit: Natuur Nanotechnologie (2023). DOI: 10.1038/s41565-023-01377-4
Het opslaan van gegevens in DNA klinkt als sciencefiction, maar het ligt in de nabije toekomst. Hoogleraar Tom de Greef verwacht dat het eerste DNA-datacenter binnen vijf tot tien jaar operationeel zal zijn. Gegevens worden niet als nullen en enen op een harde schijf opgeslagen, maar in de basenparen waaruit het DNA bestaat: AT en CG. Zo’n datacenter zou de vorm aannemen van een lab, vele malen kleiner dan de huidige.
De Greef kan het zich allemaal al voorstellen. In een deel van het gebouw worden via DNA-synthese nieuwe bestanden gecodeerd. Een ander deel zal grote velden met capsules bevatten, elke capsule verpakt met een vijl. Een robotarm zal een capsule verwijderen, de inhoud lezen en terugplaatsen.
We hebben het over synthetisch DNA. In het lab worden basen in een bepaalde volgorde aan elkaar geplakt om synthetisch geproduceerde DNA-strengen te vormen. Bestanden en foto’s die nu in datacenters staan, kunnen dan in DNA worden opgeslagen. Voorlopig is de techniek alleen geschikt voor archiefopslag. Het uitlezen van opgeslagen gegevens is namelijk erg duur, dus je wilt de DNA-bestanden zo min mogelijk raadplegen.
Grote, energieverslindende datacenters overbodig gemaakt
Gegevensopslag in DNA biedt veel voordelen. Zo kan een DNA-bestand veel compacter worden opgeslagen en is de levensduur van de gegevens vele malen langer. Maar misschien wel het belangrijkste is dat deze nieuwe technologie grote, energieverslindende datacenters overbodig maakt. En dat is hard nodig, waarschuwt De Greef, “want over drie jaar genereren we wereldwijd zoveel data dat we niet de helft kunnen opslaan.”
Samen met Ph.D. student Bas Bögels, Microsoft en een groep universitaire partners heeft De Greef een nieuwe techniek ontwikkeld om de innovatie van dataopslag met synthetisch DNA schaalbaar te maken. De resultaten zijn vandaag gepubliceerd in het tijdschrift Natuur Nanotechnologie. De Greef werkt bij de faculteit Biomedische Technologie en het Institute for Complex Molecular Systems (ICMS) aan de TU Eindhoven en is gasthoogleraar aan de Radboud Universiteit.
Schaalbaar
Het idee om DNA-strengen te gebruiken voor gegevensopslag ontstond in de jaren tachtig, maar was toen veel te moeilijk en te duur. Drie decennia later werd het technisch mogelijk, toen de DNA-synthese een vlucht nam. George Church, een geneticus aan de Harvard Medical School, werkte het idee in 2011 uit. Sindsdien zijn synthese en het lezen van gegevens exponentieel goedkoper geworden, waardoor de technologie eindelijk op de markt is gebracht.
De Greef en zijn groep hebben de afgelopen jaren vooral gekeken naar het uitlezen van de opgeslagen data. Vooralsnog is dit het grootste probleem van deze nieuwe techniek. De PCR-methode die hiervoor momenteel wordt gebruikt, ‘random access’ genaamd, is zeer foutgevoelig. Je kunt dus maar één bestand tegelijk lezen en bovendien verslechtert de datakwaliteit te veel elke keer dat je een bestand leest. Niet bepaald schaalbaar.
Zo werkt het: PCR (Polymerase Chain Reaction) maakt miljoenen kopieën van het stukje DNA dat je nodig hebt door een primer met de gewenste DNA-code toe te voegen. Coronatesten in het lab bijvoorbeeld zijn daarop gebaseerd: zelfs een minuscule hoeveelheid coronavirusmateriaal uit je neus is waarneembaar als je het zo vaak kopieert. Maar als je meerdere bestanden tegelijk wilt lezen, heb je meerdere primerparen nodig die tegelijkertijd hun werk doen. Dit zorgt voor veel fouten in het kopieerproces.
Elke capsule bevat één bestand
Dit is waar de capsules in het spel komen. De groep van De Greef ontwikkelde een microcapsule van eiwitten en een polymeer en verankerde vervolgens één vijl per capsule. De Greef: “Deze capsules hebben thermische eigenschappen waar we ons voordeel mee kunnen doen.” Boven de 50 graden Celsius sluiten de capsules zichzelf af, waardoor het PCR-proces in elke capsule afzonderlijk kan plaatsvinden. Dan is er niet veel ruimte voor fouten. De Greef noemt dit ‘thermo-confined PCR’. In het lab is het tot nu toe gelukt om 25 bestanden tegelijkertijd te lezen zonder noemenswaardige fouten.
Als u vervolgens de temperatuur weer verlaagt, laten de kopieën los van de capsule en blijft het verankerde origineel achter, waardoor de kwaliteit van uw origineelbestand niet achteruit gaat. “We staan nu na drie reads op een verlies van 0,3 procent, tegen 35 procent met de bestaande methode”, zegt De Greef.
Doorzoekbaar met fluorescentie
En dat is niet alles. Ook heeft De Greef de databibliotheek nog beter doorzoekbaar gemaakt. Elke vijl krijgt een fluorescerend label en elke capsule een eigen kleur. Een apparaat kan dan de kleuren herkennen en van elkaar scheiden. Dit brengt ons terug bij de denkbeeldige robotarm aan het begin van dit verhaal, die in de toekomst netjes het gewenste bestand uit de pool van capsules zal selecteren.
Dit lost het probleem van het lezen van de gegevens op. De Greef: “Nu is het afwachten tot de kosten van DNA-synthese verder dalen. Dan is de techniek klaar voor toepassing.” Hij hoopt dan ook dat Nederland binnenkort zijn inaugurele DNA-datacenter kan openen, een wereldprimeur.
Meer informatie:
Yuan-Jyue Chen, DNA-opslag in thermoresponsieve microcapsules voor herhaalde willekeurige gemultiplexte gegevenstoegang, Natuur Nanotechnologie (2023). DOI: 10.1038/s41565-023-01377-4. www.nature.com/articles/s41565-023-01377-4
Tijdschrift informatie:
Natuur Nanotechnologie
Aangeboden door de Technische Universiteit Eindhoven