更多好玩的科普,快關注“差評”~
如果說小時候最想要什麼東西,大概會是《 哆啦 A 夢 》裡的記憶面包吧。
大家應該對記憶面包都不陌生,隻要吃下印了課文内容的記憶面包,課文就記牢了,不僅能省下時間去玩,還能得到老師誇獎。
這塊面包應該是很多人童年的夢了吧,“ 要是真有記憶面包就好了 ”。不知道多少人這樣想過。
那如果想讓記憶面包成真需要做到什麼?
一.把信息存儲到面包上
二.吃下面包,讓信息進入人體
三.消化信息
簡單看步驟的話,現在的科技就能做到前兩步了,之前看到新聞, DNA 存儲技術已經能大規模寫入數據了。
今年 6 月,美國科技公司 Catalog 将 16 gb的維基百科( 英文版 )全部文本保存到了一條人工合成的 DNA 中。
這滴液态呈現的 DNA 裡有一整部維基百科
DNA 存儲最直接的優點是存儲量大。上面那塊黃黃的液體重 3g ,但是其中 DNA 重量微乎其微。根據紐約基因組中心的數據 , 一克 DNA 可存儲 2.15 億 GB 數據。
把這些數據存到 1T 容量, 7mm 規格的硬盤裡,硬盤堆在一起 , 有 1505 米高。世界最高建築,迪拜塔也隻有 828 米。。。
用 7mm 厚的硬盤堆到兩個迪拜塔高
想想都有些小刺激
DNA 存儲不僅存儲量大,壽命還長。
不算吃 U 盤的怪獸,我一個 U 盤大概用 5 年。正常硬盤使用壽命在 5 -10年,遇到斷電、沖擊等情況還會更短。
常溫下 DNA 的可讀性能保持 2000 年。保存得當,簡直一克永流傳。。。甚至萬年前的 DNA 都被還原了。
基因專家宣稱,已破解 70 萬年前史前馬的 DNA
以目前水平, DNA 可以存一些政府文件,曆史材料。估計以後也沒什麼曆史、文化遺産之争了。
我是一隻沒有感情的粽子
随着技術發展, DNA 存儲可以取代數據中心。我剛剛才知道,原來卡車拉硬盤比光纖快多了。
1Gbps 光纖直連,傳送 100 萬 GB 數據要 20 年,卡車隻用幾天就能從南拉到北,從白拉到黑。。。
滿載硬盤的 AWS Snowmobile 卡車能攜帶 100 萬 GB 數據
有了 DNA 存儲後,這個時間隻用以小時計了,數據随身就帶走。
那電子數據是怎麼存進 DNA 裡的呢?記得生物課上講過, DNA ( 脫氧核糖核酸 )是一種雙螺旋結構( doublehelix )的生物大分子,由堿基組成。
DNA 鍊條上的長條就是堿基了~ DNA 中通常有四種堿基,大家直接理解成 A,T,C,G 就可以。
圖片用不同顔色代表不同堿基
堿基的排列順序,決定了長相、智力,不同病症的發病風險等。随便舉個栗子, ACA 的排列讓人眼神不好,按 CAC 排能讓人長高。其實就是遺傳信息。
相信大家都明白了:DNA 鍊條能儲存遺傳信息,那也能儲存數字信息。
人工合成 DNA 進行數據寫入,DNA 測序進行數據讀取
這麼簡單的邏輯,當時卻根本沒人細想,大家都在忙着破解“ 基因密碼 ”。
隻要找出堿基排列的規律和意義,就像擁有了人類修改器,改長相改素質改壽命,變白變美變高變長壽。
于是“ 人類基因組計劃 ”開始了。
這項工程花費 30 億美元和十幾年時間,測出完整的人類基因序列。如果把破解堿基排列比作翻譯一本書 , 此時相當于終于把書拿到手裡了。。。
别笑,這是人類的一大步好麼。
雖說沒有立竿見影的成果,但這工程推動了 DNA 測序技術的發展。要知道在上世紀 80 年代, DNA 測序還是全人工的。巨大需求量的刺激,讓 DNA 測序進入了自動化時代。
早期的Sanger全程人工,過程複雜
不是老司機根本做不了
破解不了堿基序列,人們就變實際了。都要恰飯的嘛,能拿諾貝爾的發現,怎麼不得利用起來?看不懂沒關系啊,排成咱看得懂的樣子,好歹當個 U 盤?于是 DNA 存儲技術出現了。。。
雖然依然離不開人工,DNA 測序高大上多了
如果把堿基看成 A , T , C , G 四個字母 , 堿基序列實際上就是一串英文。而數據實際上就是一串數字。把數字和堿基字母對應起來,重新排列,就能表達内容。
把堿基按新順序排就成了糖葫蘆,啊呸,是表達意義
相信大家小時候都做過這種題。。。
題目就不去算了~ DNA 存儲就是類似的思路。
給水果賦予不同的數字,假如我想表達 324121 ,隻要排列水果就可以了。
知道轉換規則,就能從排列中讀取信息。DNA 存儲就是通過把堿基看成固定數字,将數字化的數據轉換成堿基序列的方式。
把 A,G 視為 0 ,C,T 視為 1 ,排列後合成。簡單粗暴,這就是最早的 DNA 存儲。
去年的時候,
catalog 的 DNA 存儲設備還是個概念
為了存儲更多數據,人們嘗試了把 A ,T ,C,G 看成 0 ,1,2,3 的四進制。
比如我們要轉換四進制 21130
雖然四進制能縮短數據長度,但同一堿基連續出現,會讓序列不穩定,影響數據的準确。
四進制時相當于一個堿基表達兩個二進制數字
更高的進制,四種堿基又不夠用,為了解決這個問題,人們用了一種三進制的方案。這種方案裡從第二位開始編碼,以前一位堿基來決定後一位。前一位堿基是 A ,下一位就把 A 排除,用 C,G,T 來代表 0,1,2 。
我們可以試一試。剛才的數字用三進制表達是 211101 。假設堿基序列第一位是 A ,轉換結果就是 ATCTCGA 。
這個結果是怎麼得來的呢?第一個字母是 A 時,按照表格,代表 2 的字母是 T,T 後面代表 1 的字母是 C,C 後面代表 1 的是 T,依此類推。
解決了編碼問題,大家玩嗨了,動圖、音頻、電影先後被存入 DNA 。
哈佛大學存入大腸杆菌 DNA 的 gif
2017 年,紐約基因組中心将電影火車進站存入 DNA 。
存入數據大小的記錄也快速刷新着, 2012 年哈佛 650KB 的記錄很快被 MB 級碾壓。
2016 年記錄到了百兆級,微軟存了 200M 電子書,大概等同 789 本高中語文必修一。。。
今年微軟做了個 DNA 自動存儲系統。。。“ hello ”這 5 個字母的存儲和讀取花了 21 個小時。。。
價值一萬美金的系統
Emm …這就是 DNA 存儲的缺點了。。。
微軟 2016 年的寫入速度是每天 20M ,一共花了 80 萬美刀的合成費用。又貴又慢。
但有關 DNA 存儲的科技在不停進步。2001 年至今, DNA 測序從上億美元降到了不到一千美元。今年 Catalog 的寫入速度已經到了 4M 每秒。
Catalog 用來把數據寫入 DNA 的設備
成本降到十萬分之一,寫入速度快了千萬倍。這種進步幅度,足以對 DNA 存儲技術保持期待。在不久的将來,也許電腦裡的硬盤就換成瓶裝 DNA 了。
不過記憶面包的事還是忘了吧,至少靠 DNA 存儲技術是沒辦法實現記憶面包的。
雖然 DNA 存在于人體每一個細胞中,但是大腦卻無法讀取 dna 中的任何信息。不信現在可以試試能不能從 DNA 裡感受到你的遺傳信息。
更何況,大腦完全讀不懂我們設定的排列規則,在它眼裡,這種 DNA 裡大概是這樣的。
所以,一直想着記憶面包,還不如好好學習。努努力說不定就背下來了。畢竟一輩子要背的東西,也就那麼多。
“ 也許可以想想藍胖子?”
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!