全文共3792字,預計學習時長10分鐘
圖源:lynda
Simon很喜歡做電子表格,他喜歡把數字一列列地排列起來,然後通過公式來處理這些數據,這種做法的難度介于編寫代碼和做筆記之間。
Simon不僅有做賬單的表格,還有用于記錄各種項目、假期和愛好的表格。即使是深藏閣樓、許久不用的東西也有一個表格記錄,Simon的新年決心也寫在電子表格中。
每次當他開始思考某件事時,就會自動打開一個新表格,然後把想法分成不同的行和列。這裡不恰當地引用一句Abraham Maslow的話,“如果你僅有一張電子表格,那麼所有的東西都可以都成一個單元格。”
不過像Simon這樣鐘愛電子表格的人并不多見。事實上,隻要你使用過Excel,就會很清楚它的缺點。在表格中輸入一個電話号碼,如果很不走運的話,它就會變成8.E 09,再好一點的情況可能就是沒有前面這個0。有時候數字還會變成日期,有時候日期又會變成數字。Simon已經習慣看#N/A了。
上述這些事情都非常惱人,但你終究會習慣的。然而,如果你是一名遺傳學家,這就會影響到你的工作了。
将大多數基因輸入到Excel中并沒有什麼問題,比如“Myosin regulatory light chain interactingprotein”(縮寫為MYLIP),但如果輸入“Membrane-associated ring-CH-type fingers”(縮寫為MARCH1),Excel就會把它識别成日期,并且還會“非常有效”地将其轉換為2020年3月1日。
Simon對此很感興趣,這是一種奇怪的邊界情況。當第一位Excel軟件工程師編寫出掃描文本并将特定值轉換為日期的功能時,誰會想到有一天它會把科學研究文檔搞得一團糟呢?
Simon感到如釋重負,因為他不是唯一與Excel做鬥争的人。但是,這種基因格式化的問題,不僅僅是一個有趣的怪現象而已,實際上它是一個令人驚訝的大問題。
四年前,科學家在一項研究中寫道:“對領先的基因組學期刊進行程序性掃描,結果顯示,額外的Excel基因列表的論文中,約有五分之一都存在基因名稱轉換的問題。”事實上,自2004年以來,科學家們就一直在寫Excel給他們帶來的各種問題。二十年來,這個令人哭笑不得的現象就一直困擾着基因組學雜志。
圖源:Getty Images
直到幾周前,人類基因組命名委員會(HGNC)決定重新命名這些有問題的基因,這樣它們就不會在Excel中轉換成日期了。MARCH1變成了MARCHF1, SEPT1變成SEPTIN1,以此類推。換句話說:基因學家們非常惱火Excel把他們的數據弄亂了,于是他們更改了官方的科學名稱,讓它們更加适合Excel。
這其中蘊含卡夫卡式的内容。崇高與平庸産生了聯系,這太不可思議了:重要的科學工作遇上了Excel格式化。看到全球範圍内的人都與我們擁有相似的經曆,是一種很奇妙的感覺。你絕對想不到遺傳學整個行業,會和微不足道的個體遇到一樣的困擾。
網友們最開始抱着一種娛樂的心态,後來,Simon發現了三種截然不同的反應。
第一種反應是“學會正确使用Excel”。也就是說,Excel本身沒有什麼問題,隻是科學家沒有正确地使用這個工具。如果他們希望數據保持原樣,而不進行格式化,他們就應該在值之前添加一個撇号,或者應該将列的類型設置為文本格式。他們的數據被弄亂是他們自己的錯,這是對科學界不熟悉計算機操作的控訴。
第二種是“科學家無論如何都不應該使用Excel”的說法。對于科學家來說,Excel是一個過于簡單的工具。他們應該使用Matlab、R,或其他高級腳本語言或應用程序來處理他們的數據,這樣他們就不會有這個問題。
最後,還有那些讨厭微軟的人表示,數據被破壞了要歸咎于微軟。Excel不應該将這特定的27個基因識别成日期了,其他基因也不可以轉換成任何時間。Excel是人類的禍害,我們應該和科學家一起對微軟發起攻擊,讓他們改變他們的方式。
圖源:unsplash
Simon對所有這些觀點都表示同情,但真相肯定介于兩者之間。人類基因組組織(HUGO)做出這一改變時,是因為每個人都處于一個進退兩難的境地——科學家和有着截然不同的計算機技能的實驗室助理之間、遺傳學家和軟件向後兼容性之間。
當然,許多科學家都将學習數據格式以及阻止數據轉換為日期的方法,但意外還是會發生。如果表格被保存為CSV格式,再次加載到Excel中,還是會被破壞。初級研究人員總是忘記這一點。一位遺傳學家告訴TheVerge網站的工作人員:“這真的很煩人”,數據格式讓研究人員措手不及。
對于微軟來說,這是一個奇怪的邊緣問題,這27個基因隻是碰巧匹配到了可以讀取為日期的字符串。公平一點來講,月份的名字是排在第一位的。(事實上,當Excel被編寫出來時,這些基因還沒有命名。)
也許在某個時候,這個問題能得到公衆廣泛的關注,然後微軟就會發布一個新的Excel版本,其中日期解析代碼會進行修改,使這些基因名稱絕不會轉換為日期。但這是一項繁瑣而複雜的工作,即使微軟進行了更新,也需要數年時間才能産生影響,因為世界各地的大學都在逐步更新他們的微軟軟件企業協議,并且更新到了最新版本的Excel。
更有可能的情況是,如果微軟已經收到了這個問題的警告,他們隻會發送一個鍊接到相關的知識庫文章。
就像蕭伯納那句名言——他們是主動适應世界的理性的人,還是被動适應世界的非理性的人。基因學家們也必須做出選擇,他們需要适應的是自己。
關于這兩個實體的相對權力,這裡有一些有趣的政治觀點。也許這是關于人類在計算機方面普遍存在的一種低水平的、無能的一點,或者是關于Excel本身。
圖源:unsplash
大約十年前,前微軟的Excel程序經理Joel Spolsky指出,“大多數Excel用戶從不使用公式。他們隻在需要表格時才使用Excel。網格線是Excel最重要的功能,而不是重新計算。”
批評集中在微軟身上,因為Excel已經成為電子表格的通用品牌。但是同樣的問題也出現在谷歌表格中,所以即使微軟改變了Excel,這個問題也不會消失。
為了完整起見,Simon還嘗試将基因導入蘋果的電子表格軟件Numbers中,并發現它并不會将MARCH1重新格式化為日期。雖然這對遺傳學家來說是件好事,但這種自動格式檢測的缺失是否是Numbers不受歡迎的原因之一呢?
Simon已經被這整件“壞事”迷住了,它似乎代表着一個更宏大的東西:在科技面前,我們無能為力,甚至整個行業都無能為力。
他發現軟件有限、脆弱、不好用、往往不适合這項任務,通常也會思考軟件是如何傳遍世界、滲透并侵入每個行業的每一個方面的。我們離不開軟件,每張桌子的電腦裡,每個房子裡,甚至在每個口袋、每個商店和辦公室裡,都會運用到軟件,每一個動作和思想背後都有一台電腦。
我們不能為了行業的工作而改變軟件,就像我們不能改變潮汐的變化一樣。現成的應用程序是一種自然的力量,科研人員要避開軟件的限制,就像水手要避開潮汐圖一樣。
Simon下載了對他來說毫無意義的基因數據表格,隻是為了玩玩和找出錯誤而已。這是一個關于錯誤格式化基因的遊戲,名叫Where’s Waldo。當他發現自己在對這個問題進行哲學思考時,想到這個行業必須繼續發展下去。
整個事情當然是荒唐可笑的,但人類基因組命名委員會做出了一個明智且務實的決定,這讓遺傳學家們很高興——對抗一場本質上不幸但也很有趣的命名沖突。
這個故事有個有趣的結尾。浏覽基因列表時,他看到了一些其他的名字。其中一種基因被命名為“Sonic Hedgehog”(音猬因子),部分得名于電子遊戲角色和樂隊Sonic Youth;另一種叫做“Bag of Marbles(一袋大理石)”;還有Cheap Date(廉價的日期)、Buttonhead(半圓頭)和Dunce(傻瓜)等等。
有很多這樣的名字,這聽起來有點好笑,但如果你是醫生的話就不會這麼覺得了,你會小心翼翼地告訴父母,他們的孩子有很嚴重的健康問題,你必須嚴肅地解釋,他們的One-Eyed Pinhead(獨眼針頭)有一個突變。
圖源:unsplash
在讀到這些之前,Simon對基因的無知讓他相信這些名字是科學家們精心設計的。但事實是,這些名字不得不因為Excel這樣微不足道的原因而被重新命名。總的來說,科學家們似乎松了一口氣。
Simon認為,Excel的故事能激發人們想象力,原因之一在于科學的神聖性,以及我們對邏輯嚴密、以研究為導向的科學家們的假設。科學家們并不是我們那樣到處開玩笑,然後給基因取個愚蠢的名字;但也像我們一樣,科學家們也隻能試圖最大化運用他們擁有的軟件。
留言點贊關注
我們一起分享AI學習與發展的幹貨
如轉載,請後台留言,遵守轉載規範
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!