tft每日頭條

 > 科技

 > 數據中心智能機櫃建設

數據中心智能機櫃建設

科技 更新时间:2024-12-26 02:07:20

數據中心智能機櫃建設(雲數據中心4類機架)1

2019年6月25日,由浪潮與OCP開放計算社區聯合主辦的首屆OCP China Day(開放計算中國日)在北京正式開啟。本屆OCP China Day聚焦人工智能、邊緣計算、OpenRack、OpenRMC、SONiC、OAM等前沿技術話題,來自Facebook、LinkedIn、Intel、微軟、百度、騰訊、阿裡、諾基亞、中國移動、浪潮等資深技術專家分享了最新技術進展。近千名工程師和數據中心從業者參加了此次大會。

OCP是全球最大的開放硬件社區,2011年由Facebook發起成立,其宗旨是以開源開放的方式,重構當前的數據中心硬件,發展面向下一代數據中心的服務器、存儲、網絡、基礎設施等創新硬件。目前,OCP核心會員超過200家。

伴随着雲計算産業的發展,雲數據中心創新方向逐漸明晰。在數據中心創新的整體策略上,幾乎全球所有的CSP都選擇了高集成、模塊化、面向應用的設備定制化。開放計算也對數據中心的設計産生了重大影響,雲數據中心需要更加通用的機架和機櫃設計。在本次OCP China Day上,來自OCP基金會、LinkedIn、百度、Facebook的專家分别介紹了在Olympus、Open19、ODCC天蠍項目、Open Rack 4種機架/機櫃設計不同特征和最新進展。

以下為大會演講實錄:

OCP CTO Bill Carter:雲計算的發展推進了機櫃進行擴展性和效率的優化

數據中心智能機櫃建設(雲數據中心4類機架)2

OCP CTO Bill Carter

主持人:歡迎大家重新回到主會場,我們下午精彩繼續。下午四個項目的分享都是OCP重點投入的,第一個主題分享,我們再次有請OCP CTO Bill Carter上台。

OCP CTO Bill Carter:非常感謝,下面我們會談一下機櫃的架構,接下來這一個小時我有一系列的嘉賓發言人要上台講不同的機架和機櫃的架構,但是在此之前我想要講講我們怎麼樣走到今天這裡,我們這個旅程是什麼樣的進展。我們先看一下一百年前的情況吧,大家能認得出來機電器嗎?這其實是一個用在早期的發電報的時代,通過有線去發布信号,在美國是ATNT發明的,他們相當于中國常見的電信商。他們把這些東西放在機櫃裡面,這是當時的機電器的機架在1922年的模樣。因為他們有這麼多機櫃,所以為它專門書寫了技術規範複制在美國各地,因此1934年這就變成了第一個EIA 19英寸的機櫃的規範。如果說大家今天還用的是EIA的19英寸的機架的話,那你用的是将近一百年前的技術了,因此也會有一個項目是改進機架設計的。

這是到2011年、2012年我們會涉及到一些機架的設計,今天也會一些相關的信息,希望我們可以進一步發展,到現在更加通用的機架和機櫃的設計。也是因為雲計算的發展推進了機櫃為擴展性和效率進行優化,我們有4種非常不同的機櫃的設計,一個是Olympus項目,是幾年前微軟牽頭建立的項目,跟OCP一起合作;當然還有Open19的設計,也是LinkedIn的工程團隊負責統領的,Zaid之後會講LinkedIn的設計。還有ODCC天蠍項目,大家最熟悉這方面,百度的丁瑞全先生會跟我們分享這方面。最後我們會邀請來自Facebook的Steve Mills跟我們講一下Open Rack以及Facebook對此的貢獻,他們已經走過了三代,現在正在為第三代努力。我們希望把這些項目的東西都集成在一起給大家分享得更多。今天早晨我講到八年前我們關注不同的地方,現在關注到各個項目的相似之處。

Olympus的微軟的同事來不了,我幫他講幾頁片子。我們分享一下這個項目的情況,它是一個整機櫃的設計,有幾個部分,在設計中分享和貢獻給了社區,19英寸的機架,用的是和ATNT二十世紀同樣的設計,但是有一個修改,就是他們有一個機架管理的解決方案在上面,所以把前端放入計算節點之後它在背後就自動連接起來。另外還有通用的電源線,所以不管你的數據中心是什麼樣的都可以通到數據中心的電源,這電源的連接器有的地方有有不同的大小,會發明一個系統使得這個電源線能夠互操作。同時也設計了機櫃背後有配電系統,把這個電源線相應的信号轉換之後,所有的交流電傳給計算節點,他們有1U2U3U的服務器的機箱,也是參考設計的一部分,可以互換使用。還有一個新的供電的解決方案,它是非常獨特的,它沒有兩個供電,隻有一個供電電源,但是有兩個整流器。

我們來看這幾個特征。背部有19英寸EIA的兼容,是1200毫米深的機櫃,它們的電源功率解決方案在背闆,也有機架的管理,能夠提供彈性。還有我剛才說的電源,它有兩個整流器,但是每一個相位都有一個整流器,所以它還有相位的平衡。今天很多時候我們會把每個相位都進行轉換,輸出直流電或交流電,它們有可能會不平衡,但是有了這種相位的平衡器均衡器,三個相位就可以有同樣的電流,都放到同一個供電的盒子裡面,這就是Olympus項目的特點,所有的計算節點都是熱插拔,可以盲插,适應背後配電的系統。他們獲得了世界各地的安全認證,對所有的組件都獲得了安全認證,這是非常必要的。因為把這個東西安裝在自己世界各地的數據中心,有的時候放到了客戶的數據中心裡面,我們把它稱為其他人共有的數據中心。這個有可能會對安全方面,像電磁幹擾有一些安全方面的要求,所以希望全世界各地安全方面的要求都能夠滿足,無論地點在哪裡都可以兼容,無論是微軟的數據中心還是客戶的數據中心。除了簡單易用和擴展性以外,它們還有其他的特點。

左下方是2路的計算節點,它是一個非常好的開放的設計,可以看到隻有一個銀盒子在最後角落裡,這是供電的單元,這種彈性和相位的均衡也是在供電的小盒子裡設計好的,這就是Olympus項目。

LinkedIn Head of Infrastructure Engineering Zaid Ali Kahn:很多邊緣的機架都不是集中數據中心的工程師去維護,邊緣的數據中心需要能夠實現自維護或者簡單省事的維護

數據中心智能機櫃建設(雲數據中心4類機架)3

Zaid Ali Kahn, LinkedIn Head of Infrastructure Engineering

OCP CTO Bill Carter:接下來我們再次邀請Zaid Ali Kahn上場,他是LinkedIn的基礎設施工程的首席工程師,讓他介紹一下LinkedIn在Open 19架構方面的情況。

Zaid Ali Kahn:介紹了EIA19英寸以及它有多長時間的曆史了,我在想今天在講什麼以及架構未來如何發展,我們未來的子孫後代會怎麼看我們現在的情況,他們會不會也召開一個研讨會,四五十年以後人們來講我們的技術也是很老的技術了。無論如何這都是很好的工程。

我跟大家介紹一下Open 19的技術,我們最近剛剛把Open 19的技術貢獻給了OCP,我們有孵化的委員會,如果你是在這個領域工作的話,那麼7月份的時候我們會對架構方面有更深度的讨論,所以歡迎大家參加,希望這個技術能有更加廣泛的應用,而不隻是在我們數據中心的應用。我跟大家介紹一下我們的技術架構。先看幾個想法,我們為什麼要這麼做?幾年前我們在數據中心有一些限制,我們的空間有很大的限制,而且電源功率也有很大的限制,我們沒有奢侈的買很多地,豎很多的機櫃起來,每個機櫃都很大,事實上我們有空間的限制,我們需要空間和功率得到最大的利用,所以我們需要機櫃能夠比較緊湊。我們現在一個機櫃要裝96個服務器節點,這樣的複雜性就要求我們需要有些新的解決方案,尤其是如果你要實現這樣的規模效應,需要大幅度的提高效率、降低成本。我們就發明了這種Open 19的技術,它是基于計算節點的小盒子,模塊化的能适應所有19英寸的機架,就是用很多配置,可以是雙寬的或雙高的,我們希望把每一個計算節點的電源功率的部分都集中起來,所以我們有一個電源架。

另外一個部分就是我們的交換機交換層,大家在這個圖上可以看到有兩個交換機,其實兩個不是必要的,我們這樣設計是因為一個機櫃有2個葉節點,這是裡邊的一些構造。接下來我再深度分析一下,機櫃的這些盒子有12 2U或8 2U的選擇,你的配置可以選,你可以放4個節點,你可以放2個雙高半寬的節點,可以放2個雙寬的放1個雙高的節點,都可以。我們的想法就是一系列不同的計算節點的大小尺寸和風量都不同,都可以放到機架當中去,可以在右邊看到背部是卡扣式的後開門,就像剛才Bill Carter在Olympus項目中說到的,不希望這個數據中心的工程師需要走到機櫃的後面做一些維修,所以從前邊基本都可以做得到,能夠盡量的簡單。

接下來我們說一下這些磚塊的外形,它們都是計算節點,我們不希望所有的節點都是我們自己設計,我們希望把它開源出去,讓大家都可以貢獻,無論是服務器内部還是其他的部分,使得多個供應商都可以自己去制造生産。你可以有單磚塊的可以有雙高半寬、雙高雙寬的節點,我們有線性的功率和數據增長,它也是自我保持的,電磁幹擾、安全和冷卻都能夠做得很好。這是我特别喜歡的一點,我們很大的一個創新之處就是電纜系統,因為一般的服務器電纜布線特别複雜,所以我們非常強調這點,大家可以看到背部所有電纜,藍色是電源,白色是網絡,背部的卡扣,它有25G和100G的網絡配置。

我們的想法就是它能夠非常簡單地管理,像我之前說的我們不希望數據中心的工程師花很多時間去布線,我們希望能夠簡化他們的工作,讓他們更快的能布好,這樣的話在機櫃的集成方面有6倍的改進。

我們再看一下電源架。這是下一個階段,我們把這個服務器裡邊的這些電源部分全部都拿出來集中在一起放到一個電源架上面,它可以是19.2千瓦,6個3.2千瓦,它通過端口管理,所有的都可配置,我們希望所有的服務器都能夠實現統一的管理,可以通過電源架把它開啟和關閉,而且它是充分冗餘的,有AB輸入,在這點上我們跟很多的供應商合作。

下面我們分享一下這項技術的好處。其中一點沒有在這個片子上,很多人都在讨論邊緣,邊緣我們需要什麼?它可能需要不同類型的支持,很多邊緣的機架都不是集中的數據中心的工程師去維護,所以邊緣的數據中心需要能夠實現自維護或者簡單省事的得到維護,所以Open 19更适合部署到邊緣,因為布線很簡單,其他的解決方案都是非常易于維護的。所以說我們覺得很多人會感興趣,将Open 19技術采用在邊緣數據中心當中。所以我們的想法就是它能夠适合所有的19英寸的機架,我們還可以做一些經濟化,我們有一些架構的改良使得實現更好的一體化。我們可以實現5-6倍的更快的機櫃級的融合集成。我們還有一個小視頻,就是一般的機櫃的集成和Open 19機櫃的機櫃,大家可以對比它有多快。在服務器的方面,我們提高了效率,沒有服務器的電源供電,這樣的話效率能夠提高,另外有很大的節約。随着我們數據中心的擴展,有了成千上萬的節點,加總起來的節約就會非常明顯。

這是在我們生産環境當中的情況,左邊是那些空的盒子,右邊放了計算節點,大家可以看出來把它們放進去非常容易,看起來就像一般的19英寸的機櫃一樣,但是它是卡扣式的。我們在尋找高内存的高端的服務器,我們需要每個服務器消費3T的内存,我們在想怎麼樣為這個項目尋到合适的架構,因為我們也是OCP的一部分,所以我們也把這個問題提給了社區。有人說Olympus的模闆是最好的方案,所以我們把它放到了Open 19平台上面,我們現在的數據中心也有Olympus的模闆,就是照片裡的這個樣子,我們也可以把其他項目的優勢集成到我們自己的Open 19的項目中,然後集成起來,有了Open 19和Olympus加起來就能實現更好的效果。我們在相互轉換進行一些彙總,這就是我非常自豪的想跟大家分享。

未來我們也會開放找更多其他的因素,我們也有些新的服務器的模塊,其中LinkedIn也會貢獻自己的架構,這是我們路線圖當中的一些設想。我們和其他不同的IC合作,我們想要考慮邊緣數據中心。這是我們布線的系統在後部,大家可以看到背後是怎麼相連的,非常的整潔。

謝謝大家,我的此結束,我希望剛才給大家分享的這些信息大家都會覺得比較有用,如果大家有任何問題的話可以随時找我溝通。

百度AI系統架構師丁瑞全:天蠍項目在中國已進行了大規模部署,在新的AI、5G以及液冷和48V供電場景裡也做了新的嘗試,希望和OCP共同推動技術标準,應對新的挑戰

數據中心智能機櫃建設(雲數據中心4類機架)4

百度AI系統架構師 丁瑞全

百度AI系統架構師丁瑞全:我是丁瑞全,百度AI的系統架構師,這是在百度陽泉數據中心部署的照片,我之前沒有去過這個數據中心,發現這個Rack這麼漂亮,百度在今年年初和浪潮一起創造了一個記錄,在8個小時成功交付了一萬台服務器,這是非常驚人的,這就是整機櫃給我們帶來的好處。

天蠍整機櫃的曆史,上面是主要的幾個階段,我們發布的一些時間點,下面是基于天蠍整機櫃經典的産品。天蠍項目在2011年就成立了,當時百度聯合阿裡、騰訊以及相關主要廠商成立了這個組織,這個時間點和OCP時間差不多,上午的家軍和Bill講到我們嘗試和OCP組織建立合作交流,共同推動标準。也是因為國内、國外特殊場景的差異沒有達到融合,在之後的幾年裡各自按照自己的路線發展。

2014年發布了天蠍2.0,在Scorpio2.0可以達到大規模交付的狀态了,基于這個标準開發了冷存儲服務器,單U 18個盤,還有高溫耐腐蝕的服務器,針對中國的環境做的相關設計,我們也發布了X-Man,百度AI計算機,也是當時業界最領先的産品。之後發布了天蠍2.5,在這之上也做了産品叠代,X-Man2.0發布了,然後在2018年底發布了X-Man3.0,實現16個AI加速器高速互聯,我們現在已經進入了X-Man3.0的階段。

在AI、5G、邊緣計算以及雲計算技術浪潮下,我們面臨新的挑戰和機遇,我們需要更大的性能,面臨更大規模供電挑戰,我們需要支持單節點或者跨節點互聯,我們有很多新的AI節點出來,需要标準化通用化,稍後我也會分享在這個方面做的工作。5G和邊緣計算有從雲端到算力的部署,有AI的能力,能更好地做邊緣的語音圖像相關的識别,更好地降低成本,雲計算這一塊需要有快速交付部署能力,同時以客戶需求為先,快速達到交互的方案。

1.0是模塊化,将供電散熱集中管理分離出來,有比較好的模塊基礎。2.0主要做的标準化,1.0産品裡不同系統廠商方案在一個Rack裡無法共存,這給升級叠代帶來很多問題,所以2.0做了很多标準化,把硬件軟件做得很清楚,不管是中間件、還是散熱還是服務器,都可以在Rack裡共享。

在3.0,面對5G、邊緣計算、AI新的場景裡以及雲計算的趨勢做了一定的改進,我們肯定更關注彈性、可擴展性,減少相關部件,支持更大的供電能力,這是更高功耗相關的CPU和AI芯片,我們也需要更好的靈活部署方式。

這是3.0 Rack大的架構,我們以SU為單元構建這個系統,SU和OCP的OU有一點小的差别,稍微矮一點,這個我們的需求都能夠滿足,同時在Rack層面部署更多的節點,所以有比較多的好處,3.0同時可以兼容19英寸和21英寸的産品,達到降低整個系統的成本。

供電方面相比以前有很大的變化,我們設計了48V的PSU,也有AI的場景,包括在多個CPU裡單個節點,怎麼去支持整個部署能力,降低成本,48V是AI關鍵的基礎。

散熱方面,我們之前是整機櫃集中式的散熱,它的好處是比較靈活,而雲計算面臨變遷和混合部署也帶來了新的問題,所以我們在新的層面上解決問題,同時采用液冷散熱技術。我們在2017年就部署了液冷技術,再逐步推廣到通用的CPU計算場景裡。

這是我們幾個典型的計算機配置,左邊是微服務器低功耗産品,右邊是高密度低成本的産品。第三,全寬主闆,主要面向計算密集型産品,以及高性能存儲場景。

最後面是第三個1U主闆,在系統層面通過2U構建模塊,支持大容量高計算場景的需求。所以剛才講的是整個天蠍項目,也發展了很久,在中國也部署了幾萬個Rack,達到近百萬服務器的規模,在新的AI、5G場景裡,在液冷和48V供電場景裡也做了新的嘗試,我們也希望在這方面和OCP共同推動技術标準,應對新的挑戰。

Steve Mills, Facebook Technical Lead: Facebook看到了在共同平台上構建基礎架構的價值,我們可以在這個平台上分享新技術的開發

數據中心智能機櫃建設(雲數據中心4類機架)5

Steve Mills, Facebook Technical Lead

Bill Carter:謝謝Richard,過去八年裡我們确實是從當時的标準慢慢向現在演化,當時我們是12V的标準,現在八年過去了我們變成了48V的标準,所以再次感謝丁先生跟我們分享天蠍這個項目。下面我們要有請來自Facebook的Steve Mills跟大家分享,Steve Mills在這個項目裡已經工作了四五年的時間,在我們這個行業已經是很長時間了,它主要是在OCP的RACK,還有供電的項目有很多經驗。

Steve Mills, Facebook Technical Lead:大家好,大家知道Open RackV3是下一代的解決方案,從今年的早些時間開始的,今天我要跟大家分享我們Open Power這個項目怎麼通過OCP社區進行協作。我希望跟大家介紹一下什麼是Open Rack V3,我們怎麼在OCP的社區進行合作,接下來這個項目會有什麼進展,首先談一下為什麼是Open Rack V3。

過去一段時間我們很迅速的擴展了我們擁有的很多技術的能力,因為技術發展非常快,這個會議室裡幾乎每個人都遇到了物理學基本限制相關的障礙,這些是原子級别的問題,是大家都還沒有特别熟悉的領域,探索的成本越來越高。很多組件的制造商可以進行改進,但是需要很多研發支出才能實現這些收益。與這些相應的研發支出和相應的後續步驟怎麼更好的控制成本和風險呢,最好的辦法就是我們進行分享,這就是像OCP這樣的平台的用武之地,Facebook看到了在共同平台上構建基礎架構的價值,我們可以在這個平台上分享新技術的開發,Facebook V1和V2平台一開始是Facebook内部開發的,後來在後期的研發階段進行開放研發。在這個架構裡面,因為V1和 V2是内部研發的,所以非常專注于Facebook自己的需求,後來我們有Open Rack V3之後它就有更開放的社區,所以越來越多的人就可以用這個平台給自己打造适合自己的功能,我們可以在一個通用的框架下增加更多的功能,所以我們需要的這樣的平台需要有一定的靈活度,這樣我們的用戶才能把這些功能做定制化的開發。

我們在V3裡面的power架構能夠有更多的靈活定制,不是僅關注Facebook的需求。我們在一些比較先進的冷卻高效機制裡也有相關技術的發展,希望通過Open Rack V3為更多Open Rack架構做出貢獻。這就是我對Open Rack V3的介紹,Open Rack V3現在又有什麼新進展呢?首先就是我剛才說的Open Rack V3不僅僅是針對Facebook的需求,而是能夠為更開放的社區提供更好的功能,我們在垂直間隔裡跟V2有一些變化,V2是open U 14、18毫米的間隔,V3是44.45毫米的間隔,微軟、百度也有相應的需求,我們現在沒有支持到EIA的寬度,隻是垂直間隔這塊。

第二是我們的動态定制,從V2 1400kg到V3的1600kg,第三是高度從41個openU到44×48mmopenU 或48×44.45,另外是Cabal(音)Manager,我們把它當做一個可選的工具包,通過這個可選的工具包大家可以更好的給自己做定制的開發。下面就是液體的起管,這個液體管彙Liquid Manifold (ACS)就是我剛才說的先進的冷卻機制,它也放在我們的可選工具包裡的功能。另外是後端數據結構,也是放在這個可選工具包裡面,它也是熱插拔的。它有幾種可以選的方案,比如高速的銅線、高速的光纖或者低速的銅線管理主線,這個也有一些方向可以走。我們在側邊闆這塊,Facebook V2這塊隻能有空氣的containment,現在到V3會有更多的安全的設置放到裡面,可以選擇更多安全和其他的設置。對于我們的安全而言我們增加了更多的規格,整個項目正在進展過程中。下面看一下總線的電壓的值,現在不僅有12V,也有48V,這兩個都是可選的。電源架既可以是之前固定的,現在在總線任何的地方都可以進行部署,它可以在不同的電源架上進行安置。

關于現在的電源架的位置,機架裡面可以有一個固定的安置主要原因是它有一個螺栓,這個螺栓可以将其電源架的輸入和電源架進行一個固定,對于V3而言它并不是螺栓進行連接,一旦改變了連接的方式之後,你在任何機架的位置都可以進行安裝,這樣你在進行部署的時候能夠讓客戶有非常多的靈活性。當然我們還有電源架和BBU,可以讓它有非常多的靈活性,它可以和BBU進行靈活的部署,比如我們BBU的容量在需要的時候可以進行不同的部署。我們也有調峰的功能,我們有關于電源架輸入的部署,所以無論是在前端還是後端我們都可以對電源架進行相關的部署。傳統而言,Facebook用的是5PIN的輸入,到現在我們已經有了7PIN的輸入,這樣我求可以将PDU從機架上釋放下來。我們可以看到這個功能大家已經演示過了,就是在微軟的Olympus當中,也是在自己的開放機架的部署中做好的。

下面看隻有一個唯一的功率區,之前有2個,Facebook在大多數情況下都會部署一個功率區。如何和更廣泛的OCP的社區進行聯合,對于Facebook的文化而言聯合一直是我們的一部分,這就是我們認為我們和工業界的合作夥伴合作是我們工作方式的延伸,能夠和業界的合作夥伴做得更好,而且在過去一些年我們一直能為社區做出自己的貢獻,這也是在Open RackV3中我們一直遵循的Facebook的準則。

我們看一下這個架構究竟是怎樣的。它是48V的走線和48V的IT後邊的電力連接,這兩個組件就可以和總件進行相關的連接,它已經是在Open Rack的部署中做好,我們特别希望你們能夠用它現在部署好的方式進行使用。當然我們還和一個聯合的研發項目做了Open Rack V3的機架,我們有一個熱啟動的液體的冷卻系統,剛才咱們已經談到了。

我們看一下電源架之所以能夠有目前非常好的架構,首先我們有相關的技術規範,同時我們還有一個電源架的管理中心的控制器,我們也有一個電源架的48V的輸出的連接器,它能夠成為電源架和總線之間的連接,它能夠使得我們的電源架在整個總線的任何位置進行部署。我們還有一個通用的7PIN的輸入的連接器,剛才我給大家看到的是目前單獨研究的Open Rack項目下進行研發的項目,對于Open Rack V3而言我們在今後會增加更多的功能和配置。

我們看一看下一步将會做什麼呢?下一個月會召開一個工程師會議,這個會議主要是看一下Open Rack Power、先進的冷卻系統、數據中心三個聯合的項目,我們希望在現在部署的情況下提供一緻的和可交互的方式,以便我們在進行部署的時候,比如在冷闆上面的熱量能夠在我們的數據中心做更好的遷移,再有一個就是關于我們功率的設計,現在OCP的這些利益合作夥伴正在幫助我們取得進展,今天我談到的這些話題如果大家感興趣的話,我特别希望大家能夠直接聯系我,以便我們能共同一起工作。就如同我們現在已經取得的技術規範方面的進展已經放到了OCP的網站上,大家感興趣的話可以随時看到。如果大家想參與這些項目的話,很顯然你可以放到Make It Power郵件上面去,議程有什麼變化或者我們有什麼進展都将通過郵件發送給大家。這是我給大家講的一些情況,非常感謝。

(7201604)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved