“HPC云”國內(nèi)遍地開花——趕時髦還是真需要? |
發(fā)布時間: 2012/8/2 9:54:34 |
有人曾表示,高性能計算可能會采取一種不同的、使用密集多核服務器的方式進入云計算。用戶可以在桌面上就將作業(yè)加到SGE中去。這種資源調(diào)度方式會接觸可以運行虛擬機的本地資源或者云中資源。這種資源調(diào)度方式可能會讓HPC實現(xiàn)寶貴的桌面化——聽起來像網(wǎng)格計算,但是更簡單。 如今,這種理想化的計算方式已經(jīng)來到了我們身邊,在國外還只是較小規(guī)模的實驗性質(zhì)的“HPC云”(采用云架構(gòu)打造的HPC平臺,對外提供 按需 HPC服務),在中國已經(jīng)花開數(shù)朵。例如,去年成都建成了國內(nèi)第一家商用的高性能計算云中心,北京工業(yè)大學的“科教云”和北京計算中心的“工業(yè)云”均可定 義為“HPC云”。 趕時髦還是真需要? 盡管一朵又一朵“HPC云”已經(jīng)在我們身邊冉冉升起,但是依舊有不少聲音質(zhì)疑:用云計算的方式打造 HPC平臺,是趕云計算的時髦,還是真需要?例如,英特爾服務器產(chǎn)品經(jīng)理張振宇就表示:“目前在高性能計算中引入云計算的需求不大。”中科院計算所常務副 所長孫凝暉也認為并非所有的計算中心都需要向云計算靠攏,他說:“云計算模式的前提是看服務的用戶數(shù)夠不夠多,能不能提供解決方案式的服務。除了象北京計 算中心需要面向大量用戶提供超算服務的之外,一般的超算中心就百八十個用戶,單純提供機時,沒有必要。” 不過,贊同的聲音也不少。在IBM大中華區(qū)云計算中心總經(jīng)理朱近之看來,超算中心引入云計算有兩大好 處,一是能提高超算資源利用率,服務的客戶數(shù)量和種類更多,例如,可以用于一些商業(yè)計算,而不僅局限于傳統(tǒng)的科學計算;二是能提供給用戶更好的服務。而曙 光公司產(chǎn)品副總經(jīng)理王璟則相信:“超算中心采用云運營方式將是一次服務質(zhì)量提升的變革,未來的超算中心建設中都會考慮到其對未來云系統(tǒng)的支持。”北京計算 中心主任曾宇更是有一種使命感和緊迫感,他認為,云計算服務市場應該定位于對大規(guī)模計算服務能力和海量數(shù)據(jù)處理能力需求旺盛的個人及企業(yè)用戶市場,這一市 場正伴隨信息技術(shù)的發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整而日益龐大,并最終會分化為工業(yè)云計算領(lǐng)域、生物云計算領(lǐng)域、政務云計算領(lǐng)域等許多垂直細分的領(lǐng)域。因此,“北京 市計算中心在未來發(fā)展中尚有5年的發(fā)展機遇期,”曾宇說,“我們必須集中優(yōu)勢資源,在狹窄的云計算垂直細分領(lǐng)域建立起強勢的核心競爭優(yōu)勢和知名度。” 為什么人們偏偏在“HPC云”上會有較大的意見分歧?這些贊成或質(zhì)疑的聲音是否有道理?弄清這些問題,應該從HPC、虛擬化、云計算之間的復雜關(guān)系說起。 令HPC“愛恨交加”的虛擬化 在很多人的理解中,虛擬化和云計算簡直如“連體嬰兒”一樣密不可分,以為任何一朵私有云或公有云都必須 在硬件資源層實施虛擬化技術(shù)。關(guān)于這個認識的正確與否,我們暫且不表(后文還將詳細敘述),因為現(xiàn)實中確實很多“云”都利用到了虛擬化技術(shù),而且我們所提 到的北京工業(yè)大學的“科教云”、成都超算中心的HPC云都對一部分底層硬件資源進行了虛擬化,這符合不少人對“云”的理解,即底層一定實施了虛擬化技術(shù)。 而社會上恰恰又存在一種看法,即HPC與虛擬化的關(guān)系是“水火不相容”,人們自然難免質(zhì)疑,這種造“HPC云”的行為是否只是趕時髦呢? 其實,如果深入分析HPC與虛擬化的關(guān)系,HPC與虛擬化并非“水火不相容”,HPC對虛擬化那是“愛恨交加”。 眾所周知,PC服務器虛擬化技術(shù)之所以被市場迅速認可,有兩個重要優(yōu)點。第一個優(yōu)點就是能大幅提高服務器CPU、內(nèi)存等資源的利用率。然而,HPC主要集中執(zhí)行并行高密度高負載任務,對CPU的利用率幾乎能達到100%,因此虛擬化技術(shù)的這一優(yōu)點對HPC 可以說“無用武之地”,并且“HPC應用跑在虛擬的資源層上,性能肯定是會受影響的。”北京工業(yè)大學計算機學院教授邸瑞華坦誠地告訴記者。 北京工業(yè)大學計算機學院教授邸瑞華 那么,影響程度究竟有多大?邸瑞華說:“影響的程度主要視HPC應用類型而定。如果是計算密集型的HPC應用,影響不是很大,大概在5%~10%左右,但如果是I/O密集型應用,這個影響就可能比較大。” “5%~10%”這個數(shù)值貌似完全可接受,不過,對性能分外計較的HPC應用來說,這個數(shù)字已經(jīng)不小 了。例如,長年戰(zhàn)斗在高性能計算第一線的王璟亦承認:“對我們而言,1%的影響就覺得難以忍受了。”這也是為什么會有觀點認為HPC與虛擬化“水火不相 容”了。盡管如此,王璟還是堅持“構(gòu)建‘HPC云’能夠發(fā)揮超算中心的全方位應用能力,因為虛擬化對于超算應用的影響雖然是負面的,但是對非超算應用的影 響是正面的。” 此外,邸瑞華表示還應從另一個角度看待這個問題,她說:“業(yè)界有個比較統(tǒng)一的看法,也就是說一臺超級計 算機能否發(fā)揮作用,主要還是看HPC應用的并行度是不是足夠好。如果一個任務HPC不能被有效分解,或者分解后不能與系統(tǒng)充分匹配,把它拿到超級計算機上 運行可能和拿到一臺PC上運行的執(zhí)行速度是一樣的。因此,比起過度地關(guān)注虛擬化對HPC的影響,著力于優(yōu)化HPC應用程序本身可能來得更實際有效。” 接下來讓我們看虛擬化技術(shù)的另一個關(guān)鍵優(yōu)點:虛擬化技術(shù)改變了原有計算體系架構(gòu),以及原有計算層次結(jié)構(gòu) 關(guān)系,它將不同的資源和邏輯單元剝離,讓上層應用程序與底層硬件資源之間形成“松耦合”關(guān)系。因此,清華大學計算機系副主任陳文光指出:“虛擬化使得在某 一個計算節(jié)點上執(zhí)行用戶自行選定的分配任務變得靈活可行,尤其是像異構(gòu)環(huán)境下的計算任務等。” 陳文光解釋說,傳統(tǒng)模式下,超算中心向HPC用戶提供一個調(diào)度器接口,用戶通過該接口提交一個任務,調(diào) 度器就返回一個結(jié)果,用戶沒有可選擇的余地,實際上這種接口并不友好。例如,假設當前任務需要Linux平臺,而下一個任務需要Windows平臺,在傳 統(tǒng)模式下,只能卸載當前系統(tǒng)重新部署所需平臺,非常麻煩,費時費力。此外,陳文光表示:“HPC用戶還經(jīng)常面臨這樣的問題,即開發(fā)HPC應用的環(huán)境和超算 中心提供的執(zhí)行環(huán)境不同,需要重新配置環(huán)境,優(yōu)化HPC應用,導致開發(fā)效率很低”。 而虛擬化卻為此提供了一種可能。“當用戶向調(diào)度器提交任務時,可以自行指定希望在任務中使用的操作系統(tǒng)或中間件等組件。作業(yè)調(diào)度器就會自動分發(fā)所需的軟件,并將相應軟件安裝在虛擬機(VM)內(nèi)。當任務處理完畢后,虛擬資源被收回,節(jié)點繼續(xù)執(zhí)行下一任務。”陳文光說道。 邸瑞華也表示,當初北京工業(yè)大學之所以選擇采用云架構(gòu)搭建HPC平臺,也是看重了云計算“允許用戶對各自的虛擬計算資源進行個性化配置,支持對用戶對CPU、內(nèi)存、存儲等虛擬計算資源的擴展,以及集群中節(jié)點的增加。” 曙光公司產(chǎn)品副總經(jīng)理王璟 此外,HPC對虛擬化技術(shù)的“愛”的理由不僅于此。在陳文光看來,虛擬化技術(shù)對提高HPC的可用性更為 有益。HPC規(guī)模大了以后,最大的挑戰(zhàn)便是可用性,F(xiàn)在國內(nèi)的百萬億次計算機,平均故障時間大概在10~100小時之間,這對于跑上一周的作業(yè)應用就具有 很大的挑戰(zhàn)。怎么辦?陳文光告訴記者,解決此類問題通常要做CheckPoint(檢查點),把中間結(jié)果存下來,然后在從最近一個檢查點重新啟動應用。而 檢查點傳統(tǒng)的做法是需要用戶自己寫程序,這種做法要求比較高,因為會涉及到眾多邊界問題,具有相當?shù)碾y度。“而虛擬機卻為我們提供了這樣一種可能,虛擬機 能夠提供一個很干凈的邊界,我們可以把這個狀態(tài)很好地保存下來”。 不過,陳文光同時表示,由于HPC應用和CheckPoint的復雜性,到今天為止,清華大學對此仍在進一步研究當中,目前還沒有一個非常完善的解決方案。“盡管如此,‘虛擬機+CheckPoint’仍為提供HPC程序可用性提供了可能”。 對“HPC云”似乎不是那么支持的張振宇提出了些自己的見解。他認為,盡管虛擬化技術(shù)致力于“去耦合”,但HPC應用比較特別,HPC應用與底層平臺之間其實是非常緊密的“緊耦合”關(guān)系,不同的HPC應用對底層的要求有較大的差別。例 如,石油行業(yè)HPC應用對網(wǎng)絡延遲的要求不高,而對帶寬要求很高,因為它是對地震波反射的方式來收集海量數(shù)據(jù)進行分析,數(shù)據(jù)載入時間往往大于數(shù)據(jù)處理時 間。相比之下,模擬汽車碰撞試驗的HPC應用就對網(wǎng)絡延遲的要求很高。這就意味著,適合跑石油業(yè)HPC應用的HPC平臺,很可能就不適合跑汽車模擬碰撞試 驗的HPC應用。因此,虛擬化技術(shù)‘去耦合’的這一優(yōu)點,在HPC應用上似乎體現(xiàn)不出什么優(yōu)勢,這大概也是張振宇認為目前將云計算引入HPC的需求不是很 大的理由之一?傊,張振宇表示超算中心在建超算平臺的時候,無論是沿用傳統(tǒng)方式,還是采用云計算方式,都不要指望建一個HPC平臺就“通吃”各種HPC 應用。這一點上,張振宇是贊同曾宇的關(guān)于超算服務終將形成垂直細分領(lǐng)域的觀點。 “誰說云計算一定要虛擬化?” 其實,在記者最初開始試圖理清虛擬化、云計算和HPC的關(guān)系的時候,朱近之即微笑地反問記者:“誰說云計算一定要虛擬化?在資源共享這個大范圍內(nèi),虛擬化只是模式的一種,還有很多其它的模式。” 事實上,無論“科教云”還是成都高性能計算云中心都僅將部分資源實施了虛擬化。例如,“科教云”為A、 B、C、D四個區(qū),每個區(qū)八十多個計算節(jié)點,其中僅A區(qū)利用虛擬化技術(shù)建立資源共享平臺。而IBM當時負責該“科教云”項目的項目經(jīng)理岳爽告訴記者,之所 以只對一個區(qū)部署虛擬化技術(shù),是因為有些HPC用戶提出來,由于應用的特殊性或出于安全的考慮,不希望將應用跑在虛擬的資源層。不過,這四個區(qū)都是受 IBM的“藍云”管理平臺統(tǒng)一進行資源調(diào)度,對外提供超級計算的按需服務。換句話說,無論用戶想要獲取虛擬的還是非虛擬的計算資源,“藍云”管理平臺都能 統(tǒng)一調(diào)度、分配和管理。 英特爾服務器產(chǎn)品經(jīng)理張振宇 張振宇表示,對這個問題的理解應該追本溯源,去深入理解云計算的內(nèi)涵。他認為,可以從兩個維度來理解云 計算:從服務提供商的角度,云計算其是一種“管理的方法論,能實現(xiàn)對資源更好地管理”;從用戶的感受來看,云計算是按需獲取服務。用戶根本無需在意服務提 供方究竟采用了什么技術(shù)。因此,“‘HPC云’準確地說是‘HPCAsService’,”張振宇如此說道。 理想與現(xiàn)實的距離 前景雖然美好,但現(xiàn)實往往是曲折的。在搭建“工業(yè)云”的過程中,曾宇坦言也遇到了令其頭疼的問題,即工 業(yè)PaaS(平臺即服務)的構(gòu)建。曾宇說:“我們希望通過云主機、云存儲、彈性計算平臺為工業(yè)用戶提供開發(fā)平臺服務,縮短企業(yè)從創(chuàng)意到實踐的過程。然而工 業(yè)范疇太大,如何提供透明的工業(yè)PaaS設計平臺,這個問題到現(xiàn)在也沒解決。” 邸瑞華也曾表示,無論是他們自己,還是他們的用戶,對安全都還是有一些擔憂和顧慮。張振宇表示,現(xiàn)有的 網(wǎng)絡帶寬環(huán)境還不行,那種理想的情況,即HPC用戶通過網(wǎng)絡上傳HPC應用實現(xiàn)起來恐怕夠嗆。而孫凝暉則認為,不僅是“HPC云”,對整個云計算而言,認 為現(xiàn)在的各種軟硬件產(chǎn)品和技術(shù)“只能說是湊合用!” 孫凝暉解釋說,云計算其實對整個計算機系統(tǒng)都提出很多新的挑戰(zhàn)。例如,云計算對服務器I/O吞吐量、計 算訪存比的要求就很高。孫凝暉拿城市交通舉例說明:“設想一下,如果城市交通全靠火車,是不是靈活性就很欠缺?是不是還需要汽車這種靈活的交通工具?火車 是沿著固定軌道,把一大群人一下子運送到某個地方,而汽車,兩三個人想去哪里就哪里;疖囘@種運輸方式就好像高性能計算,一次完成大量的計算任務,而汽車 這種方式,就類似高通量計算(中科院提出的新型計算系統(tǒng))。云計算不僅需要‘火車’(高性能計算),也需要‘汽車’(高通量計算)。”其次,云計算對互聯(lián) 網(wǎng)服務軟件的要求也比較高,要求有“強動態(tài)性”,因為互聯(lián)網(wǎng)上的請求數(shù)量都是忽高忽低的,難以預測的。 “作為科學家,我們關(guān)注的是更具有前瞻性的任務,”孫凝暉說道,“云計算作為互聯(lián)網(wǎng)的新的模式,在未來十年是主流,我們將要研發(fā)更適合云計算的計算系統(tǒng)。” 除了學術(shù)界,許多IT廠商們也在致力于為云計算的成熟營造技術(shù)基礎(chǔ)。例如,英特爾一直研究硬件輔助虛擬 化技術(shù),“我們希望將Hypervisor(虛擬機管理程序)變得越來越薄,甚至完全消失掉,從而最大程度地減輕虛擬機的開銷。”張振宇說道。此外,英特 爾還將推出集成眾核(MIC)架構(gòu)的芯片產(chǎn)品,旨在幫助加速特定的高度并行化的應用。而曙光已經(jīng)在高性能計算機產(chǎn)品本身開始逐漸融入云計算的技術(shù)需求,例 如曙光開發(fā)的云存儲、并行存儲、并行數(shù)據(jù)庫、云管理等軟件,并且在構(gòu)建更加符合云計算需求的服務器平臺。相信隨著各項技術(shù)的逐漸成熟,我們的IT天空終究 會漂浮起一朵朵美麗而強大的“云”。 本文出自:億恩科技【www.allwellnessguide.com】 |