成都海擎科技有限公司
電話:028-65065822
郵箱:cdhaiqing@163.com
聯(lián)系人:袁女士
地址:成都市高新區(qū)天府三街69號(hào)
大數(shù)據(jù)和分布式系統(tǒng)如何解決擴(kuò)展性問(wèn)題
難得看到一個(gè)企業(yè),單純依賴完全集中式計(jì)算。但是仍然有很多組織,嚴(yán)密控制他們的內(nèi)部數(shù)據(jù)中心并且避開所有其它的分布,是絕對(duì)必要的。有些時(shí)候,這是由于現(xiàn)有的基礎(chǔ)設(shè)施投資原因。而在其他時(shí)候,它是由于安全問(wèn)題,起因于企業(yè)的風(fēng)險(xiǎn)規(guī)避文化。然而,由于一些不可避免的因素,集中化變得越來(lái)越不可行: 客戶端設(shè)備的數(shù)量和種類逐年增加,形成越來(lái)越復(fù)雜的大量終端服務(wù)
隨著社交、移動(dòng)和嵌入式技術(shù)的使用,數(shù)據(jù)收集器的數(shù)量和種類不斷地以指數(shù)形式擴(kuò)大
在市場(chǎng)競(jìng)爭(zhēng)中,這個(gè)數(shù)據(jù)挖掘的需要,對(duì)于業(yè)務(wù)洞察力來(lái)說(shuō)變得很迫切
不斷的開發(fā)和部署的需求給系統(tǒng)創(chuàng)建了要求,該系統(tǒng)為也更好的敏捷性的靈活性高度組件化 (SOA)
內(nèi)部擴(kuò)展的成本來(lái)提供計(jì)算資源以跟上需求,從而不管從管理還是基礎(chǔ)設(shè)施的角度來(lái)看,維持一個(gè)可以接受的性能水平變得太難
在實(shí)時(shí)決策的時(shí)代,有一個(gè)潛在的單點(diǎn)故障是不可接受的,不能訪問(wèn)業(yè)務(wù)數(shù)據(jù)簡(jiǎn)直就是一個(gè)災(zāi)難,并且最終用戶不會(huì)容忍“停機(jī)” 那么可不可以引進(jìn)一個(gè)更多的分布式架構(gòu)來(lái)解決上述問(wèn)題呢?使用不同方面的分布式計(jì)算模式來(lái)解決不同類型的性能問(wèn)題。
這里正好有幾個(gè)例子: 同伴壓力是一件好事
點(diǎn)對(duì)點(diǎn)的分布式計(jì)算模型可以確保不間斷正常運(yùn)行時(shí)間,甚至在即使出現(xiàn)部分系統(tǒng)故障的時(shí)候,也能夠訪問(wèn)應(yīng)用程序和數(shù)據(jù)。一些供應(yīng)商服務(wù)水平協(xié)議(SLA)提供的高可用性,保證99%或者更高的正常運(yùn)行時(shí)間,這一壯舉沒(méi)有幾個(gè)企業(yè)可以通過(guò)使用集中式計(jì)算來(lái)達(dá)到。自動(dòng)故障轉(zhuǎn)移機(jī)制意味著終端用戶通常不知道發(fā)生了問(wèn)題,因?yàn)榕c服務(wù)器的通訊是不受影響的。關(guān)于延遲問(wèn)題,SLA也可以結(jié)合商業(yè)目標(biāo),為響應(yīng)時(shí)間和其他因素定制特定的性能指標(biāo)。 沒(méi)有限制 云計(jì)算“幾乎”無(wú)限的可擴(kuò)展性,提供了能夠增加或減少基礎(chǔ)設(shè)施資源的使用需求的能力。即時(shí),自動(dòng)配置和解除配置服務(wù)器和其他資源,使企業(yè)更好地執(zhí)行,確保終端用戶訪問(wèn)應(yīng)用程序保持同步、資源密集的需求——甚至當(dāng)出現(xiàn)出乎意料的流量峰值。 數(shù)據(jù)是一個(gè)大問(wèn)題 分布式系統(tǒng)的使用也對(duì)“大數(shù)據(jù)”有影響。NoSQL選項(xiàng)的出現(xiàn)為企業(yè)提供了一個(gè)機(jī)會(huì),讓他們數(shù)據(jù)流分別接受和充分利用通過(guò)SQL的關(guān)系數(shù)據(jù)數(shù)據(jù)庫(kù)和具有數(shù)據(jù)庫(kù)選項(xiàng)的非關(guān)系型數(shù)據(jù),例如MarkLogic和MongoDB。Nice Systems公司的架構(gòu)總監(jiān)Arnon Rotem-Gal-Oz指出,就功能性,安全性和可管理性而論,SQL仍然有它的優(yōu)勢(shì)。另一方面,他承認(rèn),“如果你有擴(kuò)展問(wèn)題,使用傳統(tǒng)的技術(shù)解決起來(lái)很難或者很昂貴時(shí),那么NoSQL將是你前所未有的,填充這些需求的方式?!? 實(shí)現(xiàn)在密集客戶端上的應(yīng)用程序本地化運(yùn)行,可以減輕一些服務(wù)器的工作量,并且能夠提供更快和更友好的用戶體驗(yàn)(假設(shè)沒(méi)有經(jīng)常在客戶端和服務(wù)器之間頻繁的更新數(shù)據(jù)的需要)。使用分層結(jié)構(gòu),在web、應(yīng)用程序和數(shù)據(jù)服務(wù)器之間劃分責(zé)任,能夠允許組織將這些流程或?qū)油獍o最有效的第三方供應(yīng)商。這種多層類型的分布式計(jì)算也可以用來(lái)減少內(nèi)部服務(wù)器的負(fù)擔(dān),甚至當(dāng)為瘦客戶端如移動(dòng)設(shè)備,部署應(yīng)用程序時(shí)。
廉價(jià)商品定價(jià) 大規(guī)模分布式虛擬化技術(shù)已經(jīng)到了臨界點(diǎn),第三方數(shù)據(jù)中心和云提供商可以擠壓每一滴的CPU處理能力,比以往任何時(shí)候都進(jìn)一步壓低成本。如果是恰如其分好實(shí)現(xiàn)它,甚至企業(yè)級(jí)的私有云都有可能降低整體成本。供應(yīng)商的數(shù)量在云領(lǐng)域仍在增長(zhǎng),從而導(dǎo)致更多的有競(jìng)爭(zhēng)力的定價(jià)安排。 技術(shù)選擇的多功能性 一個(gè)分布式架構(gòu)能夠?yàn)樵S多不同的系統(tǒng)充當(dāng)一把傘。Hadoop是一個(gè)框架的例子,可以把廣泛的工具集合起來(lái)使用,比如(根據(jù)Apache.org): -Hadoop分布式文件系統(tǒng)(HDFS),它提供了訪問(wèn)應(yīng)用程序數(shù)據(jù)的高吞吐量 -Hadoop YARN作為作業(yè)調(diào)度和集群資源管理 ?。璈adoop MapReduce對(duì)于并行處理大數(shù)據(jù) -Pig 作為并行計(jì)算的高級(jí)數(shù)據(jù)流語(yǔ)言 ?。璟ooKeeper為大型分布式應(yīng)用程序提供高性能協(xié)調(diào)服務(wù) 企業(yè)對(duì)該框架可能特別感興趣,因?yàn)橐恍┓浅:玫南敕ㄕ谝敶髮W(xué)與Hadapt公司協(xié)調(diào)的商業(yè)化項(xiàng)目中。Daniel Abadi博士認(rèn)為,“Hadoop將使它達(dá)到下一個(gè)級(jí)別。我們看到在2012年有很多采用它。現(xiàn)在它將試圖找出‘完美’的Hadoop用例。所以,建設(shè)一些縱向的特定應(yīng)用程序?qū)⑹?013相當(dāng)大的一個(gè)趨勢(shì)?!蹦切┰黾臃植际接?jì)算和業(yè)務(wù)性能的用例將成為此條道路的開拓者。