成都海擎科技有限公司
電話:028-65065822
郵箱:cdhaiqing@163.com
聯(lián)系人:袁女士
地址:成都市高新區(qū)天府三街69號
亞馬遜工具如何利用大數(shù)據(jù)分析解決大數(shù)據(jù)問題
所有關(guān)于用戶數(shù)據(jù)的收集,都是為了對數(shù)據(jù)進行智能分析,期待發(fā)現(xiàn)新的趨勢和不可預(yù)見的行為??紤]到商業(yè)智能應(yīng)用能夠從PB級別數(shù)據(jù)中篩選數(shù)據(jù)的日子可能永遠不會到來,一些企業(yè)以天為單位收集數(shù)據(jù),但是這不能成為企業(yè)大數(shù)據(jù)分析狹隘觀點的借口。但如何才能使企業(yè)在條件有限的情況下,最好地利用他們積累的新資料和統(tǒng)計數(shù)據(jù)?這需要時間,耐心,而且你將看到,投資必要資金的負責(zé)人將可以為企業(yè)實施正確的計劃。
選擇正確的負責(zé)人 大數(shù)據(jù)本身到成熟期也就只花了幾年時間,這意味著大分析(Big Analytics)才開始孵化。這意味著,在這個浩大的技術(shù)舞臺上存在一個相當(dāng)大的缺口,尋找合適的專家將是一個挑戰(zhàn)。最近一次信息周刊關(guān)于“分析,商業(yè)智能和信息管理”的調(diào)查中, 47%的受訪者列出了作為使用大數(shù)據(jù)軟件的首要問題是‘專業(yè)知識既稀缺且昂貴’。”但要正確地使用商業(yè)智能(BI) ,找到合適的人才是絕對必要的。 在O’Reilly 2012 Strata 大會上生機勃勃的數(shù)據(jù)科學(xué)論戰(zhàn)確認,要確定聘請誰來為大洞察挖掘大數(shù)據(jù)不是件容易的事情,人工智能領(lǐng)域?qū)<一驒C器學(xué)習(xí)專家將能夠為企業(yè)提供更多的價值。 數(shù)據(jù)科學(xué)家只專注于數(shù)字和模式就能取得顯著成績的歲月已經(jīng)過去,他們需要結(jié)合機器學(xué)習(xí),嘗試真正的算法來找到大多數(shù)經(jīng)驗豐富的專家都錯過的數(shù)據(jù)相關(guān)性。但大數(shù)據(jù)顧問Drew Conway做出了一個強有力的證明,機器學(xué)習(xí)作為一種工具可以提供一些有趣的答案,但這些答案需要滿足一個重要的條件。 “你能以任何有意義的方式解釋這個結(jié)果嗎?”Conway說。 “我猜測也許不是。
一個專業(yè)領(lǐng)域?qū)<覍⒉坏貌豢茨莻€模型,并決定所選擇功能,以及傳遞的輸出和回歸系數(shù),是否真正與訓(xùn)練集和測試集之外的樣本相關(guān)。這是專業(yè)領(lǐng)域的基礎(chǔ)知識?!? 企業(yè)將需要建立一個團隊,其中包括這兩個學(xué)科的專家。為了數(shù)據(jù)挖掘的準確性,需要一位某個專業(yè)領(lǐng)域的專家來開發(fā)問題,然后依賴一個機器學(xué)習(xí)專家開發(fā)并且實施查詢或創(chuàng)建分析,然后才有兩個領(lǐng)域?qū)<医Y(jié)合得出的正確結(jié)果。 舊酒裝新瓶 大分析不只是因為大數(shù)據(jù)時代的來臨企業(yè)才用于挖掘信息。 “我們已經(jīng)看到客戶以全新的商業(yè)模式出現(xiàn),他們使用與社交媒體相關(guān)的歷史數(shù)據(jù)集,這些曾經(jīng)是免費的,現(xiàn)在他們把變現(xiàn)或定價,”英特爾的Girish Juneja在最近舊金山舉行的亞馬遜AWS峰會上說。但是,新技術(shù)永遠是洞察用戶行為最有力的工具,尤其移動用戶更是一個特別需要培養(yǎng)的肥沃資源。 “我們所看到的是,隨著越來越多應(yīng)用正在被移動用戶推動,正因如此生成的數(shù)據(jù)量越來越大。大部分數(shù)據(jù)是被收集在云環(huán)境中,比如AWS。然后,新的商業(yè)模型正在利用這些數(shù)據(jù),并基于這些數(shù)據(jù)提供新的服務(wù)?!? 在大分析競賽中先拔頭籌 企業(yè)都使用什么類型的工具來篩選他們的大數(shù)據(jù),以發(fā)現(xiàn)一些大分析?亞馬遜的Elastic MapReduce一直是很受歡迎的選擇,它幫助客戶挖掘當(dāng)前未充分利用大數(shù)據(jù)源,然后利用BI展示。從幾年前就開始被經(jīng)常吹捧的一個的案例,Yelp開始整理其巨大的編輯日志文件,以尋找隱藏的關(guān)聯(lián)性。
“他們通過分析這些數(shù)據(jù)找出的一件事情是,人們是通過移動設(shè)備上訪問這個站點,”亞馬遜高級產(chǎn)品經(jīng)理John Einkauf在2014年舊金山舉行的AWS峰會上表示。 “這已經(jīng)是幾年前的事情,那時候很多公司還不曾開始了解向移動轉(zhuǎn)移。因此,他們在移動上做了很好的投資,為他們的服務(wù)取得了很好的流動性。截至2013年1月,他們正為950萬獨特移動設(shè)備提供服務(wù)。這一切都歸功于這個最初的洞察力,他們能夠分析出TB的日志數(shù)據(jù)。“識別數(shù)據(jù)的競爭者是最近被忽略的,并創(chuàng)建一個策略來挖掘它。這些途徑和策略就能區(qū)分出市場領(lǐng)導(dǎo)者和競爭失敗者。 生成正確的結(jié)果 進行數(shù)據(jù)分析的另一個經(jīng)常尚未開發(fā)的數(shù)據(jù)源是社會渠道的非結(jié)構(gòu)化數(shù)據(jù)。處理非結(jié)構(gòu)化數(shù)據(jù)始終是一個巨大的挑戰(zhàn),因為在判斷數(shù)據(jù)相關(guān)性方面非常困難,但盡管如此,非結(jié)構(gòu)化數(shù)據(jù)在商業(yè)智能和大數(shù)據(jù)分析領(lǐng)域越來越重要。那么,企業(yè)組織在非結(jié)構(gòu)化數(shù)據(jù)分析時如何濾掉干擾呢?大多數(shù)處理非結(jié)構(gòu)化文本策略包含一個反饋回路,用以隨著時間推移產(chǎn)生更多具有高度針對性的數(shù)據(jù)用于測試。從現(xiàn)有的社會資源收集然后可以變成可使用的社交媒體參與者,作為測試對象進行實驗。在企業(yè)層面,這可能意味著啟動了提出問題,各種社會媒體宣傳,邀請解說,或挑釁,然后可以測量和分析一些其他的回應(yīng)。這是一個費時且高度復(fù)雜的過程,而是通過社交媒體獲得有意義的信息可以是金色的,當(dāng)涉及到了解客戶真正想要的。 諷刺的是,許多能夠使大分析更有效的解決方案,都需要收集和創(chuàng)造更多的數(shù)據(jù)。然而,與其被動承受不如主動出擊,企業(yè)能夠自己定位,從而利用隱藏在過去,現(xiàn)在和未來大數(shù)據(jù)的洞察力。