訂閱
糾錯
加入自媒體

大數(shù)據(jù)小知識:四種數(shù)據(jù)處理系統(tǒng)各自的特征與優(yōu)勢

大數(shù)據(jù)中蘊含的寶貴價值成為人們存儲和處理大數(shù)據(jù)的驅(qū)動力,因此海量數(shù)據(jù)的處理對于當前存在的技術(shù)來說是一種極大的挑戰(zhàn)。目前,人們對大數(shù)據(jù)的處理形式主要是對靜態(tài)數(shù)據(jù)的批量處理,對在線數(shù)據(jù)的實時處理,以及對圖數(shù)據(jù)的綜合處理。其中,在線數(shù)據(jù)的實時處理又包括對流式數(shù)據(jù)的處理和實時交互計算兩種。本文將詳細闡述上述4種數(shù)據(jù)形式特征以及各自的處理系統(tǒng)。

利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應對措施實現(xiàn)業(yè)務目標是大數(shù)據(jù)批處理的首要任務。大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲后計算,實時性要求不高,同時數(shù)據(jù)的準確性和全面性更為重要的場景。

批量數(shù)據(jù)的特征通常有3個。

第一,數(shù)據(jù)體量巨大。數(shù)據(jù)從TB級別躍升到PB級別。數(shù)據(jù)是以靜態(tài)的形式存儲在硬盤中,很少進行更新,存儲時間長,可以重復利用,然而這樣大批量的數(shù)據(jù)不容易對其進行移動和備份。

第二,數(shù)據(jù)精確度高。批量數(shù)據(jù)往往是從應用中沉淀下來的數(shù)據(jù),因此精度相對較高,是企業(yè)資產(chǎn)的一部分寶貴財富。

第三,數(shù)據(jù)價值密度低。以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價值。此外,批量數(shù)據(jù)處理往往比較耗時,而且不提供用戶與系統(tǒng)的交互手段,所以當發(fā)現(xiàn)處理結(jié)果和預期或與以往的結(jié)果有很大差別時,會浪費很多時間。因此,批量數(shù)據(jù)處理適合大型的相對比較成熟的作業(yè)。

Google于2010年推出了Dremel,引領業(yè)界向?qū)崟r數(shù)據(jù)處理邁進。實時數(shù)據(jù)處理是針對批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式。在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務器日志的實時采集,交互式數(shù)據(jù)處理的目標是將PB級數(shù)據(jù)的處理時間縮短到秒級。通俗而言,流式數(shù)據(jù)是一個無窮的數(shù)據(jù)序列,序列中的每一個元素來源各異,格式復雜,序列往往包含時序特性,或者有其他的有序標簽(如IP報文中的序號)。從數(shù)據(jù)庫的角度而言,每一個元素可以看作是一個元組,而元素的特性則類比于元組的屬性。流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設計通用的流式數(shù)據(jù)處理系統(tǒng)。

下面簡要介紹流式數(shù)據(jù)共有的特征。

首先,流式數(shù)據(jù)的元組通常帶有時間標簽或其余含序?qū)傩浴R虼,同一流式?shù)據(jù)往往是被按序處理的。然而數(shù)據(jù)的到達順序是不可預知的,由于時間和環(huán)境的動態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性。這就導致了數(shù)據(jù)的物理順序與邏輯順序不一致。而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實時的、不可預知的。此外,數(shù)據(jù)的流速往往有較大的波動,因此需要系統(tǒng)具有很好的可伸縮性,能夠動態(tài)適應不確定流入的數(shù)據(jù)流,具有很強的系統(tǒng)計算能力和大數(shù)據(jù)流量動態(tài)匹配的能力。

其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的。數(shù)據(jù)流中往往含有錯誤元素、垃圾信息等。因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動態(tài)清洗、格式處理等。最后,流式數(shù)據(jù)是活動的(用完即棄),隨著時間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲?查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進行計算,保存數(shù)據(jù)流的動態(tài)屬性。流式處理系統(tǒng)針對該特性,應當提供流式查詢接口,即提交動態(tài)的SQL語句,實時地返回當前結(jié)果。

與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制。系統(tǒng)與操作人員以人機對話的方式一問一答——操作人員提出請求,數(shù)據(jù)以對話的方式輸入,系統(tǒng)便提供相應的數(shù)據(jù)或提示信息,引導操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果。采用這種方式,存儲在系統(tǒng)中的數(shù)據(jù)文件能夠被及時處理修改,同時處理結(jié)果可以立刻被使用。交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時處理,使交互方式繼續(xù)進行下去。

圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系,在近幾年已成為各學科研究的熱點。圖中點和邊的強關(guān)聯(lián)性,需要圖數(shù)據(jù)處理系統(tǒng)對圖數(shù)據(jù)進行一系列的操作,包括圖數(shù)據(jù)的存儲、圖查詢、最短路徑查詢、關(guān)鍵字查詢、圖模式挖掘以及圖數(shù)據(jù)的分類、聚類等。隨著圖中節(jié)點和邊數(shù)的增多(達到幾千萬甚至上億數(shù)),圖數(shù)據(jù)處理的復雜性給圖數(shù)據(jù)處理系統(tǒng)提出了嚴峻的挑戰(zhàn)。下面主要闡述圖數(shù)據(jù)的特征和典型應用以及代表性的圖數(shù)據(jù)處理系統(tǒng)。

圖數(shù)據(jù)中主要包括圖中的節(jié)點以及連接節(jié)點的邊,通常具有3個特征。

第一,節(jié)點之間的關(guān)聯(lián)性。圖中邊的數(shù)量是節(jié)點數(shù)量的指數(shù)倍,因此,節(jié)點和關(guān)系信息同等重要,圖結(jié)構(gòu)的差異也是由于對邊做了限制,在圖中,頂點和邊實例化構(gòu)成各種類型的圖,如標簽圖、屬性圖、語義圖以及特征圖等。

第二,圖數(shù)據(jù)的種類繁多。在許多領域中,使用圖來表示該鄰域的數(shù)據(jù),如生物、化學、計算機視覺、模式識別、信息檢索、社會網(wǎng)絡、知識發(fā)現(xiàn)、動態(tài)網(wǎng)絡交通、語義網(wǎng)、情報分析等。每個領域?qū)D數(shù)據(jù)的處理需求不同,因此,沒有一個通用的圖數(shù)據(jù)處理系統(tǒng)滿足所有領域的需求。

第三,圖數(shù)據(jù)計算的強耦合性。在圖中,數(shù)據(jù)之間是相互關(guān)聯(lián)的,因此,對圖數(shù)據(jù)的計算也是相互關(guān)聯(lián)的。這種數(shù)據(jù)耦合的特性對圖的規(guī)模日益增大達到上百萬甚至上億節(jié)點的大圖數(shù)據(jù)計算提出了巨大的挑戰(zhàn)。大圖數(shù)據(jù)是無法使用單臺機器進行處理的,但如果對大圖數(shù)據(jù)進行并行處理,對于每一個頂點之間都是連通的圖來講,難以分割成若干完全獨立的子圖進行獨立的并行處理;即使可以分割,也會面臨并行機器的協(xié)同處理,以及將最后的處理結(jié)果進行合并等一系列問題。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計算模型來迎接挑戰(zhàn)并解決問題。

四種大數(shù)據(jù)各自的特點和處理方式都記住了嗎,使用的時候要根據(jù)不同的情況來考量哦。

想要獲取更多大數(shù)據(jù)相關(guān)資訊和知識,關(guān)注微信公眾號成都科多大數(shù)據(jù)就能看到啦。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

智能制造 獵頭職位 更多
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號