大數據的五個顯著特點 |
發(fā)布時間: 2012/9/16 23:27:27 |
然而,盡管大數據正在被廣泛的討論,目前看來,其仍然是一個很大的謎一樣的神話。事實上,圍繞大數據的誤解似乎已經達到了神話般的境界。如下便是五大神話。 1、大數據僅僅是海量的數據量 容量僅僅是界定大數據定義的關鍵要素之一,而對于大數據的定義至少有三個方面的重要要素。其他兩方面分別是種類和傳輸速度。與后兩者相結合,便是Gartner調研公司的道格?蘭尼最初在2001年的調研報告中給出的關于大數據的概念。 一般來說,專家們普遍認為PB級的數據為大數據的起點,盡管這一指標仍然是一個變化中的目標。因此,雖然容量這一因素是非常重要的,而接下來的另外兩個衡量指標也不容忽視。 種類是指許多不同的數據和文件類型,對于管理和更深入的分析數據是至關重要的。但不適合傳統(tǒng)的關系數據庫。這方面的例子包括各種聲音和電影文件、圖像、文檔、地理定位數據、網絡日志和文本字符串。 速度是有關數據的變化率,以及其必須如何快速的被使用,以創(chuàng)造真正的價值。傳統(tǒng)技術,尤其不適合用于高速數據儲存和使用。因此,采用新的方法是必要的。如果有問題的數據創(chuàng)建和聚合速度非常快,就必須使用迅速的方式來揭示其相關的模式和問題。你發(fā)現問題的速度越快,就越有利于您從你大數據分析中獲得更多的機會。 2、大數據指的是Hadoop Hadoop是Apache為大數據工作的開源軟件框架。其是來自于Google的技術加上雅虎的理念和其他,并付諸實踐得出的。但是,大數據是如此的多樣,和復雜,其絕對不存在一套放之四海而皆準的萬能的解決辦法。雖然Hadoop已經毫無疑問的獲得了相當大的知名度,但其也僅僅只是適合大數據存儲和管理的三種技術的其中之一。其他兩個種技術上NoSQL和大規(guī)模并行處理(MPP)數據存儲。MPP數據存儲的例子包括EMC的Greenplum、IBM公司的Netezza和惠普的Vertica. 此外,Hadoop是一個軟件框架,這意味著它包括若干專門設計的組件,是專門設計來解決大規(guī)模分布式數據存儲,分析和檢索任務的。不是所有的Hadoop組件都是必要的,對于一個大的數據解決方案,其中一些組件可取代其他技術,更好地配合用戶的需求。一個例子是MapR的Hadoop,其中包括NFS作為HDFS的替代,并提供了一個完整的隨機存取,讀/寫文件系統(tǒng)。 3、大數據意味著非結構化數據 “非結構化”這一術語是不準確的,其沒有考慮到許多通常與大數據類型相關的不同的和微妙的結構。此外,大數據很可能在同一數據集有不同的數據類型,不包含相同的結構。 因此,大數據更好可能是被稱為“多層結構”,因為它可以包含文本字符串、所有類型的文件、音頻和視頻文件、元數據、網頁、電子郵件、社交媒體供稿、表格數據,等等。這些不同的數據類型一致的特點是不知道其數據架構或不知道在這些數據被捕獲和存儲時如何定義。相反,一個數據模型經常在數據被使用時進行應用。 4、大數據只是社會媒體內容和情感分析 簡而言之,如果您的企業(yè)需要廣泛地分析網絡流量、IT系統(tǒng)日志、客戶的情緒,或任何其他類型的每一天所創(chuàng)建的數字紀錄冊上的陰影,大數據提供了一個辦法做到這一點。即使大數據的早期開拓者,已成為最大的基于網絡的社會化媒體公司:谷歌、雅虎、Facebook,他們的服務所產生的數據,需要一種全新的解決方案,而不是分析社會媒體內容和訪客情感分析。 現在,由于迅速增長的計算機電源(通常是基于云計算的)、開源軟件(例如,Apache的Hadoop發(fā)行版),以及如果利用得當現代化對于數據可以產生經濟價值的沖擊,大數據源源不斷地產生新的用途和應用。大數據帶來了很多讓人欣喜的成果,其中包含了一些令人深思的用途,這在今年年初曾經在“福布斯”上的相關文章中報道過。 5、NoSQL意味著非結構化查詢語言 NoSQL意味著“不僅僅”是SQL,因為這些類型的數據存儲提供特定領域的訪問和查詢技術,除了SQL或類似SQL接口。NoSQL這一類的技術,包括關鍵值存儲、面向文檔的數據庫、圖形數據庫、大表結構和緩存數據存儲。具體的本地存儲的數據訪問方法提供了一個豐富的、低延時的方法,通常是通過專有接口。SQL訪問具有熟悉許多工具并與之兼容的優(yōu)勢。雖然這通常是在一些底層系統(tǒng)解釋查詢本地的“語言”的延遲費用。 本文出自:億恩科技【www.allwellnessguide.com】 |