Spark計算框架在處理數(shù)據(jù)時有什么優(yōu)勢？【大數(shù)據(jù)培訓】

更新時間:2020-04-24 來源:黑馬程序員瀏覽量:

Spark計算框架在處理數(shù)據(jù)時，所有的中間數(shù)據(jù)都保存在內(nèi)存中。正是由于Spark充分利用內(nèi)存對數(shù)據(jù)進行計算，從而減少磁盤讀寫操作，提高了框架計算效率。同時Spark還兼容HDFS、Hive，可以很好地與Hadoop系統(tǒng)融合，從而彌補MapReduce高延遲的性能缺點。所以說，Spark是一個更加快速、高效的大數(shù)據(jù)計算平臺。推薦了解黑馬程序員大數(shù)據(jù)培訓課程。

學大數(shù)據(jù)就到黑馬程序員

Spark具有以下幾個顯著的特點：

1、速度快

小生根據(jù)官方數(shù)據(jù)統(tǒng)計，與Hadoop相比，Spark基于內(nèi)存的運算效率要快100倍以上，基于硬盤的運算效率也要快10倍以上。Spark實現(xiàn)了高效的DAG執(zhí)行引擎，能夠通過內(nèi)存計算高效地處理數(shù)據(jù)流。

2、易用性

Spark編程支持Java、Python、Scala及R語言，并且還擁有超過80種高級算法，除此之外，Spark還支持交互式的Shell操作，開發(fā)人員可以方便地在Shell客戶端中使用Spark集群解決問題。

3、通用性

Spark提供了統(tǒng)一的解決方案，適用于批處理、交互式查詢(SparkSQL)、實時流處理(SparkStreaming)、機器學習(SparkMLlib)和圖計算(GraphX)，它們可以在同一個應(yīng)用程序中無縫地結(jié)合使用，大大減少大數(shù)據(jù)開發(fā)和維護的人力成本和部署平臺的物力成本。

4、兼容性

Spark開發(fā)容pSpark可以運行在Hadoop模式、Mesos模式、Standalone獨立模式或Cloud中，并且還可以訪問各種數(shù)據(jù)源，包括本地文件系統(tǒng)、HDFS、Cassandra、HBase和Hive等。

猜你喜歡

Spark發(fā)展史：讓你了解是什么Spark?