Azure Data Lake Storage Gen2 簡介,azurestorage系列Azure數(shù)據(jù)湖存儲第二代簡介Azure Data Lake Storage Gen2是一組專用于大數(shù)據(jù)分析的功能,以Azure Blob storage as 基礎(chǔ)構(gòu)建。專為企業(yè)大數(shù)據(jù)分析而設(shè)計數(shù)據(jù)湖存儲Gen2使Azure ......
Azure Data Lake Storage Gen2是一組專用于大數(shù)據(jù)分析的功能,以Azure Blob storage as 基礎(chǔ)構(gòu)建。
專為企業(yè)大數(shù)據(jù)分析而設(shè)計
數(shù)據(jù)湖存儲Gen2使Azure storage成為在Azure上構(gòu)建企業(yè)數(shù)據(jù)湖的基礎(chǔ)。Data Lake Storage Gen2從一開始就被設(shè)計為存儲數(shù)百億字節(jié)的信息,同時保持?jǐn)?shù)百億字節(jié)的吞吐量,使您可以輕松管理大量數(shù)據(jù)。
Data Lake Storage Gen2的一個基本部分是向Blob存儲添加一個分層的名稱空間。分層命名空間將對象/文件組織到目錄層次結(jié)構(gòu)中,以實(shí)現(xiàn)有效的數(shù)據(jù)訪問。常見的對象存儲命名約定在名稱中使用斜杠來模擬分層目錄結(jié)構(gòu)。這種結(jié)構(gòu)是在數(shù)據(jù)湖存儲Gen2中真正實(shí)現(xiàn)的。重命名或刪除目錄等操作將成為對目錄的單個原子元數(shù)據(jù)操作。沒有必要枚舉和處理共享目錄名前綴的所有對象。
Data Lake Storage Gen2構(gòu)建于基礎(chǔ)Blob存儲之上,其性能、管理和安全性通過以下方式得到增強(qiáng):
優(yōu)化的性能,因?yàn)槟恍枰獙?fù)制或轉(zhuǎn)換數(shù)據(jù)作為分析的先決條件。與Blob存儲上的平面命名空間相比,分層命名空間大大提高了目錄管理操作的性能,從而提高了整體作業(yè)性能。
管理更容易,因?yàn)槟梢酝ㄟ^目錄和子目錄來組織和操作文件。
因?yàn)镻OSIX權(quán)限可以在目錄或單個文件上定義,所以可以加強(qiáng)安全性。
此外,Data Lake Storage Gen2非常具有成本是多少,因?yàn)樗⒃诘统杀镜腁zure Blob存儲之上。這些新功能進(jìn)一步降低了在Azure上運(yùn)行大數(shù)據(jù)分析的總擁有成本。
第二代數(shù)據(jù)湖存儲的主要功能
Hadoop兼容訪問:借助Data Lake Storage Gen2,您可以像Hadoop分布式文件系統(tǒng)(HDFS)一樣管理和訪問數(shù)據(jù)。用于訪問數(shù)據(jù)的新ABFS驅(qū)動程序在所有Apache Hadoop環(huán)境中都可用。這些環(huán)境包括Azure HDInsight、Azure Databricks和Azure Synapse Analytics。
POSIX權(quán)限的超集:Data Lake Gen2的安全模型支持ACL和POSIX權(quán)限,以及一些特定于Data Lake Storage Gen2的額外粒度??梢酝ㄟ^storage explorer或Hive和Spark等框架來配置設(shè)置。
經(jīng)濟(jì)高效:Data Lake Storage Gen2提供低成本的存儲容量和交易。Azure Blob存儲生命周期等功能可以在數(shù)據(jù)在其生命周期中進(jìn)行轉(zhuǎn)換時優(yōu)化成本。
優(yōu)化的驅(qū)動程序:ABFS驅(qū)動程序已經(jīng)專門針對大數(shù)據(jù)分析進(jìn)行了優(yōu)化。相應(yīng)的REST API通過端點(diǎn)dfs.core.chinacloudapi.cn顯示。
可伸縮性
根據(jù)設(shè)計,無論是通過數(shù)據(jù)湖存儲Gen2還是Blob存儲接口訪問,Azure存儲都可以自由伸縮。它可以存儲和處理數(shù)十億字節(jié)的數(shù)據(jù)。此存儲量可用于在每秒高級輸入/輸出操作(IOPS)下以每秒千兆位(Gbps)測量的吞吐量。它將根據(jù)在服務(wù)、帳戶和文件級別測量的近乎恒定的延遲進(jìn)行處理。
成本是多少
因?yàn)閿?shù)據(jù)湖存儲Gen2是建立在Azure Blob storage 基礎(chǔ)之上的,所以存儲容量和交易成本較低。與其他云存儲服務(wù)不同,在分析數(shù)據(jù)之前,不需要移動或轉(zhuǎn)換數(shù)據(jù)。有關(guān)定價的更多信息,請參見Azure存儲定價。
此外,分層命名空間等功能可以顯著提高許多分析作業(yè)的整體性能。這種性能上的提高意味著處理相同數(shù)量的數(shù)據(jù)需要更少的計算能力,從而降低了端到端分析作業(yè)的總擁有成本(TCO)。
一種服務(wù),多種概念
因?yàn)镈ata Lake Storage Gen2構(gòu)建在Azure Blob storage 基礎(chǔ)之上,所以可以使用多個概念來描述相同的共享內(nèi)容。
以下是由不同概念描述的等效實(shí)體。除非另有說明,否則這些實(shí)體是同義的:
一種服務(wù),多種概念
支持的Blob存儲函數(shù)
您的帳戶現(xiàn)在可以使用Blob存儲功能,如診斷日志記錄、訪問層和Blob存儲生命周期管理策略。
有關(guān)受支持的Blob存儲函數(shù)的列表,請參考Azure Data Lake storage Gen2中提供的Blob存儲函數(shù)。
支持Azure服務(wù)集成
數(shù)據(jù)湖存儲gen2支持多種Azure服務(wù)。您可以使用它們來引入數(shù)據(jù)、執(zhí)行分析和創(chuàng)建可視化表示。有關(guān)受支持的Azure服務(wù)的列表,請參見支持Azure數(shù)據(jù)湖存儲Gen2的Azure服務(wù)。
支持的開源平臺
多個開源平臺支持?jǐn)?shù)據(jù)湖存儲Gen2。有關(guān)完整的列表,請參見支持Azure數(shù)據(jù)湖存儲Gen2的開源平臺。
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部