久久女人网,国产另类型成年A片免费一区二区,国产香蕉91tv永久在线

Azure Data Lake Storage Gen 實戰(zhàn)體驗,如何使用azuredatastudio

2022-07-05

1423

Azure Data Lake Storage Gen 實戰(zhàn)體驗,如何使用azuredatastudioAzure Data Lake Storage Gen 實戰(zhàn)體驗引言相較傳統(tǒng)的重量級OLAP數據倉庫，“數據湖”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點，受到越來越多企業(yè)的青睞，逐漸成為了現代......

Azure Data Lake Storage Gen 實戰(zhàn)體驗,如何使用azuredatastudio

Azure Data Lake Storage Gen 實戰(zhàn)體驗

引言

相較傳統(tǒng)的重量級OLAP數據倉庫，“數據湖”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點，受到越來越多企業(yè)的青睞，逐漸成為了現代數據平臺的核心和架構范式。

因此數據湖相關服務成為了云計算的發(fā)展重點之一。Azure平臺早年就曾發(fā)布第一代Data Lake Storage，隨后微軟將它與Azure Storage進行了大力整合，于今年初正式對外發(fā)布了其第二代產品：Azure Data Lake Storage Gen2(下稱ADLS Gen2)。ADLS Gen2的口號是“不妥協(xié)的數據湖平臺，它結合了豐富的高級數據湖解決方案功能集以及 Azure Blob 存儲的經濟性、全球規(guī)模和企業(yè)級安全性”。

全新一代的ADLS Gen2 實際體驗如何？讓我們來深入研究一下，尤其是關注ADLS Gen2 作為存儲層掛載到大數據集群后的表現。

ADLS Gen2體驗：集群掛載

數據湖存儲主要適用于大數據處理的場景，所以我們選擇建立一個HDInsight大數據集群來進行實驗，使用Spark來訪問和操作數據湖中的數據?？梢钥吹紿DInsight已經支持ADLS Gen2了：

接下來是比較關鍵的存儲配置環(huán)節(jié)，我們指定使用一個新建的ADLS Gen2實例hdiclusterroot來作為整個集群的存儲，文件系統(tǒng)名為hdfsroot，如圖所示：

（圖中我們還配置了Additional storage accounts，用于掛載傳統(tǒng)Blob，之后作性能對比時會用到。此處暫不展開。）

很有意思的是上圖的下半部分，它允許我們指定一個Identity，這個Identity可以代表Spark集群的身份和訪問權限。這非常關鍵，意味著集群的身份能夠完美地與ADLS Gen2的權限體系對應起來，在企業(yè)級的場景中能夠很好地落地對于大數據資源訪問的管控。

這里選擇了專門建立的一個sparkclusteridentity作為集群的身份。我們事先為它賦予了hdiclusterroot這個存儲賬號的storage blob data owner權限，以便該identity能夠對數據湖中的數據進行任意操作：

完成其他配置后按下創(chuàng)建按鈕，Azure會一鍵生成Spark集群，大約十來分鐘后整個集群就進入可用狀態(tài)了：

我們迫不及待地SSH登錄進集群，查看其默認掛載的文件系統(tǒng)。嘗試使用hadoop fs ls列出根目錄下的文件信息：

sshuser@hn0cloudp:~$ hadoop fs ls /

Found 18 items

drwxrxrx sshuser sshuser 0 20190826 03:10 /HdiNotebooks

drwxrxrx sshuser sshuser 0 20190826 03:29 /HdiSamples

drwxrx sshuser sshuser 0 20190826 02:54 /ams

drwxrx sshuser sshuser 0 20190826 02:54 /amshbase

drwxrwxwt sshuser sshuser 0 20190826 02:54 /applogs

drwxrx sshuser sshuser 0 20190906 07:41 /apps

drwxrxx sshuser sshuser 0 20190826 02:54 /atshistory

drwxrxrx sshuser sshuser 0 20190826 03:25 /customscriptactionlogs

drwxrxrx sshuser sshuser 0 20190826 03:19 /example

drwxrx sshuser sshuser 0 20190826 02:54 /hbase

drwxrxx sshuser sshuser 0 20190906 07:41 /hdp

drwxrx sshuser sshuser 0 20190826 02:54 /hive

drwxrx sshuser sshuser 0 20190826 02:54 /mapred

drwxrwxwt sshuser sshuser 0 20190826 03:19 /mapreducestaging

drwxrwxwt sshuser sshuser 0 20190826 02:54 /mrhistory

drwxrwxwt sshuser sshuser 0 20190826 03:19 /tezstaging

drwxrx sshuser sshuser 0 20190826 02:54 /tmp

drwxrwxwt sshuser sshuser 0 20190909 02:31 /user

將文件列表和ADLS Gen2比對，可以看到這里的“根目錄”事實上就完全對應著hdiclusterroot這個數據湖實例下hdfsroot文件系統(tǒng)中的數據，這說明集群實現了該數據湖文件系統(tǒng)的掛載：

那么，這樣的遠程掛載是如何實現的呢？打開集群的coresite.xml 配置文件，答案在fs.defaultFS配置節(jié)中：

property namefs.defaultFS/name valueabfs://hdfsroot@hdiclusterroot.dfs.core.windows.net/value finaltrue/final/property

原來，與通常使用hdfs不同，集群的fs.defaultFS在創(chuàng)建時就被設置為了以abfs為開頭的特定url，該url正是指向我們的數據湖存儲。這個ABFS驅動(Azure Blob File System)是微軟專門為Data Lake Storage Gen2開發(fā)，全面實現了Hadoop的FileSystem接口，為Hadoop體系和ADLS Gen2架起了溝通橋梁。

為證明數據湖文件系統(tǒng)能夠正常工作，我們來運行一個經典的WordCount程序。筆者使用AzCopy往數據湖中上傳了一本小說《雙城記》 (ATaleOfTwoCities.txt)，然后到HDInsight集群自帶的Jupyter Notebook里通過Scala腳本運用Spark來進行詞頻統(tǒng)計：

Great! 我們的Spark on ADLS Gen2實驗完美運行，過程如絲般順滑。

小結

Azure Data Lake Storage Gen2是微軟Azure全新一代的大數據存儲產品，專為企業(yè)級數據湖類應用所構建。它繼承了Azure Blob Storage易于使用、成本低廉的特點，同時又加入了目錄層次結構、細粒度權限控制等企業(yè)級特性。

本文主要實踐了大數據集群掛載ADLS Gen2作為主存儲的場景，在證明ADLS Gen2具備良好Hadoop生態(tài)兼容性的同時，也體驗了與傳統(tǒng)HDFS不同的存儲計算分離架構。該種架構由于可獨立擴展計算和存儲部分，非常適合云端特點，正受到越來越多的歡迎。

文章推薦
ASO優(yōu)化在APP Store中應該怎么做搜索優(yōu)化,app怎么定制aso優(yōu)化
Google UAC系列如何衡量出價水平是否合理呢,googleuac預算
Azure面向制造業(yè)的解決方案,azure公司
App出海,app出海聯(lián)運

特別聲明：以上文章內容僅代表作者本人觀點，不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發(fā)表后的30日內與ESG跨境電商聯(lián)系。