AWS 宣布推出 AWS Glue DataBrew
西雅圖--今天,Amazon.com, Inc. (NASDAQ:AMZN) 旗下公司 Amazon Web Services, Inc. (AWS) 宣布全面推出 AWS Glue DataBrew,這是一種新的可視化數(shù)據(jù)準備工具,可為客戶提供支持無需編寫代碼即可清理和規(guī)范化數(shù)據(jù)。自 2016 年以來,數(shù)據(jù)工程師一直使用 AWS Glue 來創(chuàng)建、運行和監(jiān)控提取、轉(zhuǎn)換和加載 (ETL) 作業(yè)。 AWS Glue 提供基于代碼和可視化界面,并為客戶顯著簡化了在云中提取、編排和加載數(shù)據(jù)的過程。數(shù)據(jù)分析師和數(shù)據(jù)科學家想要一種更簡單的方法來清理和轉(zhuǎn)換這些數(shù)據(jù),這就是 DataBrew 提供的服務(wù),該服務(wù)允許直接從 AWS 數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)庫進行數(shù)據(jù)探索和實驗,而無需編寫代碼。 AWS Glue DataBrew 為客戶提供超過 250 種預構(gòu)建的轉(zhuǎn)換,以自動執(zhí)行數(shù)據(jù)準備任務(wù)(例如過濾異常、標準化格式和更正無效值),否則這些任務(wù)需要數(shù)天或數(shù)周才能編寫手動編碼的轉(zhuǎn)換。準備好數(shù)據(jù)后,客戶可以立即開始使用 AWS 和第三方分析和機器學習服務(wù)來查詢數(shù)據(jù)和訓練機器學習模型。使用 AWS Glue DataBrew 沒有前期承諾或成本,客戶只需為在數(shù)據(jù)集上創(chuàng)建和運行轉(zhuǎn)換付費。要開始使用,請訪問 。
“數(shù)據(jù)湖是我們分析戰(zhàn)略的關(guān)鍵部分。我們面臨的挑戰(zhàn)之一是無法在將數(shù)據(jù)攝取到我們的數(shù)據(jù)湖之前輕松探索數(shù)據(jù)”
為分析和機器學習準備數(shù)據(jù)涉及幾個必要且耗時的任務(wù),包括數(shù)據(jù)提取、清理、規(guī)范化、加載以及大規(guī)模 ETL 工作流的編排。為了大規(guī)模提取、編排和加載數(shù)據(jù),精通 SQL 或 Python 或 Scala 等編程語言的數(shù)據(jù)工程師和 ETL 開發(fā)人員可以使用 AWS Glue。 ETL 開發(fā)人員通常更喜歡現(xiàn)代 ETL 工具中常見的可視化界面,而不是編寫 SQL、Python 或 Scala,因此 AWS 最近推出了 AWS Glue Studio,這是一種新的可視化界面,可幫助編寫、運行和監(jiān)控 ETL 作業(yè),而無需編寫任何代碼。一旦數(shù)據(jù)被可靠地移動,底層數(shù)據(jù)仍然需要由在業(yè)務(wù)線中運作并了解數(shù)據(jù)上下文的數(shù)據(jù)分析師和數(shù)據(jù)科學家進行清理和規(guī)范化。為了對數(shù)據(jù)進行清理和規(guī)范化,數(shù)據(jù)分析師和數(shù)據(jù)科學家要么在 Excel 或 Jupyter Notebooks 中處理小批量數(shù)據(jù),這些數(shù)據(jù)無法容納大型數(shù)據(jù)集,要么依靠稀缺的數(shù)據(jù)工程師和 ETL 開發(fā)人員編寫自定義代碼來執(zhí)行清潔和規(guī)范化轉(zhuǎn)換。為了發(fā)現(xiàn)數(shù)據(jù)中的異常,技術(shù)高超的數(shù)據(jù)工程師和 ETL 開發(fā)人員會花費數(shù)天或數(shù)周時間編寫自定義工作流,以從不同來源提取數(shù)據(jù),然后對數(shù)據(jù)進行多次旋轉(zhuǎn)、轉(zhuǎn)置和切片,然后才能與數(shù)據(jù)分析師進行迭代或數(shù)據(jù)科學家來識別和修復數(shù)據(jù)質(zhì)量問題。在開發(fā)了這些轉(zhuǎn)換之后,數(shù)據(jù)工程師和 ETL 開發(fā)人員仍然需要安排自定義工作流持續(xù)運行,以便可以自動清理和規(guī)范新傳入的數(shù)據(jù)。每次數(shù)據(jù)分析師或數(shù)據(jù)科學家想要更改或添加轉(zhuǎn)換時,數(shù)據(jù)工程師和 ETL 開發(fā)人員都需要重新提取、加載、清理、規(guī)范化和編排數(shù)據(jù)準備任務(wù)。這個迭代過程可能需要數(shù)周到數(shù)月才能完成;因此,客戶花費了多達 80% 的時間來清理和規(guī)范化數(shù)據(jù),而不是實際分析數(shù)據(jù)并從中提取價值。
AWS Glue DataBrew 是 AWS Glue 的可視化數(shù)據(jù)準備工具,它允許數(shù)據(jù)分析師和數(shù)據(jù)科學家使用交互式、點擊式可視化界面清理和轉(zhuǎn)換數(shù)據(jù),而無需編寫任何代碼。借助 AWS Glue DataBrew,最終用戶可以直接從其 Amazon Simple Storage Service (S3) 數(shù)據(jù)湖、Amazon Redshift 數(shù)據(jù)倉庫以及 Amazon Aurora 和 Amazon Relational Database Service (RDS) 數(shù)據(jù)庫輕松訪問和直觀地探索整個組織中的任何數(shù)據(jù)量??蛻艨梢詮?250 多種內(nèi)置函數(shù)中進行選擇,以組合、旋轉(zhuǎn)和轉(zhuǎn)置數(shù)據(jù),而無需編寫代碼。 AWS Glue DataBrew 建議執(zhí)行數(shù)據(jù)清理和規(guī)范化步驟,例如過濾異常、將數(shù)據(jù)規(guī)范化為標準日期和時間值、生成用于分析的聚合以及更正無效、錯誤分類或重復的數(shù)據(jù)。對于復雜的任務(wù),例如將單詞轉(zhuǎn)換為公共基礎(chǔ)詞或詞根(例如將“yearly”和“yearlong”轉(zhuǎn)換為“year”),AWS Glue DataBrew 還提供使用自然語言處理 (NLP) 等高級機器學習技術(shù)的轉(zhuǎn)換。然后,用戶可以將這些清理和規(guī)范化步驟保存到工作流(稱為配方)中,并自動將它們應(yīng)用于未來的傳入數(shù)據(jù)。如果需要對工作流程進行更改,數(shù)據(jù)分析師和數(shù)據(jù)科學家只需更新配方中的清理和規(guī)范化步驟,它們就會在新數(shù)據(jù)到達時自動應(yīng)用于新數(shù)據(jù)。 AWS Glue DataBrew 將準備好的數(shù)據(jù)發(fā)布到 Amazon S3,這使客戶可以輕松地立即將其用于分析和機器學習。 AWS Glue DataBrew 是無服務(wù)器且完全托管的,因此客戶無需配置、預置或管理任何計算資源。
“AWS 客戶正在以前所未有的速度使用數(shù)據(jù)進行分析和機器學習。但是,這些客戶經(jīng)常告訴我們,他們的團隊在與數(shù)據(jù)準備相關(guān)的無差別、重復和平凡的任務(wù)上花費了太多時間,”AWS 數(shù)據(jù)庫和分析副總裁 Raju Gulabani 說。 “客戶喜歡 AWS Glue 等基于代碼的數(shù)據(jù)準備服務(wù)的可擴展性和靈活性,但他們也可以從允許業(yè)務(wù)用戶、數(shù)據(jù)分析師和數(shù)據(jù)科學家在不編寫代碼的情況下獨立地可視化探索和試驗數(shù)據(jù)中受益。 AWS Glue DataBrew 具有易于使用的可視化界面,可幫助所有技術(shù)級別的數(shù)據(jù)分析師和數(shù)據(jù)科學家理解、組合、清理和轉(zhuǎn)換數(shù)據(jù)。”
AWS Glue DataBrew 現(xiàn)已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、歐洲(愛爾蘭)、歐洲(法蘭克福)、亞太地區(qū)(悉尼)和亞太地區(qū)(東京)全面推出,即將在其他地區(qū)推出。
總部位于東京的 NTT DOCOMO 是日本最大的移動服務(wù)提供商,為超過 8000 萬客戶提供服務(wù)。 NTT DOCOMO 營銷平臺規(guī)劃部總經(jīng)理 Takashi Ito 表示:“我們的分析師分析和查詢各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以便更好地了解使用模式。” “AWS Glue DataBrew 提供了一個可視化界面,使我們的技術(shù)和非技術(shù)用戶能夠快速輕松地分析數(shù)據(jù)。其先進的數(shù)據(jù)剖析功能有助于我們更好地了解我們的數(shù)據(jù)并監(jiān)控數(shù)據(jù)質(zhì)量。 AWS Glue DataBrew 和其他 AWS 分析服務(wù)使我們能夠簡化工作流程并提高生產(chǎn)力?!?/p>
bp 是全球最大的綜合能源公司之一。 “數(shù)據(jù)湖是我們分析戰(zhàn)略的關(guān)鍵部分。我們面臨的挑戰(zhàn)之一是無法在將數(shù)據(jù)攝取到我們的數(shù)據(jù)湖之前輕松探索數(shù)據(jù),”bp 數(shù)據(jù)與分析平臺架構(gòu)總監(jiān) John Maio 說。 “AWS Glue DataBrew 具有復雜的數(shù)據(jù)分析功能和一組豐富的內(nèi)置轉(zhuǎn)換。這使我們的數(shù)據(jù)工程師能夠輕松地在可視界面中探索新數(shù)據(jù)集并進行修改,以優(yōu)化攝取并允許分析師為他們的分析解決方案塑造數(shù)據(jù)。我們將 AWS Glue DataBrew 視為幫助我們更好地管理數(shù)據(jù)平臺和提高數(shù)據(jù)管道效率的一種方式?!?/p>英威達是科赫工業(yè)的子公司,是世界上最大的化學中間體、聚合物和纖維綜合生產(chǎn)商之一。 “數(shù)據(jù)對于優(yōu)化我們的制造流程至關(guān)重要。我們面臨的挑戰(zhàn)之一是確保我們擁有一個干凈的數(shù)據(jù)湖,可以作為我們分析和機器學習應(yīng)用程序的真實來源,”英威達分析和云計算負責人 Tanner Gonzalez 說。 “攝取到我們數(shù)據(jù)湖中的數(shù)據(jù)通常包含重復值、不正確的格式和其他缺陷,這些缺陷使其難以以原始形式使用。 Amazon AWS Glue DataBrew 將允許我們的數(shù)據(jù)分析師直觀地檢查大型數(shù)據(jù)集、清理和豐富數(shù)據(jù)以及執(zhí)行高級轉(zhuǎn)換。 AWS Glue DataBrew 將使我們的分析師和數(shù)據(jù)科學家能夠執(zhí)行高級數(shù)據(jù)工程活動,讓他們可以自由探索數(shù)據(jù)并減少獲得新見解的時間?!?/p>
關(guān)于亞馬遜網(wǎng)絡(luò)服務(wù)
14 年來,Amazon Web Services 一直是世界上最全面、應(yīng)用最廣泛的云平臺。 AWS 為計算、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)、分析、機器人、機器學習和人工智能 (AI)、物聯(lián)網(wǎng) (IoT)、移動、安全、混合、虛擬和增強現(xiàn)實(VR 和 AR)提供超過 175 項功能齊全的服務(wù))、媒體和應(yīng)用程序開發(fā)、部署和管理,來自 24 個地理區(qū)域內(nèi)的 77 個可用區(qū) (AZ),并已宣布計劃在印度、印度尼西亞、日本、西班牙和瑞士再增加 15 個可用區(qū)和 5 個 AWS 區(qū)域。數(shù)以百萬計的客戶(包括發(fā)展最快的初創(chuàng)公司、最大的企業(yè)和領(lǐng)先的政府機構(gòu))信任 AWS 來支持他們的基礎(chǔ)設(shè)施、變得更加敏捷并降低成本。
關(guān)于亞馬遜
亞馬遜遵循四項原則:以客戶為中心而非以競爭對手為中心、對發(fā)明的熱情、對卓越運營的承諾以及長期思考。客戶評論、一鍵購物、個性化推薦、Prime、亞馬遜物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板電腦、Fire TV、亞馬遜 Echo 和 Alexa 是亞馬遜率先推出的一些產(chǎn)品和服務(wù)。
點擊咨詢現(xiàn)在有哪些新興平臺值得關(guān)注 >>>
特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部