大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享,大數(shù)據(jù)技術(shù)下如何提高預(yù)處理能力-ESG跨境

大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享,大數(shù)據(jù)技術(shù)下如何提高預(yù)處理能力

來(lái)源網(wǎng)絡(luò)
來(lái)源網(wǎng)絡(luò)
2022-05-15
點(diǎn)贊icon 0
查看icon 786

大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享,大數(shù)據(jù)技術(shù)下如何提高預(yù)處理能力大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享問(wèn)題的背景在項(xiàng)目中,大數(shù)據(jù)的任務(wù)執(zhí)行時(shí)間較長(zhǎng),需要進(jìn)行優(yōu)化,使大數(shù)據(jù)的任務(wù)執(zhí)行時(shí)間優(yōu)化到客戶可以接受的時(shí)間。分析兩個(gè)原因 業(yè)務(wù)場(chǎng)景分析該場(chǎng)景中的大數(shù)據(jù)任務(wù)主要是對(duì)數(shù)據(jù)進(jìn)行mapreduce操作,包括兩個(gè)子任務(wù)。第一個(gè)子任務(wù)的地圖......

大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享,大數(shù)據(jù)技術(shù)下如何提高預(yù)處理能力




大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間優(yōu)化案例分享

問(wèn)題的背景

在項(xiàng)目中,大數(shù)據(jù)的任務(wù)執(zhí)行時(shí)間較長(zhǎng),需要進(jìn)行優(yōu)化,使大數(shù)據(jù)的任務(wù)執(zhí)行時(shí)間優(yōu)化到客戶可以接受的時(shí)間。

分析兩個(gè)原因

業(yè)務(wù)場(chǎng)景分析

該場(chǎng)景中的大數(shù)據(jù)任務(wù)主要是對(duì)數(shù)據(jù)進(jìn)行mapreduce操作,包括兩個(gè)子任務(wù)。第一個(gè)子任務(wù)的地圖數(shù)量(每張地圖大小為128M)約為4300張(這些地圖任務(wù)分散在不同的服務(wù)器上,泰山集群有6400+核處理,可以充分利用泰山的多核優(yōu)勢(shì))。地圖的執(zhí)行時(shí)間是10分鐘。但reduce的數(shù)量固定為200(即最多200個(gè)內(nèi)核并行處理reduce任務(wù)),reduce的執(zhí)行時(shí)間約為1小時(shí)30分鐘,耗時(shí)較長(zhǎng)。同時(shí)reduce的數(shù)量少于map的數(shù)量,無(wú)法充分發(fā)揮泰山多核的優(yōu)勢(shì),第二個(gè)子任務(wù)也是reduce階段,耗時(shí)較長(zhǎng)。

服務(wù)器基礎(chǔ)的性能分析

執(zhí)行大數(shù)據(jù)任務(wù)時(shí),cpu利用率不高,磁盤io和網(wǎng)卡IO不存在瓶頸。但是,網(wǎng)卡中斷需要綁定到內(nèi)核,并且可以調(diào)整磁盤緩存參數(shù)來(lái)提高性能。

三種解決方案

3.1網(wǎng)卡調(diào)整

3.1.1中斷核結(jié)合

中斷關(guān)聯(lián)性被描述為一組能夠?qū)μ囟ㄖ袛嘧龀鲰憫?yīng)的CPU。如果應(yīng)用程序可以通過(guò)關(guān)聯(lián)相關(guān)的CPU在相同的CPU上下文中處理收到的數(shù)據(jù)包,則可以減少等待時(shí)間并提高CPU利用率。

因此,我們可以將處理網(wǎng)卡中斷的CPU內(nèi)核設(shè)置在網(wǎng)卡所在的NUMA上,從而減少跨NUMA內(nèi)存訪問(wèn)帶來(lái)的額外開(kāi)銷,提高網(wǎng)絡(luò)處理性能。

3.2磁盤參數(shù)調(diào)整

3.2.1磁盤讀取預(yù)取參數(shù)

/sys/block/sdx/queue/read ahead。該參數(shù)對(duì)于順序讀取非常有用。意思是,一次提前看多少內(nèi)容,不管實(shí)際需要多少。默認(rèn)情況下,一次讀取128kb遠(yuǎn)小于您想要讀取的內(nèi)容。設(shè)置大一點(diǎn)對(duì)于讀取大文件非常有用,可以有效減少讀尋道的次數(shù)。該參數(shù)可通過(guò)使用塊dev–setra進(jìn)行設(shè)置。setra設(shè)置了多少個(gè)扇區(qū),因此實(shí)際字節(jié)除以2。例如,設(shè)置512實(shí)際讀取256個(gè)字節(jié)。

原始服務(wù)器值是128kb,它被設(shè)置為4096Kb。

3.2.2緩存寫入磁盤的參數(shù)調(diào)整

/proc/sys/vm/dirtyratio從20更改為40

此參數(shù)控制文件系統(tǒng)的文件系統(tǒng)寫緩沖區(qū)的大小。單位是百分比,表示系統(tǒng)內(nèi)存的百分比。它表示當(dāng)寫緩沖區(qū)用完系統(tǒng)內(nèi)存時(shí),它開(kāi)始向磁盤寫入數(shù)據(jù)。如果增加,更多的系統(tǒng)內(nèi)存將用于磁盤寫緩沖,系統(tǒng)的寫性能也將大大提高。

/proc/sys/VM/dirty background ratio從10更改為20

此參數(shù)控制文件系統(tǒng)的pdflush進(jìn)程以及何時(shí)刷新磁盤。是單位百分比,表示系統(tǒng)內(nèi)存的百分比。這意味著當(dāng)寫緩沖區(qū)用完系統(tǒng)內(nèi)存時(shí),pdflush開(kāi)始向磁盤寫入數(shù)據(jù)。

如果增加,更多的系統(tǒng)內(nèi)存將用于磁盤寫緩沖,系統(tǒng)的寫性能也將大大提高。

/proc/sys/VM/dirty write back centi secs從500更改為800

此參數(shù)控制內(nèi)核的臟數(shù)據(jù)刷新進(jìn)程pdflush的運(yùn)行間隔。單位是1/100秒。默認(rèn)值為500,即5秒。

/proc/sys/VM/dirty expire centi secs從3000更改為30000。

該參數(shù)聲明Linux內(nèi)核寫緩沖區(qū)中的數(shù)據(jù)為“舊”后,pdflush進(jìn)程開(kāi)始考慮將其寫入磁盤。單位是1/100秒。默認(rèn)是30000,也就是說(shuō)即使30秒的數(shù)據(jù)是舊的,也會(huì)刷新磁盤。

對(duì)于特別重載的寫操作,適當(dāng)降低這個(gè)值也是好的,但是不能降低太多,因?yàn)榻档吞鄷?huì)導(dǎo)致IO增加過(guò)快。

3.3應(yīng)用程序調(diào)整

3.3.1優(yōu)化數(shù)量的減少

調(diào)整大數(shù)據(jù)平臺(tái)上的reduce設(shè)置,使最大reduce數(shù)由200改為500,性能明顯提升。

3.3.2 Reduce并行復(fù)制參數(shù)maprd.reduce.parallel.copies優(yōu)化

reduce的并發(fā)副本數(shù)默認(rèn)為5,后來(lái)調(diào)整為30可以增加Reduce的最大并發(fā)副本數(shù)。

調(diào)優(yōu)后,最終大數(shù)據(jù)任務(wù)執(zhí)行時(shí)間有了顯著提升。

四總結(jié)

調(diào)優(yōu)后,任務(wù)在泰山集群服務(wù)器上的執(zhí)行時(shí)間明顯改善。相關(guān)想法總結(jié)如下:

分析確認(rèn)大數(shù)據(jù)任務(wù)執(zhí)行各階段耗時(shí),重點(diǎn)關(guān)注耗時(shí)階段,提高降低并發(fā),充分利用泰山多核優(yōu)勢(shì)。

找出性能瓶頸,優(yōu)化服務(wù)器各子模塊的參數(shù)。


文章推薦
Snapchat 實(shí)現(xiàn)精準(zhǔn)定位的幾大手段,snapchat定位分析
出海機(jī)電行業(yè)之如何玩轉(zhuǎn)Yandex動(dòng)態(tài)廣告分享
出??缇畴娚藤u家如何選擇海外社交媒體營(yíng)銷平臺(tái),跨境電商哪個(gè)平臺(tái)比較好呢
超詳細(xì)2022不可錯(cuò)過(guò)的《購(gòu)物應(yīng)用移動(dòng)歸因與營(yíng)銷分析指南》,2022春節(jié)購(gòu)物清單


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國(guó)平臺(tái)交流群
加入
韓國(guó)平臺(tái)交流群
掃碼進(jìn)群
歐洲多平臺(tái)交流群
加入
歐洲多平臺(tái)交流群
掃碼進(jìn)群
美國(guó)賣家交流群
加入
美國(guó)賣家交流群
掃碼進(jìn)群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣家交流群
掃碼進(jìn)群
2025跨境電商營(yíng)銷日歷
《Coupang自注冊(cè)指南》
《eMAG知識(shí)百科》
《TikTok官方運(yùn)營(yíng)干貨合集》
《韓國(guó)節(jié)日營(yíng)銷指南》
《開(kāi)店大全-全球合集》
《TikTok綜合運(yùn)營(yíng)手冊(cè)》
《TikTok短視頻運(yùn)營(yíng)手冊(cè)》
《TikTok直播運(yùn)營(yíng)手冊(cè)》
《TikTok全球趨勢(shì)報(bào)告》
通過(guò)ESG入駐平臺(tái),您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運(yùn)營(yíng)實(shí)操指導(dǎo)
運(yùn)營(yíng)提效資源福利
平臺(tái)官方專屬優(yōu)惠
聯(lián)系顧問(wèn)

平臺(tái)顧問(wèn)

平臺(tái)顧問(wèn) 平臺(tái)顧問(wèn)

微信掃一掃
馬上聯(lián)系在線顧問(wèn)

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營(yíng)干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
2025跨境電商營(yíng)銷日歷
包括傳統(tǒng)中、外重要節(jié)日及重點(diǎn)電商營(yíng)銷節(jié)點(diǎn)還對(duì)營(yíng)銷關(guān)鍵市場(chǎng)、選品輔以說(shuō)明,讓你的365天安排的明明白白!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
【平臺(tái)干貨】eMAG知識(shí)百科
涵蓋從開(kāi)店到大賣6個(gè)板塊:開(kāi)店、運(yùn)營(yíng)、廣告、選品、上架、物流
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營(yíng)必備干貨包
包含8個(gè)TikTok最新運(yùn)營(yíng)指南(市場(chǎng)趨勢(shì)、運(yùn)營(yíng)手冊(cè)、節(jié)日攻略等),官方出品,專業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國(guó)coupang平臺(tái)自注冊(cè)指南
韓國(guó)Coupang電商平臺(tái)從注冊(cè)準(zhǔn)備、提交申請(qǐng)到完成注冊(cè),開(kāi)店全流程詳細(xì)指引。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——全球合集
涵括全球100+個(gè)電商平臺(tái)的核心信息,包括平臺(tái)精煉簡(jiǎn)介、競(jìng)爭(zhēng)優(yōu)勢(shì)、熱銷品類、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國(guó)電商節(jié)日營(yíng)銷指南
10+韓國(guó)電商重要營(yíng)銷節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長(zhǎng);8大節(jié)日營(yíng)銷技巧輕松撬動(dòng)大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺(tái),詳細(xì)解讀優(yōu)勢(shì)、入駐條件、熱銷品等
立即領(lǐng)取