Azure 認(rèn)知搜索中的 AI 擴(kuò)充,azure ai 內(nèi)容審核-ESG跨境

Azure 認(rèn)知搜索中的 AI 擴(kuò)充,azure ai 內(nèi)容審核

來源網(wǎng)絡(luò)
來源網(wǎng)絡(luò)
2022-07-05
點(diǎn)贊icon 0
查看icon 629

Azure 認(rèn)知搜索中的 AI 擴(kuò)充,azure ai 內(nèi)容審核Azure 認(rèn)知搜索中的 AI 擴(kuò)充AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。提取和擴(kuò)充使用附加到索引器驅(qū)動(dòng)管道上的認(rèn)知技能來實(shí)現(xiàn)??梢允褂肕......

Azure 認(rèn)知搜索中的 AI 擴(kuò)充,azure ai 內(nèi)容審核




Azure 認(rèn)知搜索中的 AI 擴(kuò)充

AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。

提取和擴(kuò)充使用附加到索引器驅(qū)動(dòng)管道上的認(rèn)知技能來實(shí)現(xiàn)??梢允褂肕icrosoft的內(nèi)置技能,也可以將外部處理嵌入到所創(chuàng)建的自定義技能中。自定義技能的示例可能包括面向特定領(lǐng)域(例如金融、科技出版或醫(yī)療)的自定義實(shí)體模塊或文檔分類器。

內(nèi)置技能分為以下類別:

“自然語言處理”技能包括實(shí)體識(shí)別、語言檢測、關(guān)鍵短語提取、文本操作、情緒檢測和PII檢測。通過這些技能,非結(jié)構(gòu)化文本在索引中映射為可搜索和可篩選的字段。

“圖像處理”技能包括光學(xué)字符識(shí)別(OCR)和視覺特征標(biāo)識(shí),例如面部檢測、圖像解釋、圖像識(shí)別(名人和地標(biāo))或?qū)傩裕ɡ鐖D像方向)。這些技能創(chuàng)建圖像內(nèi)容的文本表示形式,這樣就可以使用Azure認(rèn)知搜索的查詢功能來搜索這些內(nèi)容了。

擴(kuò)充管道關(guān)系圖

Azure認(rèn)知搜索中的內(nèi)置技能基于認(rèn)知服務(wù)API中預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型:計(jì)算機(jī)視覺和文本分析。若要在內(nèi)容處理期間利用這些資源,可以附加認(rèn)知服務(wù)資源。

數(shù)據(jù)引入階段應(yīng)用了自然語言和圖形處理,其結(jié)果會(huì)成為Azure認(rèn)知搜索的可搜索索引中文檔撰寫內(nèi)容的一部分。數(shù)據(jù)作為Azure數(shù)據(jù)集的來源,然后使用任意所需的內(nèi)置技能通過索引管道進(jìn)行推快遞。

何時(shí)使用AI擴(kuò)充

如果原始內(nèi)容為非結(jié)構(gòu)化文本、圖像內(nèi)容或需要語言檢測和翻譯的內(nèi)容,則應(yīng)考慮使用內(nèi)置認(rèn)知技能。通過內(nèi)置認(rèn)知技能應(yīng)用AI,可以對(duì)此內(nèi)容進(jìn)行解鎖,在搜索和數(shù)據(jù)科學(xué)應(yīng)用中提高其價(jià)值和實(shí)用性。

此外,如果你有要集成到管道中的開源、第三方或第一方代碼,則可以考慮添加自定義技能。標(biāo)識(shí)各種文檔類型的突出特征的分類模型屬于此類別,但可以使用將值添加到內(nèi)容的任何包。

有關(guān)內(nèi)置技能的詳細(xì)信息

使用內(nèi)置技能組合起來的技能組非常適合以下應(yīng)用方案:

需要對(duì)其啟用全文搜索的已掃描文檔(JPEG)??梢愿郊庸鈱W(xué)字符識(shí)別(OCR)技能,以便標(biāo)識(shí)、提取和引入JPEG文件中的文本。

組合使用圖像和文本的PDF。PDF中的文本可以在索引期間提取,不需使用擴(kuò)充步驟,但在添加圖像并進(jìn)行自然語言處理的情況下,所產(chǎn)生的結(jié)果通常比標(biāo)準(zhǔn)索引提供的結(jié)果要好。

需對(duì)其應(yīng)用語言檢測并可能對(duì)其應(yīng)用文本翻譯的多語言內(nèi)容。

非結(jié)構(gòu)化或半結(jié)構(gòu)化的文檔,其中包含的內(nèi)容有固有的含義,或者其上下文隱藏在更大的文檔中。

Blob特別包含打包到單個(gè)字段中的大內(nèi)容正文。將圖像和自然語言處理技能附加到索引器以后,即可創(chuàng)建新信息,該信息存在于原始內(nèi)容中,但在其他情況下并不顯示為非重復(fù)字段。某些對(duì)你有幫助的可用內(nèi)置認(rèn)知技能:關(guān)鍵短語提取、情緒分析、實(shí)體識(shí)別(人、組織和位置)。

另外,內(nèi)置技能還可以用來通過文本拆分、合并和形狀操作來重新構(gòu)造內(nèi)容。

有關(guān)自定義技能的詳細(xì)信息

自定義技能可以支持更復(fù)雜的方案,例如識(shí)別表單,或者使用你提供的模型進(jìn)行自定義實(shí)體檢測,以及在自定義技能Web界面中進(jìn)行包裝。自定義技能的一些示例:表單識(shí)別器、集成必應(yīng)實(shí)體搜索API、自定義實(shí)體識(shí)別。

擴(kuò)充管道中的步驟

擴(kuò)充管道基于索引器。索引器根據(jù)索引與數(shù)據(jù)源之間的字段到字段映射填充索引,以進(jìn)行文檔破解。技能(現(xiàn)已附加到索引器)根據(jù)你定義的技能組截獲并擴(kuò)充文檔。編制索引后,可以使用所有受Azure認(rèn)知搜索支持的查詢類型通過搜索請求來訪問內(nèi)容。本部分引導(dǎo)索引器的新手完成這些步驟。

步驟1:連接和文檔破解階段

在管道的開頭部分包含非結(jié)構(gòu)化文本或非文本內(nèi)容(例如圖像、掃描的文檔或JPEG文件)。數(shù)據(jù)必須存在于可由索引器訪問的Azure數(shù)據(jù)存儲(chǔ)服務(wù)中。索引器可以“破解”源文檔,以從源數(shù)據(jù)提取文本。文檔破解是在編制索引期間從非文本源提取或創(chuàng)建文本內(nèi)容的過程。

文檔破解階段

支持的源包括Azure Blob存儲(chǔ)、Azure表存儲(chǔ)、Azure SQL數(shù)據(jù)庫和Azure Cosmos DB??蓮囊韵骂愋偷奈募崛』谖谋镜膬?nèi)容:PDF、Word、PowerPoint、CSV文件。有關(guān)完整列表,請參閱支持的格式。編制索引需要花費(fèi)一定的時(shí)間,因此請從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。

步驟2:認(rèn)知技能和擴(kuò)充階段

擴(kuò)充通過認(rèn)知技能執(zhí)行,這些技能執(zhí)行原子操作。例如,在破解PDF后,可以應(yīng)用實(shí)體識(shí)別、語言檢測或關(guān)鍵短語提取,以便在索引中生成本來未在源代碼中提供的新字段。管道中使用的技能的集合統(tǒng)稱為技能集。

擴(kuò)充階段

技能集基于你提供的、與該技能集連接的內(nèi)置認(rèn)知技能或自定義技能。技能集既可以很精簡,也可以很復(fù)雜,它不僅確定處理的類型,而且還確定運(yùn)算的順序。技能集以及定義為索引器一部分的字段映射全面指定擴(kuò)充管道。有關(guān)將所有組成部分一起提取的詳細(xì)信息,請參閱定義技能集。

在內(nèi)部,管道生成擴(kuò)充文檔的集合??梢源_定要將擴(kuò)充文檔的哪些部分映射到搜索索引中可編制索引的字段。例如,如果應(yīng)用了關(guān)鍵短語提取和實(shí)體識(shí)別技能,則這些新字段將成為擴(kuò)充文檔的一部分,并可以映射到索引中的字段。請參閱注釋詳細(xì)了解輸入/輸出的形成。

添加用于保存擴(kuò)充的knowledgeStore元素

搜索REST apiversion=20200630使用knowledgeStore定義來擴(kuò)展技能組。該定義提供Azure存儲(chǔ)連接以及描述如何存儲(chǔ)擴(kuò)充的投影。這是對(duì)索引的補(bǔ)充。在標(biāo)準(zhǔn)的AI管道中,擴(kuò)充文檔是臨時(shí)的,僅在編制索引期間使用,然后被丟棄。擴(kuò)充文檔將通過知識(shí)存儲(chǔ)保存起來。有關(guān)詳細(xì)信息,請參閱知識(shí)存儲(chǔ)。

步驟3:搜索索引和基于查詢的訪問

完成處理后,便會(huì)獲得由擴(kuò)充的文檔組成的搜索索引,這些文檔在Azure認(rèn)知搜索中可全文搜索。開發(fā)者和用戶可以通過查詢索引來訪問管道生成的擴(kuò)充內(nèi)容。

帶搜索圖標(biāo)的索引

索引類似于可為Azure認(rèn)知搜索創(chuàng)建的其他任何對(duì)象:可以使用自定義分析器進(jìn)行補(bǔ)充、調(diào)用模糊搜索查詢、添加篩選的搜索結(jié)果,或試著使用評(píng)分配置文件為搜索結(jié)果重新整型。

索引從某個(gè)索引架構(gòu)生成。該架構(gòu)定義字段、屬性,以及附加到特定索引的其他構(gòu)造,例如評(píng)分配置文件和同義詞映射。定義并填充索引后,可以增量方式編制索引,以拾取新的和更新的源文檔。某些修改需要完全重新生成。在架構(gòu)設(shè)計(jì)穩(wěn)定之前,應(yīng)使用小型數(shù)據(jù)集。有關(guān)詳細(xì)信息,請參閱如何重新生成索引。

清單:典型工作流

1.將Azure源數(shù)據(jù)分解為代表性樣本。編制索引需要花費(fèi)一定的時(shí)間,因此請從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。

2.在Azure認(rèn)知搜索中創(chuàng)建數(shù)據(jù)源對(duì)象,以便提供用于數(shù)據(jù)檢索的連接字符串。

3.使用擴(kuò)充步驟創(chuàng)建技能集。

4.定義索引架構(gòu)。字段集合包含源數(shù)據(jù)中的字段。還應(yīng)該抽出其他字段,以保存擴(kuò)充期間創(chuàng)建的內(nèi)容的生成值。

5.定義引用數(shù)據(jù)源、技能集和索引的索引器。

6.在索引器中,添加outputFieldMappings。此節(jié)將技能集的輸出(步驟3)映射到索引架構(gòu)中的輸入字段(步驟4)。

7.發(fā)快遞剛剛創(chuàng)建的“創(chuàng)建索引器”請求(一個(gè)POST請求,其請求正文包含索引器定義),用于表示Azure認(rèn)知搜索中的索引器。通過此步驟運(yùn)行索引器,并調(diào)用管道。

8.運(yùn)行查詢以評(píng)估結(jié)果,并修改代碼以更新技能集、架構(gòu)或索引器配置。

9.重新生成管道之前重置索引器。


文章推薦
App Annie【成功故事】聚焦 Stillfront 如何收購&管理16家游戲工作室
Azure Storage 系列(一)入門簡介,azure storage
APP如何提高在AppStore的展示下載轉(zhuǎn)化率,app store獲取項(xiàng)目很慢
App Store常見的App拒絕情況,app store審核一直被拒


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國平臺(tái)交流群
加入
韓國平臺(tái)交流群
掃碼進(jìn)群
歐洲多平臺(tái)交流群
加入
歐洲多平臺(tái)交流群
掃碼進(jìn)群
美國賣家交流群
加入
美國賣家交流群
掃碼進(jìn)群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣家交流群
掃碼進(jìn)群
《TikTok官方運(yùn)營干貨合集》
《TikTok綜合運(yùn)營手冊》
《TikTok短視頻運(yùn)營手冊》
《TikTok直播運(yùn)營手冊》
《TikTok全球趨勢報(bào)告》
《韓國節(jié)日營銷指南》
《開店大全-全球合集》
《開店大全-主流平臺(tái)篇》
《開店大全-東南亞篇》
《CD平臺(tái)自注冊指南》
通過ESG入駐平臺(tái),您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運(yùn)營實(shí)操指導(dǎo)
運(yùn)營提效資源福利
平臺(tái)官方專屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問

平臺(tái)顧問

平臺(tái)顧問 平臺(tái)顧問

微信掃一掃
馬上聯(lián)系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營必備干貨包
包含8個(gè)TikTok最新運(yùn)營指南(市場趨勢、運(yùn)營手冊、節(jié)日攻略等),官方出品,專業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國電商節(jié)日營銷指南
10+韓國電商重要營銷節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長;8大節(jié)日營銷技巧輕松撬動(dòng)大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——全球合集
涵括全球100+個(gè)電商平臺(tái)的核心信息,包括平臺(tái)精煉簡介、競爭優(yōu)勢、熱銷品類、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——主流平臺(tái)篇
火爆全球的跨境電商平臺(tái)合集,平臺(tái)優(yōu)勢、開店選品、入駐條件盡在掌握
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——拉美篇
涵蓋9大熱門拉美電商平臺(tái),成熟的市場是跨境賣家的熱門選擇!
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——日韓篇
涵蓋10+日韓電商平臺(tái),入駐條件一看就懂,優(yōu)勢熱銷品應(yīng)有盡有
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺(tái),詳細(xì)解讀優(yōu)勢、入駐條件、熱銷品等
立即領(lǐng)取