Azure 認(rèn)知搜索中的 AI 擴(kuò)充,azure ai 內(nèi)容審核Azure 認(rèn)知搜索中的 AI 擴(kuò)充AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。提取和擴(kuò)充使用附加到索引器驅(qū)動(dòng)管道上的認(rèn)知技能來實(shí)現(xiàn)??梢允褂肕......
AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。
提取和擴(kuò)充使用附加到索引器驅(qū)動(dòng)管道上的認(rèn)知技能來實(shí)現(xiàn)??梢允褂肕icrosoft的內(nèi)置技能,也可以將外部處理嵌入到所創(chuàng)建的自定義技能中。自定義技能的示例可能包括面向特定領(lǐng)域(例如金融、科技出版或醫(yī)療)的自定義實(shí)體模塊或文檔分類器。
內(nèi)置技能分為以下類別:
“自然語言處理”技能包括實(shí)體識(shí)別、語言檢測、關(guān)鍵短語提取、文本操作、情緒檢測和PII檢測。通過這些技能,非結(jié)構(gòu)化文本在索引中映射為可搜索和可篩選的字段。
“圖像處理”技能包括光學(xué)字符識(shí)別(OCR)和視覺特征標(biāo)識(shí),例如面部檢測、圖像解釋、圖像識(shí)別(名人和地標(biāo))或?qū)傩裕ɡ鐖D像方向)。這些技能創(chuàng)建圖像內(nèi)容的文本表示形式,這樣就可以使用Azure認(rèn)知搜索的查詢功能來搜索這些內(nèi)容了。
擴(kuò)充管道關(guān)系圖
Azure認(rèn)知搜索中的內(nèi)置技能基于認(rèn)知服務(wù)API中預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型:計(jì)算機(jī)視覺和文本分析。若要在內(nèi)容處理期間利用這些資源,可以附加認(rèn)知服務(wù)資源。
數(shù)據(jù)引入階段應(yīng)用了自然語言和圖形處理,其結(jié)果會(huì)成為Azure認(rèn)知搜索的可搜索索引中文檔撰寫內(nèi)容的一部分。數(shù)據(jù)作為Azure數(shù)據(jù)集的來源,然后使用任意所需的內(nèi)置技能通過索引管道進(jìn)行推快遞。
何時(shí)使用AI擴(kuò)充
如果原始內(nèi)容為非結(jié)構(gòu)化文本、圖像內(nèi)容或需要語言檢測和翻譯的內(nèi)容,則應(yīng)考慮使用內(nèi)置認(rèn)知技能。通過內(nèi)置認(rèn)知技能應(yīng)用AI,可以對(duì)此內(nèi)容進(jìn)行解鎖,在搜索和數(shù)據(jù)科學(xué)應(yīng)用中提高其價(jià)值和實(shí)用性。
此外,如果你有要集成到管道中的開源、第三方或第一方代碼,則可以考慮添加自定義技能。標(biāo)識(shí)各種文檔類型的突出特征的分類模型屬于此類別,但可以使用將值添加到內(nèi)容的任何包。
有關(guān)內(nèi)置技能的詳細(xì)信息
使用內(nèi)置技能組合起來的技能組非常適合以下應(yīng)用方案:
需要對(duì)其啟用全文搜索的已掃描文檔(JPEG)??梢愿郊庸鈱W(xué)字符識(shí)別(OCR)技能,以便標(biāo)識(shí)、提取和引入JPEG文件中的文本。
組合使用圖像和文本的PDF。PDF中的文本可以在索引期間提取,不需使用擴(kuò)充步驟,但在添加圖像并進(jìn)行自然語言處理的情況下,所產(chǎn)生的結(jié)果通常比標(biāo)準(zhǔn)索引提供的結(jié)果要好。
需對(duì)其應(yīng)用語言檢測并可能對(duì)其應(yīng)用文本翻譯的多語言內(nèi)容。
非結(jié)構(gòu)化或半結(jié)構(gòu)化的文檔,其中包含的內(nèi)容有固有的含義,或者其上下文隱藏在更大的文檔中。
Blob特別包含打包到單個(gè)字段中的大內(nèi)容正文。將圖像和自然語言處理技能附加到索引器以后,即可創(chuàng)建新信息,該信息存在于原始內(nèi)容中,但在其他情況下并不顯示為非重復(fù)字段。某些對(duì)你有幫助的可用內(nèi)置認(rèn)知技能:關(guān)鍵短語提取、情緒分析、實(shí)體識(shí)別(人、組織和位置)。
另外,內(nèi)置技能還可以用來通過文本拆分、合并和形狀操作來重新構(gòu)造內(nèi)容。
有關(guān)自定義技能的詳細(xì)信息
自定義技能可以支持更復(fù)雜的方案,例如識(shí)別表單,或者使用你提供的模型進(jìn)行自定義實(shí)體檢測,以及在自定義技能Web界面中進(jìn)行包裝。自定義技能的一些示例:表單識(shí)別器、集成必應(yīng)實(shí)體搜索API、自定義實(shí)體識(shí)別。
擴(kuò)充管道中的步驟
擴(kuò)充管道基于索引器。索引器根據(jù)索引與數(shù)據(jù)源之間的字段到字段映射填充索引,以進(jìn)行文檔破解。技能(現(xiàn)已附加到索引器)根據(jù)你定義的技能組截獲并擴(kuò)充文檔。編制索引后,可以使用所有受Azure認(rèn)知搜索支持的查詢類型通過搜索請求來訪問內(nèi)容。本部分引導(dǎo)索引器的新手完成這些步驟。
步驟1:連接和文檔破解階段
在管道的開頭部分包含非結(jié)構(gòu)化文本或非文本內(nèi)容(例如圖像、掃描的文檔或JPEG文件)。數(shù)據(jù)必須存在于可由索引器訪問的Azure數(shù)據(jù)存儲(chǔ)服務(wù)中。索引器可以“破解”源文檔,以從源數(shù)據(jù)提取文本。文檔破解是在編制索引期間從非文本源提取或創(chuàng)建文本內(nèi)容的過程。
文檔破解階段
支持的源包括Azure Blob存儲(chǔ)、Azure表存儲(chǔ)、Azure SQL數(shù)據(jù)庫和Azure Cosmos DB??蓮囊韵骂愋偷奈募崛』谖谋镜膬?nèi)容:PDF、Word、PowerPoint、CSV文件。有關(guān)完整列表,請參閱支持的格式。編制索引需要花費(fèi)一定的時(shí)間,因此請從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。
步驟2:認(rèn)知技能和擴(kuò)充階段
擴(kuò)充通過認(rèn)知技能執(zhí)行,這些技能執(zhí)行原子操作。例如,在破解PDF后,可以應(yīng)用實(shí)體識(shí)別、語言檢測或關(guān)鍵短語提取,以便在索引中生成本來未在源代碼中提供的新字段。管道中使用的技能的集合統(tǒng)稱為技能集。
擴(kuò)充階段
技能集基于你提供的、與該技能集連接的內(nèi)置認(rèn)知技能或自定義技能。技能集既可以很精簡,也可以很復(fù)雜,它不僅確定處理的類型,而且還確定運(yùn)算的順序。技能集以及定義為索引器一部分的字段映射全面指定擴(kuò)充管道。有關(guān)將所有組成部分一起提取的詳細(xì)信息,請參閱定義技能集。
在內(nèi)部,管道生成擴(kuò)充文檔的集合??梢源_定要將擴(kuò)充文檔的哪些部分映射到搜索索引中可編制索引的字段。例如,如果應(yīng)用了關(guān)鍵短語提取和實(shí)體識(shí)別技能,則這些新字段將成為擴(kuò)充文檔的一部分,并可以映射到索引中的字段。請參閱注釋詳細(xì)了解輸入/輸出的形成。
添加用于保存擴(kuò)充的knowledgeStore元素
搜索REST apiversion=20200630使用knowledgeStore定義來擴(kuò)展技能組。該定義提供Azure存儲(chǔ)連接以及描述如何存儲(chǔ)擴(kuò)充的投影。這是對(duì)索引的補(bǔ)充。在標(biāo)準(zhǔn)的AI管道中,擴(kuò)充文檔是臨時(shí)的,僅在編制索引期間使用,然后被丟棄。擴(kuò)充文檔將通過知識(shí)存儲(chǔ)保存起來。有關(guān)詳細(xì)信息,請參閱知識(shí)存儲(chǔ)。
步驟3:搜索索引和基于查詢的訪問
完成處理后,便會(huì)獲得由擴(kuò)充的文檔組成的搜索索引,這些文檔在Azure認(rèn)知搜索中可全文搜索。開發(fā)者和用戶可以通過查詢索引來訪問管道生成的擴(kuò)充內(nèi)容。
帶搜索圖標(biāo)的索引
索引類似于可為Azure認(rèn)知搜索創(chuàng)建的其他任何對(duì)象:可以使用自定義分析器進(jìn)行補(bǔ)充、調(diào)用模糊搜索查詢、添加篩選的搜索結(jié)果,或試著使用評(píng)分配置文件為搜索結(jié)果重新整型。
索引從某個(gè)索引架構(gòu)生成。該架構(gòu)定義字段、屬性,以及附加到特定索引的其他構(gòu)造,例如評(píng)分配置文件和同義詞映射。定義并填充索引后,可以增量方式編制索引,以拾取新的和更新的源文檔。某些修改需要完全重新生成。在架構(gòu)設(shè)計(jì)穩(wěn)定之前,應(yīng)使用小型數(shù)據(jù)集。有關(guān)詳細(xì)信息,請參閱如何重新生成索引。
清單:典型工作流
1.將Azure源數(shù)據(jù)分解為代表性樣本。編制索引需要花費(fèi)一定的時(shí)間,因此請從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。
2.在Azure認(rèn)知搜索中創(chuàng)建數(shù)據(jù)源對(duì)象,以便提供用于數(shù)據(jù)檢索的連接字符串。
3.使用擴(kuò)充步驟創(chuàng)建技能集。
4.定義索引架構(gòu)。字段集合包含源數(shù)據(jù)中的字段。還應(yīng)該抽出其他字段,以保存擴(kuò)充期間創(chuàng)建的內(nèi)容的生成值。
5.定義引用數(shù)據(jù)源、技能集和索引的索引器。
6.在索引器中,添加outputFieldMappings。此節(jié)將技能集的輸出(步驟3)映射到索引架構(gòu)中的輸入字段(步驟4)。
7.發(fā)快遞剛剛創(chuàng)建的“創(chuàng)建索引器”請求(一個(gè)POST請求,其請求正文包含索引器定義),用于表示Azure認(rèn)知搜索中的索引器。通過此步驟運(yùn)行索引器,并調(diào)用管道。
8.運(yùn)行查詢以評(píng)估結(jié)果,并修改代碼以更新技能集、架構(gòu)或索引器配置。
9.重新生成管道之前重置索引器。
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號(hào)密碼登錄
平臺(tái)顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部