亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

News

新聞資訊

什么是語(yǔ)義搜索(揭秘微軟語(yǔ)義搜索背后的技術(shù)知識)

發(fā)布時(shí)間:2026-05-04 17:07:41    瀏覽次數:19



語(yǔ)義搜索如何工作的什語(yǔ)索揭索背以及它是ヽ(′ー`)ノ為誰(shuí)服務(wù)的?


對于簡(jiǎn)單的用戶(hù)查詢(xún),搜索引擎可以?xún)H使用關(guān)鍵詞匹配可靠地找到正確的義搜義搜內容?!凹t色烤面包機”查詢(xún)會(huì )提取標題或描述中帶有“烤面包機”且顏色屬性為紅色的秘微所??有產(chǎn)品。為紅色添加栗色等同義詞,軟語(yǔ)您可以匹配更多的技術(shù)烤面包機。

但是知識事情很快就開(kāi)始變得更加困難:您必須自己添加這些同義詞,并且您的什語(yǔ)索揭索背搜索也會(huì )帶來(lái)烤面包機。這就是義搜義搜語(yǔ)義搜索的用武之地。語(yǔ)義搜索嘗試應用用┐(′?`)┌戶(hù)意圖以及單詞和短語(yǔ)的秘微含義(或語(yǔ)義)來(lái)查找正確的內容。

它通過(guò)使用可能不會(huì )立即出現在文本(關(guān)鍵詞本身)中但與搜索者想要的軟語(yǔ)信息密切相關(guān)的信息來(lái)超越關(guān)鍵詞匹配。例如,技術(shù)查詢(xún)“毛衣”甚至“更漂亮”的知識毛衣對于關(guān)鍵詞搜索來(lái)說(shuō)是沒(méi)有(you)問(wèn)題的,而查詢(xún)“保暖衣物”或“如何在冬天保持身體溫暖?什語(yǔ)索揭索背” 語(yǔ)義搜索可以更(′ω`)好地服務(wù)。

可以想象,義搜義搜試圖超越文本中嵌入的秘微表面信息是一項復雜的工作。它已經(jīng)被許多人嘗試過(guò),并且包含了許多不同的組件。此外,與任何顯示出巨大希望的事物一樣,語(yǔ)義搜索是一個(gè)有時(shí)用于真正名副其實(shí)的(de)搜索的術(shù)語(yǔ)。

要了解語(yǔ)義搜索是否適用于您的業(yè)務(wù)以及如何最好地利用它,有助于了解它的工作原理以及構成語(yǔ)義搜索的組件。

語(yǔ)義搜索的要素是什么?

語(yǔ)義搜索應用用戶(hù)意圖、上(shang)下文和概念??含義ヾ(?■_■)ノ來(lái)將用戶(hù)查詢(xún)與相應的內容相匹配。它使用矢量搜索和機器學(xué)習來(lái)返回旨在匹配用戶(hù)查詢(xún)的結果,(°ロ°) !即(//ω//)使沒(méi)有單詞匹配也是如此。

這些組件ヽ(′▽?zhuān)?ノ協(xié)同工作以(yi)根據(ju)含義檢索和排列結果。最基本的部分之??一是上下文。

語(yǔ)境

搜索發(fā)(fa)生的上下文對于理解搜索者試圖查找?的內容很重要。

上下文可以像語(yǔ)言環(huán)境一樣簡(jiǎn)單(搜索“足球”的美國人與搜索相同事物的中國人想要不同的東西)或更復雜。

智能搜索引擎將在個(gè)人級別和組織級別上使用上下文。個(gè)人層面對結果的(de)影響被恰當地稱(chēng)為個(gè)性化。

個(gè)性化將使用該個(gè)人搜索者的親和力、先前的搜索和先前(qian)的交互來(lái)返回最適合當前查詢(xún)的內容。

它適用于各種搜索,但語(yǔ)義搜索可以走得更遠。

在組級別上,搜索引擎可以使用有關(guān)所有搜索者如何與搜索結果交互的信息(例如最常點(diǎn)擊哪些結果,甚至(′?ω?`)某些結果比其他結果更受歡迎的季節性)對結果進(jìn)行重新排名。

同樣,這顯示了語(yǔ)義搜索如何為搜索帶來(lái)智能,在這種(′?ω?`)情況下,智能是通過(guò)用戶(hù)行為。??

語(yǔ)義搜索還??可以利用文本中(′?`*)的上下文。我們已經(jīng)討論過(guò)同義詞在各種搜索中都很有用,并且可以(yi)通過(guò)將查詢(xún)匹(′;д;`)配擴展到相關(guān)內容來(lái)改(?_?;)進(jìn)關(guān)鍵詞搜索。

但我們也知道同義詞不是通用(?_?;)的——有時(shí)兩個(gè)詞在一ヽ(′ー`)ノ種情況下是等價(jià)的,而在另一種情況下卻不是。

當有人搜索“足球運動(dòng)員”時(shí),正確的結果是什么?美國的答案與中國肯定不同。然而,像“奶粉”這樣的查詢(xún)可能不需要知道搜索者的位置。

這是通過(guò)語(yǔ)義搜索進(jìn)行查詢(xún)理解的示例。

用戶(hù)意圖

任何搜索引擎的最終目標都是幫助用戶(hù)成功完成一項任務(wù)。該任務(wù)可能是閱讀新聞文章、購買(mǎi)衣服或查找文件(jian)。

搜索引擎需要弄清楚用戶(hù)想要做什么,或者??用戶(hù)意圖是什么。我們可以在電子商務(wù)網(wǎng)站上搜索時(shí)看到這一點(diǎn)。當用戶(hù)輸入(′_ゝ`)查詢(xún)“喬丹”時(shí),搜索會(huì )自動(dòng)過(guò)濾類(lèi)別“鞋子”。這預計用戶(hù)的意圖是尋找鞋子,而不是約旦杏仁(將在“食品和零食”類(lèi)別中)。

通過(guò)領(lǐng)先于用戶(hù)意圖,搜索引擎可以返回最相關(guān)的結果,并且不會(huì )用文┐(′ー`)┌本匹配但不相關(guān)??的項目分散用(′▽?zhuān)?戶(hù)的注意力。在搜索頂部應用排序時(shí),這可能更加相關(guān),例如從最低到最高的價(jià)格。這是查詢(xún)分類(lèi)的一個(gè)示例。

對查詢(xún)進(jìn)行分類(lèi)并限制結(jie)果(guo)集將確保僅顯示相關(guān)結果。

關(guān)鍵詞和語(yǔ)義搜索之間的區別

我們已經(jīng)看到了語(yǔ)義搜索的智能方式,但值得更多地了解它與關(guān)鍵詞(′?_?`)搜索的不同之處。

雖然關(guān)鍵詞搜索引擎還引入了自然語(yǔ)言處理來(lái)改進(jìn)這種詞對詞的匹配——通過(guò)使用同義詞、刪除停用詞等方法——但該處理仍然依賴(lài)于詞對詞的匹配。

但是語(yǔ)義搜索可以返回沒(méi)有匹配文本的結果,但是任何了解該領(lǐng)域的人都可以看到顯然有很好的(??ヮ?)?*:???匹配。

這與關(guān)鍵詞搜索和語(yǔ)義搜索之間的巨大差異有?關(guān),即查詢(xún)和記錄之間的匹配方式。

為了簡(jiǎn)化一些事情,關(guān)鍵詞搜索是通過(guò)匹配文本來(lái)進(jìn)行的。

由于文本質(zhì)量的重疊,“蘋(píng)果”將始終匹配“蘋(píng)果手機”或“一種水果”。更具體地說(shuō),有足夠的匹配關(guān)鍵詞告訴引擎搜索一個(gè)的用戶(hù)會(huì )想要另一個(gè)。

同樣(yang)的匹配也會(huì )告訴引擎查詢(xún)蘋(píng)果更可能匹配單詞“蘋(píng)果手機”而不是水果“蘋(píng)果”。

基于關(guān)鍵詞的搜索引擎還可以使用同義詞、替代詞或查詢(xún)詞刪除(所有類(lèi)型的查詢(xún)擴展和放松)等工具來(lái)幫助完成此信息檢索任務(wù)。

NLP 和 NLU 工具(如錯字容錯、標記化和規范化)也有助于改進(jìn)檢索。

雖然這些都有助于提供改進(jìn)的結果,但它們可能無(wú)法提供更智能的匹配和概念匹配。

概念上的語(yǔ)義搜(′_`)索匹配

因為語(yǔ)義搜索是在概念上進(jìn)行匹配,所以搜索引擎不能再根據兩個(gè)詞共有多少??個(gè)字來(lái)判斷記錄是否相關(guān)?;蛘吒鼜碗s的查ヽ(′▽?zhuān)?ノ詢(xún),例如“ヽ(′ー`)ノ洗衣店清潔劑”、“去除衣服上的污漬”或“我如何去除牛仔布上的草漬?”您甚至可以包括圖像搜索之類(lèi)的內容!

與此類(lèi)似的例子是客戶(hù)詢(xún)問(wèn)員工“馬桶疏通器”ヽ(′▽?zhuān)?ノ在哪里。除非商店明確將他們的柱塞、排水管清潔器和馬桶螺旋鉆稱(chēng)為“馬桶疏(′▽?zhuān)?通器”,否則對請求只有純關(guān)鍵詞式理解的員工會(huì )失敗。但是,我們希望員工足夠聰明,能夠在各種條款之間建立聯(lián)系??,并將客戶(hù)引導到正確的通道。(也許員工知道客戶(hù)可以對任何給定產(chǎn)品使用的不同術(shù)語(yǔ)或同義詞)。

總結語(yǔ)義搜索所做的一個(gè)簡(jiǎn)潔的方法是說(shuō)語(yǔ)義搜索通過(guò)使用向量搜索帶來(lái)了更多的智能來(lái)匹配概念而不是單詞。

有了這種智能,語(yǔ)義搜索可以以更人性化的方式執行,就像搜索者(zhe)在搜索花式時(shí)尋找(′ω`)禮服和西裝,而看不到牛仔褲。

什么不是語(yǔ)義搜索?

到現在為止,語(yǔ)義搜索應該是一種提高搜索??質(zhì)量的有力方法。因此,當您得??知ヽ(′▽?zhuān)?ノ語(yǔ)義搜索的含義已被越來(lái)越廣泛地應用時(shí),ヾ(^-^)ノ您應該不會(huì )感到驚訝。

通常,這些搜索體驗并(╯°□°)╯︵ ┻━┻不總是保證名稱(chēng)。雖然語(yǔ)義搜索沒(méi)有官方定義,但我們可(ke)以說(shuō)它是超越傳統基于關(guān)鍵詞的搜索的搜索。它通過(guò)結合現實(shí)世界的知識來(lái)根據查詢(xún)和內容的含義得出用戶(hù)意圖來(lái)做到這一點(diǎn)。

這導致了這樣的結論:語(yǔ)義搜索不僅僅是應用 NLP 并將同義???詞添加到索引中。

確實(shí),標記化確實(shí)需要一些(╬?益?)關(guān)于(╬?益?)語(yǔ)言構??造的真實(shí)世界知識,并且同義詞適用于對概念匹配的理解。但是,在大多數情況下,它們缺乏將搜索提升到語(yǔ)義級別所需的人工智能???。

由矢量搜索提供支持

正是這最后一點(diǎn)使語(yǔ)義搜索既強大又困難。通常,對于術(shù)??語(yǔ)語(yǔ)義搜索,有一種隱含的理解,即涉及到某種程度的機器學(xué)習。幾乎同樣經(jīng)常,這也涉及向量搜索。

向量搜索的工作原理是將有關(guān)項目的詳細信息編碼為向量,然后比較向量以確定哪些最相似。

同樣,即使是一個(gè)簡(jiǎn)單的例子也能有所(suo)幫助。取兩個(gè)詞組??:“豐田普銳斯”和“牛排”?,F在讓我們(′?_?`)將它們與“混合動(dòng)力”進(jìn)行關(guān)聯(lián)。哪個(gè)更可以關(guān)聯(lián)?

兩者都不會(huì )在文本上匹配,但您可能會(huì )說(shuō)“豐田普銳斯”是兩者中更相似的一個(gè)。

您可以這樣說(shuō)是因為您知道“普銳斯(′?`)”是一種混合動(dòng)力汽車(chē),因為您在與混合動(dòng)力一詞類(lèi)似的上下文中看到“豐田普銳斯”,例如“豐田普??銳斯是值得考慮的混合(he)動(dòng)力車(chē)”或“像豐田普銳斯這樣的混合動(dòng)力車(chē)”。

但是,您可以肯定,您無(wú)法將“牛排”和“混合動(dòng)力”關(guān)聯(lián)起來(lái)。

繪制向量以查找相似性

這通常也(ye)是矢量搜索的工作方式。機器學(xué)習模型從網(wǎng)絡(luò )、書(shū)籍或其他(ta)來(lái)源獲取數千或數百萬(wàn)個(gè)示例,然后使用這些信息( ?ヮ?)進(jìn)行預測??。

當然(╬?益?),對模型進(jìn)行逐個(gè)比較是不可行的(“豐田普銳斯和混合動(dòng)力車(chē)經(jīng)常一起出現嗎?混合動(dòng)力??車(chē)和牛排呢???”)因此發(fā)生的(de)情況是模型將編碼模式它注意到不同的短語(yǔ)。

這類(lèi)似于您可能會(huì )如何看待一個(gè)ヽ(′?`)ノ短語(yǔ)并說(shuō)“這個(gè)是積極的”或“那個(gè)包含一種顏色”。除了在機器學(xué)習中,語(yǔ)言模型的工作方式并(′▽?zhuān)?不那么透明(這也是語(yǔ)言模型難以調試的原因)。

這些編碼存儲在一個(gè)向量或一長(cháng)串數值中。然后,ヽ(′ー`)ノ向量搜索使用數學(xué)計算不同向量的相??(xiang)似( ?▽?)程度??紤]向量搜??索所做的相似性測(╬?益?)量的另一種方法是想象繪制??出的向量。如果您嘗試將矢量繪制成數百個(gè)維度,這將非常困難。

如果你想象一個(gè)向量被繪制成三個(gè)維度,原理是一樣的。這些向量在繪制時(shí)形成一條線(xiàn),問(wèn)題是:這(zhe)些線(xiàn)中哪一條最接近?

“牛排(?⊿?)”??和“牛肉”的線(xiàn)條將比“牛排”和“轎車(chē)”的線(xiàn)條更接近,因此更相似。這個(gè)原理稱(chēng)為向(xiang)量或余弦相似度。矢量相似度有很多應用。

它可以根據以前購買(mǎi)的產(chǎn)品進(jìn)行推薦,找到最相似的圖像,并且可以確定哪些商品與用戶(hù)的查詢(xún)相??比在語(yǔ)義上最匹配。

結論

隨著(zhù)強大的深度學(xué)習模型和支持它們的硬件的興起,語(yǔ)義搜索是搜索應用程序的強大工具。雖然我們在這里觸及了許多不同的常見(jiàn)應用程序,(′?ω?`)但還有更多使用矢量搜索和 AI 的應用程序。甚至圖像搜索或從圖像中提取元數據也可能屬于語(yǔ)義搜索。我們正處于激動(dòng)人心的(de)時(shí)刻!

然而,它的應用仍處于早期階段,其已知的(de)強(qiang)大功能可能會(huì )導致對(?????)該??術(shù)語(yǔ)的濫用。語(yǔ)義搜索管道中有許多組件,確保每個(gè)組件(jian)都正確很重要。

如果做得正確,語(yǔ)義搜索將使用現實(shí)(shi)世界的(′;ω;`)知識,特別是通過(guò)機器學(xué)習和矢量相似性,將用戶(hù)查詢(xún)與相應的內容相(xiang)匹配。

“進(jìn)化”ヽ(′▽?zhuān)?ノ的搜索方式:揭秘微軟語(yǔ)義搜索背后的技術(shù)

編者按:作為一??項云搜索服務(wù)( ???),Azure 認知搜索集成了強大的 API 和工具,幫助開(kāi)發(fā)人員構建豐富的搜索體驗。不止于現ヾ(^-^)ノ狀,微軟的研究員們?yōu)?Azu??re 認知搜索“加持”了語(yǔ)義搜索功能,可以讓搜索引擎擁有語(yǔ)義排序、語(yǔ)義摘要、語(yǔ)義高亮、語(yǔ)義問(wèn)答以及自動(dòng)拼寫(xiě)校正等能力。本文將揭曉這些神奇功能背后的核心技術(shù),涉及關(guān)鍵??詞包括預訓練、圖網(wǎng)絡(luò )、多任務(wù)等。本文編譯自微??軟研究院博客“The science behind semantic search: How AI from Bing is powering Azure Cognitive Search”。

智能化的語(yǔ)義搜索是搜索引擎追求的終極目標。多年來(lái),微軟的研究人員在持續探索可以實(shí)現智能化語(yǔ)義搜索的方法ヽ(′▽?zhuān)?ノ,并于近日將相關(guān)的研究成果集成到了微軟 Azure 云計算平(ping)臺的(de)認知服務(wù)中——Azure 認知搜索(Azure Cognitive Search),為預覽版中的所有 Azure 用戶(hù)提供了語(yǔ)義搜索功能。這其中技術(shù)核心部分所涉及的很多研究成果都來(lái)自于微軟亞洲研究院。

Azure 認知搜索是一項云搜索服務(wù)(T_T),它為開(kāi)發(fā)人員提供了 API 和工具,以便他們基于 Web、移動(dòng)端和企業(yè)應用程序中的專(zhuān)用異類(lèi)內容,構建豐富的搜索體驗。ヽ(′?`)ノAzure 認知搜索具有多個(gè)組件,包括用于檢索和查詢(xún)的 API、通(╯°□°)╯過(guò)?? Azure 數據獲取實(shí)現的無(wú)縫集成、與 Azure 認(ren)知服務(wù)的(de)深度集成,以及用戶(hù)所擁有的檢索內容的持久存儲。Azure 認知搜索默認使用的是信息檢索常用的 BM25 算法。

為了提升微軟必應(Bing)搜索的相關(guān)性,微軟的研究和開(kāi)發(fā)人員此前就通過(guò)基于 Transformer 的語(yǔ)言模型對必應搜索進(jìn)行了改進(jìn)。這些改進(jìn)讓搜索引擎不僅可以用關(guān)鍵詞進(jìn)行匹配,還可以通過(guò)使用單詞和內容背后的語(yǔ)義來(lái)進(jìn)行搜索,而這種轉(zhuan)換的能力就是語(yǔ)義搜索。

將語(yǔ)義搜索功能集成到 Azure 認知搜索中所實(shí)現的效果

語(yǔ)義搜索顯著(zhù)提高了必應搜索的搜索結果質(zhì)量。但是微軟的研究和開(kāi)發(fā)團隊在這個(gè)過(guò)程中發(fā)現要想最大限度地發(fā)揮 AI 的威力,需要大量的專(zhuān)業(yè)ヽ(′▽?zhuān)?ノ人才來(lái)集成和部署 AI 規?;南嚓P(guān)技術(shù)和產(chǎn)品,比如,對大規?;?Transformer 的語(yǔ)言模型進(jìn)行預訓練、在不同的任務(wù)中進(jìn)行多任務(wù)微調、在保證質(zhì)量損失最小的情況(′;д;`)下將大模型蒸餾成可部署的模型,等等。而這樣的專(zhuān)業(yè)人才團隊并不是每個(gè)公司都可以承擔得起的。秉持著(zhù)賦能每??一(′ω`*)人每一組織的公司理念,微軟通過(guò)將相關(guān)研究成果集成到 Azure 認知搜索中,來(lái)降低人們使用 AI 規?;夹g(shù)的門(mén)檻。

Azure 認知搜索中的語(yǔ)義搜索功能

下面,我們來(lái)詳細了解一??下 Azure 認知搜索中的語(yǔ)義搜索功能。

語(yǔ)義排序:大幅提高相關(guān)性。傳統(tong)的搜索方式都是基于關(guān)鍵詞對結果進(jìn)行排序,而基于 Transformer 的語(yǔ)義排序引擎則能夠理解文本背后的含義。在 A/B 測試中,語(yǔ)義搜索功能提高了對搜索結果的點(diǎn)擊率(2.0%),對包含三??個(gè)以上單詞的搜索結果,其點(diǎn)擊率也提高了4.5%。

通過(guò)語(yǔ)義排序(右)來(lái)提高相關(guān)性的示例

語(yǔ)義摘要:提取關(guān)鍵信息。相關(guān)性只是一方面,搜索結果(guo)中的標題(′?`*)和摘要也非常重要。好的標題和摘要能夠讓ヽ(′▽?zhuān)?/用戶(hù)“(???)一眼”看出結?果是不是自己想要的。

語(yǔ)義高亮:機?器閱讀理解。語(yǔ)義高亮的簡(jiǎn)單理解是:給一段搜索結果畫(huà)重點(diǎn)(◎_◎;),并用文字加粗的形式進(jìn)行展示。通過(guò)語(yǔ)義高亮,用戶(hù)可以直接獲得所需的答案,或者通過(guò)快速掃描結果頁(yè)面ヽ(′▽?zhuān)?ノ就可以查找到所需的文檔,甚至直接獲得一ヽ(′?`)ノ段摘要。使用(◎_◎;)機器閱讀理解能夠幫助找到一段話(huà)的重點(diǎn),從而大幅度提升閱讀效率。

使用語(yǔ)義搜索實(shí)現提取摘要、語(yǔ)義強調的示例

語(yǔ)義問(wèn)答:快速答??案。疑問(wèn)句查詢(xún)是搜索引擎經(jīng)常遇到的搜索方式,這背(??ヮ?)?*:???后用戶(hù)往往想要優(yōu)先獲得一個(gè)簡(jiǎn)短、確切的答案ヾ(^-^)ノ,而不是文檔。語(yǔ)義搜索可以通過(guò)機器學(xué)習閱讀語(yǔ)料庫中的所有文檔,然后進(jìn)行總結,并將答案置頂展示。

語(yǔ)義搜索提取文檔重點(diǎn),展示快速答案

自動(dòng)拼寫(xiě)校正。根據數據(ju)統計,用于輸入的10%到15%的句子都存在拼寫(xiě)錯誤,錯誤的拼寫(xiě)會(huì )非常影響搜索結果的質(zhì)量,而集成語(yǔ)義搜索的搜索引擎則可以實(shí)現自動(dòng)拼寫(xiě)糾正。

背后的技術(shù):預訓練、圖網(wǎng)絡(luò )、多任務(wù)....

以上功能的實(shí)現,離不開(kāi)微軟研究院在 NLP 和語(yǔ)義搜索方面取得的突破性進(jìn)展。研究人員和微軟內部其他 AI 團隊合作開(kāi)發(fā)了一系列神經(jīng)網(wǎng)絡(luò )模型,不僅在 SQuAD 、GLUE 以及 SuperGLUE 等多個(gè)業(yè)界基準上獲??得了最好的結果,還積極布局了應用的落地,( ?ヮ?)實(shí)現了微軟相關(guān)產(chǎn)品性能的提升。

下面是微軟實(shí)現語(yǔ)義搜索所用到的具體技術(shù):

統一預訓練語(yǔ)言模型:UniLM & UniLM v2

在(zai) Azure 認知搜索中,預訓練語(yǔ)言模型利用的是來(lái)自微軟亞洲研究院(′_ゝ`)的統一預訓練語(yǔ)言模型 UniLM(Unif(╥_╥)ied Language Model Pre-training),該模型是第一個(gè)統一的在語(yǔ)言理解和語(yǔ)言生成的基??準上??均表現優(yōu)異的預訓練模型。UniLM 涵蓋了兩大關(guān)鍵性的技術(shù)創(chuàng )新:一是,提出了統一的預訓練框架,使得同一個(gè)模型可以同時(shí)支??持自然語(yǔ)言理解和自然語(yǔ)言生成任務(wù),而之前大部分的預訓練模型都主要針對自然語(yǔ)言理解任務(wù)。第二大創(chuàng )新是,提出了部分自回歸預訓練范式和偽掩碼語(yǔ)言模型,從而可以更(geng)高效地訓練更好的自然語(yǔ)言預訓練模型。這項研究成果的論文是“Unified Language Model Pre-training for Natural Language Und(╯‵□′)╯erstanding and Generation” ,已被 NeurIPS 2019 收錄。

微軟亞洲研究院的研究員在 ICML 2020 上還提出了一種新的訓練 UniLM 的訓練框架 Pseudo-Masked Language Models for Unified Language Model Pre-Training( ?ヮ?),“統一預訓練偽掩碼語(yǔ)言模型”,簡(jiǎn)稱(chēng) UniLM v2。UniLM v2 使用傳統的掩碼通過(guò)自(zi)編碼方式,學(xué)習被掩 token 與上下文的關(guān)系,并且( ???)使用偽掩碼通過(guò)部分自回歸方式,去學(xué)習被掩 token 之間的關(guān)系。必應搜索中的技術(shù)在2019年初是基于 BERT 來(lái)實(shí)現的,目前已經(jīng)通過(guò)使用 UniLM v2 來(lái)提高其搜索質(zhì)量。

統一預訓練語(yǔ)言模型架構

機器閱讀理解:多粒度閱讀理解框架

機器閱讀理解的任務(wù)(MRC)是從文檔 中找到給定問(wèn)題的簡(jiǎn)短答案(如短語(yǔ))或長(cháng)答案(如段落)。由于最大長(cháng)度的限制,所以大多數現有的 MRC 方法在答案提取的過(guò)程中將文檔視為了單獨的段落,而沒(méi)有考慮它們之間的內在關(guān)系。

為了更好地為 MRC 建模,微軟亞洲研究院的研(′?_?`)究員??們提出了基(?Д?)于圖注意力網(wǎng)絡(luò )和預訓練語(yǔ)言模型的多粒度閱讀理解(′_ゝ`)框架,并且通過(guò)聯(lián)合訓練來(lái)建(???)模兩個(gè)粒度答案之間的聯(lián)系。在這個(gè)框架中,首先會(huì )根據文檔的層次性質(zhì),例如,段落、句子和符號等,為每個(gè)文檔構建一個(gè)圖網(wǎng)絡(luò ),之后使用圖注意力網(wǎng)絡(luò )來(lái)學(xué)習不同層次的表示,最后會(huì )得到一系列結構化的表示,并匯總到答案選擇模塊得到答案。其中,長(cháng)答案和短答案的提取任務(wù)可以一起訓練,從而相互促進(jìn)。

以上研究的論文為“Document Modeling with Graph Attentヽ(′?`)ノion Networks for Multi-?????grained Machine Reading Comprehension” ,已被 ACL 2020 收錄,并且已經(jīng)用于必應搜索的大部分問(wèn)題回答任務(wù)。

多任務(wù)深度??神經(jīng)網(wǎng)絡(luò ):MT-DNN

微軟研究院和 Microsoft Dynamics 365 AI 團隊合作?????提出了一個(gè)新的多任務(wù)深度神經(jīng)網(wǎng)絡(luò )模型——MT-DNN。此模型是第一個(gè)在 GLUE 排行榜上超過(guò)人類(lèi)表現的 AI 模型,它集合了 BERT 的優(yōu)點(diǎn),并在10大自然語(yǔ)??言理解任務(wù)上超越了 BERT,在多個(gè)流行的基準測試中創(chuàng )造了新的 SOTA??? 結果。

MT-DNN 結合了多任務(wù)學(xué)習和語(yǔ)言模型預訓練,用于跨多個(gè)自然語(yǔ)言理解任務(wù)學(xué)習語(yǔ)言??表示。MT-DNN 不僅利用了大量的跨任???務(wù)數據,而且還受益(′?ω?`)于正則化效應(regularization effect ),這種正則化效應提高了模型的泛化能力,使其在面對新任務(wù)和領(lǐng)域時(shí)表現優(yōu)異。語(yǔ)義搜索中的模型就是利用了跨各種搜索任務(wù)的多任務(wù)學(xué)習來(lái)最大化其性(xing)能。

深度自(zi)注意ヽ(′?`)ノ力知識蒸餾:MiniLM

大規模預訓練模型??在自然語(yǔ)言理解和生成任務(wù)中表現優(yōu)異,但巨大的參數量和計算成本讓其很難直接部署到線(xiàn)上產(chǎn)品中。為此,微軟亞洲研究院提出了一種將基于 Transformer 的預訓練大模型壓縮成預訓練小模型的通用方法 MiniLM ——深度自注意力知識蒸餾(Deep Self-Attention Distillation)。其核心思想(╯°□°)╯是最大程度上將預訓練 Transformer 模型中非常重要的自注意力(Se??lf-Attention)知識遷移給小模型。

Min??iLM 在單語(yǔ)言和多語(yǔ)言模型上進(jìn)行了壓縮實(shí)驗,均取得了不錯的效果。(′?ω?`)Azure 認知搜索的語(yǔ)義搜索解決方案使用??了 MiniLM 技術(shù),其效果是,只需原來(lái)大模型20%的成本,就可保持95%的準確率。

MiniLM:深度自注??意力知識蒸餾(Deep Self-At(╯°□°)╯︵ ┻━┻tention Distillation)


語(yǔ)義搜索背后的人工智能模型非常強大,并且已經(jīng)在基準測試和必應搜索上(shang)得到了驗證。通過(guò)將語(yǔ)義搜索集成到 Azure 認知搜索中,微軟在普及高級機器學(xué)習技術(shù),將 AI 普及化的道路上又邁出了重要一步。

版??權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)(guan)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除。



 Copyright ? 2012-2018 天津九安特機電工程有限公司 版權所有  備案號:

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费 玉屏| 大同市| 博湖县| 洛南县| 基隆市| 永川市| 全椒县| 米林县| 桑日县| 原阳县| 罗江县| 河北区| 云梦县| 同德县| 祁门县| 武鸣县| 石柱| 饶阳县| 新干县| 城口县| 略阳县| 金秀| 广西| 阿坝| 库尔勒市| 保亭| 昌宁县| 会宁县| 溧阳市| 锡林郭勒盟| 大邑县| 平舆县| 黄山市| 尚义县| 榆林市| 英山县| 漳州市| 海淀区| 绵竹市| 双鸭山市| 墨竹工卡县| http://444 http://444 http://444 http://444 http://444 http://444