185-0822-7772
四川海輝千訊網(wǎng)絡(luò)科技有限公司
地址:成都雙流區(qū)東升街道藏衛(wèi)路南二段699號附6號1層
電話:185-0822-7772(王)  
189-8000-5257(佘)
郵箱:ibfs@qq.com
成都弱電公司訊:
意圖搜索最早起源于互聯(lián)網(wǎng)行業(yè),通過對傳統(tǒng)搜索引擎的智能化應(yīng)用擴(kuò)展,基于分類算法對意圖分析和分析擴(kuò)展等功能進(jìn)行應(yīng)用,逐漸由搜索引擎學(xué)會判斷用戶的真實搜索意圖,實現(xiàn)智能搜索引擎。隨著全球平安形勢日趨惡化,意圖搜索逐漸與物聯(lián)網(wǎng)結(jié)合并落地,工程院吳曼青院士提出了反恐環(huán)境下基于大數(shù)據(jù)的意圖搜索的設(shè)想充分表明了安防行業(yè)已經(jīng)把意圖搜索概念提升到了主流產(chǎn)品形態(tài),充分做好了與意圖搜索技術(shù)結(jié)合的準(zhǔn)備工作。
一、意圖搜索起源
意圖搜索最早起源于互聯(lián)網(wǎng)行業(yè)搜索引擎工具,隨著互聯(lián)網(wǎng)信息量的不斷增加,能夠快速、準(zhǔn)確地查找信息越來越困難,主要原因是搜索引擎不能理解用戶的真實查詢意圖,因而機(jī)器學(xué)習(xí)如遺傳算法、BP神經(jīng)網(wǎng)絡(luò)法等在這方面的應(yīng)用研究快速地被引起關(guān)注。LamWai就利用基于事例的機(jī)器學(xué)習(xí)和查詢反饋技術(shù)實現(xiàn)了文本的自動分類并用于文本檢索,實驗證明了其優(yōu)越性。MandalaRila采用加權(quán)方法從多類信息中實現(xiàn)查詢擴(kuò)展,以及Chakrabarti探討的基于矩陣代數(shù)的主題提取算法、組合詞匯和索引文本等特征提取都是這方面的努力。但目前最有前景的是DougLenat研制的搜索系統(tǒng),通過建立常識庫和推理機(jī)來與用戶交談,進(jìn)而實現(xiàn)對用戶真正意圖的理解。知識工程之父Feigenbaum稱贊他開創(chuàng)了查詢的“語義時代”(TheAgeofSemantics)。但前提是要建立一個龐大的百科全書常識庫,這是非常困難的,而且也不分析用戶的潛在意圖。構(gòu)造龐大知識庫的一種方法是從網(wǎng)絡(luò)上自動構(gòu)造,Craven和Lesser提出了信息獲取的系統(tǒng)原理,知識庫的結(jié)構(gòu)和實現(xiàn)方法。Choi則實現(xiàn)了一種具體的自動構(gòu)造系統(tǒng),其可從網(wǎng)上發(fā)現(xiàn)文本并歸入本地數(shù)據(jù)庫供查詢,它相當(dāng)于智能代理。Alsaffa做了類似的探索,利用專家系統(tǒng)在用戶喜歡的表達(dá)和系統(tǒng)要求的表達(dá)之間實現(xiàn)自動轉(zhuǎn)換。意圖搜索正在基于這些技術(shù)之上實現(xiàn)了智能化的自動搜索。雖然意圖搜索起源于互聯(lián)網(wǎng)行業(yè),但是目前已經(jīng)被廣泛用于其它行業(yè),例如在安防行業(yè)與物聯(lián)網(wǎng)技術(shù)緊密結(jié)合。
二、意圖搜索在互聯(lián)網(wǎng)行業(yè)的發(fā)展
互聯(lián)網(wǎng)行業(yè)最早由搜索引擎起步,目前數(shù)據(jù)也都是通過搜索引擎實現(xiàn)數(shù)據(jù)交換和傳遞過程。用戶之所以會產(chǎn)生搜索行為,往往是在解決任務(wù)時碰到自己不熟悉的概念或者問題,由此產(chǎn)生了對特定信息的需求,之后用戶會在頭腦中逐步形成秒速需求的查詢詞,將查詢提交給搜索引擎,然后對搜索結(jié)果進(jìn)行瀏覽,假如發(fā)現(xiàn)搜索結(jié)果不能完全解決用戶的信息需求,則會根據(jù)搜索結(jié)果的啟發(fā),改寫查詢,以便更精確地描述自己的信息需求,之后重新構(gòu)造新的查詢需求,提交搜索引擎,如此形成用戶和搜素引擎交互的閉合回路,直到搜索結(jié)果已經(jīng)解決了自己的需求或嘗試幾次無果而終。從上述過程可以看出,從用戶產(chǎn)生信息需求到最終形成用戶查詢,中間有很大的不確定性,用戶未必能夠一開始就找到合適的查詢詞,即使是找到了,也可能存在查詢詞不能完全描述信息需求的情形,即在形成查詢的過程中存在信息丟失的問題。所以后續(xù)循環(huán)中的查詢改寫就是用戶逐步澄清搜索需求的一個過程。
用戶發(fā)出的每個搜索請求背后都隱含著潛在的搜索意圖,假如搜索引擎能夠根據(jù)查詢詞匯自動找出背后的用戶搜索意圖,然后針對分歧的意圖,提供分歧的檢索方法,將更符合用戶意圖的搜索結(jié)果排在前列,無疑會增加搜索引擎用戶的搜索體驗。目前搜索引擎已經(jīng)部分實現(xiàn)了這種搜索模式,好比用戶搜索“成都天氣”的時候會主動將當(dāng)天的氣溫等情況列在搜索結(jié)果最前面。
意圖搜索是基于目前internet上信息的無組織、異構(gòu)、分布和動態(tài)的特點以及現(xiàn)有搜索的不足而提出的,用于解決現(xiàn)有信息檢索系統(tǒng)所面臨的“信息過載”、“資源迷向”和搜索結(jié)果個性化需求等實際問題,實現(xiàn)Internet信息個性化主動服務(wù)。搜索引擎在強(qiáng)化“智能化”方向的理念之上,在自動分類、自動聚類的基礎(chǔ)上推出智能導(dǎo)航、概念搜索、個性化搜索功能,使搜索引擎充分領(lǐng)會用戶意圖的進(jìn)行搜索,這是意圖搜索在搜索引擎方面的落地應(yīng)用模式。
當(dāng)前大多數(shù)搜索引擎是通過用戶注冊及用戶個性化配置(利用cookie機(jī)制、為用戶建立配置文件等)來提高對用戶搜索請求的精度和命中率,實現(xiàn)一定程度上的個性化搜索服務(wù)。這種方式需要用戶在服務(wù)器上登記個人信息,但這可能造成用戶某些隱私信息的泄露。目前比較公認(rèn)的搜索引擎意圖搜索方法是采用特征獲取方法。特征獲取方法分為兩類,第一類方式可以稱為事先方法,這種方法在查詢被提交給搜索引擎以前,利用查詢本身的特征來表示查詢,好比表示特定需求的特征詞匯、詞與詞之間關(guān)系、詞的詞性以及詞的選擇優(yōu)先性、在語料集中的統(tǒng)計信息等等;第二類方法可以稱為事后方法,這種方法利用查詢被提交給搜索引擎以后的相關(guān)數(shù)據(jù)來獲取查詢的特征。
意圖搜索分為意圖分析和分析擴(kuò)展兩個部分。意圖分析是解決“信息過載”和“資源迷向”問題的有效途徑,通過對用戶所需的信息資源進(jìn)行搜集、加工、整理,可以梳理和有序化網(wǎng)絡(luò)上的專業(yè)信息資源,向用戶提供智能化的信息服務(wù)。意圖分析和分析擴(kuò)展的具體步驟如下所述:
(1)意圖分析。①根據(jù)用戶對問題的回答,檢索知識庫中的相關(guān)信息,以提供直接的回答。②對輸入的原始查詢根據(jù)其概念內(nèi)容進(jìn)行組織和安排,以析取相關(guān)的概念信息和范疇知識。然后,通過語義聯(lián)想等意圖推理修改查詢向量。③將查詢向量交由用戶交互確認(rèn)、編輯。④根據(jù)用戶的編輯結(jié)果可以再次意圖推理,直到用戶滿意為止。⑤將此次意圖推理的結(jié)果記入知識庫中,以備以后的意圖推理。
(2)分析擴(kuò)展。根據(jù)意圖分析的結(jié)果,更新原始查詢向量,形成新的查詢向量。方法是將應(yīng)用領(lǐng)域知識和索引、相關(guān)性、估計和查詢表達(dá)相結(jié)合來實現(xiàn)查詢擴(kuò)展,即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。查詢擴(kuò)展所需要的查詢詞的選擇策略有:①非獨立類。非獨立詞指的是和查詢詞具有較大相關(guān)性的詞。查詢擴(kuò)展通過知識庫推理從知識庫中找出相關(guān)性詞、短語、句子、段/篇章。②交互式選擇。用戶從通過上述策略得出的待選詞中決定最后的查詢詞。