www.第四色,熟女少妇色综合图区,日本sm/羞辱/调教/捆绑视频,网站国产,亚洲国产成人久久综合一区77

AnalyticDB(ADB)+LLM:構(gòu)建AIGC時代下企業(yè)專屬Chatbot-世界快看

2023-05-17 09:14:27來源:阿里開發(fā)者

點擊鏈接閱讀原文,獲取更多技術(shù)內(nèi)容:

如何基于向量數(shù)據(jù)庫+LLM(大語言模型),打造更懂你的企業(yè)專屬Chatbot?


(資料圖)

作者 | 阿里云AnalyticDB

來源 | 阿里開發(fā)者公眾號

為什么Chatbot需要大語言模型+向量數(shù)據(jù)庫?

這個春天,最讓人震感的科技產(chǎn)品莫過于ChatGPT的橫空出世,通過大語言模型(LLM)讓人們看到了生成式AI能實現(xiàn)到和人類語言高度相仿的語言表達(dá)能力,AI不再遙不可及而已經(jīng)可以走進(jìn)人類的工作和生活,這使得沉寂一段時間的AI領(lǐng)域重新煥發(fā)了能量,無數(shù)的從業(yè)者正趨之若鶩地投身于下一個改變時代的機會;據(jù)不完全統(tǒng)計,在短短的4個月時間內(nèi),美國已經(jīng)完成了超4000筆的生成式AI的行業(yè)融資。生成式AI已經(jīng)成為了資本和企業(yè)都無法忽視的下一代的技術(shù)密碼,而其對于底層的基礎(chǔ)設(shè)施能力提供了更高的要求。

大模型能夠回答較為普世的問題,但是若要服務(wù)于垂直專業(yè)領(lǐng)域,會存在知識深度和時效性不足的問題,那么企業(yè)如何抓住機會并構(gòu)建垂直領(lǐng)域服務(wù)?目前有兩種模式,第一種是基于大模型之上做垂直領(lǐng)域模型的Fine Tune,這個綜合投入成本較大,更新的頻率也較低,并不適用于所有的企業(yè);第二種就是在向量數(shù)據(jù)庫中構(gòu)建企業(yè)自有的知識資產(chǎn),通過大模型+向量數(shù)據(jù)庫來搭建垂直領(lǐng)域的深度服務(wù),本質(zhì)是使用數(shù)據(jù)庫進(jìn)行提示工程(Prompt Engineering)。以法律行業(yè)為例,基于垂直類目的法律條文和判例,企業(yè)可以構(gòu)建垂直領(lǐng)域的法律科技服務(wù)。如法律科技公司Harvey,正在構(gòu)建“律師的副駕駛”(Copilot for Lawyer)以提高法律條文的起草和研究服務(wù)。

將企業(yè)知識庫文檔和實時信息通過向量特征提取然后存儲到向量數(shù)據(jù)庫,結(jié)合LLM大語言模型可以讓Chatbot(聊天機器人)的回答更具專業(yè)性和時效性,構(gòu)建企業(yè)專屬Chatbot。下面視頻是一個 基于大語言模型+AnalyticDB for PostgreSQL(以下簡稱ADB-PG,內(nèi)置向量數(shù)據(jù)庫能力) 讓Chatbot更好地回答時事問題Demo:

視頻加載中...

AnalyticDB PostgreSQL支持向量數(shù)據(jù)檢索能力,可以支持企業(yè)用戶一站式搭建Chatbot專屬知識庫。目前開放1個月【免費試用】規(guī)格,點擊領(lǐng)?。? ,即刻開啟體驗!

本文接下來將重點介紹基于大語言模型(LLM)+向量數(shù)據(jù)庫打造企業(yè)專屬Chatbot的原理和流程,以及ADB-PG構(gòu)建該場景的核心能力。

什么是向量數(shù)據(jù)庫?

在現(xiàn)實世界中,絕大多數(shù)的數(shù)據(jù)都是以非結(jié)構(gòu)化數(shù)據(jù)的形式存在的,如圖片,音頻,視頻,文本等。這些非結(jié)構(gòu)化的數(shù)據(jù)隨著智慧城市,短視頻,商品個性化推薦,視覺商品搜索等應(yīng)用的出現(xiàn)而爆發(fā)式增長。為了能夠處理這些非結(jié)構(gòu)化的數(shù)據(jù),我們通常會使用人工智能技術(shù)提取這些非結(jié)構(gòu)化數(shù)據(jù)的特征,并將其轉(zhuǎn)化為特征向量,再對這些特征向量進(jìn)行分析和檢索以實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的處理。因此,我們把這種能存儲,分析和檢索特征向量的數(shù)據(jù)庫稱之為向量數(shù)據(jù)庫。

向量數(shù)據(jù)庫對于特征向量的快速檢索,一般會采用構(gòu)建向量索引的技術(shù)手段,我們通常說的向量索引都屬于ANNS(Approximate Nearest Neighbors Search,近似最近鄰搜索),它的核心思想是不再局限于只返回最精確的結(jié)果項,而是僅搜索可能是近鄰的數(shù)據(jù)項,也就是通過犧牲可接受范圍內(nèi)的一點精確度來換取檢索效率的提高。這也是向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫最大的差別。

為了將ANNS向量索引更加方便的應(yīng)用到實際的生產(chǎn)環(huán)境中,目前業(yè)界主要有兩種實踐方式。一種是單獨將ANNS向量索引服務(wù)化,以提供向量索引創(chuàng)建和檢索的能力,從而形成一種專有的向量數(shù)據(jù)庫;另一種是將ANNS向量索引融合到傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫中,形成一種具有向量檢索功能的DBMS。

在實際的業(yè)務(wù)場景中,專有的向量數(shù)據(jù)庫往往都需要和其他傳統(tǒng)數(shù)據(jù)庫配合起來一起使用,這樣會造成一些比較常見的問題,如數(shù)據(jù)冗余、數(shù)據(jù)遷移過多、數(shù)據(jù)一致性問題等,與真正的DBMS相比,專有的向量數(shù)據(jù)庫需要額外的專業(yè)人員維護(hù)、額外的成本,以及非常有限的查詢語言能力、可編程性、可擴展性和工具集成。而融合了向量檢索功能的DBMS則不同,它首先是一個非常完備的現(xiàn)代數(shù)據(jù)庫平臺,能滿足應(yīng)用程序開發(fā)人員的數(shù)據(jù)庫功能需求;然后它集成的向量檢索能力一樣也可以實現(xiàn)專有的向量數(shù)據(jù)庫的功能,并且使向量存儲和檢索繼承了DBMS的優(yōu)秀能力,如易用性(直接使用SQL的方式處理向量)、事務(wù)、高可用性、高可擴展性等等。

本文介紹的ADB-PG即是具有向量檢索功能的DBMS,在包含向量檢索功能的同時,還具備一站式的數(shù)據(jù)庫能力。在介紹ADB-PG的具體能力之前,我們先來看一下Demo視頻中Chatbot的創(chuàng)建流程和相關(guān)原理。

LLM大語言模型+ADB-PG:打造企業(yè)專屬Chatbot

案例-本地知識問答系統(tǒng)

對于前面Demo視頻結(jié)合大語言模型LLM和ADB-PG進(jìn)行時事新聞點評解答的例子,讓LLM回答\"通義千問是什么\"??梢钥吹?,如果我們讓LLM直接回答,得到的答案沒有意義,因為LLM的訓(xùn)練數(shù)據(jù)集里并不包含相關(guān)的內(nèi)容。而當(dāng)我們使用向量數(shù)據(jù)庫作為本地知識存儲,讓LLM自動提取相關(guān)的知識之后,其正確地回答了\"通義千問是什么\"。

同樣地,這種方式可以應(yīng)用于處理文檔,PDF,郵件,網(wǎng)絡(luò)資訊等等尚未被LLM訓(xùn)練數(shù)據(jù)集覆蓋到的內(nèi)容。比如:

1.結(jié)合最新的航班信息和最新的網(wǎng)紅打卡地點等旅游攻略資源,打造旅游助手。比如回答下周最適合去哪里旅游,如何最經(jīng)濟實惠的問題。

2.體育賽事點評,時事熱點新聞點評,總結(jié)。今天誰是NBA比賽的MVP。

3.教育行業(yè),最新的教育熱點解讀,比如,告訴我什么是AIGC,什么是Stable Diffusion以及如何使用等等。

4.金融領(lǐng)域,快速分析各行業(yè)領(lǐng)域金融財報,打造金融咨詢助手。

5.專業(yè)領(lǐng)域的客服機器人...

實現(xiàn)原理

本地知識問答系統(tǒng)(Local QA System)主要是通過結(jié)合了大語言模型的推理能力和向量數(shù)據(jù)庫的存儲和檢索能力。來實現(xiàn)通過向量檢索到最相關(guān)的語義片段,然后讓大語言模型結(jié)合相關(guān)片段上下文來進(jìn)行正確的推理得到結(jié)論。在這個過程中主要有兩個流程:

a.后端數(shù)據(jù)處理和存儲流程

b.前端問答流程

同時其底層主要依賴兩個模塊:

1.基于大語言模型的推理模塊

2.基于向量數(shù)據(jù)庫的向量數(shù)據(jù)管理模塊

后端數(shù)據(jù)處理和存儲流程

上圖黑色的部分為后端的數(shù)據(jù)處理流程,主要是將我們的原始數(shù)據(jù)求解embedding,并和原始數(shù)據(jù)一起存入到向量數(shù)據(jù)庫ADB-PG中。這里你只需要關(guān)注上圖的藍(lán)色虛線框部分。黑色的處理模塊和ADB-PG向量數(shù)據(jù)庫。

Step1:先將原始文檔中的文本內(nèi)容全部提取出來。然后根據(jù)語義切塊,切成多個chunk,可以理解為可以完整表達(dá)一段意思的文本段落。在這個過程中還可以額外做一些元數(shù)據(jù)抽取,敏感信息檢測等行為。 Step2:將這些Chunk都丟給embedding模型,來求取這些chunk的embedding。 Step3:將embedding和原始chunk一起存入到向量數(shù)據(jù)庫中。

阿里云開發(fā)者社區(qū),千萬開發(fā)者的選擇。百萬精品技術(shù)內(nèi)容、千節(jié)免費系統(tǒng)課程、豐富的體驗場景、活躍的社群活動、行業(yè)專家分享交流,盡在:

關(guān)鍵詞:

責(zé)任編輯:孫知兵

免責(zé)聲明:本文僅代表作者個人觀點,與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
如有問題,請聯(lián)系我們!

關(guān)于我們 - 聯(lián)系方式 - 版權(quán)聲明 - 招聘信息 - 友鏈交換 - 網(wǎng)站統(tǒng)計
 

太平洋財富主辦 版權(quán)所有:太平洋財富網(wǎng)

?中國互聯(lián)網(wǎng)違法和不良信息舉報中心中國互聯(lián)網(wǎng)違法和不良信息舉報中心

Copyright© 2012-2020 太平洋財富網(wǎng)(yuef.cn) All rights reserved.

未經(jīng)過本站允許 請勿將本站內(nèi)容傳播或復(fù)制 業(yè)務(wù)QQ:3 31 986 683