北京2024年4月30日 /美通社/ -- 亞馬遜云科技持續(xù)引領(lǐng)云上數(shù)據(jù)服務(wù)創(chuàng)新,助力企業(yè)構(gòu)建全面的數(shù)據(jù)基座以充分發(fā)揮數(shù)據(jù)潛力,加速生成式AI技術(shù)落地。在生成式AI時(shí)代,數(shù)據(jù)是企業(yè)脫穎而出的關(guān)鍵——基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集,生成式AI的差異化優(yōu)勢(shì)來(lái)源于企業(yè)的專有數(shù)據(jù),生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時(shí)有效地加以管理和利用。亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建必備的三大核心能力,即模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力,助力企業(yè)在生成式AI時(shí)代取得成功。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:"企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場(chǎng)景,能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力。作為全球云計(jì)算的開(kāi)創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長(zhǎng)。"
優(yōu)秀的數(shù)據(jù)處理能力,快速提高模型微調(diào)和預(yù)訓(xùn)練質(zhì)量
生成式AI基礎(chǔ)模型微調(diào)和預(yù)訓(xùn)練需要將海量的多樣化原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的大數(shù)據(jù)集,這對(duì)數(shù)據(jù)存儲(chǔ)、清洗和治理都提出了更嚴(yán)峻的挑戰(zhàn)。
在數(shù)據(jù)存儲(chǔ)方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。Amazon Simple Storage Service(Amazon S3)對(duì)象存儲(chǔ)幾乎是云上擴(kuò)展性的代名詞,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對(duì)各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本。專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。
在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù),Amazon EMR Serverless和Amazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作,讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu),幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。
在數(shù)據(jù)治理方面,企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,而且還提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具,從而為用戶解鎖所有數(shù)據(jù)的潛能。
數(shù)據(jù)與模型快速結(jié)合,讓企業(yè)專有數(shù)據(jù)釋放更大價(jià)值
生成式AI基礎(chǔ)模型的局限性之一在于無(wú)法及時(shí)擁有企業(yè)專有數(shù)據(jù),因此通過(guò)技術(shù)手段加速數(shù)據(jù)與模型的結(jié)合成為企業(yè)數(shù)據(jù)基座的第二項(xiàng)關(guān)鍵能力。檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一,它通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問(wèn)題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算?,F(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容,這一需求廣泛存在于搜索、評(píng)論、購(gòu)物車及產(chǎn)品推薦等交互框架中,這些框架又依賴于功能各異的數(shù)據(jù)庫(kù),這使得數(shù)據(jù)庫(kù)成為實(shí)施RAG技術(shù)的理想平臺(tái)。
亞馬遜云科技將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中,通過(guò)將數(shù)據(jù)和向量存儲(chǔ)在一起來(lái)提升數(shù)據(jù)查詢性能。這能夠讓企業(yè)輕松利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型,從而釋放更大價(jià)值。此外,亞馬遜云科技還為圖數(shù)據(jù)庫(kù)Amazon Neptune推出了分析數(shù)據(jù)庫(kù)引擎,以結(jié)合圖數(shù)據(jù)庫(kù)與大模型的優(yōu)勢(shì),從而能夠快速?gòu)膱D形數(shù)據(jù)中獲取洞察,并進(jìn)行更快的向量搜索。
有效處理生成式AI應(yīng)用的新數(shù)據(jù),降低模型頻繁調(diào)用成本并提升性能
對(duì)生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲,因此如何處理生成式AI應(yīng)用程序新生成的數(shù)據(jù),提升模型調(diào)用效率成為企業(yè)數(shù)據(jù)基座的第三項(xiàng)關(guān)鍵能力。Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)通過(guò)緩存之前問(wèn)答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問(wèn)題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量,只需要幾毫秒的響應(yīng)時(shí)間,能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。
此外,生成式AI應(yīng)用程序需要快速占領(lǐng)市場(chǎng)。亞馬遜云科技通過(guò)提供無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本,消除性能瓶頸,使企業(yè)能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。
Amazon Music通過(guò)分析用戶和歌曲的特征,并將它們轉(zhuǎn)換成向量以提高推薦精準(zhǔn)度。Amazon Music已通過(guò)Amazon OpenSearch將1億首歌曲編碼成向量并進(jìn)行索引,以為全球用戶提供實(shí)時(shí)音樂(lè)推薦。Amazon Music目前在Amazon OpenSearch中管理著10.5億個(gè)向量,并能夠處理每秒高達(dá)7,100次的查詢峰值,有效支撐其推薦系統(tǒng)。