無(wú)數(shù)據(jù) 不模型亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建三大核心能力

亞馬遜云科技

2024-04-30 16:06 3605

北京2024年4月30日 /美通社/ -- 亞馬遜云科技持續(xù)引領(lǐng)云上數(shù)據(jù)服務(wù)創(chuàng)新，助力企業(yè)構(gòu)建全面的數(shù)據(jù)基座以充分發(fā)揮數(shù)據(jù)潛力，加速生成式AI技術(shù)落地。在生成式AI時(shí)代，數(shù)據(jù)是企業(yè)脫穎而出的關(guān)鍵——基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集，生成式AI的差異化優(yōu)勢(shì)來(lái)源于企業(yè)的專有數(shù)據(jù)，生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時(shí)有效地加以管理和利用。亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建必備的三大核心能力，即模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力，以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力，助力企業(yè)在生成式AI時(shí)代取得成功。

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示："企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用，而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場(chǎng)景，能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù)，提升基礎(chǔ)模型能力。作為全球云計(jì)算的開(kāi)創(chuàng)者和引領(lǐng)者，亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座，在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下，將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用，加速企業(yè)業(yè)務(wù)增長(zhǎng)。"

優(yōu)秀的數(shù)據(jù)處理能力，快速提高模型微調(diào)和預(yù)訓(xùn)練質(zhì)量

生成式AI基礎(chǔ)模型微調(diào)和預(yù)訓(xùn)練需要將海量的多樣化原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的大數(shù)據(jù)集，這對(duì)數(shù)據(jù)存儲(chǔ)、清洗和治理都提出了更嚴(yán)峻的挑戰(zhàn)。

在數(shù)據(jù)存儲(chǔ)方面，擴(kuò)展性和響應(yīng)速度是關(guān)鍵。Amazon Simple Storage Service（Amazon S3）對(duì)象存儲(chǔ)幾乎是云上擴(kuò)展性的代名詞，它支持廣泛的數(shù)據(jù)協(xié)議，能夠輕松應(yīng)對(duì)各種數(shù)據(jù)類型，還支持智能分層以降低訓(xùn)練成本。專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能，能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面，企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)，Amazon EMR Serverless和Amazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作，讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu)，幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載，自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小，以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù)，可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面，企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù)，也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)，不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理，而且還提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具，從而為用戶解鎖所有數(shù)據(jù)的潛能。

數(shù)據(jù)與模型快速結(jié)合，讓企業(yè)專有數(shù)據(jù)釋放更大價(jià)值

生成式AI基礎(chǔ)模型的局限性之一在于無(wú)法及時(shí)擁有企業(yè)專有數(shù)據(jù)，因此通過(guò)技術(shù)手段加速數(shù)據(jù)與模型的結(jié)合成為企業(yè)數(shù)據(jù)基座的第二項(xiàng)關(guān)鍵能力。檢索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一，它通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中，從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問(wèn)題，以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算?，F(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容，這一需求廣泛存在于搜索、評(píng)論、購(gòu)物車及產(chǎn)品推薦等交互框架中，這些框架又依賴于功能各異的數(shù)據(jù)庫(kù)，這使得數(shù)據(jù)庫(kù)成為實(shí)施RAG技術(shù)的理想平臺(tái)。

亞馬遜云科技將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中，通過(guò)將數(shù)據(jù)和向量存儲(chǔ)在一起來(lái)提升數(shù)據(jù)查詢性能。這能夠讓企業(yè)輕松利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型，從而釋放更大價(jià)值。此外，亞馬遜云科技還為圖數(shù)據(jù)庫(kù)Amazon Neptune推出了分析數(shù)據(jù)庫(kù)引擎，以結(jié)合圖數(shù)據(jù)庫(kù)與大模型的優(yōu)勢(shì)，從而能夠快速?gòu)膱D形數(shù)據(jù)中獲取洞察，并進(jìn)行更快的向量搜索。

有效處理生成式AI應(yīng)用的新數(shù)據(jù)，降低模型頻繁調(diào)用成本并提升性能

對(duì)生成式AI應(yīng)用程序而言，基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲，因此如何處理生成式AI應(yīng)用程序新生成的數(shù)據(jù)，提升模型調(diào)用效率成為企業(yè)數(shù)據(jù)基座的第三項(xiàng)關(guān)鍵能力。Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)通過(guò)緩存之前問(wèn)答生成的新數(shù)據(jù)，實(shí)現(xiàn)對(duì)類似問(wèn)題的快速響應(yīng)和準(zhǔn)確回答，同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量，只需要幾毫秒的響應(yīng)時(shí)間，能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。

此外，生成式AI應(yīng)用程序需要快速占領(lǐng)市場(chǎng)。亞馬遜云科技通過(guò)提供無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和Amazon OpenSearch Serverless用于向量搜索，最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本，消除性能瓶頸，使企業(yè)能夠?qū)Ｗ⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

Amazon Music通過(guò)分析用戶和歌曲的特征，并將它們轉(zhuǎn)換成向量以提高推薦精準(zhǔn)度。Amazon Music已通過(guò)Amazon OpenSearch將1億首歌曲編碼成向量并進(jìn)行索引，以為全球用戶提供實(shí)時(shí)音樂(lè)推薦。Amazon Music目前在Amazon OpenSearch中管理著10.5億個(gè)向量，并能夠處理每秒高達(dá)7,100次的查詢峰值，有效支撐其推薦系統(tǒng)。

消息來(lái)源：亞馬遜云科技