最近有很多小伙伴在問我們關(guān)于DeepSeek的原理、怎么部署、怎么用好各種五花八門的問題,于是至頂AI實(shí)驗(yàn)室整理了一份實(shí)用手冊(cè)來一一解答。
手冊(cè)從發(fā)展脈絡(luò),到個(gè)人和企業(yè)使用部署方案,再到“DeepSeek+”使用技巧,對(duì)DeepSeek進(jìn)行全方位解讀,適合想用和用好DeepSeek的企業(yè)和個(gè)人閱讀。
▋ DeepSeek是誰?
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,簡(jiǎn)稱深度求索,成立于2023年7月,是幻方量化旗下的AI公司,專注于實(shí)現(xiàn)通用人工智能(AGI),具有深厚的軟硬件協(xié)同設(shè)計(jì)底蘊(yùn)。自成立以來,DeepSeek致力于研發(fā)和開源一系列高性能的AI模型,旨在推動(dòng)AI技術(shù)的普及和應(yīng)用,為全球的科研人員和技術(shù)開發(fā)者提供強(qiáng)大的工具和平臺(tái)。
▋ DeepSeek的技術(shù)路線解析
DeepSeek的技術(shù)路線以其創(chuàng)新性和實(shí)用性著稱。其核心技術(shù)包括混合專家架構(gòu)(MoE)、多頭潛在注意力(MLA)、多詞元預(yù)測(cè)訓(xùn)練(MTP)以及FP8混合精度訓(xùn)練等。這些技術(shù)不僅提升了模型的性能,還顯著降低了訓(xùn)練和推理成本,使得DeepSeek的模型在性價(jià)比上具有顯著優(yōu)勢(shì)。
(一)混合專家架構(gòu)(MoE)
MoE架構(gòu)是DeepSeek模型的核心之一,它通過路由和專家兩部分的協(xié)同工作,實(shí)現(xiàn)了數(shù)據(jù)的高效處理。每個(gè)MoE層包含1個(gè)共享專家和256個(gè)路由專家,在運(yùn)行時(shí)每個(gè)詞元(token)只激活8個(gè)路由專家。這種設(shè)計(jì)不僅節(jié)約了計(jì)算資源,還使得模型在處理復(fù)雜任務(wù)時(shí)更具優(yōu)勢(shì)。
(二)多頭潛在注意力(MLA)
MLA通過對(duì)注意力鍵和值進(jìn)行低秩聯(lián)合壓縮,減少了推理過程中的鍵值緩存(KV cache),從而降低了推理時(shí)的內(nèi)存占用。引入旋轉(zhuǎn)位置編碼(RoPE)保持位置信息的有效表示,使得模型在處理長(zhǎng)上下文時(shí)更加得心應(yīng)手。
(三)多詞元預(yù)測(cè)訓(xùn)練(MTP)
MTP技術(shù)通過在訓(xùn)練過程中讓模型不僅預(yù)測(cè)下一個(gè)詞元,還預(yù)測(cè)多個(gè)未來的詞元,從而提高了模型的預(yù)測(cè)能力和效率。這種設(shè)計(jì)通過在共享模型主干上增加多個(gè)獨(dú)立的輸出頭來實(shí)現(xiàn),不增加訓(xùn)練時(shí)間和內(nèi)存消耗。
(四)FP8混合精度訓(xùn)練
FP8混合精度訓(xùn)練技術(shù)通過使用細(xì)粒度量化策略、低精度優(yōu)化器狀態(tài)等方法,實(shí)現(xiàn)了增強(qiáng)精度、低精度存儲(chǔ)和通信。這一技術(shù)不僅降低了存儲(chǔ)占用,還提高了訓(xùn)練效率,為DeepSeek模型的高效訓(xùn)練提供了有力支持。
▋ DeepSeek為什么火?
DeepSeek之所以能夠在短時(shí)間內(nèi)引起廣泛關(guān)注,主要得益于其在性能、成本和開源程度等方面的突出表現(xiàn)。
(一)性能比肩國際頂尖模型
DeepSeek-R1模型在AI模型基準(zhǔn)能力的各大榜單中,得分與OpenAI的o1模型不相上下,終結(jié)了中國AI模型落后于美國模型半年到一年的局面。作為國產(chǎn)模型,DeepSeek對(duì)中文支持更好,能夠更好地滿足國內(nèi)用戶的需求。
(二)低訓(xùn)練成本和推理成本
DeepSeek-V3模型的訓(xùn)練成本僅為約558萬美元,相比Meta同規(guī)格的Llama 3.1模型約9240萬美元的訓(xùn)練成本,低了16倍。在推理成本方面,DeepSeek V3和R1模型的價(jià)格分別為OpenAI GPT-4o和o1模型的十分之一和二十分之一,顯著降低了用戶的使用成本。
(三)高度開源
DeepSeek系列模型完全開源,符合開放源代碼促進(jìn)會(huì)(OSI)發(fā)布的開源AI定義1.0(OSAID 1.0)的所有要求。開源策略不僅吸引了大量開發(fā)者關(guān)注和使用,還促進(jìn)了技術(shù)的快速傳播和創(chuàng)新,為AI技術(shù)的發(fā)展注入了新的活力。
▋ DeepSeek的調(diào)用與部署
DeepSeek模型的調(diào)用與部署方式靈活多樣,用戶可以根據(jù)自身需求選擇云端調(diào)用或本地部署,也可以直接購買各大品牌的DeepSeek一體機(jī)。
(一)云端調(diào)用
云端調(diào)用通過官方API或第三方API直接調(diào)用DeepSeek R1模型服務(wù)并接入業(yè)務(wù)中,用戶無需購置硬件即可按需調(diào)用云端模型。這種方式適合對(duì)硬件要求不高、數(shù)據(jù)安全要求較低的場(chǎng)景。
(二)本地部署
本地部署需要用戶下載DeepSeek R1滿血版或蒸餾版本模型,通過Ollama、vLLM等工具啟動(dòng)模型,并借助可視化界面工具與用戶交互。本地部署適合對(duì)數(shù)據(jù)安全要求高的企業(yè)私有化場(chǎng)景,但需要滿足高性能顯卡和服務(wù)器的硬件配置要求。
▋ 如何使用DeepSeek?
DeepSeek的使用可以分為獨(dú)立使用和工具組合使用兩種方式。
(一)獨(dú)立使用
通過自然語言對(duì)話獲取核心服務(wù),典型場(chǎng)景包括文本創(chuàng)作、信息咨詢、知識(shí)推理等。用戶只需輸入需求指令,即可直接獲取生成內(nèi)容,操作簡(jiǎn)單便捷。這部分我們還分享了OpenAI的推理提示詞模版和適用的場(chǎng)景類別。
(二)工具組合使用
基于文本指令驅(qū)動(dòng)的工具生態(tài)協(xié)同,實(shí)現(xiàn)“DeepSeek+”創(chuàng)新工作流。典型組合形態(tài)包括創(chuàng)意設(shè)計(jì)、辦公增效、多媒體生產(chǎn)、編程輔助等。通過與XMind、飛書、Kimi、Mermaid、訊飛聽見、Obsidian、Excel、LobeChat、Photoshop、MidJourny、即夢(mèng)、Tripo、Suno、Heygen、剪映、HBuilder、Cline等工具的結(jié)合,DeepSeek能夠幫助用戶在復(fù)雜的工作環(huán)境中保持高效、井然有序的工作流程。
▋ 結(jié)語:趨勢(shì)判斷
DeepSeek的出現(xiàn),不僅標(biāo)志著中國AI技術(shù)在國際舞臺(tái)上的崛起,也為AI應(yīng)用生態(tài)的加速繁榮注入了新的動(dòng)力。開源模型的普及,將進(jìn)一步降低企業(yè)與創(chuàng)業(yè)者接入AI的成本與門檻,推動(dòng)AI技術(shù)的廣泛應(yīng)用。同時(shí),AI技術(shù)的深入演進(jìn),使得推理模型有望成為主流形態(tài),為復(fù)雜任務(wù)的解決提供更精準(zhǔn)、更可靠的方案。未來,每項(xiàng)業(yè)務(wù)、每位工作者、每個(gè)公司都將與AI技術(shù)緊密相連,共同推動(dòng)智能變革的新潮流。