至頂AI實(shí)驗(yàn)室：DeepSeek完全實(shí)用手冊(cè)，從技術(shù)原理到使用技巧（PDF版）

2025-03-12 11:36

最近有很多小伙伴在問我們關(guān)于DeepSeek的原理、怎么部署、怎么用好各種五花八門的問題，于是至頂AI實(shí)驗(yàn)室整理了一份實(shí)用手冊(cè)來一一解答。

手冊(cè)從發(fā)展脈絡(luò)，到個(gè)人和企業(yè)使用部署方案，再到“DeepSeek+”使用技巧，對(duì)DeepSeek進(jìn)行全方位解讀，適合想用和用好DeepSeek的企業(yè)和個(gè)人閱讀。

至頂AI實(shí)驗(yàn)室：DeepSeek完全實(shí)用手冊(cè)，從技術(shù)原理到使用技巧（PDF版）

▋ DeepSeek是誰？

DeepSeek，全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司，簡(jiǎn)稱深度求索，成立于2023年7月，是幻方量化旗下的AI公司，專注于實(shí)現(xiàn)通用人工智能（AGI），具有深厚的軟硬件協(xié)同設(shè)計(jì)底蘊(yùn)。自成立以來，DeepSeek致力于研發(fā)和開源一系列高性能的AI模型，旨在推動(dòng)AI技術(shù)的普及和應(yīng)用，為全球的科研人員和技術(shù)開發(fā)者提供強(qiáng)大的工具和平臺(tái)。

▋ DeepSeek的技術(shù)路線解析

DeepSeek的技術(shù)路線以其創(chuàng)新性和實(shí)用性著稱。其核心技術(shù)包括混合專家架構(gòu)（MoE）、多頭潛在注意力（MLA）、多詞元預(yù)測(cè)訓(xùn)練（MTP）以及FP8混合精度訓(xùn)練等。這些技術(shù)不僅提升了模型的性能，還顯著降低了訓(xùn)練和推理成本，使得DeepSeek的模型在性價(jià)比上具有顯著優(yōu)勢(shì)。

（一）混合專家架構(gòu)（MoE）

MoE架構(gòu)是DeepSeek模型的核心之一，它通過路由和專家兩部分的協(xié)同工作，實(shí)現(xiàn)了數(shù)據(jù)的高效處理。每個(gè)MoE層包含1個(gè)共享專家和256個(gè)路由專家，在運(yùn)行時(shí)每個(gè)詞元（token）只激活8個(gè)路由專家。這種設(shè)計(jì)不僅節(jié)約了計(jì)算資源，還使得模型在處理復(fù)雜任務(wù)時(shí)更具優(yōu)勢(shì)。

（二）多頭潛在注意力（MLA）

MLA通過對(duì)注意力鍵和值進(jìn)行低秩聯(lián)合壓縮，減少了推理過程中的鍵值緩存（KV cache），從而降低了推理時(shí)的內(nèi)存占用。引入旋轉(zhuǎn)位置編碼（RoPE）保持位置信息的有效表示，使得模型在處理長(zhǎng)上下文時(shí)更加得心應(yīng)手。

（三）多詞元預(yù)測(cè)訓(xùn)練（MTP）

MTP技術(shù)通過在訓(xùn)練過程中讓模型不僅預(yù)測(cè)下一個(gè)詞元，還預(yù)測(cè)多個(gè)未來的詞元，從而提高了模型的預(yù)測(cè)能力和效率。這種設(shè)計(jì)通過在共享模型主干上增加多個(gè)獨(dú)立的輸出頭來實(shí)現(xiàn)，不增加訓(xùn)練時(shí)間和內(nèi)存消耗。

（四）FP8混合精度訓(xùn)練

FP8混合精度訓(xùn)練技術(shù)通過使用細(xì)粒度量化策略、低精度優(yōu)化器狀態(tài)等方法，實(shí)現(xiàn)了增強(qiáng)精度、低精度存儲(chǔ)和通信。這一技術(shù)不僅降低了存儲(chǔ)占用，還提高了訓(xùn)練效率，為DeepSeek模型的高效訓(xùn)練提供了有力支持。

▋ DeepSeek為什么火？

DeepSeek之所以能夠在短時(shí)間內(nèi)引起廣泛關(guān)注，主要得益于其在性能、成本和開源程度等方面的突出表現(xiàn)。

（一）性能比肩國際頂尖模型

DeepSeek-R1模型在AI模型基準(zhǔn)能力的各大榜單中，得分與OpenAI的o1模型不相上下，終結(jié)了中國AI模型落后于美國模型半年到一年的局面。作為國產(chǎn)模型，DeepSeek對(duì)中文支持更好，能夠更好地滿足國內(nèi)用戶的需求。

（二）低訓(xùn)練成本和推理成本

DeepSeek-V3模型的訓(xùn)練成本僅為約558萬美元，相比Meta同規(guī)格的Llama 3.1模型約9240萬美元的訓(xùn)練成本，低了16倍。在推理成本方面，DeepSeek V3和R1模型的價(jià)格分別為OpenAI GPT-4o和o1模型的十分之一和二十分之一，顯著降低了用戶的使用成本。

（三）高度開源

DeepSeek系列模型完全開源，符合開放源代碼促進(jìn)會(huì)（OSI）發(fā)布的開源AI定義1.0（OSAID 1.0）的所有要求。開源策略不僅吸引了大量開發(fā)者關(guān)注和使用，還促進(jìn)了技術(shù)的快速傳播和創(chuàng)新，為AI技術(shù)的發(fā)展注入了新的活力。

▋ DeepSeek的調(diào)用與部署

DeepSeek模型的調(diào)用與部署方式靈活多樣，用戶可以根據(jù)自身需求選擇云端調(diào)用或本地部署，也可以直接購買各大品牌的DeepSeek一體機(jī)。

（一）云端調(diào)用

云端調(diào)用通過官方API或第三方API直接調(diào)用DeepSeek R1模型服務(wù)并接入業(yè)務(wù)中，用戶無需購置硬件即可按需調(diào)用云端模型。這種方式適合對(duì)硬件要求不高、數(shù)據(jù)安全要求較低的場(chǎng)景。

（二）本地部署

本地部署需要用戶下載DeepSeek R1滿血版或蒸餾版本模型，通過Ollama、vLLM等工具啟動(dòng)模型，并借助可視化界面工具與用戶交互。本地部署適合對(duì)數(shù)據(jù)安全要求高的企業(yè)私有化場(chǎng)景，但需要滿足高性能顯卡和服務(wù)器的硬件配置要求。

▋ 如何使用DeepSeek？

DeepSeek的使用可以分為獨(dú)立使用和工具組合使用兩種方式。

（一）獨(dú)立使用

通過自然語言對(duì)話獲取核心服務(wù)，典型場(chǎng)景包括文本創(chuàng)作、信息咨詢、知識(shí)推理等。用戶只需輸入需求指令，即可直接獲取生成內(nèi)容，操作簡(jiǎn)單便捷。這部分我們還分享了OpenAI的推理提示詞模版和適用的場(chǎng)景類別。

（二）工具組合使用

基于文本指令驅(qū)動(dòng)的工具生態(tài)協(xié)同，實(shí)現(xiàn)“DeepSeek+”創(chuàng)新工作流。典型組合形態(tài)包括創(chuàng)意設(shè)計(jì)、辦公增效、多媒體生產(chǎn)、編程輔助等。通過與XMind、飛書、Kimi、Mermaid、訊飛聽見、Obsidian、Excel、LobeChat、Photoshop、MidJourny、即夢(mèng)、Tripo、Suno、Heygen、剪映、HBuilder、Cline等工具的結(jié)合，DeepSeek能夠幫助用戶在復(fù)雜的工作環(huán)境中保持高效、井然有序的工作流程。

▋ 結(jié)語：趨勢(shì)判斷

DeepSeek的出現(xiàn)，不僅標(biāo)志著中國AI技術(shù)在國際舞臺(tái)上的崛起，也為AI應(yīng)用生態(tài)的加速繁榮注入了新的動(dòng)力。開源模型的普及，將進(jìn)一步降低企業(yè)與創(chuàng)業(yè)者接入AI的成本與門檻，推動(dòng)AI技術(shù)的廣泛應(yīng)用。同時(shí)，AI技術(shù)的深入演進(jìn)，使得推理模型有望成為主流形態(tài)，為復(fù)雜任務(wù)的解決提供更精準(zhǔn)、更可靠的方案。未來，每項(xiàng)業(yè)務(wù)、每位工作者、每個(gè)公司都將與AI技術(shù)緊密相連，共同推動(dòng)智能變革的新潮流。

消息來源：至頂網(wǎng)