当前位置: 首页 >>创业指南

《魷魚遊戲》新季首播表現不如人意 相關韓股周五大幅下跌

   发布时间:2025-07-05 07:11:46   发布者:更姓改物網

多語言處理能力:雖然當前版本暫不支持多模態輸入輸出,但在多語言處理方麵表現出色,尤其在算法代碼和數學方麵。

答案生成速度更快答案生成速度更快

另外,在多項基準測試中,DeepSeek-V3的成績超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

其中,在數學能力方麵,DeepSeek-V3大幅超過了所有開源閉源模型。(小K注:以2024年美國數學競賽和全國高中數學聯賽題庫進行測試)

值得注意的是,幻方量化在已開源的論文中強調其訓練成本極低——通過對算法、框架和硬件的優化協同設計,假設H800GPU的租用價格為每塊GPU2美元/小時,DeepSeek-V3的全部訓練成本總計僅為557.6萬美元(注:該成本僅包括DeepSeek-V3的正式訓練,不包括與先前在架構、算法或數據上的研究和消融實驗相關的成本):

訓練成本合計訓練成本合計

在預訓練階段,模型每訓練1萬億token僅需要180K個GPU小時,即在配備2048個GPU的集群上隻需3.7天,也就是說,該階段團隊使用2048塊H800 GPU訓練了模型不到2個月便達成目標;

另外,加上上下文長度scaling所需的119K GPU小時和後訓練的5K GPU小時,DeepSeek-V3完整訓練僅消耗2.788M個GPU小時。

圖源:開源論文圖源:開源論文

技術大牛Andrej Karpathy發文稱讚道:作為參考,要達到這種級別的能力,通常需要約1.6萬個GPU的計算集群。不僅如此,當前業界正在部署的集群規模甚至已經達到了10萬個GPU。比如,Llama 3 405B消耗了3080萬GPU小時,而看起來更強大的DeepSeek-V3卻隻用了280萬GPU小時(計算量減少了約11倍)。(小K注:Karpathy是OpenAI的聯合創始人之一,並且曾擔任特斯拉的AI總監)

Stability AI前CEO表示,以每秒60個token(相當於人類閱讀速度5倍)的速度全天候運行DeepSeek-V3,每天僅需要2美元。

API服務定價上調2倍有餘

DeepSeek-V3的發布標誌著DeepSeek AI在自然語言處理和AI領域的又一重要進步,預計將為開發者、企業和研究人員提供強大的工具和資源。其應用場景主要包括:

聊天和編碼場景:為開發者設計,能夠理解和生成代碼,提高編程效率。

Tags:

推荐文章