deepseek初步觀察與思考

Vincent Ko
9 min readJan 28, 2025

--

最近一直被threads搞,他吃了我留言兩次,讓我昨天浪費兩個小時打的心得直接不見,我決定之後重要的心得、思考等內容都放在medium,這樣安全很多,恨祖克柏,恨threads,重要的思考應該放在重要的地方,就是這裡啦。

我好像從去年9月以來就沒有認真經營這裡,本來說要在這裡更新在歐洲的心得,但是過去一個月多了(從12/26到現在已經30多天)都沒有在這裡更新文章,都是在threads上面打字,但是現在發現脆上面的不確定性真的太高了,還是在這裡安全一些,而且我離開的這段時間有很多人收藏按讚了我的舊文章,這讓我蠻欣慰的,希望我的內容對有些人來說是有用的,這種反饋讓我很心滿意足。

總之現在deepseek沸沸揚揚,我來把我今天早上又浪費很多時間打的文字放在這裡,之後才比較容易找到。之後我應該也會積極更新這裡,希望不要再被meta系列的文章搞,我真的受夠了,吃我留言、找不到我過去的內容,以前的內容忽然被系統刪除,到底在搞啥?氣死。

現在來看,deepseek的東西確實是技術上可行,各實驗室也在積極重現他們論文中提出的框架是否能夠達成號稱的baseline,所以確實可以等其他歐美實驗室的結果在進行評斷。如果西方國家成功再現的話,你就可以得到一個會回答你天安門廣場事件的llm,如果發現技術上不可行的話就可以回去罵deepseek亂搞,或者他們技術沒問題但在數據來源上動了手腳來衝高他們的測評結果,這兩個方向都很棒啊。

如果deepseek敢把技術細節寫出來的話,代表他們有足夠的自信認為這技術是可行且領先的,這樣的話censor掉敏感詞彙不過就是他們得符合中共的政策而已。而且屏蔽有害輸出這件事情每個商用的llm都會做,只是中共模型除了基本的種族歧視殺人放火教學以外多了個政治敏感議題,確實觀感很差,但不應該是在追逐技術成長時需要過度被關注的內容。

黑神話悟空 CEO 馮驥 : DeepSeek 是國運等級的科技成果

(以下為他的微博內容)

V3 已經用了一個月,但 R1 僅僅用了 5 天,不得不來發這條微博。先講一句暴論:DeepSeek,可能是個國運級別的科技成果。

為了講清楚這個成果有多驚人,我打個比方:如果有一個 AI 大模型做到了以下的任何一條,都是超級了不起的突破 — —

1、強大。比肩 O1 的推理能力,暫時沒有之一

2、便宜。參數少,訓練開銷與使用費用小了一個數量級

3、開源。任何人均可自行下載與部署,提供論文詳細說明訓練步驟與竅門,甚至提供了可以運行在手機上的 mini 模型。

4、免費。官方目前提供的服務完全免費,任何人隨時隨地可用。

5、聯網。暫時唯一支持聯網搜索的推理模型(o1 還不支持)

6、本土。深度求索是一家很小規模的年輕中國公司,由沒有海外經歷甚至沒有資深從業經驗的本土團隊開發完成

上述六項,DeepSeek 一應俱全、同時做到。實在太六了,六到不真實。如果這都不值得歡呼,還有什麼值得歡呼?那麼,現在看到這條微博的你應該去做什麼呢?

fox.hsiao

5小時5小時前

1、請直接訪問: 網頁鏈接馬上用起來,也有移動 APP

2、大力使用,瘋狂使用,嘗試讓它基本取代傳統搜索。請想像您已經認識每個領域的頂尖專家,而且他們都是您隨時在線的好朋友,將所有可能需要”請教別人”的問題,都拿去先問它 — — 無論是構建一個複雜函數、弄清楚附近哪個游泳池最好、檢查合同裡的法律陷阱、讓新寫的歌詞再押韻點,或者幫父母確認某個保健品是否真的有效。

3、去看看別人是怎麼用的,去試試其他大模型,了解 AI 擅長什麼,不擅長什麼,如何調教,然後繼續解鎖與疊代屬於自己的用法與更多工具

希望 DeepSeek R1 會讓你對當前最先進的 AI 祛魅,讓 AI 逐漸變成你生活中的水和電。太幸運了!太開心了!這樣震撼的突破,來自一個純粹的中國公司。知識與資訊平等,至此又往前邁出了堅實的一步。

我的回覆:

前面的內容都很棒,但是call to action小怪,我不認為前面提到的技術創新會導致後續的「我們必須瘋狂使用它」的結論

1. deepseek「實際上」現在做到的事情,例如推理思考、網頁搜尋,一些agent行為等都有其他的平台有做到,絕大多數的用戶都是免費仔,而其他的平台所提供的服務或許比deepseek更好,所謂的好可能是整體回答品質,或者是被政治正確等偏見導致的偏誤,舉例來說我現在還是會偏向用perplexity做到網路搜索與整理這件事情,而deepseek應該會成為選項之一而不是直接取代原有的ai平台,畢竟那些科技業看起來重要的東西,成本降低有開源等等對一般民眾來說根本沒差。

2. 接續上文,我們可以嘗試用ai網路搜索來取代傳統搜索來得到嶄新的洞見,但也需要去注意輸出的真實性之類的,並不是所有的搜索用ai都更為適合。我們可以接受新科技,但也要注意潛在的風險

3. ai會一步步的參與、協助我們的生活,但deepseek的推出絕對不是讓人們從傳統紀元一步跳到ai紀元的重要轉折點。

(我真的要去讀西班牙文了,快被當了還在這邊發文)

很好的文章分享,雖然我平常不太喜歡他的悲觀嘴臉。

這幾天看到政治網紅對於DeepSeek的評論令人瞠目結舌,沒想到往下滑看到數發部次長的奇葩留言。

難怪有前輩跟我說過:通常想要往上爬,關係比實力更重要。

這些政治網紅對於完全不懂的領域,發文前也不做功課,反正就用政治腦跟自身立場來隨便胡謅一通,即便錯誤百出,流量卻遠比我看到的任何有關DeepSeek的技術文來的多。

幾點勘誤:

1. 「成本造假,2048片H800就不只550萬鎂」 是錯誤的講法

DeepSeek用2048片H800訓練兩個月,在計算訓練支出上都會用「租賃」或「時間攤提」來計算,因為這2048片H800在這兩個月後,鐵定會拿來訓練其他模型,硬體成本本來就是會攤提。

H800租賃價格可以到2~3美元/小時,2048片H800兩個月,差不多就是論文所說的550萬鎂沒有錯。

2. 「成本造假,沒計入計入資料清理、開發人力」

大部分的語言模型至多都只會公布訓練所需的運算成本,因為會同時開發很多模型,許多人力都是共用的,各國的薪資水準也都不一樣,並且清理後的資料也可以複用,而訓練的成本最簡單易算,也較不會有機密的問題。

OpenAI過去透露成本時也都以運算成本為主,DeepSeek沒有比較特別,最後DeepSeek在論文中也很清楚地提到550萬鎂是單純的『訓練成本』。

3. 「GPT-3訓練一次是1024顆A100,這都比目前DeepSeek的公開或外界推測成本更優秀。」

現在會拿『DeepSeek-V3 跟 GPT-4o』或『DeepSeek-R1 跟 GPT-o1』 對比訓練成本就是因為他們能力上相近,成本才有可比性。

GPT-3 跟 DeepSeek 的能力天差地遠,時間也差了三四年,拿這兩個放一起比訓練成本就是在呼攏不懂的人,這麼愛亂比,乾脆拿GPT-2來比算了。

4. DeepSeek 是場套膜騙局,證據是「問他是誰,他會說是ChatGPT」

如果DeepSeek沒有開源,那大多數人都會覺得是騙局沒錯,但問題是他開源了,還把過程與權重通通公開在網路上,想挑戰或揪錯可以,請拿程式碼或成果說話。

回ChatGPT僅能代表他的訓練資料中有ChatGPT參雜在內,這不意外,許多模型都會有類似問題。

同樣地,DeepSeek檔敏感詞就是因為伺服器在中國,你不滿意資安或敏感詞你可以自己架一個一模一樣的。Perplexity 就沒在跟你543的,自己架 DeepSeek 模型,簡單就解決資安或敏感詞的問題。

5. 混合專家架構(Mixture of Experts)是舊的方法毫無創新

講這個就是沒去看DeepSeek的原始論文,DeepSeek對於過去的混合專家架構有了不少改進,不然大家都知道有這個方法,怎麼只有DeepSeek弄出來?

DeepSeek證明了推理能力可以用強化學習(Reinforcement Learning)得來,同時還可以被蒸餾(distill)到更小的模型上,還改進了CUDA Kernel的運算方式,這不是單純用舊方法就跑出來的。

重點是他還開源,他們把過程中的know-how直接發表出來了。

我的回覆:

人生中第一次感覺到有那麼多人在我略有研究的領域大談是啥感覺
之前讀財金系看到其他人在談財金議題時,我都不具有足夠的思考能力來衡量各個言論的好壞
但現在對一個領域有研究之後才發現其他人看這個領域時的想法為何
就覺得 這啥啊(一直看)(我西文考是還沒準備)(台灣人新年快樂)

來自財金系大學長,恨財金恨台大恨得無法自拔的上台大便好快樂

【Deep】
持股被deepseek暴擊,fb也被deepseek洗版… 列幾個比較少看到有人在討論的點:
- 成本降低 不等於 應用爆發,現在C端除了chatbot以外的LLM應用一直半死不活,單純是有效需求不足,跟成本沒啥關係。
- 大部分的用戶需求在LLM出現前,SaaS就已經很飽和了,適合結合LLM的應用場景很有限,純LLM的幾乎沒有(chatbot除外)
- B端導入LLM的進度不如預期,主要是內部資料流不通暢,用了LLM也解決不了資料問題,跟成本無關。(最起碼關鍵不是LLM的訓練成本,而是導入成本 / 風報比)
- LLM 壓根就不是平台等級的創新,與其類比當年網路出現,顛覆原有生態,還不如類比成4G -> 5G(雖然這樣也不完全精確),只是既有功能的完善,而非顛覆。
- 自動化的關鍵是資料流,而不是智能;自動化不一定需要AI、用了AI也未必能自動化。
- 相信AI Agent會幫你點餐、掃地、打電話的,不是技術天才,就是智力障礙

回覆:我是智力障礙

我好像大一時很喜歡他但是大二時就封鎖他了,忘了從紅轉黑的契機是啥,但就是越來越討厭這種自詡精英然後貶低全世界的的人

(然後繼續做分析師的工作)

(慘)

沒人會看到這裡啦==

我這輩子已經得罪過夠多人了,嘻嘻

--

--

Vincent Ko
Vincent Ko

Written by Vincent Ko

又名為黑翅鳶羽札,2024年即將邁向大四,正在國泰銀行資訊部門實習,可能會帶來第一手GenAI相關知識。LLM、人工智慧、資料分析與處理;財金、管理、財金數據分析。

Responses (2)