DeepSeek:中國AI新勢力崛起,挑戰美國科技巨頭
最近,deepseek v3和r1的橫空出世,引發了美國ai研究人員、創業者和投資者的關注熱潮,其影響力堪比2022年末chatgpt的發佈。deepseek r1憑藉完全開源的特性(huggingface平臺可免費下載模型進行本地推理)和極低的價格(僅爲openai同類產品的百分之一),在短短五天內便登頂美國區apple appstore排行榜。
這家由中國量化公司孵化的AI公司,其崛起之路究竟充滿了哪些傳奇色彩?
DeepSeek的起源
我最早在2021年聽說DeepSeek,當時在阿里巴巴達摩院工作,隔壁組一位天才少女——北大碩士羅福莉,在發表了8篇ACL論文後,加入了幻方量化。這一舉動引發了大家的廣泛猜測:盈利豐厚的量化公司爲何需要AI人才?難道是爲了發表論文?
據我瞭解,幻方最初的AI研究人員多是各自獨立進行前沿探索,核心方向是大語言模型(LLM)和文生圖模型(當時以OpenAI的Dall-E爲代表)。
2022年末,ChatGPT的出現成爲催化劑,幻方開始大規模吸納頂級AI人才(主要來自清華和北大),最終促使幻方CEO梁文鋒決定進軍通用人工智能領域:“我們成立了一家新公司,從語言大模型起步,未來還會拓展到視覺等領域。”
這家新公司正是DeepSeek。2023年初,國內湧現出一批AI公司,DeepSeek卻相對低調。由於缺乏明星創始人和市場融資,幻方最終決定全資支持DeepSeek的研發。在當時競爭激烈的環境下,DeepSeek難以獲得獨立融資,原因在於其團隊成員多爲剛畢業的博士,缺乏知名度高的資深研究人員,且資本回報週期較長。
在喧囂的市場環境中,DeepSeek默默耕耘,取得了一系列突破:
- 2023年11月:發佈DeepSeek LLM,參數規模達670億,性能接近GPT-4。
- 2024年5月:DeepSeek-V2正式上線。
- 2024年12月:DeepSeek-V3發佈,基準測試結果顯示其性能超越Llama 3.1和Qwen 2.5,與GPT-4o和Claude 3.5 Sonnet不相上下,引發業界廣泛關注。
- 2025年1月:發佈首個具備推理能力的大模型DeepSeek-R1,其低廉的價格(不到OpenAI同類產品百分之一)和卓越的性能,震驚全球科技界,中國AI力量的崛起已不容忽視:開源,永遠是勝利者!
DeepSeek的人才戰略
我早期認識一些DeepSeek的AIGC方向研究人員,包括Janus和DreamCraft3D的作者,以及幫助我優化論文的@xingchaoliu。
我發現,這些研究人員大多非常年輕,大部分是博士生或畢業三年內的年輕學者。
他們主要來自北京地區,擁有深厚的學術背景,大多發表過3-5篇頂會論文。
我曾向DeepSeek的朋友詢問梁文鋒爲何只招聘年輕人的原因,他們轉述了梁文鋒的觀點:DeepSeek的成功祕訣在於“年輕天才”,他們能夠與財力雄厚的美國巨頭競爭。
與其他中國AI初創公司傾向於招聘資深研究人員不同,DeepSeek更看重潛力,而非經驗。梁文鋒表示,長期項目中,經驗並非最重要的因素,基礎能力、創造力和熱情更關鍵。“我們能自己培養世界頂尖AI人才。”
這種“幼狼戰略”與OpenAI早期策略類似,OpenAI也曾聘用許多年輕有潛力的研究人員。
梁文鋒正是借鑑了OpenAI的成功經驗,並以更快的速度取得了成果。
DeepSeek R1的爭議與影響
DeepSeek R1的優異性能也引發了一些質疑:
- MoE技術:其對訓練數據和算力要求極高,引發了關於其是否使用OpenAI數據的猜測。
- 強化學習:強化學習對硬件要求很高,而DeepSeek僅使用2048張H800進行訓練,與Meta和OpenAI的萬卡集羣相比差距巨大。
儘管存在爭議,DeepSeek R1的創新性依然令人矚目。其低成本的成功,引發了全球投資者的關注,也促使人們重新審視美國科技霸權。
多位業界知名人士對DeepSeek R1給予了高度評價。
Argo與DeepSeek的合作
作爲Argo的技術開發者和AIGC研究者,我將Argo的重要功能與DeepSeek R1進行了整合,並選擇放棄昂貴的OpenAI模型,以降低成本。未來,Argo將與DeepSeek開展更深入的合作,包括模型的本地化和技術交流。
總而言之,DeepSeek的崛起標誌着中國AI力量的崛起,其成功經驗值得借鑑和學習。
以上就是起底 DeepSeek,爲什麼 DeepSeek 偏愛沒有工作履歷的年輕人?的詳細內容,更多請關注本站其它相關文章!