您好，歡迎到訪!

沈向洋：大模型時代，中國人有機會創造下一個現象級程式語言

2024-11-23 01:31:27 1

作者 | 沈向洋

整理 | 《新程式設計師》編輯部

出品丨AI 科技大本營（ID：rgznai100）

在電腦科學 70 年的發展歷程中，只出現過不到十個真正的“現象級”程式語言——即擁有數百萬甚至上千萬使用者的語言。每一個時代的技術變革，都會催生出相應的主導語言：大型機時代的 Fortran、作業系統時代的 C/C++、網際網路時代的 Java，以及雲端計算與資料科學時代的 Python。

如今，隨著以 ChatGPT 為代表的大模型技術引發新一輪技術革命，我們不禁要問：AI 時代會誕生怎樣的程式語言？GitHub Copilot 的主創 Alex Graveley 曾經指出，儘管 AI 正在改變程式碼的編寫方式，但真正適應 AI 時代特點的程式語言正規化還沒有出現。

11 月 22 日，在深圳舉辦的 2024 IDEA 大會上，IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋發表了題為《從技術突破到產業融合》的演講。在演講中，他提出以上的深邃思考，並指出了一個更值得注意的事實：“在過去所有廣受歡迎的程式語言中，還沒有一個是由中國開發者創造的。”

大模型浪潮爆發，這個歷史性的機遇正在到來。就像 C 語言與 Unix 系統的共生關係那樣，新時代的程式語言必將與 AI 技術產生深度融合。它不僅要能夠更好地表達 AI 的思維方式，還要能夠充分利用 AI 的能力來提升開發效率。這將是一個全新的賽道，中國開發者同樣有機會在這個領域做出開創性貢獻。

作為見證了多個技術時代變遷的資深科學家，沈向洋在演講中還分享了對 AI 時代技術創新的許多深刻思考：

“程式語言的變遷總是與技術革命相伴相生。就像 Unix 系統與 C 語言的關係，Web 伺服器與 Java 的關係那樣，AI 時代也必將催生新的程式設計正規化。”

“ChatGPT 展示了一種新的可能：當技術突破達到一定程度，可以跳過傳統的產品市場匹配(PMF)過程，直接實現技術市場匹配(TMF)。”

“從算力來看，未來十年 AI 的發展可能需要增長 100 萬倍的算力，遠超摩爾定律預言的 100 倍增長。”

“AI 正在改變科研方式。從「確定方向」（ARCH）到「選擇課題」（Search），再到「深入研究」（Research），每個環節都將被重塑。”

以下是沈向洋演講的主要內容，CSDN 精編整理了其中最引人深思的部分，歡迎在評論區分享您的真知灼見：

人工智慧發展的「三件套」

今天是 IDEA 研究院在深圳舉辦的第四屆 IDEA 大會。回顧發展歷程，三年前的第一屆大會上，IDEA 首次向公眾展示了研究院的工作成果。在第二屆大會上，我們邀請了李澤湘教授、徐揚生教授、高文教授等學界翹楚進行深入對話。值得一提的是，這些學者都是我 90 年代初赴美留學時最早結識的中國學者。三十年後我們能在深圳重聚，恰恰印證了深圳作為創新創業熱土的獨特魅力。

經過四年發展，IDEA 研究院已發展成擁有 7 個研究中心、約 45 0 名員工的科研機構。過去幾年，人工智慧的蓬勃發展讓整個行業充滿憧憬和期待。 在人工智慧發展程序中，“算力、演算法、資料”這「三件套」始終是核心要素。 接下來，我將從這三個方面，詳細分享自己的觀察和思考。

算力：從“摩爾定律”到“黃氏定律”

首先從算力說起。作為計算機領域的從業者，我們一直見證著整個計算行業過去四五十年來算力的不斷提升。早期有著名的摩爾定律，英特爾提出每 18 個月算力增長一倍。但在過去十幾年，隨著人工智慧特別是深度學習的發展，對算力的需求呈現出前所未有的增長態勢。

根據 EPOCH AI 的資料，每年最新的大模型對算力的需求都在以驚人的速度增長，年均增長率超過四倍。這個數字意味著什麼？如果按照這個增長速度，十年間算力需求的增長將達到驚人的 100 萬倍。相比之下，傳統的摩爾定律下 18 個月翻一倍的增長，十年也不過是 100 倍的增長。

這種算力需求的爆發式增長，使得 GPU 廠商英偉達成為了 IT 行業和人工智慧領域最成功的公司之一。英偉達已經從一家單純的硬體晶片供應商，轉變為整個行業的核心支柱。現在行業裡流傳著這樣一句話：“拿得到英偉達的卡，就成功了一半。”

讓我們看看具體的資料：2023 年英偉達最新產品 H100 的出貨量持續攀升，各大公司爭相採購。包括馬斯克最近就部署了一個擁有 10 萬張 H100 卡的大規模叢集。到 2024 年為止，微軟、谷歌、亞馬遜等科技巨頭都在大量採購 H100 晶片。

為什麼需要如此龐大的算力？這與大模型的發展密不可分。大模型不僅引數量巨大（從百億到千億，再到萬億引數），而且訓練所需的資料量也在不斷增長。更關鍵的是，要提升模型效能，對算力的需求會隨引數量呈平方關係增長。這就解釋了為什麼過去十年英偉達的市值能夠增長 300 倍，也說明了“算力就是生產力”這一論斷的深刻含義。

在人才招聘方面，算力資源已經成為一個重要指標。有些企業會以“千卡人才”、“百卡人才”來形容人才規模，真正頂尖的甚至被稱為“萬卡人才”。IDEA 研究院在深圳市政府的支援下，已經擁有了上千張顯示卡的算力儲備，在深圳算得上是“小土豪”級別的規模。

這種算力需求的變革被業界稱為從“摩爾定律”到“黃氏定律”的轉變。黃氏定律不僅體現在硬體算力的增長上，更重要的是反映了模型訓練對算力需求的指數級增長。未來十年的算力需求是否會繼續保持如此驚人的增長速度，這個問題值得我們持續關注和思考。

演算法：從“預訓練”到“強化學習”

在演算法方面，自 2017 年 Transformer 架構問世以來，人工智慧、深度學習和大模型的發展基本上都是沿著這個方向，透過堆資料和算力來推進。但在 GPT-4 之後，我們看到了演算法正規化的新突破。特別是 OpenAI 推出的新技術，包括多模態的 GPT-4V 以及最新的 o1 推理學習能力，展現了演算法創新的新方向。令人欣喜的是，近幾個月來，國內也有一些公司，包括初創企業在 o1 這個方向上取得了顯著進展。

這裡我想詳細介紹一下演算法突破的思路。在 o1 出現之前，大家談論的都是 GPT 系列，所有的工作都集中在預訓練上，核心任務就是預測“下一個token”。其中很重要的技術背景是對所有資料進行高效壓縮，使模型能夠快速給出答案，實現“一問即答”。

而現在的正規化變革引入了強化學習（Reinforcement Learning）的理念，模型具備了自我改善的能力。這種新方法的特點在於，它更接近人類的思考方式。不同於之前的快速思考模式，現在的模型在給出答案時會經歷後訓練、後推理的過程。這就像學生在解數學題時會先打草稿，驗證一條路徑是否正確，如果不對就回退嘗試另一條路徑。

雖然強化學習本身並不是一個新概念——比如幾年前 AlphaGo 就使用強化學習打敗了圍棋世界冠軍——但今天的創新在於它的通用性。過去的強化學習系統往往只能解決單一問題，而像 o1 這樣的新系統可以同時處理資料分析、程式設計、物理、化學等多個領域的問題。我認為，在未來幾年，沿著 Self-Reinforcement Learning (SRL) 這條道路，我們將看到更多令人驚豔的突破，期待 IDEA 研究院和國內的研究人員能在這個方向上有更多的思考和創新。

資料：從“存量”到“合成”

在討論資料之前，我已經提到大模型的蓬勃發展不僅依賴於引數規模的增長，還需要海量資料的支援。讓我和大家分享一些關於資料規模的具體資料。

三年前 GPT-3 釋出時，使用了 2T（2 萬億）的 token 資料。到了 GPT-4 時代，模型訓練使用的資料量增加到了 12T，在不斷訓練過程中可能達到了 20T。這個規模大致相當於目前網際網路上可獲取的優質資料總量。而未來如果 GPT-5 問世，按照我的估計，可能需要 200T 規模的資料。但問題在於，網際網路上已經很難找到如此龐大的優質資料。這就引出了一個新的研究方向：合成資料。

為了讓大家對這些資料規模有更直觀的認識，我舉幾個例子：1 萬億 token 的資料量大約相當於 500 萬本書，或 20 萬張高畫質照片，或 500 萬篇論文。從人類歷史的角度來看，至今為止創造的所有書籍大約包含 21 億 token，微博上有 38 億 token，而 Facebook 上約有 140T 的資料。不過社交媒體上的資料質量普遍不夠高，真正有價值的內容相對有限。

從個人維度來看，一個人讀完大學，真正學到的知識量大約是 0.00018T，相當於 1000 本書的內容。如果覺得自己還沒讀到這個量級，也許現在開始該多讀些書了。

有趣的是，ChatGPT 等 AI 模型的訓練資料主要來自網際網路。回顧網際網路發展的 40 年，人們熱衷於在網上分享資訊，現在看來，似乎是在為 GPT 的訓練做準備。AI 之所以如此智慧，很大程度上得益於我們貢獻的資料。這其中還有一個值得注意的現象：無論訓練哪種語言的 AI 模型，底層的高質量資料主要是英文的。這意味著在 AI 時代，英語的重要性可能會進一步加強，就像網際網路時代一樣。

既然網上的資料已接近極限，AI 的進一步發展就需要依靠合成資料，這可能催生新的百億美元級創業機會。

與 GPT 系列主要使用網際網路文字資料不同，新一代模型（如 o1）需要更強的邏輯性，這些資料在網上往往找不到。比如在程式設計領域，我們需要知道具體的步驟是如何一步步完成的。在 IDEA 研究院，在郭院長的帶領下，我們開展了高質量訓練資料的專案，為大模型持續提供新的“養分”。

我們的合成資料方法並非盲目生成，而是建立在嚴謹的方法論基礎上。我們首先建立語境圖譜，在此基礎上進行資料合成。這些合成資料經過大模型預訓練後，已經展現出很好的效果。

除此之外，我們還在探索另一個維度的問題：私域資料安全孤島。由於資料安全考慮，許多私域資料無法直接共享使用。為此，我們開發了 IDEA Data Maker，將這兩個方面結合起來，透過語境圖譜生成新的語料，解決過往文字資料合成方案的多樣性匱乏等問題。該技術為合成資料引入“指導手冊”，以圖譜為綱，指導用於合成的語境取樣。實驗結果顯示，IDEA 團隊的方案能持續為大模型帶來能力提升，表現超過目前的最佳實踐（SOTA）模型；從 token 消耗來看，平均節約成本 85.7%。目前，該技術內測平臺已開放，透過 API 提供服務。

大模型時代的機遇：從 PMF 到 TMF

在討論了 AI 發展的「三件套」之後，我想分享 IDEA 研究院近一年來的思考和實踐。特別是大模型蓬勃發展給我們帶來的機遇。

ChatGPT 的出現給我們帶來了深刻啟示——它在推出後僅用兩個月時間就吸引了全球 1 億使用者，成為一個令人矚目的技術現象。這種現象打破了我們對產品發展的傳統認知。在網際網路時代，我們常說 PMF（Product-Market Fit，產品市場匹配）。對這個概念的理解，我多次請教過美團的王慧文，在清華的一堂課上，他專門講解了 PMF 的內涵。

但 ChatGPT 的成功告訴我們，它實際上跳過了 PMF 的過程，直接實現了TMF（Technology-Market Fit，技術市場匹配）。當技術發展到一定程度，就可能實現這樣的跨越式突破。在 IDEA，我們天天在追求一些極致的技術，也在思考：如果有技術出來，是否可以一步到位？這當然是我們的期望，我們一直在朝這個方向努力。

順著 TMF 的思路，我想講一個最近我們特別關注的方向：計算機程式語言。作為一個學習計算機的人，我自己就編寫過十幾種不同的程式語言，在不同的階段做不同的專案時都會用到它們。

在這裡我想提出一個重要觀點：縱觀全球，有那麼多的程式語言，包括小語言、大語言、中型語言，但基本上沒有一個被廣泛使用的語言是由中國人發明、中國人創造的。這種現象是有機會改變的。

讓我給大家舉幾個例子，說明什麼是現象級的語言。在過去七八十年的電腦科學發展歷程中，出現過的現象級語言不超過十個。這裡的“現象級”是指至少有幾百萬、上千萬使用者在使用這個語言程式設計。比如早期的 Fortran，當時是和 IBM 大型機繫結的，做三角計算都要用 Fortran 語言。70 年代出現的 C 語言，是與 Unix 作業系統緊密相連的，甚至可以說 Unix 系統就是用 C 語言構建的。到了 90 年代網際網路興起時，我師兄開發的 Java 語言被大量程式設計師採用，主要用於開發 Web 伺服器。而在過去十幾年，Python 因為在科學計算方面的便利性，特別是在雲端計算平臺上的廣泛應用，成為主流語言。如果你問問自己的孩子在學什麼程式語言，大機率會是 Python。

那麼，在今天的大模型時代，會不會出現新的現象級語言？這個問題不是隻有我一個人在思考。比如說 GitHub Copilot 的創始人 Alex Graveley 就指出，AI 程式設計還沒有形成新的程式語言正規化。程式語言是最根本的技術創新方向之一。

有了語言之後，就需要探索大模型的技術創新方向。在大模型能力已經達到新高度的今天，一個關鍵問題是：我們如何將這種能力轉化為實際應用？在哪些場景中可以發揮其最大價值？

在所有的應用方向中，我特別要強調 AI For Science（科學智慧）的重要性。可以說，在當前階段，很難想象有什麼比 AI For Science 更重要的方向。如果我們要做人工智慧研究，一方面要全力推動大模型技術的落地，另一方面也要關注它在科學研究中的應用。

這讓我想起二十多年前在微軟亞洲研究院做過一個關於如何做科研、如何做學問的報告。我把科研工作分成了三個不同的層次：ARCH（確定方向）、Search（選擇課題）、Research（深入研究，一而再再而三地探索）。現在，我們希望 IDEA 的工作能為中國的科研人員、年輕學生在做科研時提供更好的支援。

從經濟增長到福祉實現

人工智慧的發展正在對社會產生深遠的影響。這個問題太重要了，需要我們認真思考。我們今天要討論的是 AI 治理問題，包括它對民眾的衝擊、對公司的衝擊、對監管的衝擊、對社會發展的衝擊。

人工智慧的影響究竟是如何發生的？八年前，人們還在討論社交媒體的影響，而今天我們必須要討論人工智慧的影響。過去十幾年的發展令人震驚：人類引以為傲的能力正在一個個被 AI 超越。下象棋、下圍棋就不必多說，現在AI在閱讀理解、影象識別和檢測等領域的能力都已經逐步超越人類。更令人震撼的是，這些能力的提升已經不是單點突破，而是通用人工智慧整體能力的提升，這使得人工智慧對社會的影響變得異常深遠。

現在，全球範圍內都在討論 AI 治理問題。我有幸在今年上海人工智慧大會上與我的導師瑞迪教授、布盧姆教授和姚期智教授一起討論這個議題。

從社會發展的角度來看，我們習慣用 GDP 來衡量發展水平。但 GDP 這個概念其實是很新的。在農業社會之前，根本不存在 GDP 增長的概念，因為人們連溫飽都難以解決。農業社會發展後，人們有了剩餘產能，但 GDP 年均增長仍然只有 0.1% 至 0.2%。到了工業社會，這個數字提升到 1% 至 2%。資訊社會的 GDP 年均增長達到了 3% 至 4%，這裡說的都是全球的大致數字。

那麼，在即將到來的 AI 社會，會發生什麼？一些經濟學家預測，隨著人工智慧數量超過人類數量，機器人數量急劇增加，生產效率將獲得巨大提升。在這樣的 AI 世界中，GDP 年均增長可能達到十幾個百分點。

這就帶來了一個根本性的問題：從 AI 帶來的經濟最大增長，能否實現人類的最大福祉？這是每一個從事技術研發、推動產業落地的人都必須思考的問題。對於在座的各位，特別是在 IDEA 研究院從事技術研發的同事們來說，在推動人工智慧發展的同時，這個問題值得我們深入思考。我的分享就到這裡，感謝大家的閱讀！

本文標籤沈向洋大模型時代中國人有機會創下一個現象程式語言

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。

歐洲為何在人工智慧領域落後於中美？

« 上一篇 2024-11-23

“官網訂間會議室只需2500美元”，聯合國成了小紅書博主製造“精英人設”的流水線工廠？

2024-11-23 下一篇 »

沈向洋：大模型時代，中國人有機會創造下一個現象級程式語言

最近發布

隨便看看

熱門標簽

關于我們

沈向洋：大模型時代，中國人有機會創造下一個現象級程式語言

相關文章

最近發布

隨便看看

熱門標簽

關于我們