中國首個出海的AI頂級論壇來到新加坡，大模型迎來高光時刻

2023年08月23日 • 4104次閱讀

「DecodingTrust」研究發現，儘管 GPT-4 在標準基準測試中通常比 GPT-3.5 更可信，但在越獄系統或用戶提示的情況下更容易受到攻擊，背後原因可能是因為 GPT-4 更加準確地遵循（誤導的）指令。李博認為，AI 系統的安全性並沒有單一的解決方案可以解決所有問題，需要多方持續地關注。

李博遠程演講中

南洋理工大學副教授張含望帶來了以《視覺識別中的因果關係》為主題的演講。他認為，對於當前的大模型來說，如果想要真正突破一些最底層邏輯上的問題，因果關係（Causality）是一條必經之路。

張含望表示，在多模態模型或大語言模型的研究中，偏差（bias）是常見問題。隨著模型規模的不斷擴大，它可能會越來越智能，但偏差問題依舊存在。這就意味著，若不把因果關係加上去，大模型只是在進行強行關聯。如果幸運，模型在回答問題時能夠給出正確答案，否則就會「胡說八道」。這是因為它背後的關聯本身就是錯誤的，把共生關係當成了因果關係。張含望還更進一步地指出，共生不等於因果，經常發生的事情不一定是因果關係。

對此，他給出的建議是，做多模態模型的過程中，一方面一定要多關注「等變性」，因為「可拆解性」可以通過數據量堆疊，「等變性」不可以；另一方面，目前，多模態之間互通的瓶頸在於非語言模態（例如圖像）的spatial tokens和語言分布差的太遠。他認為，語言的本質是可遞歸的符號系統，這也是大語言模型可以推理的基礎。所以，如果想得到真正的多模態大模型，就必須找到一種「可遞歸，可拆解的」的tokenization的方法，把非語言模態轉成「可遞歸分布」的token。

張含望演講中

嚴睿在 GAIR 2023 的演講中主要介紹了大模型的發展歷程，以及大模型所對應的新特性與背後對應的新技術。此外，介紹了將大模型能力與對話式人工智慧相結合的研究點，探討了一些現有的技術發展路線與可能存在的技術挑戰。最後介紹了一下人民大學推出的玉蘭系列大模型，包括RecAgent推薦仿真大模型，能在一定程度上解決數據匱乏與冷啟動問題，也有可能推廣到其他場景。

會後，嚴睿與現場觀眾對涉及到通用模型在專業領域應用的話題展開討論，嚴認為將開源模型進行微調以適應特定領域數據有一定效果，但研究尚處早期無確切定論。

嚴睿演講中 03

大模型時代的超級基建：降低成本和門檻，讓新科技革命發生

大會下午第二場進入「大模型時代超級基建」環節。過去數年間，AI領域應用落地曾一度乏善可陳。但在剛剛過去的幾個月，ChatGPT引爆了大模型的浪潮。儘管如此，當前的大語言模型的訓練然面臨諸多挑戰。基於此，GAIR大會首日設置「大模型時代的超級基建」，共同探討AI底層基礎設施相關話題。

過去數年，AI 模型的參數發生了極大變化。新加坡國立大學校長青年教授、潞晨科技創始人尤洋指出，從 2016 年至 2021 年 1 月，AI 模型的參數量是每 18 個月增長 40 倍；從 2018 年 1 月到 2021 年 1 月，AI 模型的參數量每 18 個月增長 340 倍。而相形之下，2016 年 1 月至 2021 年 1 月間，GPU 的計算增長速度每 18 個月僅增長了 1.7 倍。由此可見，訓練成本高、周期長，是當前大模型發展最需要克服的難題。

針對這一問題，尤洋提出了 Colossal-AI 系統，從高效內存系統、N 維並行系統和大規模優化三個層次出發，以實現同樣的設備條件下將數據移動的最小化，將 GPU 的吞吐量擴大至最高點。

尤洋還指出，現階段的模型參數量以 10 萬倍擴大、但層數增加不多，這或意味著：如今的 AI 發展可能不再是深度學習、而是進入了寬度學習時代。在模型變得更寬的情況下，面對大規模、長時間的 GPU 訓練任務，大模型訓練系統的核心將是如何實現 GPU 並行計算，以實現大模型訓練越快越省錢的目標。

尤洋演講中

如何用雲計算支撐大模型的發展？UCloud董事長兼CEO季昕華分享了以《中立雲服務助力AIGC的發展》為主題的演講。

季昕華認為，判斷一個大模型能不能做好主要有四個關鍵要素：一是資金密度；二是人才密度；三是數據密度；四是算力密度。

一家大模型公司如果沒有一個億美金，那基本上壓力就會比較大。因此，大模型被稱為是網際網路的重工業。除資金以外，大模型的訓練需要大量的科學家人才、數據、算力。

而UCloud主要做的就是大模型最下面的基礎設施。季昕華提到，目前，國內有139家公司在做大模型，其中五六十家都是由UCloud支撐和支持。所以，他們對整個模型過程中的技術要求非常清楚，也看到了大模型目前發展階段在技術上所遇到的挑戰，包括功耗、存儲、網絡等。

季昕華演講中

匯智智能聯合創始人劉黃驍烈在演講中介紹了當前大模型技術的主要應用場景。他表示，目前，大模型技術應用場景可以分成優化交互、輔助工作、素材製作三個方向。他還指出，這三個方向主要落在輔助用戶，幫助用戶去提效上，並不能替代人工。

在實踐過程中，他發現對於沒有AI專業背景的用戶使用大模型，常常會出現翻車現象。這種情況下，大模型對他們工作的提效就是負的。

在用戶眼裡，現在的大模型就像是一套擁有超能力的鋼鐵盔甲，用戶期待穿上這套盔甲以後，立馬就能飛起來、發射雷射炮……但現實是，現在大多數用戶的問題是：不知道如何去操作這套擁有超能力的鋼鐵盔甲，以及面對不同種類型的盔甲，應該如何選擇？

劉黃驍烈把當前用戶面對的大模型時的困境，歸納總結叫做「GNOMIC困境」，六個字母分別對應的是 Guide（指導）、 Notarize（公正）、Operate（操作）、Measure（衡量）、Identify（區別）、 Catelog（推介）。

基於以上分析，匯智智能推出如下產品和服務：AIGC開源社區微言大義——解決「GNOMIC困境」的一個全量的解決方案。通過智能體的概念把大語言模型封裝成一系列，用戶能夠更好地感知行業案例。

劉黃驍烈演講中 Zilliz創始人兼CEO星爵指出，過去十年，受限於研發成本和開發難度，全球僅有1%的人專注於AI領域的研發工作。但如今，有了大模型和向量資料庫作為能力基座，一個AI 應用的開發僅僅需要兩三個工程師一個周末的時間便可完成。「忽如一夜春風來，千樹萬樹梨花開。」對於大模型，星爵如此評價道。

此外，星爵還強調了向量資料庫之於大模型的重要性。他認為，向量資料庫承擔著大模型數據片外存儲的重任，不管是圖片、視頻語言還是生物學中蛋白質的三維結構，都可以用向量的方式表征它的語義。

針對數據實時性和私域專有數據的問題，星爵表示，學術界和工業界存在兩種解決方案，一是通過Fine tuning的方式疊代演進，讓大模型學到更多知識；二是通過Vector search方法，把最新的或私域知識存到向量資料庫中，需要時再在向量資料庫中做基於語義的向量檢索。上述兩種方法都能為大模型提供更加精準的答案。

不過，星爵也坦言，從成本角度出發，向量資料庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發者使用向量檢索的方式做知識庫管理，以便和模型有一個更好交互，降低落地使用成本的同時，提升在業務中的實際效果。

星爵演講中

在演講過後的圓桌論壇環節，雲啟資本合伙人陳昱與尤洋、季昕華、星爵三位嘉賓共同討論了當下備受關注的熱門話題，包括大模型基礎設施建設面臨的挑戰、如何降低大模型訓練成本等。

針對大模型基礎設施建設面臨的挑戰：尤洋認為，通信基礎設施非常重要。比如，英偉達收購Mellanox的目的就是為了打造高速網絡。過去，挖礦等一些非AI需求的GPU就沒有很好的高速互聯。季昕華在此前演講中已經提到大模型面臨的挑戰。

在圓桌環節，他進一步解釋強調，資金方面，大模型的訓練需要大量的資金投入；算力方面，現在大部分的公司都沒有足夠的卡來做支撐；工程方面，數據存儲性能問題，以及整個訓練過程掉卡問題，都會使得整個訓練周期會變得非常長。

星爵則強調了數據方面的問題。他表示，世界上有 80% 以上的數據都是非結構化的數據。過去十多年，非結構化數據的管理能力主要由谷歌、微軟等大公司掌握。星爵表示，新AI時代對數據管理的要求也會變得更大，如何更好地做好數據基建，這對大家都是很大的挑戰。

針對業內非常關心的成本問題，幾位嘉賓也都給出了相應的觀點。尤洋表示，大模型訓練的一個巨大負擔是訓練計算量太大。對此，他給出了三種解決方案：一是不改變硬體條件下試試能否加速收斂；二是，針對下層軟體，在不改變模型結果前提下，能否提供更好的基礎設施；三是能否進行模型優化。

季昕華表示，優刻得主要通過五個方面幫助客戶降低成本。一是降低電費。不論做訓練還是推理，電費大約占總成本的15%左右，優刻得烏蘭察布數據中心能夠把電費單價從1塊錢/度降低到3毛錢/度；二是化購買為租用。由於訓練一般分階段，因此公司可以選擇租用模式。比起購買，租用會極大降低使用者的成本；三是通過網絡帶寬和存儲帶寬來提高使用者的訓練效率；四是通過壓縮模型等手段，來降低推理成本。畢竟，未來推理成本可能會遠大於訓練成本；五是通過一體機的模式，即私有部署的模式推進私有化大模型。

星爵表示，就降低成本而言，從向量資料庫角度來看，主要包括三方面：第一，要有更好的算法；第二，要更聰明地利用個體存儲；第三，要比以往有更強的有效利用硬體的能力。