您當前的位置：首頁 >> 聚焦 > >>

局中人談大模型：海選結(jié)束正賽開始

來源: 北京商報時間：2023-07-11 08:12:33

這可能是人工智能概念提出70年來，最魔幻的半年——上半段各路大神下場卡位，互聯(lián)網(wǎng)傳奇回歸，廣發(fā)英雄帖“搶人”；下半段潮水漸退，人們迅速意識到，大模型不是神，落地才是它的終極歸宿。

華為輪值董事長胡厚崑概括出了當下入局大模型的企業(yè)在做的兩件大事，做大模型以及做大模型在不同行業(yè)的應(yīng)用，所謂“AI for science，AI for industry”。拓爾思總裁施水才直言，大模型的較量已經(jīng)從比參數(shù)、拼算力、秀牛人過渡到了講落地、謀收入、求價值。

“局中人”那些分享里，有對大模型帶來革命性變革的興奮，也有對技術(shù)、安全、基礎(chǔ)設(shè)施等的冷靜思考。但這些并不妨礙諸多共識的達成，比如大模型絕不是一場華麗的煙花秀，它可能會重塑每一個行業(yè)，未來基礎(chǔ)大模型和行業(yè)大模型將實現(xiàn)錯位互補。

(資料圖片)

找行業(yè)，找場景，找價值，圍觀為期三天的世界人工智能大會，這一點變得越發(fā)明確。北京商報記者通過各種機會各種場合“對話局中人”，既為近距離觀察大模型提供了一個切口，也足以意識到，大模型“落入俗套”的開始，或許也正是人工智能真正賦能生產(chǎn)力的開始。

百度集團科技與社會研究中心主任余歡

做大模型不是為了“打榜”

ChatGPT剛推出的前幾個月，包括文心一言與大家見面的時候，人們確實存在各種各樣的甚至有些不切實際的期待。但經(jīng)歷了一段時期的發(fā)展，人們在嘗試將其落地的過程中，也發(fā)現(xiàn)一些原本認為大有可為的事情可能短期內(nèi)很難實現(xiàn)，于是逐漸放棄了一些不合理的幻想。這就回到了最現(xiàn)實也最原始的問題，即我們要拿大模型做什么以及能不能做成，這個過程自然“擠掉”了一些新技術(shù)剛出現(xiàn)時帶出的泡沫。

至于“買預(yù)期”的資本市場，本身就會存在一定的泡沫。任何一種新技術(shù)的出現(xiàn)都會伴隨泡沫的產(chǎn)生。泡沫代表著期待與未來，我們與其關(guān)注泡沫的大小，不如關(guān)注泡沫是會砰地一下爆炸，還是會逐漸收縮后實現(xiàn)良性發(fā)展。

從長期來看，這一波AI的確定性非常高，只是無法一蹴而就的跨越式發(fā)展，一些場景的落地可能還需要更長時間的打磨。事實上，大模型的to B產(chǎn)業(yè)落地并不是那么功利性的，也不像C端應(yīng)用，會在極短時間內(nèi)膨脹成一個“爆款”。最重要的是，我們要給大模型更多的耐心，給它一定的時間去發(fā)展。

雖然現(xiàn)在看起來大模型發(fā)展飛速，但整體上來說還處于剛剛通過“預(yù)賽”階段。也就是說我們要在全球范圍內(nèi)參與競爭，首先要有上牌桌的能力，當下只能說是第一波海選結(jié)束了，一些選手突圍，可以參與后面更見實力的競爭了。

從這個意義上說，正賽階段可能也只是剛開始。以ChatGPT、文心一言為代表的大模型，只是通用人工智能這個大方向的一個起點，讓大家看到了一些可能性，即便是“中點”也相去甚遠，畢竟全球范圍內(nèi)AI原生應(yīng)用都尚未大規(guī)模落地。

下一個階段，拼的就是體系化的實力了。未來，作出千億級參數(shù)的模型可能并沒有那么高的門檻，但做大模型不只是為了比賽“打榜”，最終的目的仍然是要與產(chǎn)業(yè)相結(jié)合，這樣才能體現(xiàn)出價值。實現(xiàn)這一目標，要拼技術(shù)，但也不能只拼技術(shù)，更需要看行業(yè)理解、服務(wù)能力和生態(tài)繁榮度。

九章云極DataCanvas聯(lián)合創(chuàng)始人尚明棟

未來會有更多垂類模型落地并形成標桿示范

大模型的行業(yè)應(yīng)用落地正處于起步階段，這個階段既充滿了挑戰(zhàn)，又充滿了機遇。一方面，企業(yè)需要準備算力、數(shù)據(jù)以及基礎(chǔ)軟件設(shè)施的升級，以適應(yīng)大模型的需求；另一方面，大模型作為一種新事物，需要找到最容易體現(xiàn)其價值的業(yè)務(wù)場景結(jié)合點。

目前，大模型仍然面臨著算力成本高的問題。通識模型至少需要擁有千億參數(shù)規(guī)模以上，而垂類大模型的參數(shù)規(guī)模在70億-300億之間已經(jīng)足夠勝任。同時，隨著AI基礎(chǔ)軟件的算力調(diào)度和優(yōu)化以及訓(xùn)練數(shù)據(jù)集質(zhì)量的提升，大模型的訓(xùn)練、推理和管理成本正在逐步降低。

當我們真正將大模型的能力應(yīng)用于各行各業(yè)時，大模型必然已經(jīng)具備了低成本、便攜性以及自主可控等條件。垂類模型的行業(yè)落地需要一個快速嘗試、驗證、調(diào)整、再迭代的過程。未來的半年將會有更多與行業(yè)結(jié)合的場景落地，從而形成行業(yè)的標桿示范。

這些先行行業(yè)往往是那些已經(jīng)具備了一定小模型基礎(chǔ)的企業(yè)，因此在大模型時代可以更加緊湊地將模型與業(yè)務(wù)結(jié)合起來，加速迭代過程。如果說0-1階段是像小馬過河般的探索階段，那么基于現(xiàn)有的數(shù)據(jù)、算力以及AI基礎(chǔ)軟件等基礎(chǔ)設(shè)施，1-10階段將會是一個更加快速的普及過程。

云天勵飛副總裁、AI技術(shù)平臺總經(jīng)理肖嶸

可以考慮制定評測標準考驗大模型“三觀”

傳統(tǒng)的模型是訓(xùn)練一個模型只能做一件事，但生成式模型的特點是可以做通用性的應(yīng)用，優(yōu)點是通用，缺點就是準確性偏低，所以也就造成了生成式模型“幻覺”等情況的出現(xiàn)。

而且大模型的邏輯性也很弱，這就導(dǎo)致大模型在文生圖、翻譯、會議摘要等對準確性要求不高的場景中展現(xiàn)的能力還不錯，但在一些對精度要求比較高的場景，如決策等方面的能力，依然還比較有限。

這就需要解決四個問題。首先是事實確認和引用，需要確保事實能夠有效溯源。第二是工具的使用和外部知識整合，讓語言模型知道什么時候調(diào)用什么樣的工具、怎樣調(diào)用工具、返回結(jié)果后又怎樣整合到回復(fù)中。第三是邏輯推理，我們需要研究是否有更系統(tǒng)性的方法針對性地提升這方面能力。

第四就是持續(xù)學(xué)習(xí)，現(xiàn)在大模型結(jié)束一輪對話后，再開啟新的對話，可能就會遺忘之前的內(nèi)容。這種遺忘更多不是技術(shù)上要求的必須遺忘，而是我們并沒有很好地解決這種學(xué)習(xí)問題，仍要擔(dān)心大模型被“帶跑偏”。但其實學(xué)習(xí)能力是很重要的一件事，如果在一個新的問題上，通用智能的能力與人類還差一大截，那一定不能稱為真正的智能。所以大模型就需要擁有持續(xù)學(xué)習(xí)的能力，并且能夠在場景中提升這種能力，最終趕上人類或者超過人類，才能使模型真正具有價值。

而且大模型也會存在一定的安全問題，我們在訓(xùn)練模型后，這些數(shù)據(jù)都有泄露的風(fēng)險。而且大模型在學(xué)習(xí)的過程中，如果“喂”的數(shù)據(jù)帶有偏見，大模型也會對此進行吸收，進而形成自己的世界觀、價值觀，如果數(shù)據(jù)有問題的話，學(xué)出來的東西自然就是有問題的。為了解決這種安全問題，可以考慮通過制定評測標準、設(shè)置準入機制等，去考驗大模型的“三觀”是否有害。

英偉達中國區(qū)首席技術(shù)官賴俊杰

整體能耗將節(jié)省更多

過去6-10個月，我們觀察到全球數(shù)據(jù)中心在計算問題上呈現(xiàn)出了兩個重要的趨勢，第一是以ChatGPT為代表的應(yīng)用大大提升了人們對人機交互能達到的高度的期待，并在全球產(chǎn)學(xué)研等領(lǐng)域引發(fā)了巨大浪潮，也引發(fā)了人們對于通用人工智能更多的思考和討論。

第二點就是很多大型公司，特別是大型互聯(lián)網(wǎng)公司，在面對越來越多的業(yè)務(wù)需求、用戶請求時，逐漸遭遇功耗瓶頸。也就是說數(shù)據(jù)中心計算任務(wù)里面，人工智能大模型、AIGC應(yīng)用占比越來越高，對算力的要求也日漸提升，而算力也在一定程度上意味著更多能耗的投入。

針對第二個趨勢，英偉達認為，在支撐同樣多用戶請求的前提下，如果能夠?qū)⒏嗳蝿?wù)負載從CPU移植到GPU上，整體能耗將會節(jié)省很多。

當然這也不意味著GPU適合所有類型的工作負載。GPU設(shè)計之初主要面向并發(fā)度比較高或者計算密集度比較高的并行類應(yīng)用程序，我們?nèi)匀恍枰肅PU去進行一般問題的解決。而且最近還出現(xiàn)一種趨勢，即為了能夠讓CPU、GPU不同類型處理器之間高效且安全地傳輸數(shù)據(jù)，數(shù)據(jù)中心內(nèi)部還需要一類新的處理器DPU。

以前程序員在程序設(shè)計的時候，大多數(shù)時候只是抽象出一臺計算機，擴充編程目標更多面向的一個CPU。但隨著人工智能、機器學(xué)習(xí)，特別是大模型在不同行業(yè)的應(yīng)用，程序員在做分布式訓(xùn)練等任務(wù)的時候，要考慮的就不僅僅是一臺計算機或者一顆CPU那么簡單，而是要考慮整個數(shù)據(jù)中心如何高效利用起來，也就是說，數(shù)據(jù)中心越來越成為新的計算單元。

螞蟻集團機器智能部副總經(jīng)理、螞蟻安全天筭實驗室主任張?zhí)煲?/p>

大模型的風(fēng)險解決沒有靈丹妙藥

大模型帶來的長遠價值已經(jīng)成為一種共識，在算力、數(shù)據(jù)等方面，一些大公司可能會有先發(fā)優(yōu)勢，但大模型同時帶來的也是全生態(tài)的機會，一些很小的企業(yè)也可能在下游應(yīng)用上迅速打開局面。在這種背景下，未來做大模型的門檻可能更需要從風(fēng)險和風(fēng)控的角度來理解。

大模型更廣泛的應(yīng)用帶來了很多風(fēng)險隱患，比如內(nèi)容安全、隱私、合規(guī)、倫理等難以界定的問題，一旦一個廠商提供這樣深層次的內(nèi)容服務(wù)時，必然會在行業(yè)自律或者監(jiān)管角度面臨更高要求，也就是說風(fēng)險自律及本身可控生成的能力，會成為未來大模型實力水平很重要的門檻。

具體而言，大模型的風(fēng)險可以劃分為三類，第一是技術(shù)類風(fēng)險，模型本身是否會被攻擊、突破和劫持；第二是產(chǎn)業(yè)風(fēng)險，是否會帶來壟斷和勞動替代；第三是社會內(nèi)容類風(fēng)險。

大模型的風(fēng)險要如何解決，這不是一顆靈丹妙藥就能立刻解決的問題，而是一個長期對抗和博弈發(fā)展的過程。一個例子是，現(xiàn)在安全行業(yè)有一個很直接的應(yīng)用，就是利用大模型來對抗更多大模型當中的風(fēng)險，這可能也會是一個用魔法打敗魔法的必然方向。

北京商報記者楊月涵/文張笑嫣/攝

標簽：

上一篇：姚明一家現(xiàn)身云南，姚媽媽拄拐杖一頭白發(fā)，13歲姚沁蕾身高猛長

下一篇：最后一頁

精彩推送