鋼鐵行業(yè)需要什么樣的大模型？

2023-11-14 10:10:00

中國冶金報(bào) 中國鋼鐵新聞網(wǎng)

記者樊三彩報(bào)道

　　繼ChatGPT大模型后，國內(nèi)智譜AI的ChatGLM、百度的文心一言、科大訊飛的星火等國產(chǎn)大模型如雨后春筍般涌現(xiàn)，被稱為“百模大戰(zhàn)”。在它背后，不僅是各家技術(shù)實(shí)力的比拼，也是應(yīng)用場景落地能力的較量。令市場狂熱的大模型究竟有何魔力？當(dāng)鋼鐵行業(yè)遇見大模型，又會(huì)碰撞出怎樣的火花？近日，《中國冶金報(bào)》記者專訪了智譜AI CEO張鵬，圍繞當(dāng)前的“大模型熱”進(jìn)行了對(duì)話。

　　智譜AI于2019年由清華大學(xué)計(jì)算機(jī)系技術(shù)成果轉(zhuǎn)化而成立，于次年便開始了GLM預(yù)訓(xùn)練架構(gòu)的研發(fā)，是國內(nèi)最早從事大模型相關(guān)研究的機(jī)構(gòu)之一。“面對(duì)‘大模型熱’，如果用一個(gè)詞來形容我的想法，那就是篤信?！睆堸i指出，“信”當(dāng)然就是相信這件事情，大模型一定是通往AGI（通用人工智能）的必經(jīng)之路，能創(chuàng)造更大的價(jià)值；“篤”是一種踏實(shí)、審慎的態(tài)度，相信是基于對(duì)這件事情的理解和鉆研，而不是狂熱、沒有根基的。

　　從紙上談兵到實(shí)踐躬行，大模型為什么這么“熱”？

　　大模型的起源可以追溯到2017年，Transformer算法架構(gòu)的誕生，開啟了大模型演化的歷史進(jìn)程。雖然在接下來的幾年內(nèi)，BERT、GPT-1、GPT-2也先后出現(xiàn)，甚至BERT在十多個(gè)自然語言理解任務(wù)上大大超過傳統(tǒng)算法的精度，但依舊沒有在業(yè)界引起太多的火花，直至2020年的到來。“這一年是大模型元年?！睆堸i表示。

　　GPT-3的問世大大提高了模型的內(nèi)容生成和邏輯推理能力，它在上下文學(xué)習(xí)和知識(shí)（常識(shí)）理解等方面展現(xiàn)出驚人能力。隨后在全球范圍內(nèi)掀起了一股基礎(chǔ)模型研究的熱潮，國外如 Meta、微軟、谷歌等，國內(nèi)如清華大學(xué)、北京智源人工智能研究院、百度、華為、阿里巴巴、智譜AI等，都競相追趕，提出包括Gopher、Chinchilla、PaLM、GLM-130B等在內(nèi)的多個(gè)千億元級(jí)模型。

　　然而，復(fù)雜的研發(fā)技術(shù)以及高昂的訓(xùn)練成本，也讓不少人望而卻步。在當(dāng)時(shí)，并不是所有人都能夠看清技術(shù)發(fā)展脈絡(luò)，而大模型對(duì)資金投入的要求很高，貿(mào)然投入風(fēng)險(xiǎn)頗大?！爱?dāng)時(shí)，我們邀請(qǐng)了一些學(xué)界的教授對(duì)未來技術(shù)的演進(jìn)方向進(jìn)行研討，大家都認(rèn)為這是大模型到達(dá)了一個(gè)臨界點(diǎn)的信號(hào)，AI開始真正進(jìn)入了可用階段。但是我們?cè)趯ふ宜懔?、模型工程問題等方面遇到了很多困難，最后猶豫了很久才決定all in（全部投入）大模型，開始自研算法框架?！睆堸i表示。

　　直至2022年底，ChatGPT發(fā)布才真的激起了“百模大戰(zhàn)”的開始，與過往的機(jī)器學(xué)習(xí)技術(shù)不同，ChatGPT不再是枯燥的技術(shù)理論，它能夠在各領(lǐng)域的應(yīng)用場景反復(fù)驗(yàn)證，人們才真正感受到大模型“智能涌現(xiàn)”的魅力。ChatGPT實(shí)現(xiàn)全球用戶破億僅用了短短兩個(gè)月，而電話用戶破億用了75年，手機(jī)用了16年，網(wǎng)站用了7年，此前用戶增長最快的應(yīng)用TikTok也用了9個(gè)月。

　　百家爭鳴、百花齊放，對(duì)“大模型熱”要注意什么？

　　ChatGPT的發(fā)布激發(fā)了更多機(jī)構(gòu)和公司的研發(fā)斗志和熱情，眾多資本紛紛投入到大模型研發(fā)的藍(lán)海之中，相關(guān)部門也關(guān)注到了這一重要的技術(shù)創(chuàng)新，給予了非常多的政策支持，進(jìn)一步促進(jìn)了大模型的研發(fā)和優(yōu)化升級(jí)，形成了“百家爭鳴、百花齊放”的科技發(fā)展新態(tài)勢。這也讓已經(jīng)積累了兩年技術(shù)實(shí)力的智譜AI從幕后走到了臺(tái)前。

　　但面對(duì)“大模型熱”絕不能盲目。大模型的開發(fā)和應(yīng)用雖然會(huì)助推產(chǎn)業(yè)和經(jīng)濟(jì)發(fā)展，但如果不加以合理管控，也會(huì)給產(chǎn)業(yè)安全帶來風(fēng)險(xiǎn)。一方面是芯片的“卡脖子”問題。算力是大模型的基礎(chǔ)之一，如何保證算力的持續(xù)穩(wěn)定供應(yīng)是產(chǎn)業(yè)安全必須關(guān)注的問題。另一方面，產(chǎn)業(yè)所使用的基座模型是否安全可控也是一個(gè)重要的問題。模型的訓(xùn)練數(shù)據(jù)是否安全合規(guī)，模型是否自主可控，會(huì)不會(huì)像“芯片進(jìn)口”一樣遇到各種限制？這些都是影響產(chǎn)業(yè)長遠(yuǎn)發(fā)展的重要問題。

　　面對(duì)風(fēng)險(xiǎn)挑戰(zhàn)，張鵬指出，作為一家創(chuàng)業(yè)公司，做大語言模型要有很大的決心，除了研究層面上的挑戰(zhàn)，還有模型訓(xùn)練工程層面上涉及到的資源投入、團(tuán)隊(duì)、訓(xùn)練數(shù)據(jù)等一系列的事情。在芯片問題上，智譜AI在研發(fā)之初便制訂了國產(chǎn)硬件適配計(jì)劃，目前已經(jīng)與十余家國產(chǎn)芯片廠商合作，希望可以在全方位適配的同時(shí)，提升模型在國產(chǎn)硬件上的訓(xùn)練推理效率。此外，智譜AI也選擇了從底層算法開始自研，以實(shí)現(xiàn)基座模型安全可控的目標(biāo)。

　　“國產(chǎn)大模型與國外大模型之間的差距依然存在，但我們有信心去追趕這個(gè)差距，我們一直在不斷創(chuàng)新的路上?！睆堸i表示。

　　傳統(tǒng)產(chǎn)業(yè)+大模型，如何放大應(yīng)用價(jià)值？

　　當(dāng)前，隨著人工智能的快速發(fā)展，大模型的應(yīng)用已經(jīng)逐漸從研究領(lǐng)域擴(kuò)展到工業(yè)實(shí)踐中，形成工業(yè)大模型。從“通用”到“應(yīng)用”，大模型正在叩響工業(yè)制造的大門。

　　從研發(fā)難度來看，無論是通用大模型，還是工業(yè)大模型，研發(fā)投入、核心人才和應(yīng)用場景都是不可或缺的，也構(gòu)成了市場的核心壁壘。而工業(yè)大模型對(duì)算法模型的有效性、高質(zhì)量的數(shù)據(jù)、算力的支撐能力有極高要求，模型的優(yōu)化迭代亦有賴于資金和人才的持續(xù)投入。因此，大模型的實(shí)際落地和行業(yè)應(yīng)用能力成為了市場檢驗(yàn)的重要標(biāo)準(zhǔn)。

　　“工業(yè)大模型的普適性商業(yè)應(yīng)用尚需探索?！睆堸i認(rèn)為，一是工業(yè)大模型需與其他數(shù)字化產(chǎn)品進(jìn)一步整合，滿足工業(yè)企業(yè)對(duì)網(wǎng)絡(luò)、算力以及數(shù)據(jù)管理的一體化要求，實(shí)現(xiàn)即買即用。二是工業(yè)企業(yè)使用門檻仍然較高，比如需要基于提示詞進(jìn)行應(yīng)用開發(fā)，把問題解決的長線邏輯和相關(guān)案例融入進(jìn)去，使大模型能按照預(yù)設(shè)步驟、思考鏈路和回答格式來產(chǎn)生答案。三是工業(yè)各領(lǐng)域已存在大量工業(yè)軟件、工業(yè)互聯(lián)網(wǎng)平臺(tái)，如何利用大模型形成協(xié)同生態(tài)將深刻影響用戶感知及產(chǎn)品生命力，允許并鼓勵(lì)第三方開發(fā)者基于工業(yè)大模型開發(fā)插件是重要路徑，如OpenAI正基于ChatGPT+插件加快構(gòu)建自己的生態(tài)圈。

　　大語言模型會(huì)重塑千行百業(yè)的業(yè)態(tài)，但需要在具體的行業(yè)落地方面投入更多資源。任何一項(xiàng)技術(shù)發(fā)展到一定程度之后，都必然會(huì)產(chǎn)生更多實(shí)際價(jià)值。如何實(shí)現(xiàn)價(jià)值，常見的一種說法是并不需要通用的基座大模型，只需要小的、中量級(jí)的、合適的行業(yè)模型。但大語言模型能力突破的根本原因在于，它對(duì)世界知識(shí)的學(xué)習(xí)和建模，使得它具備了接近人的理解推理和更進(jìn)階的認(rèn)知能力。張鵬表示，最理想的狀態(tài)是，行業(yè)模型并不是完全獨(dú)立于基座模型和通用模型，而是生長在基座模型之上，基于它進(jìn)行進(jìn)一步的訓(xùn)練和微調(diào)。

　　當(dāng)前，我國傳統(tǒng)產(chǎn)業(yè)正面臨智能化轉(zhuǎn)型，加入行業(yè)特色數(shù)據(jù)與知識(shí)、精準(zhǔn)匹配真實(shí)應(yīng)用場景的行業(yè)大模型，能夠極大地提升業(yè)務(wù)流程效率和水平，驅(qū)動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)。鋼鐵工業(yè)具有生產(chǎn)流程連續(xù)、工藝體系復(fù)雜、產(chǎn)品中間態(tài)多樣化、大型高溫高壓設(shè)備集中、人員安全要求高等特征，屬于典型的流程型制造業(yè)，面臨著嚴(yán)峻的資源、市場、環(huán)保、競爭等挑戰(zhàn)?！颁撹F工業(yè)亟需通過大模型等先進(jìn)技術(shù)及場景化創(chuàng)新應(yīng)用，提升行業(yè)的綠色環(huán)保、安全保障水平和生產(chǎn)效率?！睆堸i說。

　　對(duì)于大模型如何在鋼鐵行業(yè)應(yīng)用，張鵬表示，可以打造鋼鐵工業(yè)人工智能解決方案，以具備通用基礎(chǔ)能力的AI大模型作為智能底座，結(jié)合行業(yè)知識(shí)和場景數(shù)據(jù)進(jìn)行訓(xùn)練和微調(diào)，從而有效應(yīng)對(duì)碎片化和多樣化需求，并大幅縮減研發(fā)、定制、部署、調(diào)優(yōu)等工程化過程中的人力、時(shí)間、費(fèi)用等成本投入，也能解決好數(shù)據(jù)安全問題，促進(jìn)人工智能在鋼鐵行業(yè)大規(guī)模應(yīng)用，促進(jìn)鋼鐵行業(yè)智能化升級(jí)。

來源：中國冶金報(bào)-中國鋼鐵新聞網(wǎng)

編輯：張雨恬

下一篇：安米哈薩克斯坦煤礦火災(zāi)造成46人死亡

版權(quán)說明

【1】凡本網(wǎng)注明"來源：中國冶金報(bào)—中國鋼鐵新聞網(wǎng)"的所有作品，版權(quán)均屬于中國鋼鐵新聞網(wǎng)。媒體轉(zhuǎn)載、摘編本網(wǎng)所刊作品時(shí)，需經(jīng)書面授權(quán)。轉(zhuǎn)載時(shí)需注明來源于《中國冶金報(bào)—中國鋼鐵新聞網(wǎng)》及作者姓名。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
【2】凡本網(wǎng)注明"來源：XXX（非中國鋼鐵新聞網(wǎng)）"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng) 贊同其觀點(diǎn)，不構(gòu)成投資建議。
【3】如果您對(duì)新聞發(fā)表評(píng)論，請(qǐng)遵守國家相關(guān)法律、法規(guī)，尊重網(wǎng)上道德，并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
【4】如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的。電話：010—010-64411649