下棋是人類延續(xù)至今最古老的智力游戲,又稱對(duì)弈。巧合的是,人類與AI的“對(duì)弈”正是從對(duì)弈開始。1997年IBM人工智能軟件“深藍(lán)”擊敗國際象棋大師卡斯帕羅夫。約20年后的2016年,圍棋世界冠軍李世石敗于谷歌研發(fā)的AI軟件AlphaGo。AlphaGo也被韓國棋院授予“名譽(yù)九段”,成為人類第一位AI棋手。顛覆由此開始。
2022年ChatGPT橫空出世,AI離人類理想中的模樣更近了。于是,所謂的“大模型”時(shí)代悄然開啟。不到2年的時(shí)間,各種類型的AI大模型層出不窮。從谷歌、微軟、英偉達(dá)到華為、阿里,科技互聯(lián)網(wǎng)行業(yè)巨擘紛紛入局。一時(shí)間海內(nèi)外財(cái)經(jīng)、科技人士言必稱“大模型”。谷歌、微軟、英偉達(dá)、蘋果等7家科技公司市值一度達(dá)到13萬億美元,超過A股總市值。于是一種“AI才是人類未來”的說法甚囂塵上。從“名譽(yù)九段”到微軟首個(gè)“AI碼農(nóng)”,從自動(dòng)生成文字、圖片、視頻、代碼,AI的顛覆山雨欲來。其實(shí), AI的競爭邏輯已經(jīng)從資本、技術(shù)的積累向應(yīng)用和生態(tài)延伸。也就是說,AI在產(chǎn)業(yè)層面的應(yīng)用更關(guān)鍵。那么作為一家礦山無人駕駛企業(yè),路凱智行又是如何理解AI在產(chǎn)業(yè)內(nèi)的應(yīng)用的?
路凱智行聯(lián)合創(chuàng)始人兼CTO那崇寧博士是AI大模型領(lǐng)域的專家,長期從事相關(guān)領(lǐng)域的研究和應(yīng)用。早在2018年谷歌推出BERT的時(shí)候,那崇寧博士就斷定未來5年在自然語言處理領(lǐng)域內(nèi)會(huì)實(shí)現(xiàn)一個(gè)通用的人工智能,只會(huì)在自然語言處理這個(gè)領(lǐng)域里面實(shí)現(xiàn)通用的人工智能。站在2024回看過去,時(shí)間證明了那崇寧博士的預(yù)測。那崇寧博士認(rèn)為,目前較為成熟的AI大模型包括自然語言語言處理(NLP)類的AI大模型和計(jì)算機(jī)視覺類(CV)的AI大模型,隨著近幾個(gè)月SORA的橫空出世,融合語言與視覺的多模態(tài)模型也已初露崢嶸,但目前市面上的通用大模型并非“萬金油”,面向垂直領(lǐng)域內(nèi)的各類生成式AI應(yīng)用還需要結(jié)合場景需求積累數(shù)據(jù)和構(gòu)建定制化的模型。礦山無人駕駛已經(jīng)邁過了“下安全員”的門檻,現(xiàn)階段需要追平甚至超過有人駕駛的運(yùn)輸效率。這一階段,AI對(duì)于提升無人駕駛的運(yùn)營效率的意義不言而喻。那崇寧博士領(lǐng)導(dǎo)下的路凱智行研發(fā)團(tuán)隊(duì),早已開始了相關(guān)布局。視覺類的AI大模型目前已應(yīng)用于路凱智行自動(dòng)駕駛感知算法的研發(fā),實(shí)際上,在AIGC概念提出之前,路凱智行的研發(fā)團(tuán)隊(duì)已廣泛應(yīng)用生成式神經(jīng)網(wǎng)絡(luò)(GAN)等技術(shù)手段增強(qiáng)圖像、點(diǎn)云等感知數(shù)據(jù)集,用于對(duì)自動(dòng)駕駛感知算法進(jìn)行算法優(yōu)化,提升算法在更加通用的礦山場景下的準(zhǔn)確性、魯棒性和穩(wěn)定性,在路測的基礎(chǔ)上提供了低成本的算法優(yōu)化研發(fā)替代路徑。路凱智行的研發(fā)團(tuán)隊(duì)在布局基于多模態(tài)AI大模型的自動(dòng)駕駛綜合算法,將現(xiàn)有的面向感知任務(wù)的AI大模型理解和生成能力擴(kuò)展到融定位、感知、規(guī)劃、控制、決策的綜合性模型,其中多模態(tài)體現(xiàn)在綜合融合結(jié)構(gòu)化信息(如地圖、車輛狀態(tài)等)、類圖像信息(圖像、點(diǎn)云、其他雷達(dá)數(shù)據(jù))及文本信息(規(guī)范、標(biāo)準(zhǔn)等)構(gòu)建以數(shù)據(jù)為驅(qū)動(dòng),以規(guī)范為約束的自動(dòng)駕駛綜合智能體。目前該工作還處于模塊研發(fā)和原理驗(yàn)證階段,面向?qū)嶋H應(yīng)用還需在算法的復(fù)雜度、實(shí)時(shí)性、魯棒性、穩(wěn)定性及可解釋性等方面開展大量的工作。此外,類ChatGPT的語言類AI大模型在智慧礦山綜合管控方面有廣泛的應(yīng)用場景,一方面可以運(yùn)用AI大模型為智慧礦山的運(yùn)營者和管理者構(gòu)建一個(gè)一體化的人機(jī)交互系統(tǒng),綜合管理礦山內(nèi)的各類知識(shí)資產(chǎn)(政策、規(guī)范、標(biāo)準(zhǔn)、設(shè)計(jì)圖紙等)和數(shù)據(jù)資產(chǎn)(實(shí)際生產(chǎn)、運(yùn)營數(shù)據(jù)等),另一方面可運(yùn)用AI大模型的低代碼能力(如NL2SQL類的數(shù)據(jù)分析能力)以較低的溝通和研發(fā)成本完成運(yùn)營信息的整合、分析、挖掘與決策應(yīng)用,從而提升礦山運(yùn)行的綜合效能。語言類AI大模型的實(shí)際落地應(yīng)用應(yīng)關(guān)注以下問題:一是通用AI大模型與企業(yè)應(yīng)用場景的適配,私有化部署能力及針對(duì)企業(yè)業(yè)務(wù)和數(shù)據(jù)的模型微調(diào)是關(guān)鍵因素;二是通用AI大模型的幻覺風(fēng)險(xiǎn)防控,利用CoT、提示工程等非顯式干預(yù)方法,或運(yùn)用API、RPA、NL2SQL等顯式干預(yù)方法是關(guān)鍵。路凱智行已在相關(guān)領(lǐng)域布局基礎(chǔ)模型和工具鏈的研發(fā),并在礦山制度管理、低代碼數(shù)據(jù)分析等領(lǐng)域形成落地能力。“現(xiàn)有的通用大模型無法直接賦能端到端礦山無人駕駛。但是,沿著這個(gè)思路,基于通用大模型的基本構(gòu)建原理,去構(gòu)建適用于礦山無人駕駛的模型的方向可以去嘗試。當(dāng)然,礦山場景的算力、數(shù)據(jù)能否支撐我們?nèi)?開始構(gòu)建基礎(chǔ)的模型,仍需時(shí)間去驗(yàn)證工程的實(shí)用性?!眱|歐汽車2023全球科技出行大會(huì)上,那崇寧博士回答了媒體關(guān)于礦山無人駕駛大模型的暢想。(源于公眾號(hào):全球智慧礦業(yè)創(chuàng)新研究院)