AI智能體,又迎來重磅玩家。
當(dāng)?shù)貢r(shí)間1月23日,OpenAI發(fā)布了首個(gè)AI智能體Operator。據(jù)官方介紹,Operator是一個(gè)研究預(yù)覽(researchpreview)版本的智能體,可以訪問網(wǎng)絡(luò)為用戶執(zhí)行任務(wù),像人類一樣與圖形用戶界面(人們在屏幕上看到的按鈕、菜單和文本字段)進(jìn)行交互,靈活地執(zhí)行數(shù)字任務(wù),而無需使用特定于操作系統(tǒng)或網(wǎng)絡(luò)的API。OpenAI的CEO山姆·奧特曼領(lǐng)銜三名團(tuán)隊(duì)成員,開啟了在線直播,向觀眾展示Operator如何實(shí)現(xiàn)向人類一樣操作電腦。
事實(shí)上,AI智能體并非一個(gè)嶄新的概念,在OpenAI之前,一些AI公司已經(jīng)率先推出了自己的AI智能體。值得注意的是,就在OpenAI發(fā)布Operator的前一天,國產(chǎn)大模型獨(dú)角獸智譜AI正式推出了全球首個(gè)面向公眾、回車即用的電腦智能體GLM-PC。這一智能體的小名叫做“牛?!?,能夠像人類一樣操作電腦,完成各種復(fù)雜任務(wù)。
受益于智能體的火爆,智譜AI概念今日迎來大漲,截至收盤漲近7%。成份股中,值得買漲超13%,凌云光、金現(xiàn)代漲超10%。
AI智能體“接管”人類電腦
據(jù)OpenAI官網(wǎng)介紹,Operator由一個(gè)名為CUA(計(jì)算機(jī)使用代理)的新模型驅(qū)動(dòng),結(jié)合了GPT-4o的視覺能力,以及通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)高級(jí)推理。
簡單理解,Operator可以幫助人類操作電腦,不僅可以執(zhí)行基于網(wǎng)頁的操作,例如查看、輸入、點(diǎn)擊、滾用網(wǎng)頁,而且還能進(jìn)行更復(fù)雜的智能操作。根據(jù)演示,只需要輸入需求,Operator就可以完成餐廳訂位、購買商品、預(yù)訂比賽門票等任務(wù),用戶可以實(shí)時(shí)查看進(jìn)度,并隨時(shí)介入。而且遇到付款信息、家庭住址等涉及隱私的信息以及關(guān)鍵步驟,Operator會(huì)暫停,讓用戶接管操作。
Operator使用界面
舉例而言,記者看到演示視頻中,當(dāng)Operator被要求預(yù)定某家餐廳傍晚7點(diǎn)的座位,它會(huì)自動(dòng)打開網(wǎng)頁,進(jìn)入相應(yīng)網(wǎng)站并搜索餐廳完成預(yù)定。不僅如此,Operator遇到特殊情況還會(huì)靈活應(yīng)用,比如當(dāng)7點(diǎn)的餐廳座位被訂滿時(shí),Operator還會(huì)詢問用戶是否改訂7點(diǎn)45分的餐廳。
由于Operator的上線,ChatGPT訪問量突然暴增,許多用戶都想“嘗鮮”,這使得ChatGPT一度“宕機(jī)”三小時(shí)。不過,目前可使用Operator的用戶群體還十分有限,從本周周四起,只有每月200美元訂閱費(fèi)的ChatGPTPro美國用戶可使用Operator。但據(jù)山姆·奧特曼透露,Operator后續(xù)計(jì)劃向ChatGPTPlus、Team、企業(yè)用戶開放使用,并將很快在其他國家推出,“但歐洲地區(qū)可能需要更長時(shí)間”。
“2025年是智能體之年”
在Operator發(fā)布后,OpenAI總裁格雷格·布洛克曼在其個(gè)人社交平臺(tái)評(píng)論道:“2025年是智能體之年”。而更早之前,OpenAI前首席科學(xué)家、安全超級(jí)智能公司聯(lián)合創(chuàng)始人伊利亞·蘇茨克維也預(yù)測,下一代模型將“以一種真正的方式實(shí)現(xiàn)代理化(agentic)”,未來的AI智能體將結(jié)出碩果,擁有更深入的理解和自我意識(shí),人工智能將像人類一樣推理問題。
所謂AI智能體,指的是基于人工智能技術(shù)構(gòu)建的超級(jí)智能數(shù)字助手,能夠?qū)W習(xí)理解各種信息,并根據(jù)需求提供幫助、建議或進(jìn)行互動(dòng)。海通證券研報(bào)指出,AI智能體的前景十分廣闊,隨著大模型的發(fā)展智能體將從概念走向?qū)嶋H應(yīng)用,成為各行業(yè)的重要助力。通過多模態(tài)大模型,智能體能夠整合圖片、語音等異構(gòu)數(shù)據(jù),提高任務(wù)處理效率,并解決跨行業(yè)、跨領(lǐng)域的問題。技術(shù)方面,智能體具備長期和短期記憶、自主規(guī)劃、工具使用和自動(dòng)執(zhí)行任務(wù)的能力。這些能力不僅能提高工作效率,還能為用戶提供更好的體驗(yàn)。單智能體通過試錯(cuò)學(xué)習(xí)適用于簡單任務(wù),而多智能體則在復(fù)雜環(huán)境中通過合作或競爭調(diào)整最佳策略。
當(dāng)前,AI智能體已成為各大科技巨頭和初創(chuàng)企業(yè)布局的重要領(lǐng)域。從國際上看,OpenAI最大競爭對(duì)手Anthropic在去年10月發(fā)布了自己的computeruse(電腦使用)功能;谷歌去年底推出智能體Mariner,基于谷歌大模型Gemini2.0,可瀏覽電子表格、購物網(wǎng)站等,幫助用戶裝滿虛擬購物車。
國產(chǎn)大模型方面,去年10月,智譜AI就發(fā)布了AI手機(jī)端的AutoGLM,作為其大模型GLM的第一個(gè)產(chǎn)品化的智能體,只需接收簡單的文字或者語音指令,就可以模擬人類操作手機(jī)。從其發(fā)布的視頻來看,用戶向手機(jī)語音傳遞命令后,AutoGLM會(huì)經(jīng)過用戶授權(quán),自動(dòng)打開目標(biāo)APP,執(zhí)行相關(guān)命令,可以實(shí)現(xiàn)的功能包括在淘寶上購買一款歷史訂單產(chǎn)品、在攜程上預(yù)訂酒店、在美團(tuán)上點(diǎn)外賣、在微信群里領(lǐng)取老板發(fā)的紅包等功能。
AutoGLM發(fā)布后,迅速引起廣泛關(guān)注,產(chǎn)生了“智譜AI概念股”。值得注意的是,在OpenAI發(fā)布Operator的前一天,智譜AI還推出了可自主操作電腦的多模態(tài)智能體新版GLM-PC。作為全球首個(gè)面向公眾、回車即用的電腦智能體,GLM-PC也被稱為“牛?!保蓭椭脩艟W(wǎng)上購物、發(fā)微信拜年、編輯文檔等。
例如,在其演示的視頻中,“牛?!蹦軌蜃詣?dòng)提取圖片中的商品數(shù)據(jù),存儲(chǔ)至Excel,并自動(dòng)將商品加入淘寶購物車,從而實(shí)現(xiàn)一站式購物流程。記者看到在電腦桌面上,“牛牛”在淘寶網(wǎng)站中依次將魔芋爽、薯片、豬肉脯、辣條等零食添加進(jìn)購物車,實(shí)現(xiàn)一站式購物。
業(yè)內(nèi)人士分析稱,AI智能體的推出,反映了如今AI開發(fā)者更加注重如何幫助用戶自動(dòng)完成日常任務(wù)。隨著一系列科技公司產(chǎn)品的密集發(fā)布,AI智能體正在加速嘗試代替人類去做一些力所能及的事情。
Operator目前仍然處于早期研究預(yù)覽階段,尚有許多不完美的地方。但山姆·奧特曼在直播中表示,“這是OpenAI向智能體領(lǐng)域進(jìn)軍的開始”??梢灶A(yù)見的是,OpenAI的強(qiáng)勢加入必將為AI智能體再添一把火,2025年“智能體大戰(zhàn)”正式打響,更進(jìn)一步改變?nèi)藱C(jī)交互方式。
校對(duì):劉星瑩