來(lái)源:華爾街見聞 新智元
即使全世界都對(duì)超級(jí)AI如臨大敵,想趕緊懸崖勒馬,恐怕也為時(shí)已晚。因?yàn),如今的AI,已經(jīng)學(xué)會(huì)自我進(jìn)化了...
最近,似乎全世界都在圍剿ChatGPT。
前一陣由馬斯克、圖靈獎(jiǎng)得主Bengio等大佬聯(lián)名發(fā)起的暫停高級(jí)AI研發(fā)的公開信,現(xiàn)在簽名已經(jīng)上升到9000多人。
即使全世界都對(duì)超級(jí)AI如臨大敵,想趕緊懸崖勒馬,恐怕也為時(shí)已晚。
因?yàn),如今的AI,已經(jīng)學(xué)會(huì)自我進(jìn)化了!
前段時(shí)間,前谷歌大腦研究工程師Eric Jang發(fā)現(xiàn):GPT-4能夠以合理的方式批評(píng)自己的成果。
與其為大型語(yǔ)言模型(LLM)尋找完美的提示(讓我們一步一步思考),不如讓LLM評(píng)估自己的輸出并立即糾正自己的錯(cuò)誤。
甚至連特斯拉前AI總監(jiān),OpenAI研究科學(xué)家Andrej Karpathy大贊,這是一個(gè)很好的例子,說(shuō)明我們還沒(méi)有看到GPT-4的最大能力。
在Eric Jang給出的例子中,曾看到微軟研究員發(fā)推說(shuō)GPT-4根本無(wú)法寫出‘不押韻’的詩(shī)歌。
然而,當(dāng)再去詢問(wèn)GPT-4是否完成了任務(wù)。這時(shí),它道歉后,生成了一個(gè)不押韻的詩(shī)!可以說(shuō)是滿分。
這恰恰印證了GPT-4是有‘反思’能力的。
最近,來(lái)自美國(guó)東北大學(xué)、MIT等機(jī)構(gòu)研究者提出了Reflexion。這一方法賦予智能體動(dòng)態(tài)記憶,以及自我反思的能力。
論文地址:
為了驗(yàn)證方法的有效性,研究人員評(píng)估了智能體在AlfWorld環(huán)境中完成決策任務(wù)的能力,以及在HotPotQA環(huán)境中完成知識(shí)密集型、基于搜索問(wèn)答任務(wù)的能力。
在這兩項(xiàng)任務(wù)的成功率分別為97%和51%。
Reflexion智能體的整體架構(gòu)
有網(wǎng)友便表示,你可以通過(guò)要求 GPT-4 反思‘你為什么錯(cuò)了?’,并為自己生成一個(gè)新的提示,將這個(gè)錯(cuò)誤原因考慮在內(nèi),直到結(jié)果正確,從而將GPT-4的性能提高驚人的30%。
另外,論文指出,在測(cè)試模型編寫代碼的能力時(shí),Reflexion+GPT-4也顯著優(yōu)于常規(guī)的GPT-4。
這樣看來(lái),就像Eric Jang所說(shuō),
我們現(xiàn)在可以考慮一種‘后綴提示工程’,而不是巧妙的‘前綴提示工程’。這將鼓勵(lì)LLM在先前生成的解決方案中找到更正和不一致的地方。
來(lái)源:華爾街見聞 新智元
紅商網(wǎng)優(yōu)質(zhì)內(nèi)容還將同步分發(fā)到公眾號(hào)、視頻號(hào)、頭條號(hào)、西瓜抖音、網(wǎng)易號(hào)、搜狐號(hào)、企鵝號(hào)、百家號(hào)、好看視頻、新浪微博等國(guó)內(nèi)主力流量平臺(tái)。
|