盗墓笔记,完结小说排行榜,完结小说排行榜

谷歌的RT-2，是不是機(jī)器人的GPT-3時刻？

2023-08-08 14:25:40 來源：虎嗅網(wǎng)

7月29日，《紐約時報》的記者在谷歌實(shí)驗(yàn)室，率先看到了谷歌最新推出的 RT-2 模型驅(qū)動的機(jī)器人。

一個單臂機(jī)器人站在一張桌子前。桌子上坐著三個塑料雕像：獅子、鯨魚和恐龍。工程師給機(jī)器人發(fā)出指令：“撿起滅絕的動物。”機(jī)器人呼呼地響了一會兒，然后手臂伸出，爪子張開落下。它抓住了恐龍。

這是一道智能的閃光。

(資料圖片僅供參考)

《紐約時報》描述道，“直到上周，這一演示還是不可能的。機(jī)器人無法可靠地操縱它們以前從未見過的物體，它們當(dāng)然也無法實(shí)現(xiàn)從‘滅絕的動物’到‘塑料恐龍’的邏輯飛躍。”

雖然仍然存在于展示之中，且谷歌并不打算立即進(jìn)行更大規(guī)模的發(fā)布或者對其進(jìn)行商業(yè)化，但這一展示已經(jīng)足以展現(xiàn)大模型為機(jī)器人能夠帶來的機(jī)遇的一角。

在大模型時代到來之前，人們訓(xùn)練機(jī)器人，通常針對每個任務(wù)進(jìn)行優(yōu)化，比如抓取某種玩具，需要足量的數(shù)據(jù)，機(jī)器人才能準(zhǔn)確地從各個角度、各個光線下識別這種玩具，抓取成功。而讓機(jī)器人意識到自己有抓取玩具的任務(wù)，也需要對機(jī)器人進(jìn)行編程才能解決。

而大模型的智能和泛化能力，讓人們看到了解決這些問題，走向通用機(jī)器人的一道曙光。

將Transformer，運(yùn)用到機(jī)器人中

谷歌新的 RT-2 模型，全稱為Robotic Transformer 2，運(yùn)用Transformer 架構(gòu)作為其模型的基座。

2018 年被提出的Transformer架構(gòu)，是目前火遍全球的大語言模型（LLM）的最底層的基座，但事實(shí)上，作為一種架構(gòu)，Transformer不止可以應(yīng)用于大語言模型當(dāng)中，也可以用于訓(xùn)練其他類型的數(shù)據(jù)。早在今年 3 月份，谷歌就發(fā)布了PaLM-E，是當(dāng)時世界上最大視覺語言模型（VLM）。

大語言模型中，語言被編碼為向量，人們?yōu)槟Ｐ吞峁┐罅康恼Z料，使其能夠預(yù)測出人類通常下一句會說什么，借此生成語言回答。

而在視覺語言模型中，模型可以將圖像信息編碼為與語言類似的向量，讓模型既能“理解”文字，又能用相同方式“理解”圖像。而研究員們?yōu)橐曈X語言模型提供大量的語料和圖像，使其能夠執(zhí)行視覺問答、為圖像添加字幕和物品識別等任務(wù)。

無論是圖像還是語言，都是相對容易大量獲取的數(shù)據(jù)。因此，模型很容易取得令人驚艷的成果。

而想使用Transformer架構(gòu)來生成機(jī)器人行為，卻有一個很大的難點(diǎn)。“涉及到機(jī)器人動作的數(shù)據(jù)非常昂貴。”清華大學(xué)交叉信息研究院助理教授許華哲教授告訴極客公園，“視覺和語言數(shù)據(jù)都來自于人類，是被動數(shù)據(jù)，而機(jī)器人的動作數(shù)據(jù)，全部是來自于機(jī)器人的主動數(shù)據(jù)。

比如我想研究機(jī)器人倒咖啡的動作，不管是寫代碼讓機(jī)器人執(zhí)行，還是利用其他的方式讓機(jī)器人執(zhí)行，都是需要機(jī)器人實(shí)際執(zhí)行一遍這個操作才能得到這個數(shù)據(jù)。因此，機(jī)器人的數(shù)據(jù)與語言和圖片的規(guī)模和量級是完全不一樣的。”

在谷歌研究的第一代機(jī)器人Transformer模型 RT-1 中，谷歌第一次開啟了這樣的挑戰(zhàn)，嘗試建立一個視覺語言動作模型。

為了建立這樣的模型，谷歌使用了13個機(jī)器人，在一個搭建的廚房環(huán)境中耗時 17 個月收集到了機(jī)器人在 700 多個任務(wù)上的主動數(shù)據(jù)組建的數(shù)據(jù)集。

數(shù)據(jù)集同時記錄了三個維度：

視覺——機(jī)器人在執(zhí)行任務(wù)操作時的攝像頭數(shù)據(jù)；

語言——用自然語言描述的任務(wù)文字；

和機(jī)器人動作——機(jī)器手進(jìn)行任務(wù)時在 xyz 軸和偏轉(zhuǎn)數(shù)據(jù)等。

雖然當(dāng)時得到了較好的實(shí)驗(yàn)效果，但可想而知，想要進(jìn)一步增加數(shù)據(jù)集內(nèi)數(shù)據(jù)的數(shù)量，將是一件非常難的事情。

圖片來源：谷歌 AI 介紹視頻

而 RT-2 的創(chuàng)新之處在于，RT-2 使用前面所述的視覺語言模型（VLM）PaLM-E 和另一個視覺語言模型 PaLI-X 作為其底座——單純的視覺語言模型可以通過網(wǎng)絡(luò)級的數(shù)據(jù)訓(xùn)練出來，因?yàn)閿?shù)據(jù)量足夠大，能夠得到足夠好的效果，而在微調(diào)（fine-tuning）階段，再將機(jī)器人的動作數(shù)據(jù)加入進(jìn)去一起微調(diào)（co-finetuning）。

這樣，機(jī)器人相當(dāng)于首先已經(jīng)擁有了一個在海量數(shù)據(jù)上學(xué)習(xí)過了的常識系統(tǒng)——雖然還不會抓取香蕉，但是已經(jīng)能夠認(rèn)識香蕉了，甚至也知道了香蕉是一種水果，猴子會比較喜歡吃。

而在微調(diào)階段，通過再加入機(jī)器人在真實(shí)世界中看到香蕉后是如何抓取香蕉的知識，機(jī)器人就不但擁有了在各種光線和角度下識別香蕉的能力，也擁有了能夠抓取香蕉的能力。

在這種方式下，用Transformer架構(gòu)訓(xùn)練機(jī)器人所需的數(shù)據(jù)顯著降低了。

RT-2 在微調(diào)階段直接使用了RT-1訓(xùn)練階段使用的視覺/語言/機(jī)器人動作數(shù)據(jù)集。谷歌給出的數(shù)據(jù)顯示，在抓取訓(xùn)練數(shù)據(jù)中原來出現(xiàn)過的物品時，RT-2的表現(xiàn)與RT-1同樣好。而因?yàn)橛辛恕皳碛谐ＷR的大腦”，在抓取之前沒有見過的物品時，成功率從RT-1的 32% 提升到了 62%。

“這就是大模型的妙處。”許華哲講道，“你沒有辦法把它拆解成因?yàn)樗R別到了兩個物體是材質(zhì)相似，還是因?yàn)榇笮∠嘟€是因?yàn)閯e的什么原因抓取的成功率提升了。它學(xué)到的東西足夠多了之后，就會涌現(xiàn)出一些能力。”

使用自然語言，與機(jī)器人交互的未來

學(xué)術(shù)上，RT-2 展現(xiàn)的很強(qiáng)的泛化性有可能解決機(jī)器人訓(xùn)練數(shù)據(jù)不足的難題。而在此之外，RT-2 給人的直觀震撼還是來自于它所展現(xiàn)的智能的一面。

在實(shí)驗(yàn)中，研究員希望它能夠拿起一個“能夠用作錘子的東西”，機(jī)器人在一堆物品中拿起了石頭，而在被要求拿起一個提供給疲憊的人的飲料時，機(jī)器人在一堆物品中選擇了紅牛。

這樣的技巧來自在進(jìn)行大模型訓(xùn)練時，研究員引入“思維鏈”（chain of thought）的能力。而這樣的多段語義推理在傳統(tǒng)的機(jī)器人模仿學(xué)習(xí)研究中是非常難以做到的。

不過，利用自然語言與機(jī)器人交互，并不是 RT-2 的創(chuàng)見。

在過去的機(jī)器人研究中，研究者始終需要將任務(wù)要求轉(zhuǎn)換為代碼而讓機(jī)器人能夠理解，同時一旦出現(xiàn)問題，也需要編寫代碼來糾正機(jī)器人的行為，整個過程需要多次交互，效率較低。而既然我們已經(jīng)有了非常智能的對話機(jī)器人了，下面比較自然的一步，自然是讓機(jī)器人與人類用自然語言交互。

“我們大約兩年前開始研究這些語言模型，然后我們意識到它們蘊(yùn)藏著豐富的知識。”谷歌研究科學(xué)家卡羅爾·豪斯曼（Karol Hausman）表示，“所以我們開始將它們連接到機(jī)器人。”

不過，讓大模型作為機(jī)器人的頭腦，也有著自己的難題。其中最重要的一個問題之一，就是 grounding 問題，即如何使大模型通常比較天馬行空的回應(yīng)，轉(zhuǎn)化成驅(qū)動機(jī)器人行動的指令。

2022 年，谷歌推出 Say-can 模型。模型正如其名，采用兩種考量來幫助機(jī)器人行動。一種考量是 say，模型通過與谷歌的大語言模型 PaLM 模型結(jié)合，可以通過自然語言和人類交互，把獲得的任務(wù)進(jìn)行分解，找到最適合當(dāng)前行動；另一種考量是 can，模型通過一個算法，計(jì)算出當(dāng)前機(jī)器人能夠成功執(zhí)行這一任務(wù)的概率。機(jī)器人根據(jù)這兩重考量下，進(jìn)行動作。

比如對機(jī)器人講“我的牛奶撒了，你能不能幫我？”機(jī)器人會首先通過語言模型進(jìn)行任務(wù)規(guī)劃，這時可能最合理的方式是找到一個清潔工，其次是找一塊海綿自己擦。然后機(jī)器人會通過算法計(jì)算出作為機(jī)器人，它能夠成功找到清潔工的概率很低，而找到海綿自己擦的概率很高。在兩重考慮后，機(jī)器人就會選擇尋找海綿擦牛奶的行動。

圖片來源：Saycan 介紹視頻

雖然在這樣雙層模型架構(gòu)中，機(jī)器人能夠成功做出的動作已經(jīng)是預(yù)先設(shè)計(jì)好的，大語言模型只是能夠幫助機(jī)器人選擇合適的任務(wù)規(guī)劃。在這樣的模型中，機(jī)器人已經(jīng)展現(xiàn)出了極強(qiáng)的智能感。

不過，雖然從外在看起來效果是類似的，RT-2 采取的是另一種道路。通過訓(xùn)練時模型就同時學(xué)習(xí)視覺、語言、機(jī)器人行為這三種數(shù)據(jù)，RT-2 的模型并不是先進(jìn)行任務(wù)分解，再進(jìn)行任務(wù)操作，而是自然語言輸入后，通過模型的運(yùn)算，直接產(chǎn)生動作的輸出。

“雙層結(jié)構(gòu)類似于我想去做一件事情，腦袋里先想好第一步干這個，第二步干那個，然后再挨個執(zhí)行這些策略。”許華哲教授表示，“而端到端的結(jié)構(gòu)類似于我也沒有特別仔細(xì)想第一步、第二步是什么，就把這個事情給干了。”后者的一個例子可以類比于我們每天在手機(jī)上打字聊天，我們打字聊天時一般不會認(rèn)真思考肌肉具體要如何去動作，而是想到了要打的字，就直接打出來了。

“兩種不同的路線或者不同的方法，都還沒有證明自己是唯一正確的方式。”許華哲表示。但由于 RT-2 的優(yōu)秀表現(xiàn)，一個模型能夠接管輸入輸出的技術(shù)方向，似乎值得探索。

“由于這一變化（RT-2 的優(yōu)秀表現(xiàn)），我們不得不重新考慮我們的整個研究規(guī)劃了，”谷歌 DeepMind 機(jī)器人技術(shù)主管文森特·范霍克（Vincent Vanhoucke）表示。“之前所做的很多事情都完全變成無用功了。”

RT-2 是機(jī)器人的 GPT3 時刻嗎？

谷歌的 RT-2 機(jī)器人并不完美。在《紐約時報》記者目睹的實(shí)際演示中，它錯誤地識別了一罐檸檬味蘇打水的味道（說成“橘子味”）。還有一次被問到桌子上有什么水果時，機(jī)器人回答成“白色”（實(shí)際是香蕉）。谷歌發(fā)言人解釋說，該機(jī)器人使用了緩存的答案來回答之前測試者的問題，因?yàn)樗?Wi-Fi 曾短暫中斷過。

除此之外，利用大模型訓(xùn)練機(jī)器人，不可避免地要面對成本問題。目前谷歌的機(jī)器人在進(jìn)行推理和判斷的時候，需要將數(shù)據(jù)傳到云端，由多塊 TPU 一起進(jìn)行計(jì)算，再將結(jié)果發(fā)回機(jī)器人，由機(jī)器人執(zhí)行操作。這樣的計(jì)算可想而知十分昂貴。

谷歌 DeepMind 機(jī)器人技術(shù)主管文森特·范霍克（Vincent Vanhoucke）認(rèn)為，新的研究開啟了機(jī)器人能夠在有人的環(huán)境中使用的大門——研究者認(rèn)為，內(nèi)置了語言模型的機(jī)器人可以進(jìn)入倉庫、用于醫(yī)療行業(yè)，甚至成為家庭助理，幫助折疊衣物、從洗碗機(jī)中取出物品、在房子周圍收拾東西。

“如果你開一個工廠，需要使用機(jī)器人，成功率一定是要求很高的。你不會希望說買了機(jī)器人后，還需要很多人去維護(hù)這個機(jī)器人，完善機(jī)器人做得不夠好的事情。那這樣成本太高了。”許華哲教授表示，“家居場景下的機(jī)器人可能是另一個情形，因?yàn)橐苍S家居場景下的一些任務(wù)的成功率要求沒有那么高。比如疊衣服，疊的沒有那么好，可能在你眼中這個任務(wù)失敗了，但對你的影響也不會非常大。”

人工智能三巨頭之一的楊立昆（Yaan Lecun）有一個強(qiáng)調(diào)過許多次的著名論斷：人工智能還不夠聰明。任何一個孩子都能很快學(xué)會收拾桌子，把碗放進(jìn)洗碗機(jī)，而機(jī)器人卻做不到。

目前的機(jī)器人研究或許確實(shí)如此，但正如不完美的 GPT-3 讓業(yè)界看到了大模型發(fā)展的方向一樣，或許今天不完美的 RT-2 也將開啟機(jī)器人進(jìn)入家庭成為我們的助手的未來時代。

本文來自微信公眾號：極客公園（ID：geekpark），作者：Li Yuan，編輯：鄭玄

關(guān)鍵詞：

免責(zé)聲明：本網(wǎng)站所有信息，并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，投資者據(jù)此操作，風(fēng)險請自擔(dān)。

上一篇：未來9天，四大生肖鴻運(yùn)當(dāng)頭，大展鴻圖，萬象更新

下一篇：最后一頁

相關(guān)閱讀

谷歌的RT-2，是不是機(jī)器人的GPT-3時刻？

新模型解決了機(jī)器人訓(xùn)練需要大量數(shù)據(jù)的難題

2023-08-08 14:25:40
未來9天，四大生肖鴻運(yùn)當(dāng)頭，大展鴻圖，...

生肖狗的人有持續(xù)學(xué)習(xí)的精神，堅(jiān)韌不拔的精神，有勇于改變的勇氣，生肖

2023-08-08 13:55:40
深交所：“21碧地04”盤中臨時停牌

【深交所：“21碧地04”盤中臨時停牌】“21碧地04”盤中成交價較前收盤

2023-08-08 14:03:23
港股內(nèi)房股持續(xù)走低龍湖集團(tuán)跌超9%

【港股內(nèi)房股持續(xù)走低龍湖集團(tuán)跌超9%】港股內(nèi)房股持續(xù)走低，龍湖集團(tuán)跌

2023-08-08 14:00:24
氟化工板塊午后異動聯(lián)創(chuàng)股份等多股漲超6%

【氟化工板塊午后異動聯(lián)創(chuàng)股份等多股漲超6%】午后氟化工板塊異動拉升，

2023-08-08 13:49:20
豫地科技集團(tuán)戰(zhàn)略簽約10家銀行

從活動現(xiàn)場獲悉，參加本次戰(zhàn)略簽約儀式的銀行有10家，分別為中國農(nóng)業(yè)發(fā)

2023-08-08 13:51:02
碧桂園境內(nèi)債集體大跌

【碧桂園境內(nèi)債集體大跌】碧桂園境內(nèi)債集體大跌，“21碧地03”跌超28%

2023-08-08 14:02:31
金陵石化獲評國家石油煉制綠色發(fā)展先進(jìn)...

金陵石化獲評國家石油煉制綠色發(fā)展先進(jìn)水平企業(yè),近日，國家生態(tài)環(huán)境部

2023-08-08 13:55:10
烏克蘭放話攻擊俄石油港口，油價“無動...

烏克蘭放話攻擊俄石油港口，油價“無動于衷”,俄烏沖突戰(zhàn)火蔓延至石油

2023-08-08 13:57:21
81-廣西-周紫玲

自2012年進(jìn)入北投集團(tuán)工作以來，周紫玲歷任收費(fèi)員、收費(fèi)班長、站務(wù)員、

2023-08-08 13:52:07
永恒力：貨物保護(hù)丨我們關(guān)注您的投資—...

有效的貨物保護(hù)為企業(yè)成功奠定了堅(jiān)實(shí)的基礎(chǔ)：如果能夠避免貨物損壞，您

2023-08-08 13:54:25
壯鄉(xiāng)有新路鄉(xiāng)村振興踏歌來（圖）

“永共哈密”讓瓜農(nóng)喜笑顏開攝影陳莉莉盛夏時節(jié)，驅(qū)車沿著武鳴府

2023-08-08 13:53:04
濮陽市公路事業(yè)發(fā)展中心召開2023年度迎...

為貫徹落實(shí)7月28日河南省交通事業(yè)發(fā)展中心2023年全省迎國評工作部署視

2023-08-08 14:00:11
再攀新高峰！三一工程車輛全系新品搶灘發(fā)布

2023年7月26日，三一工程車輛全系新品正式上市。本次圍繞著智能、經(jīng)濟(jì)

2023-08-08 14:02:13
140-中鐵交通-王敏琦

王敏琦，女，漢族，中國共產(chǎn)黨黨員，2000年9月出生于陜西省寶雞市麟游

2023-08-08 13:55:00
閃耀韓國，中聯(lián)重科起重機(jī)韓國推介會順...

近日，中聯(lián)重科與韓國合作伙伴MIYOUNG公司在首爾成功舉辦了新起點(diǎn)新合

2023-08-08 13:52:40
沖出“正負(fù)零”！壘知上海科創(chuàng)園項(xiàng)目取...

近日，壘知上海科創(chuàng)園項(xiàng)目迎來重要的建設(shè)節(jié)點(diǎn)——全面沖出正負(fù)零，地下

2023-08-08 13:56:41
三江源生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不斷完善

原標(biāo)題：三江源源頭地區(qū)建立5G遠(yuǎn)程觀測點(diǎn)位——生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不

2023-08-08 13:37:36
河北涿州：部分受災(zāi)群眾逐漸返回家園

新華社石家莊8月7日電題：河北涿州：部分受災(zāi)群眾逐漸返回家園穿好防護(hù)

2023-08-08 13:43:52
記者手記：親歷涿州救災(zāi)一線的溫情與感動

新華社石家莊8月7日電（記者杜一方）戰(zhàn)國燕邑，以涿水得名，是為涿州。

2023-08-08 13:36:11

全球

經(jīng)濟(jì)

三江源生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不斷完善
2023-08-08
原標(biāo)題：三江源源頭地區(qū)建立5G遠(yuǎn)程觀測點(diǎn)位——生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不

河北涿州：部分受災(zāi)群眾逐漸返回家園
2023-08-08
新華社石家莊8月7日電題：河北涿州：部分受災(zāi)群眾逐漸返回家園穿好防護(hù)

記者手記：親歷涿州救災(zāi)一線的溫情與感動
2023-08-08
新華社石家莊8月7日電（記者杜一方）戰(zhàn)國燕邑，以涿水得名，是為涿州。

要聞

查看更多新聞

關(guān)注

器械

1
/ 螺旋測微器有哪些分類？螺旋測微器是否...
2
/ 鏜床主要用于哪些領(lǐng)域？鏜床和銑床的區(qū)...
3
/ X射線熒光光譜儀有哪些種類？X射線熒光...
4
/ 氣動元件有哪些應(yīng)用？氣動快速接頭的連...
5
/ 消防泵怎么維護(hù)保養(yǎng)？消防泵房里都有哪...
6
/ 熱風(fēng)爐的工作原理是什么？熱風(fēng)爐屬于鍋...
7
/ 能耗計(jì)量系統(tǒng)適用于哪些領(lǐng)域？什么是能...
8
/ 探測器有哪些分類？紅外探測器是干什么...
9
/ 鑿巖機(jī)的工作原理是什么？液壓鑿巖機(jī)的...
10
/ 視覺傳感器的工作原理是什么？傳感器分...

谷歌的RT-2，是不是機(jī)器人的GPT-3時刻？