家政機(jī)器人迎來高光時(shí)刻

小大

時(shí)間：2024-05-06 10:25:46 來源：科技日?qǐng)?bào)

　　誰不想要一個(gè)可完全承擔(dān)家務(wù)的機(jī)器人呢?這也是人們對(duì)機(jī)器人技術(shù)發(fā)展的一大夢(mèng)想。

　　雖然機(jī)器人專家已經(jīng)能夠讓機(jī)器人在實(shí)驗(yàn)室做一些像跑酷這樣令人印象深刻的事情，但這都是在嚴(yán)格控制的環(huán)境中精心規(guī)劃展開的。真要讓機(jī)器人在你家中自主工作，多少還是讓人不太放心，尤其是在有兒童和寵物的家庭。而且房屋設(shè)計(jì)各有不同，房間布置、物品擺放更是千差萬別。

　　在機(jī)器人專家中，有一個(gè)廣為認(rèn)可的觀點(diǎn)，稱為“莫拉維克悖論”：對(duì)人類來說很難的事情，對(duì)機(jī)器來說很容易;而對(duì)人類來說容易的事情，對(duì)機(jī)器來說很難。但得益于人工智能(AI)，這種情況正在改變。機(jī)器人開始能夠完成諸如疊衣物、烹飪和卸載購(gòu)物籃等任務(wù)，而這些在不久前還被視為機(jī)器人幾乎不可能完成的任務(wù)。

　　據(jù)最新一期《麻省理工科技評(píng)論》報(bào)道，機(jī)器人技術(shù)作為一個(gè)領(lǐng)域正處于拐點(diǎn)：機(jī)器人正在走出實(shí)驗(yàn)室，進(jìn)入千家萬戶。機(jī)器人技術(shù)即將迎來自己的高光時(shí)刻。

　　家用機(jī)器人不能太貴

　　過去的機(jī)器人就是昂貴的代名詞，高度復(fù)雜款價(jià)格動(dòng)輒數(shù)十萬美元，這使得大多數(shù)家庭無法負(fù)擔(dān)。例如，PR2是家用機(jī)器人最早的迭代產(chǎn)品之一，重200公斤，售價(jià)40萬美元。

　　幸好，新一代更便宜的機(jī)器人漸漸出現(xiàn)了。由美國(guó)初創(chuàng)公司Hello Robot開發(fā)的一款新型家庭機(jī)器人Stretch 3，價(jià)格就合理得多，24950美元，重量為24.5公斤。它有一個(gè)小型移動(dòng)底座，一根懸掛著攝像頭的搖桿，一個(gè)可調(diào)節(jié)手臂和一個(gè)末端帶有吸盤的夾具，可通過控制器進(jìn)行操作。

　　與此同時(shí)，美國(guó)斯坦福大學(xué)研究團(tuán)隊(duì)建立了一個(gè)名為Mobile ALOHA(低成本開源硬件遠(yuǎn)程操作)的系統(tǒng)，能讓機(jī)器人僅借助20個(gè)數(shù)據(jù)(包括人類演示)就學(xué)會(huì)烹飪蝦。團(tuán)隊(duì)使用現(xiàn)成組件建造出價(jià)格更合理的機(jī)器人，雖然也要數(shù)萬美元，但之前的類似款動(dòng)輒數(shù)十萬美元。

　　AI構(gòu)建“通用機(jī)器人大腦”

　　將這批新機(jī)器人與“前輩”區(qū)分開來的，其實(shí)是它們的軟件。由于AI繁榮發(fā)展，現(xiàn)在的技術(shù)焦點(diǎn)，正在從昂貴機(jī)器人實(shí)現(xiàn)身體靈巧性轉(zhuǎn)向，轉(zhuǎn)變?yōu)橛蒙窠?jīng)網(wǎng)絡(luò)構(gòu)建“通用機(jī)器人大腦”。

　　機(jī)器人專家正使用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)來創(chuàng)建“大腦”系統(tǒng)，以便能在應(yīng)用中從環(huán)境學(xué)習(xí)并相應(yīng)調(diào)整機(jī)器人行為，而不是像傳統(tǒng)的精心規(guī)劃和艱苦培訓(xùn)。

　　2023年夏天，谷歌公司推出了視覺—語言—行動(dòng)模型RT-2。該模型能從用于訓(xùn)練的在線文本和圖像以及自身的交互中獲得對(duì)世界的一般理解，并把這些數(shù)據(jù)轉(zhuǎn)化為機(jī)器人操作。

　　豐田研究所、哥倫比亞大學(xué)和麻省理工學(xué)院團(tuán)隊(duì)已借助一種稱為模仿學(xué)習(xí)的AI學(xué)習(xí)技術(shù)以及生成式AI，快速教機(jī)器人完成許多新任務(wù)。這一方法將推動(dòng)生成式AI技術(shù)從文本、圖像和視頻領(lǐng)域擴(kuò)展到機(jī)器人運(yùn)動(dòng)領(lǐng)域。

　　從OpenAI現(xiàn)已關(guān)閉的機(jī)器人研究部門分拆出來的初創(chuàng)公司Covariant，則建立了一個(gè)多模態(tài)模型RFM-1，可接受文本、圖像、視頻、機(jī)器人指令的提示。生成式AI讓機(jī)器人能理解指令并生成與這些任務(wù)相關(guān)的圖像或視頻。

　　更多數(shù)據(jù)催生更智能機(jī)器人

　　GPT-4等大型AI模型的力量，在于從互聯(lián)網(wǎng)上囤積大量數(shù)據(jù)，但這并不適用于機(jī)器人，因?yàn)闄C(jī)器人需要專門為它們收集的數(shù)據(jù)。它們需要實(shí)物演示如何打開洗衣機(jī)和冰箱、拿起盤子或折疊衣物�，F(xiàn)在，這些數(shù)據(jù)非常稀缺，收集也需要很長(zhǎng)時(shí)間。

　　谷歌深度思維公司發(fā)起了一項(xiàng)名為“開源X-Embodiment協(xié)作”的新計(jì)劃，旨在改變這種狀況。去年，該公司與34個(gè)實(shí)驗(yàn)室約150名研究人員合作，從22種不同的機(jī)器人收集數(shù)據(jù)，包括Hello Robot的Stretch 3。由此產(chǎn)生的數(shù)據(jù)集于2023年10月發(fā)布，其中包括機(jī)器人的527種技能，例如采摘、推動(dòng)和移動(dòng)等。

　　還有一種稱為RT-X的機(jī)器人，研究人員專門為其構(gòu)建了兩個(gè)版本的模型，其既可在各個(gè)實(shí)驗(yàn)室的計(jì)算機(jī)上本地運(yùn)行，也可通過網(wǎng)絡(luò)訪問。

　　更大的、可通過網(wǎng)絡(luò)訪問的模型是用互聯(lián)網(wǎng)數(shù)據(jù)預(yù)先訓(xùn)練的，以從大型語言和圖像模型中發(fā)展出“視覺常識(shí)”。研究人員在許多不同機(jī)器人上運(yùn)行RT-X模型時(shí)，就會(huì)發(fā)現(xiàn)，這樣的機(jī)器人去學(xué)習(xí)技能的成功率，比每個(gè)實(shí)驗(yàn)室獨(dú)立開發(fā)的系統(tǒng)高出50%。

　　總而言之，是更多的數(shù)據(jù)，催生出了更智能的機(jī)器人。

（責(zé)任編輯：華康）

關(guān)閉此頁

家政機(jī)器人迎來高光時(shí)刻

相關(guān)文章:

熱點(diǎn)聚焦

最新閱讀

熱門排行