在訓(xùn)練泉州機器人培訓(xùn)的過程中,應(yīng)采用正強化法,即相比于在它做錯時進行懲罰,更應(yīng)在它做對時進行激勵。而對于機器人來說,這種激勵機制是以評分系統(tǒng)的形式呈現(xiàn)的,類似玩游戲一樣,根據(jù)執(zhí)行任務(wù)的情況獲得積分。
種方法能夠大大縮短訓(xùn)練機器人執(zhí)行任務(wù)的時間。“機器人希望能得到更高的分數(shù),所以它們很快就可以完成相關(guān)任務(wù)。過去機器人需要一個月的練習(xí)才能達到100%的準確性,現(xiàn)在只用兩天就能做到?!?/section>不過他也指出,目前機器人執(zhí)行的這些任務(wù)仍然是比較初級的,比如堆積木。但在未來,機器人培訓(xùn)有望通過正強化法完成更復(fù)雜和有意義的任務(wù)。