leyu乐鱼

机器（qì）人学习（xí）目前已经（jīng）被广（guǎng）泛应用于（yú）现（xiàn）实世界（jiè），并（bìng）可以完成精密的手部、腿部动作。但在动态且高速的人机互动（dòng）中，机器人学习并不（bú）常见。谷歌选择开发乒乓球机器（qì）人，正是为了探索这类情况下人工智能的（de）可（kě）能性。

·使用i-Sim2Real这种（zhǒng）方式，在（zài）模拟环境下可以（yǐ）让数（shù）年的实时训（xùn）练（liàn）在几分钟或几小（xiǎo）时内完成。

谷歌i-Sim2Real项目乒乓球机器（qì）人与（yǔ）人类训（xùn）练（liàn）。本文图片（piàn）来源：谷歌

似乎现存的每一种桌（zhuō）上运动中，人工智能都立（lì）于不败之地。乒乓（pāng）球竞（jìng）技中，谷歌AI同（tóng）样难逢敌（dí）手。10月18日，谷（gǔ）歌公布其正（zhèng）在研究的“乒乓球机器（qì）人（rén）”项目（mù），在与人类对打时一回合可接球（qiú）340次。目前，谷歌强调这只是（shì）人类与AI的“合作”，并非（fēi）击败人类，但以AI成长的（de）速（sù）度，它将很快成为（wéi）专业选（xuǎn）手。

机器人学（xué）习目（mù）前（qián）已（yǐ）经（jīng）被广泛应用于现（xiàn）实世界，并可以完（wán）成精密的手（shǒu）部（bù）、腿部动作。但在动（dòng）态且高速的（de）人机互动中，机器（qì）人学习并（bìng）不常见（jiàn）。谷（gǔ）歌（gē）选择开发乒乓球（qiú）机（jī）器人，正是为了探索这类情况下人工（gōng）智（zhì）能的可能性。

解决“先（xiān）有鸡还（hái）是先有蛋（dàn）”

在这（zhè）个名为（wéi）i-Sim2Real的项目中，谷歌的（de）乒乓球机（jī）器人（rén）在模（mó）拟环境中不断学习，并将学（xué）习成果运用于现实世界，最终可以（yǐ）在一个与人类的（de）乒乓球接（jiē）发回合中，接（jiē）球（qiú）超过三百（bǎi）次。它还能把（bǎ）球送（sòng）回不同的区域，虽然不（bú）能精确到数字上，但已（yǐ）经足够精（jīng）确（què）到让机器人规划策略，来控制乒乓球的最终目的地。

乒乓球机器人可以在一个回合中接球超过三百次。视频来源：谷歌(00:10)

谷歌之所以（yǐ）选择乒乓球（qiú）运动，是因为机器人可以与快（kuài）节奏以及相对不可（kě）预测（cè）的人（rén）类行（háng）为进行交互，同时乒乓（pāng）球（qiú）的规则（zé）相（xiàng）对于（yú）篮球、板球等运动也较为（wéi）简（jiǎn）单直接。机器人完成乒乓球（qiú）动作时（shí），既（jì）要求速度又要求精度，这对学习（xí）算法提出了很（hěn）高的要（yào）求。同时，这类运动具有固定的、可预测的环境（jìng），使其成为研究人机（jī）交互和（hé）强（qiáng）化学（xué）习问题的理想（xiǎng）测试平（píng）台。这（zhè）些特性使得谷歌开发了（le）i-Sim2Real项（xiàng）目（mù）。

i-Sim2Real也（yě）不（bú）仅仅（jǐn）是关于乒乓球机器人，更是一种人工智能（néng）创（chuàng）造过程的方式，在这个过程中，机器学习模型被教会在虚拟环境或模拟（nǐ）中做什么，然后（hòu）再应用这些（xiē）知识，目（mù）标是（shì）尽（jìn）可能长时（shí）间地与人（rén）类进行接球回合而不失误。在现（xiàn）实世界（jiè）中直接与（yǔ）人类玩家进（jìn）行（háng）训练既繁（fán）琐又耗时（shí），当需要数年的试验和错误才（cái）能（néng）建立一个工作模型时，使用（yòng）i-Sim2Real这种方（fāng）式显得十分有效（xiào），它（tā）在模拟环（huán）境下可以让数（shù）年的实（shí）时训练（liàn）在几分钟或几（jǐ）小时内完成。

这种方式听起来（lái）简单高效（xiào），但在模拟（nǐ）中机器（qì）人并不是万能的。人类的活（huó）动具有一定的不可预（yù）测性，并不容易模拟，需（xū）要先有人类的（de）行为（wéi）模型作为（wéi）支撑。而人（rén）类（lèi）的（de）行（háng）为（wéi）模（mó）型，又需要（yào）与机（jī）器人（rén）互动（dòng）获得。这就陷入（rù）了（le）一个“是先有鸡还是先有蛋”的死循（xún）环。

i-Sim2Real解决这一鸡和蛋（dàn）问题的（de）方（fāng）法，是使用一个简单的人（rén）类行为模型作为近似起点，并让机器（qì）人在模（mó）拟训练和（hé）现实训练之（zhī）间交替学习（xí）。在每次迭代中（zhōng），都会细化人类行（háng）为（wéi）模型和策略。在机（jī）器人接近人类行为的过程中，初期（qī）的不理想是可以接受的，因为（wéi）机器人（rén）也（yě）只是刚（gāng）刚开始学习，之后每（měi）一场比赛都会收集更多真实（shí）的（de）人类数据，提高准确性，让AI学（xué）到（dào）更多。

i-Sim2Real的训练方（fāng）法。

GoalsEye：通（tōng）过自我监督来自主练习

除了i-Sim2Real这种模拟与现实交替进行的方法，研究人员也在探索只（zhī）使用现实的（de）数据（jù）学习的方法，即GoalsEye项目。

一开（kāi）始，模仿学习（IL）为研（yán）究人员提供了一种简单而（ér）稳定的思路（lù），但它需（xū）要（yào）人类行为进行演示，并且机器（qì）人的（de）技术无法超过（guò）演示（shì）者（zhě）的（de）水平。同时，当演示者拥（yōng）有在高速环境下精确接球的能力时，收集其数据具有一定（dìng）挑战性，而且（qiě）在刚（gāng）开始（shǐ）时可（kě）能非常低效。因此研究人员（yuán）尝试了一种结（jié）合最近行为（wéi）进（jìn）行重复的方法，从（cóng）一（yī）个小的、结构薄弱的、非目标数据集开始，不断学习精确定位目标的策略（luè）。

这种（zhǒng）方法使（shǐ）得（dé）在训练的（de）过（guò）程中，机器人的自（zì）主（zhǔ）学习能（néng）力显得至关重（chóng）要（yào）。研究人员设（shè）置了一个强调精度（dù）的乒乓球任务，要求机器人将球返回（huí）到桌（zhuō）子上（shàng）的任意目标位（wèi）置。机（jī）器人可以通过自（zì）我监（jiān）督来实现自主练习。例如（rú），机器（qì）人可以设置（zhì）随机目（mù）标，“击中左后角（jiǎo）”或“将球（qiú）从（cóng）右侧过网（wǎng）”，并尝（cháng）试使用当前掌握的（de）策（cè）略来实现这些目（mù）标，从而不断改进。所有尝试都会记录并添加到不断扩展的数据（jù）集中（zhōng）。这种自主练习是反复（fù）进行的，机器人（rén）通过不断的设置随机（jī）目标并尝试目标，从（cóng）而扩（kuò）展训练数据，调整策略。

GoalsEye策略旨在实现直径20厘米的目标（左）。人类玩（wán）家瞄准（zhǔn）同一（yī）个目标（右（yòu））。

GoalsEye的训练方法。

其效果也是显而易（yì）见的，在进行最初的2480次人类行为演示后，机器人只在（zài）9%的情况（kuàng）下（xià）能准确地达到（dào）距离目标（biāo）30厘（lí）米（mǐ）以内的目标。然而（ér），当机器人又自主练习了大约13500次后，达到目标的准确率上升到43%。同时，演示数量的提升（shēng）提高了（le）后（hòu）续自我练（liàn）习的效率，这（zhè）说明，计算时间、成本等因素后，演示可以适当替换自（zì）我练习，从而（ér）更高效的进行训练。

在这两（liǎng）个使用机器人乒乓球研究平（píng）台的互补项目中，i-Sim2Real可以在模拟与现实中交替学习策略（luè），而GoalsEye则证（zhèng）明（míng），从（cóng）现实世界的非结构化数（shù）据中学习，结合自我训练（liàn），对于在精（jīng）确（què）且动态的要求中（zhōng）学习（xí）目标条件策略是有效的。