Qu’est-ce que le machine learning ?
Si la machine a gagné, on va remettre ces billes dans les verres en en ajoutant une (prise de la réserve) de la même couleur. C'est une .
Quelle est la principale différence entre la programmation standard et l’apprentissage par renforcement dans le jeu de Nim ?
Quelle est la principale différence entre l’apprentissage supervisé et l’apprentissage non supervisé en machine learning ?
Pourquoi l’apprentissage par renforcement peut-il être plus adapté lorsque la stratégie gagnante n’est pas connue à l’avance ?
Compléter le texte :
À la fin de la partie, si la machine a perdu, on va simplement ne pas remettre les billes jouées (stockées dans les récipients) dans les verres dont elles proviennent. On les remet dans la réserve. C'est une (terme consacré en apprentissage machine). Cela correspond à un mauvais choix dans la base des possibilités de jeu.
Quelles sont les étapes du processus d’apprentissage par renforcement dans le jeu de Nim ?