Система справилась с головоломкой за 44 часа без вмешательства человека.
Ученые разрабатывают подобные системы для достижения в дальнейшем возможности создавать самообучающиеся человекоподобные системы, а затем применять эти знания для реальных приложений.
Ранее искусственный интеллект (ИИ), занимающийся сборкой, не сразу мог определить, было ли движение удачным, и система не могла быть вознаграждена, обучение по усилению не работало. Для этого группой ученых из Калифорнийского университета в Ирвине, во главе с Стивеном Макалером, Лесом Агостинелли и Александром Шмаковым был разработан новый метод, - Autodidactic Iteration.
При совершении хода DeepCube автоматически просчитывает его результат, «прыгая» к состоянию уже решенной головоломки, и возвращаясь к совершенному движению. При этом DeepCube создает свою внутреннюю систему вознаграждений: определяет среднюю длину решения, и успешность хода. При получении достаточного объема данных, она использует метод дерева решений, проверяя каждое возможное движение для определения лучшего.