Home | Back to Courses
Машинное обучение с подкреплением на Python

Partner: Udemy
Affiliate Name:
Area:
Description: Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.Проект: разработка собственного выигрышного агента для игры в крестики-нолики.2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.Проект: разработка оптимизированной DQN для балансировки тележки.3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.Проект: расчет оптимальной стратегии игры в блекджек.Теория по курсу включает:Задачи машинного обучени
Category: Development > Data Science > Reinforcement Learning
Partner ID:
Price: 89.99
Commission:
Source: Impact
Go to Course