Uvod u duboko Q-učenje: igrajmo Doom

Ovaj je članak dio Tečaja učenja dubokog pojačanja s Tensorflowom? ️. Provjerite nastavni plan ovdje.

Prošli smo put saznali o Q-učenju: algoritmu koji stvara Q-tablicu koju agent koristi za pronalaženje najbolje radnje koju treba poduzeti u danom stanju.

Ali kao što ćemo vidjeti, izrada i ažuriranje Q-tablice može postati neučinkovito u velikim državnim svemirskim okruženjima.

Ovaj je članak treći dio serije blogova o učenju dubokog pojačanja. Za više informacija i više resursa, pogledajte nastavni program tečaja.

Danas ćemo stvoriti duboku Q neuronsku mrežu. Umjesto da koristimo Q-tablicu, implementirat ćemo neuronsku mrežu koja zauzima stanje i aproksimira Q-vrijednosti za svaku akciju na temelju tog stanja.

Zahvaljujući ovom modelu moći ćemo stvoriti agenta koji uči igrati Doom!

U ovom ćete članku naučiti:

 • Što je dubinsko Q-učenje (DQL)?
 • Koje su najbolje strategije korištenja s DQL-om?
 • Kako riješiti problem vremenskog ograničenja
 • Zašto koristimo ponavljanje iskustva
 • Koja je matematika iza DQL-a
 • Kako to implementirati u Tensorflow

Dodavanje "dubokog" u Q-učenje

U prošlom članku stvorili smo agenta koji igra Frozen Lake zahvaljujući algoritmu Q-učenja.

Implementirali smo funkciju Q-učenja za stvaranje i ažuriranje Q-tablice. Shvatite ovo kao "varalicu" koja će nam pomoći da pronađemo maksimalno očekivanu buduću nagradu za akciju, s obzirom na trenutno stanje. Ovo je bila dobra strategija - međutim, ovo nije skalabilno.

Zamislite što ćemo danas. Stvorit ćemo agenta koji nauči igrati Doom. Doom je veliko okruženje s gigantskim državnim prostorom (milijuni različitih država). Stvaranje i ažuriranje Q-tablice za to okruženje uopće ne bi bilo učinkovito.

Najbolja ideja u ovom slučaju je stvoriti neuronsku mrežu koja će aproksimirati, s obzirom na stanje, različite Q-vrijednosti za svaku akciju.

Kako funkcionira duboko Q-učenje?

Ovo će biti arhitektura našeg dubokog Q učenja:

To se može činiti složenim, ali arhitekturu ću objasniti korak po korak.

Naša duboka Q neuronska mreža uzima niz od četiri okvira kao ulaz. Oni prolaze kroz njegovu mrežu i daju vektor Q-vrijednosti za svaku moguću akciju u danom stanju. Moramo poduzeti najveću Q-vrijednost ovog vektora da bismo pronašli najbolje postupke.

U početku agent jako loše prolazi. Ali s vremenom počinje povezivati ​​okvire (stanja) s najboljim radnjama.

Dio predobrade

Predobrada je važan korak. Želimo smanjiti složenost naših država kako bismo smanjili vrijeme računanja potrebno za obuku.

Prvo, možemo definirati sive u svakoj od naših država. Boja ne dodaje važne informacije (u našem slučaju, samo moramo pronaći neprijatelja i ubiti ga, a ne treba mu boja da bismo ga pronašli). Ovo je važna ušteda jer smanjujemo tri kanala u boji (RGB) na 1 (sive boje).

Zatim obrezujemo okvir. U našem primjeru vidjeti krov zapravo nije korisno.

Zatim smanjimo veličinu okvira i zajedno slažemo četiri podokvira.

Problem vremenskog ograničenja

Arthur Juliani daje sjajno objašnjenje o ovoj temi u svom članku. Ima pametnu ideju: pomoću neuronskih mreža LSTM za rješavanje problema.

Međutim, mislim da je za početnike bolje koristiti naslagane okvire.

Prvo pitanje koje možete postaviti je zašto okvire slažemo zajedno?

Okvire slažemo zajedno jer nam pomaže u rješavanju problema vremenskog ograničenja.

Uzmimo primjer, u igri Pong. Kad vidite ovaj okvir:

Možete li mi reći kamo ide lopta?

Ne, jer jedan kadar nije dovoljan da biste imali osjećaj pokreta!

Ali što ako dodam još tri okvira? Ovdje možete vidjeti da lopta ide udesno.

To je ista stvar za našeg Doom agenta. Ako mu istovremeno dodamo samo jedan kadar, on nema pojma pokreta. I kako može donijeti ispravnu odluku, ako ne može odrediti gdje se i koliko brzo predmeti kreću?

Korištenje konvolucijskih mreža

Okviri se obrađuju u tri konvolucijska sloja. Ti vam slojevi omogućuju iskorištavanje prostornih odnosa na slikama. Ali također, budući da su okviri složeni zajedno, možete iskoristiti neka prostorna svojstva u tim okvirima.

Ako vam nije poznata konvolucija, pročitajte ovaj izvrsni intuitivni članak Adama Geitgeya.

Svaki sloj konvolucije koristit će ELU kao funkciju aktiviranja. Dokazano je da je ELU dobra aktivacijska funkcija za slojeve konvolucije.

Koristimo jedan potpuno povezani sloj s ELU funkcijom aktivacije i jedan izlazni sloj (potpuno povezani sloj s linearnom funkcijom aktivacije) koji daje procjenu Q-vrijednosti za svaku akciju.

Ponavljanje iskustva: učinkovitije korištenje promatranog iskustva

Ponovno iskustvo pomoći će nam da riješimo dvije stvari:

 • Izbjegavajte zaboraviti prethodna iskustva.
 • Reduce correlations between experiences.

I will explain these two concepts.

This part and the illustrations were inspired by the great explanation in the Deep Q Learning chapter in the Deep Learning Foundations Nanodegree by Udacity.

Avoid forgetting previous experiences

We have a big problem: the variability of the weights, because there is high correlation between actions and states.

Remember in the first article (Introduction to Reinforcement Learning), we spoke about the Reinforcement Learning process:

At each time step, we receive a tuple (state, action, reward, new_state). We learn from it (we feed the tuple in our neural network), and then throw this experience.

Our problem is that we give sequential samples from interactions with the environment to our neural network. And it tends to forget the previous experiences as it overwrites with new experiences.

For instance, if we are in the first level and then the second (which is totally different), our agent can forget how to behave in the first level.

As a consequence, it can be more efficient to make use of previous experience, by learning with it multiple times.

Our solution: create a “replay buffer.” This stores experience tuples while interacting with the environment, and then we sample a small batch of tuple to feed our neural network.

Think of the replay buffer as a folder where every sheet is an experience tuple. You feed it by interacting with the environment. And then you take some random sheet to feed the neural network

This prevents the network from only learning about what it has immediately done.

Reducing correlation between experiences

We have another problem — we know that every action affects the next state. This outputs a sequence of experience tuples which can be highly correlated.

If we train the network in sequential order, we risk our agent being influenced by the effect of this correlation.

By sampling from the replay buffer at random, we can break this correlation. This prevents action values from oscillating or diverging catastrophically.

It will be easier to understand that with an example. Let’s say we play a first-person shooter, where a monster can appear on the left or on the right. The goal of our agent is to shoot the monster. It has two guns and two actions: shoot left or shoot right.

We learn with ordered experience. Say we know that if we shoot a monster, the probability that the next monster comes from the same direction is 70%. In our case, this is the correlation between our experiences tuples.

Let’s begin the training. Our agent sees the monster on the right, and shoots it using the right gun. This is correct!

Then the next monster also comes from the right (with 70% probability), and the agent will shoot with the right gun. Again, this is good!

And so on and on…

The problem is, this approach increases the value of using the right gun through the entire state space.

And if our agent doesn’t see a lot of left examples (since only 30% will probably come from the left), our agent will only finish by choosing right regardless of where the monster comes from. This is not rational at all.

We have two parallel strategies to handle this problem.

First, we must stop learning while interacting with the environment. We should try different things and play a little randomly to explore the state space. We can save these experiences in the replay buffer.

Then, we can recall these experiences and learn from them. After that, go back to play with updated value function.

As a consequence, we will have a better set of examples. We will be able to generalize patterns from across these examples, recalling them in whatever order.

This helps avoid being fixated on one region of the state space. This prevents reinforcing the same action over and over.

This approach can be seen as a form of Supervised Learning.

We’ll see in future articles that we can also use “prioritized experience replay.” This lets us present rare or “important” tuples to the neural network more frequently.

Our Deep Q-Learning algorithm

First a little bit of mathematics:

Remember that we update our Q value for a given state and action using the Bellman equation:

In our case, we want to update our neural nets weights to reduce the error.

The error (or TD error) is calculated by taking the difference between our Q_target (maximum possible value from the next state) and Q_value (our current prediction of the Q-value)

Initialize Doom Environment EInitialize replay Memory M with capacity N (= finite capacity)Initialize the DQN weights wfor episode in max_episode: s = Environment state for steps in max_steps: Choose action a from state s using epsilon greedy. Take action a, get r (reward) and s' (next state) Store experience tuple in M s = s' (state = new_state) Get random minibatch of exp tuples from M Set Q_target = reward(s,a) + γmaxQ(s') Update w = α(Q_target - Q_value) * ∇w Q_value

There are two processes that are happening in this algorithm:

 • We sample the environment where we perform actions and store the observed experiences tuples in a replay memory.
 • Select the small batch of tuple random and learn from it using a gradient descent update step.

Primijenimo našu duboku Q neuronsku mrežu

Napravili smo video u kojem s Tensorflowom implementiramo sredstvo za duboko Q-učenje koje uči igrati Atari Space Invaders? ️ ?.

Sad kad znamo kako to funkcionira, korak po korak implementirat ćemo našu duboku Q neuronsku mrežu. Svaki korak i svaki dio koda objašnjeni su izravno u Jupyterovoj bilježnici dolje povezanoj.

Možete mu pristupiti u repo tečaju za učenje dubokog pojačanja.

To je sve! Upravo ste stvorili agenta koji uči igrati Doom. Super!

Ne zaboravite sami implementirati svaki dio koda. Zaista je važno pokušati izmijeniti kod koji sam vam dao. Pokušajte dodati epohe, promijeniti arhitekturu, dodati fiksne Q-vrijednosti, promijeniti brzinu učenja, koristiti teže okruženje (kao što je okupljanje zdravlja) ... i tako dalje. Zabavite se!

U sljedećem članku raspravit ću o posljednjim poboljšanjima dubokog Q-učenja:

 • Fiksne Q-vrijednosti
 • Prioritized Experience Replay
 • Double DQN
 • Dueling Networks

But next time we’ll work on Policy Gradients by training an agent that plays Doom, and we’ll try to survive in an hostile environment by collecting health.

If you liked my article, please click the ? below as many time as you liked the article so other people will see this here on Medium. And don’t forget to follow me!

If you have any thoughts, comments, questions, feel free to comment below or send me an email: [email protected], or tweet me @ThomasSimonini.

Keep learning, stay awesome!

Deep Reinforcement Learning Course with Tensorflow ?️

? Syllabus

? Video version

Part 1: An introduction to Reinforcement Learning

Part 2: Diving deeper into Reinforcement Learning with Q-Learning

Part 3: An introduction to Deep Q-Learning: let’s play Doom

Part 3+: Improvements in Deep Q Learning: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets

Part 4: An introduction to Policy Gradients with Doom and Cartpole

Part 5: An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!

Part 6: Proximal Policy Optimization (PPO) with Sonic the Hedgehog 2 and 3

Part 7: Curiosity-Driven Learning made easy Part I