Uczenie się ze wzmocnieniem (ang. Reinforcement Learning, RL) to metoda uczenia maszynowego, w której agent uczy się, jak podejmować decyzje w dynamicznym środowisku poprzez interakcję z tym środowiskiem. W przeciwieństwie do uczenia nadzorowanego, w którym model uczy się na podstawie oznaczonych danych, uczenie się ze wzmocnieniem polega na nauce na podstawie doświadczeń, które agent zdobywa w trakcie działania.
Główne elementy uczenia się ze wzmocnieniem to:
- Agent: Podmiot, który podejmuje decyzje i wykonuje akcje w danym środowisku.
- Środowisko: Otoczenie, w którym agent operuje, które reaguje na akcje agenta, dostarczając mu nowe stany i nagrody.
- Stan: Reprezentacja aktualnej sytuacji w środowisku, w której agent podejmuje decyzje.
- Akcja: Działanie podejmowane przez agenta, które wpływa na stan środowiska.
- Nagroda: Sygnalizuje agentowi, jak dobrze lub źle poradził sobie z wykonaniem akcji w danym stanie. Nagrody mogą być dodatnie (uznanie za dobre działanie) lub ujemne (kara za złe działanie).
- Polityka: Strategia, którą agent stosuje do podejmowania decyzji, czyli zbiór reguł określających, jak wybierać akcje w różnych stanach.
Proces uczenia się ze wzmocnieniem polega na maksymalizacji skumulowanej nagrody poprzez eksplorację (wypróbowanie różnych akcji) oraz eksploatację (wykorzystanie znanych akcji, które przynoszą dobre wyniki).
Uczenie się ze wzmocnieniem znajduje zastosowanie w różnych dziedzinach, takich jak gry komputerowe (np. AlphaGo), robotyka (uczenie się ruchów i zadań), systemy rekomendacji, automatyczne sterowanie oraz wiele innych. Metoda ta jest szczególnie skuteczna w sytuacjach, w których podejmowanie decyzji jest skomplikowane i wymaga długoterminowego planowania.