AI / Machine Learningproces

gradient polityki

Metoda optymalizująca parametryczną politykę przez wznoszenie gradientowe względem oczekiwanego zwrotu, bez pośredniej funkcji wartości.

Typ
proces
Pojęcie nadrzędne
metoda optymalizacji polityki
Źródło
Sutton i in., Policy Gradient Methods, NeurIPS 2000

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja