AI / Machine Learningproces

RLHF

Reinforcement Learning from Human Feedback

Uczenie ze wzmocnieniem na podstawie preferencji ludzi — dostrajanie modelu tak, by jego wyjścia maksymalizowały nagrodę odzwierciedlającą oceny człowieka.

Typ: proces
Pojęcie nadrzędne: uczenie ze wzmocnieniem
Kategoria: AI / Machine Learning · Modele generatywne i LLM
Źródło: Christiano et al., Deep RL from Human Preferences, 2017

Zobacz też

strojenie instrukcyjne wyrównanie

Powiązane pojęcia · AI / ML / DL / NLP

kalibracja

Zgodność deklarowanych prawdopodobieństw modelu z empiryczną częstością zdarzeń; dobrze skalibrowany model ma trafne oceny pewności.

czułość

Udział poprawnie wykrytych przypadków pozytywnych wśród wszystkich rzeczywistych pozytywów; mierzy zdolność wykrywania klasy docelowej.

miara F1

Średnia harmoniczna precyzji i czułości, łącząca obie w jedną wartość; szczególny przypadek miary F dla równej wagi.

precyzja

Udział poprawnych wskazań klasy pozytywnej wśród wszystkich wskazań tej klasy; mierzy frakcję trafnych spośród przewidzianych pozytywów.

AUC

Pole pod krzywą ROC; prawdopodobieństwo, że losowy pozytyw otrzyma wyższą ocenę niż losowy negatyw, miara separowalności klas.

krzywa ROC

Wykres odsetka trafień względem odsetka fałszywych alarmów przy zmiennym progu decyzyjnym klasyfikatora binarnego.

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja

← Wróć do słownika