Inferencja wdrozenie i kompresja
23 pojęć w 11 podgrupach, z prostymi definicjami i źródłami.
Przeglądaj kategorię
Destylacja
Faza inferencji
Inferencja LLM
Przyspieszanie generacji przez model pomocniczy proponujący kilka tokenów naraz, które główny model weryfikuje jednym przebiegiem.
Bufor przechowujący klucze i wartości z poprzednich kroków uwagi w transformerze, by uniknąć ich ponownego liczenia podczas generacji.
Kwantyzacja
Redukcja precyzji liczbowej wag i aktywacji modelu (np. z FP32 na INT8) w celu zmniejszenia rozmiaru i przyspieszenia obliczeń.
Skrajna kwantyzacja, w której wagi lub aktywacje przyjmują jedynie dwie wartości, drastycznie redukując pamięć i koszt obliczeń.
Kwantyzacja stosowana do gotowego, wytrenowanego modelu bez ponownego uczenia, zwykle z użyciem małego zbioru kalibracyjnego.
Technika symulująca efekty kwantyzacji podczas treningu, by model nauczył się odporności na obniżoną precyzję.
Low rank
Metryki serwowania
Monitorowanie wdrozenia
Pruning
Runtime
Wykonywanie obliczeń modelu na wyspecjalizowanych układach (GPU, TPU, NPU) zamiast CPU, dla większej wydajności.
Łączenie kilku kolejnych operacji grafu w jedno jądro obliczeniowe, redukujące transfery pamięci i narzut wywołań.
Skierowany graf reprezentujący operacje i przepływ danych w modelu, podstawa do wykonania i optymalizacji obliczeń.
System przekształcający model wysokiego poziomu w zoptymalizowany kod wykonywalny dla docelowego sprzętu.
Serwowanie
Tworzenie wsadów w locie z napływających zapytań w oknie czasowym, równoważące latencję i przepustowość przy zmiennym ruchu.
Łączenie wielu zapytań w jeden wsad przetwarzany razem, by lepiej wykorzystać równoległość sprzętu i zwiększyć przepustowość.
Udostępnianie wytrenowanego modelu jako usługi obsługującej zapytania predykcyjne w produkcji.
Wdrozenie brzegowe
Pozostałe grupy — AI / ML / DL / NLP
- SłownikEwaluacja i metryki
- SłownikModele generatywne i LLM
- SłownikNLP i jezyk
- SłownikPodstawy uczenia i dane
- SłownikRegularyzacja i generalizacja
- SłownikSieci neuronowe architektury
- SłownikTrening i optymalizacja
- SłownikUczenie nadzorowane modele
- SłownikUczenie nienadzorowane i redukcja
- SłownikUczenie ze wzmocnieniem
Chcesz wykorzystać AI w swojej firmie?
Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.
Bezpłatna konsultacja