AI Evals pentru LLM-uri în Producție: Testare, Scoring și Calitate pre-Deployment
Program avansat, complet practic, dedicat evaluării riguroase a sistemelor LLM înainte de livrarea în producție. Înveți să treci de la vibe-checks subiective la măsurare disciplinată: taxonomia evaluării (offline vs online, determinist vs LLM-judge), construirea de golden datasets curate și etichetate fără PII real, design-ul rubricilor pentru LLM-as-a-judge și mitigarea bias-urilor judecătorului, metrici de calitate pentru RAG și generare (faithfulness, answer relevancy, context precision și recall în stil RAGAS), framework-uri reale (DeepEval, Promptfoo) cu metric gates și red-teaming, regression suites integrate în CI/CD pentru a preveni degradarea calității, bugetarea modelului-judecător, sampling și monitorizare în producție, plus contextul EU AI Act (Art. 43, conformity assessment) pentru sisteme high-risk. Totul ancorat în documentația oficială Anthropic, OpenAI, DeepEval, RAGAS și Promptfoo, cu un proiect capstone end-to-end integrat în pipeline CI. Disclaimer: contextul legal este informativ, nu sfat juridic.
Ce vei invata
Competente practice pe care le dobandesti parcurgand acest curs
Pentru cine este
Nivel recomandat
Presupune experienta practica cu AI si scenarii complexe.
Actualizari
Periodic
Continut actualizat constant cu cele mai noi practici din industrie.
Categorie
AI Engineering
Curs tehnic pentru profesionisti IT — necesita plan IT Pro sau IT + Non-IT.
Nivel Advanced
Experienta practica necesara
Presupune experienta practica cu AI. Acopera scenarii complexe si strategii avansate.
Mereu actualizat
Continut de ultima generatie
Cursul este actualizat periodic cu cele mai noi informatii, instrumente si practici din industrie.
Practic si aplicat
31 lectii cu exemple reale
Fiecare lectie include scenarii practice, checklist-uri executabile si quiz-uri pentru verificarea cunostintelor.
Curriculum
10 module, 31 lectii — structurat pentru a invata pas cu pas.
Fundamentele Evaluării LLM: De la Vibe-Checks la Măsurare Riguroasă
3 lectiiGolden Datasets: Curare, Etichetare și Date Sintetice Fără PII
4 lectiiLLM-as-a-Judge: Rubrici, Calibrare și Mitigarea Bias-urilor
4 lectiiMetrici pentru RAG și Generare: Faithfulness, Relevancy și Context (RAGAS)
4 lectiiDeepEval în Practică: Metrici, Test Suites și Metric Gates
3 lectiiPromptfoo: Comparare, Red-Teaming și Quality Gate în CI
3 lectiiRegression Suites și CI/CD: Previi Degradarea Calității la Fiecare Deploy
3 lectiiCost și Operaționalizare: Bugetare, Sampling și Monitorizare în Producție
2 lectiiEvals și Conformitate EU AI Act: Context, Nu Sfat Juridic
2 lectiiProiect Capstone: Suită de Evals End-to-End Integrată în CI
3 lectiiVrei acces la acest curs?
Creeaza un cont si alege planul potrivit pentru a accesa acest curs si multe altele.