Inapoi la cursuri
IT PRO Advanced

AI Evals pentru LLM-uri în Producție: Testare, Scoring și Calitate pre-Deployment

Program avansat, complet practic, dedicat evaluării riguroase a sistemelor LLM înainte de livrarea în producție. Înveți să treci de la vibe-checks subiective la măsurare disciplinată: taxonomia evaluării (offline vs online, determinist vs LLM-judge), construirea de golden datasets curate și etichetate fără PII real, design-ul rubricilor pentru LLM-as-a-judge și mitigarea bias-urilor judecătorului, metrici de calitate pentru RAG și generare (faithfulness, answer relevancy, context precision și recall în stil RAGAS), framework-uri reale (DeepEval, Promptfoo) cu metric gates și red-teaming, regression suites integrate în CI/CD pentru a preveni degradarea calității, bugetarea modelului-judecător, sampling și monitorizare în producție, plus contextul EU AI Act (Art. 43, conformity assessment) pentru sisteme high-risk. Totul ancorat în documentația oficială Anthropic, OpenAI, DeepEval, RAGAS și Promptfoo, cu un proiect capstone end-to-end integrat în pipeline CI. Disclaimer: contextul legal este informativ, nu sfat juridic.

10 module
31 lectii
~24h durata
v1.0 versiune
Profesor AI virtual Agent AI integrat in fiecare lectie — pune intrebari si primesti raspunsuri instant bazate pe continutul cursului
Exercitii practice Scenarii reale si exercitii hands-on direct pe platforma, cu feedback instant
Progres si analytics Dashboard personal cu statistici, streaks, scoruri si trasee de invatare personalizate
Quizuri AI interactive Intrebari generate de AI si adaptate nivelului tau, cu explicatii detaliate
Acces la acest curs
249
lei + TVA / luna
Toate lectiile Quiz-uri AI Profesor AI — limitat Anulezi oricand
sau
Acces la toate cursurile IT Pro
Pachet IT Pro
1.999
lei + TVA / luna
Creeaza cont si alege pachetul
  • Acces la toate cele 20 cursuri IT Pro
  • Trasee structurate de invatare
  • Profesor AI Virtual — acces complet
  • Quiz-uri, progres, streaks, statistici
  • Notite, bookmarks, repetitie spatiata
  • Continut actualizat periodic
Actualizat periodic
Quiz-uri interactive
Progres salvat automat
Continut in romana
Agent AI integrat Exclusiv Întreabă orice despre lecție și primești răspuns instant — agentul cunoaște conținutul cursului
Chat interactiv cu AI Rezumate automate Quizuri personalizate

Ce vei invata

Competente practice pe care le dobandesti parcurgand acest curs

Fundamentele Evaluării LLM: De la Vibe-Checks la Măsurare Riguroasă
Golden Datasets: Curare, Etichetare și Date Sintetice Fără PII
LLM-as-a-Judge: Rubrici, Calibrare și Mitigarea Bias-urilor
Metrici pentru RAG și Generare: Faithfulness, Relevancy și Context (RAGAS)
DeepEval în Practică: Metrici, Test Suites și Metric Gates
Promptfoo: Comparare, Red-Teaming și Quality Gate în CI
Regression Suites și CI/CD: Previi Degradarea Calității la Fiecare Deploy
Cost și Operaționalizare: Bugetare, Sampling și Monitorizare în Producție
Evals și Conformitate EU AI Act: Context, Nu Sfat Juridic
Proiect Capstone: Suită de Evals End-to-End Integrată în CI

Pentru cine este

Developeri Ingineri software Arhitecti de solutii CTO / Tech Lead Data Scientists ML Engineers DevOps Engineers

Nivel recomandat

Advanced

Presupune experienta practica cu AI si scenarii complexe.

Actualizari

Periodic

Continut actualizat constant cu cele mai noi practici din industrie.

Categorie

AI Engineering

Curs tehnic pentru profesionisti IT — necesita plan IT Pro sau IT + Non-IT.

Nivel Advanced

Experienta practica necesara

Presupune experienta practica cu AI. Acopera scenarii complexe si strategii avansate.

Mereu actualizat

Continut de ultima generatie

Cursul este actualizat periodic cu cele mai noi informatii, instrumente si practici din industrie.

Practic si aplicat

31 lectii cu exemple reale

Fiecare lectie include scenarii practice, checklist-uri executabile si quiz-uri pentru verificarea cunostintelor.

Curriculum

10 module, 31 lectii — structurat pentru a invata pas cu pas.

10 module
31 lectii
~24h de continut
Quiz-uri interactive
Preview disponibil De Ce Evals: Problema Vibe-Checks-urilor și Costul Calității Negarantate
Citeste preview
1 Preview De Ce Evals: Problema Vibe-Checks-urilor și Costul Calității Negarantate
Citeste preview
2 Taxonomia Evaluării: Offline vs Online, Determinist vs LLM-Judge
54 min
3 Metrici Statistice și de Acord: Pass Rate, Praguri, Intervale de Încredere
50 min
1 Anatomia unui Golden Dataset: Structură, Acoperire și Versionare
52 min
2 Curare și Etichetare: De la Logs de Producție la Adevăr de Referință
54 min
3 Date Sintetice Fără PII: Generare, Anonimizare și Conformitate GDPR
56 min
4 Edge-Cases, Adversarial Inputs și Mentenanța în Timp a Datasetului
50 min
1 LLM-as-a-Judge: Când Folosești un Model ca Evaluator și Când Nu
52 min
2 Design de Rubrici: Criterii Clare, Scale și Chain-of-Thought pentru Judecător
56 min
3 Bias-urile Judecătorului: Position, Verbosity, Self-Preference și Mitigarea Lor
54 min
4 Calibrarea Judecătorului față de Oameni: Agreement, Kappa și Meta-Evaluare
52 min
1 De Ce RAG Are Nevoie de Metrici Proprii: Retriever vs Generator
50 min
2 Faithfulness și Answer Relevancy: Măsori Halucinația și Utilitatea Răspunsului
54 min
3 Context Precision și Context Recall: Calitatea Retrieverului
52 min
4 Metrici pentru Generare Non-RAG: Sumarizare, Tone, Format și Task Success
50 min
1 DeepEval: Modelul Mental, Instalare și Primul Test Case
52 min
2 Metrici și Test Suites în DeepEval: G-Eval, RAG Metrics și Custom Metrics
56 min
3 Metric Gates ca Poartă de Calitate: Praguri, Pass/Fail și Raportare
52 min
1 Promptfoo: Config Declarativ, Comparare de Prompturi și Modele
52 min
2 Red-Teaming cu Promptfoo: Probe de Robustețe pentru Calitate
54 min
3 Promptfoo în CI ca Quality Gate: Integrare și Decizii de Deploy
50 min
1 Regression Testing pentru LLM: De Ce Calitatea Se Degradează Tăcut
52 min
2 Pipeline CI/CD de Evals: Gates, Sharding, Flakiness și Raportare
56 min
3 Eval-Gating la Schimbarea Modelului: Migrare și A/B între Versiuni
52 min
1 Bugetarea Modelului-Judecător: Cost, Sampling și Tiering de Modele
52 min
2 Monitorizare în Producție: Online Evals, Sampling de Trafic și Alerting
54 min
1 Evals ca Probă: Testing Data și Conformity Assessment (Art. 43)
52 min
2 Documentarea Calității: Model Cards, Eval Reports și Pista de Audit
50 min
1 Proiectarea Suitei Capstone: Aplicația, Golden Dataset și Planul de Evaluare
54 min
2 Implementarea Evals: DeepEval + Promptfoo, Calibrarea Judecătorului și Raportare
56 min
3 Integrarea în CI și Evaluarea Finală a Cursului
54 min
Acces la toate cursurile IT Pro

Vrei acces la acest curs?

Creeaza un cont si alege planul potrivit pentru a accesa acest curs si multe altele.

31 lectii practice Continut actualizat constant Creat de experti AI