2026.03.16M·07LLM 평가(Eval): AI 기능의 품질을 어떻게 측정할까
AI 기능을 프로덕션에 올렸는데 '잘 되는 것 같은데...'로 끝나면 곤란하다. LLM Eval의 종류와 메트릭, 실제 평가 데이터셋 구축 방법, CI에 Eval을 붙이는 방법까지 정리했다.
LLM EvaluationAI QualityEvals
→2026.03.11M·05RAG 파이프라인 구축: 벡터 DB + LLM으로 문서 검색
LLM은 학습 데이터 밖의 지식을 모른다. RAG가 이 문제를 어떻게 해결하는지, 문서 수집부터 청킹, 임베딩, 벡터 저장, 검색, 생성까지 전체 파이프라인을 Python과 TypeScript 예제로 구축한다.
RAGVector DatabaseLLM
→