LLM 평가(Eval): AI 기능의 품질을 어떻게 측정할까
AI 기능을 프로덕션에 올렸는데 '잘 되는 것 같은데...'로 끝나면 곤란하다. LLM Eval의 종류와 메트릭, 실제 평가 데이터셋 구축 방법, CI에 Eval을 붙이는 방법까지 정리했다.

개발과 기술에 대한 이야기를 기록합니다.
AI 기능을 프로덕션에 올렸는데 '잘 되는 것 같은데...'로 끝나면 곤란하다. LLM Eval의 종류와 메트릭, 실제 평가 데이터셋 구축 방법, CI에 Eval을 붙이는 방법까지 정리했다.

기초 프롬프팅을 넘어서 실제로 신뢰할 수 있는 구조화된 출력을 얻는 방법. 시스템/유저/어시스턴트 역할 설계, Few-shot, CoT, JSON 모드, Function Calling, Zod + AI SDK로 타입 안전한 LLM 응답을 만드는 완전 가이드.

LLM은 학습 데이터 밖의 지식을 모른다. RAG가 이 문제를 어떻게 해결하는지, 문서 수집부터 청킹, 임베딩, 벡터 저장, 검색, 생성까지 전체 파이프라인을 Python과 TypeScript 예제로 구축한다.

둘 다 같은 Transformer 자식인데 왜 다를까? '빈칸 채우기'와 '이어 쓰기' 비유로 알아보는 BERT와 GPT의 결정적 차이. 프로젝트에서 겪은 시행착오와 선택 가이드.

RNN의 한계인 '치매 증상'을 극복하고, 구글이 'Attention Is All You Need' 논문으로 세상을 뒤집은 이야기. 쿼리(Query), 키(Key), 밸류(Value)의 완벽한 도서관 검색 비유와 멀티 헤드 어텐션, 그리고 Vision Transformer까지 연결합니다.

AI 프로젝트를 시작할 때 가장 먼저 부딪히는 문제. 정답이 있는 데이터가 없을 때 어떻게 해야 할까? 지도, 비지도, 준지도 학습의 현실적인 선택 가이드.

AI, 머신러닝, 딥러닝의 차이를 '마트료시카 인형' 비유로 설명합니다. 최신 Transformer 아키텍처, RAG vs Fine-tuning 비교, AI 윤리, 그리고 개발자가 AI 엔지니어로 커리어 전환하는 법까지 총정리.
