실록 RAG 검색 + LLM 응답 데모

버전	sillok_rag v0.3 · 보고서 작성 2026-05-16 (CPU fp32, GPU 미사용)
베이스 모델	BAAI/bge-m3 (XLM-RoBERTa-large, 약 568M) · 본체 동결
어댑터	LoRA r=16, α=32, dropout=0.05, target=Q/K/V/dense · 학습가능 7,110,656 / 574,865,408 (1.24%)
코퍼스	_shared_data/pairs.jsonl = 291,724쌍 (두주 한국어 ↔ 한문 본문)
데이터 분할	왕대 25개 층화, seed 20260515 → train 260,455 / dev 14,456 / test 14,456
학습 표본	train 260,455쌍 전역 셔플 후 앞 13,023쌍 = 정확히 5.00% (태조~철종 전 왕대 대표 표본)
학습 설정	train_seq 64 · batch 32 · epoch 1 · 407 step · lr 2e-5 cosine, warmup 0.1, wd 0.01 · loss 1.509→1.059 · 약 103분
벡터DB	내장 Qdrant 로컬 모드 · sillok_A(5% LoRA) / sillok_B(베이스) 각 5,024문서 · 1024차원 cosine · 색인 seq 64
색인 범위	코퍼스 앞 5,024건 = 태조 총서(waa_000001) ~ 태종 9년 1409-06-10 그날 1번째 기사(wca_10906010_001)
평가	test 앞 200건 통제풀 · Recall@1 B 0.575 → A 0.800 · MRR@20 B 0.674 → A 0.857

LLM 응답 생성

먼저 위에서 “A·B 동시 검색”을 실행하세요. 검색 결과(청크)가 있어야 LLM 응답을 생성할 수 있습니다.

시스템 프롬프트 사용자 메시지

자리표시자는 {{CONTEXT}} 하나뿐입니다 — 리트리버 검색어 + 검색 결과(청크)가 함께 들어갑니다. 리트리버 검색어는 한국어 요약 제목이라 실제 질문과 다를 수 있으니, 묻고 싶은 질문은 이 메시지 안에 직접 적으세요.

실제 호출 형상 미리보기

“LLM 응답 생성”이 OpenAI에 보낼 요청 본문 그대로입니다 (드라이런 — 서버가 실제 호출과 동일한 코드로 조립, 키·네트워크 미사용). 어느 필드에 무엇이 들어가는지 그대로 보여 줍니다. 입력하면 자동 갱신됩니다.

A · 학습후 (LoRA 5%) — —

—

B · 베이스 (대조군) — —

—

모델