LLM-Only Dictionary Project Whitepaper

1. 개요 (Overview)

본 프로젝트는 전통적인 웹 크롤링이나 외부 사전 DB 없이, **대규모 언어 모델(LLM)**을 활용하여 웹스터(Webster) 수준의 영어 사전을 구축하는 것을 목표로 한다.
핵심 전략은 과잉 생성(Generate) → 검증(Validate) → 합의(Self-Consistency) → 편집/거절(Edit/Reject) 의 4단계 파이프라인을 통해 정의·예문 품질을 보장하는 것이다.

2. 문제 정의 (Problem Statement)

기존 접근: 웹 크롤링 + 코퍼스 기반 → 저작권, 품질 불균형 문제
LLM 단독 접근: 무한한 후보 단어 생성 가능, 하지만
- 허구어/환각 단어 혼입
- 정의의 순환/모호성
- 예문의 품질 저하
- 일관성 부족
  이런 리스크가 존재한다.

3. 시스템 아키텍처 (System Architecture)

3.1 파이프라인

Candidate Generation (후보 생성)
- 접두사 기반(prefix-driven) 또는 알파벳 순서 기반
- 각 prefix마다 수십~수백 단어 과잉 수집
Validation (검증)
- LLM이 “사전 편집자(editor)” 역할 수행
- 필수 JSON 스키마 출력: { "word": "example", "pos": "noun", "short_def": "a representative instance", "example": "This is an example of usage.", "proper_noun": false, "rarity": 2, "confidence": 0.85, "accept": true, "reasons": [] }
- 규칙:
  - Proper noun, abbreviation → reject
  - 정의 ≤ 20 단어, 예문 ≤ 20 단어
  - 순환정의 금지, 예문은 의미를 직접 보여야 함
Self-Consistency (자기합의)
- 동일 단어를 3회 이상 샘플링(temperature 0.2, 0.4, 0.8)
- 다수결 + 의미 일치율 ≥ 2/3일 때만 채택
- 정의·예문 통합 후 confidence 평균화
Filtering (필터링)
- rarity ≥ 4 or confidence < 0.6 → reject
- Yield(유효/시도 비율) < 15% → prefix 종료
Final Storage (저장)
- JSON/SQLite 등 구조적 저장
- 단어별 metadata(수집 시각, prefix, rarity, confidence, 검증 로그) 포함

4. 데이터 품질 전략 (Data Quality Strategy)

과잉 생성 후 강한 필터링: 소량 정밀 수집보다 고품질 대규모 구축 가능
다중 샘플링 합의: 일관성 확보
편집 가이드라인:
- 정의는 평이하게
- 예문에 고유명사 금지
- 외부 사전 문체 모방 금지(표절 방지)

5. 기술 구현 (Implementation)

5.1 주요 함수

llm_validate(word): 단일 단어 검증
self_consistency(word, n=3): 다중 샘플링 및 합의
_merge_defs(defs): 정의 통합 (가장 짧고 핵심 포함)
_pick_best_example(exs): 예문 통합

5.2 데이터 구조

{
  "word": "apple",
  "prefix": "ap",
  "collected_at": "2025-08-19T07:12:00",
  "pos": "noun",
  "definition": "a round fruit with red or green skin",
  "example": "She ate an apple for lunch.",
  "rarity": 1,
  "confidence": 0.92,
  "raw_line": "apple | noun | a round fruit..."
}

6. 웹 서비스 구상 (Web Service)

**단일 HTML (with CSS + JS)**으로 검색 서비스 구현 가능
클라이언트 사이드 JSON 검색 or 간단한 Python/Flask/FastAPI backend 가능
UI 기능:
- 검색창 + 자동완성
- 정의 + 예문 표시
- rarity/confidence 필터

7. 성과 지표 (Evaluation Metrics)

Yield Rate = 유효 단어 / 전체 시도
Definition Quality Score = LLM peer review or CLIP 기반 의미 유사도
Consistency Rate = 동일 단어 정의 일치율
Coverage = prefix 단위 누락률

8. 한계와 도전 과제 (Limitations & Challenges)

희귀어 처리: 전문어, 고어, 신조어 포함 여부 결정 필요
중의성(Polysemy): 다의어를 어떻게 분리할지 미해결

9. 향후 계획 (Future Work)

희귀어 전용 수집 스테이지
동음이의어 처리 모델 추가
다국어 확장 (한국어, 일본어 등 병렬 사전 구축)
API/SDK 배포 → 외부 서비스 연동

10. 결론 (Conclusion)

단순 접두사 순서(sa → se → …)는 본질이 아님
핵심은 LLM-only 환경에서 품질을 어떻게 보증하느냐
“생성 → 검증 → 합의 → 거절”의 반복적 파이프라인이 웹스터급 품질의 LLM 사전 구축의 핵심
향후 연구는 희귀어, 다의어, 다국어로 확장 가능

1. 개요 (Overview)

2. 문제 정의 (Problem Statement)

3. 시스템 아키텍처 (System Architecture)

3.1 파이프라인

4. 데이터 품질 전략 (Data Quality Strategy)

5. 기술 구현 (Implementation)

5.1 주요 함수

5.2 데이터 구조

6. 웹 서비스 구상 (Web Service)

7. 성과 지표 (Evaluation Metrics)

8. 한계와 도전 과제 (Limitations & Challenges)

9. 향후 계획 (Future Work)

10. 결론 (Conclusion)

코멘트

답글 남기기 응답 취소

더 많은 게시물

logs_chocolatey installation

API Architecture Styles

ChatGPT UI

한국어 STT/TTS 최고 성능 모델 및 서비스 비교