LLM-Only Dictionary Project Whitepaper

1. 개요 (Overview)

본 프로젝트는 전통적인 웹 크롤링이나 외부 사전 DB 없이, **대규모 언어 모델(LLM)**을 활용하여 웹스터(Webster) 수준의 영어 사전을 구축하는 것을 목표로 한다.
핵심 전략은 과잉 생성(Generate) → 검증(Validate) → 합의(Self-Consistency) → 편집/거절(Edit/Reject) 의 4단계 파이프라인을 통해 정의·예문 품질을 보장하는 것이다.


2. 문제 정의 (Problem Statement)

  • 기존 접근: 웹 크롤링 + 코퍼스 기반 → 저작권, 품질 불균형 문제
  • LLM 단독 접근: 무한한 후보 단어 생성 가능, 하지만
    • 허구어/환각 단어 혼입
    • 정의의 순환/모호성
    • 예문의 품질 저하
    • 일관성 부족
      이런 리스크가 존재한다.

3. 시스템 아키텍처 (System Architecture)

3.1 파이프라인

  1. Candidate Generation (후보 생성)
    • 접두사 기반(prefix-driven) 또는 알파벳 순서 기반
    • 각 prefix마다 수십~수백 단어 과잉 수집
  2. Validation (검증)
    • LLM이 “사전 편집자(editor)” 역할 수행
    • 필수 JSON 스키마 출력: { "word": "example", "pos": "noun", "short_def": "a representative instance", "example": "This is an example of usage.", "proper_noun": false, "rarity": 2, "confidence": 0.85, "accept": true, "reasons": [] }
    • 규칙:
      • Proper noun, abbreviation → reject
      • 정의 ≤ 20 단어, 예문 ≤ 20 단어
      • 순환정의 금지, 예문은 의미를 직접 보여야 함
  3. Self-Consistency (자기합의)
    • 동일 단어를 3회 이상 샘플링(temperature 0.2, 0.4, 0.8)
    • 다수결 + 의미 일치율 ≥ 2/3일 때만 채택
    • 정의·예문 통합 후 confidence 평균화
  4. Filtering (필터링)
    • rarity ≥ 4 or confidence < 0.6 → reject
    • Yield(유효/시도 비율) < 15% → prefix 종료
  5. Final Storage (저장)
    • JSON/SQLite 등 구조적 저장
    • 단어별 metadata(수집 시각, prefix, rarity, confidence, 검증 로그) 포함

4. 데이터 품질 전략 (Data Quality Strategy)

  • 과잉 생성 후 강한 필터링: 소량 정밀 수집보다 고품질 대규모 구축 가능
  • 다중 샘플링 합의: 일관성 확보
  • 편집 가이드라인:
    • 정의는 평이하게
    • 예문에 고유명사 금지
    • 외부 사전 문체 모방 금지(표절 방지)

5. 기술 구현 (Implementation)

5.1 주요 함수

  • llm_validate(word): 단일 단어 검증
  • self_consistency(word, n=3): 다중 샘플링 및 합의
  • _merge_defs(defs): 정의 통합 (가장 짧고 핵심 포함)
  • _pick_best_example(exs): 예문 통합

5.2 데이터 구조

{
  "word": "apple",
  "prefix": "ap",
  "collected_at": "2025-08-19T07:12:00",
  "pos": "noun",
  "definition": "a round fruit with red or green skin",
  "example": "She ate an apple for lunch.",
  "rarity": 1,
  "confidence": 0.92,
  "raw_line": "apple | noun | a round fruit..."
}

6. 웹 서비스 구상 (Web Service)

  • **단일 HTML (with CSS + JS)**으로 검색 서비스 구현 가능
  • 클라이언트 사이드 JSON 검색 or 간단한 Python/Flask/FastAPI backend 가능
  • UI 기능:
    • 검색창 + 자동완성
    • 정의 + 예문 표시
    • rarity/confidence 필터

7. 성과 지표 (Evaluation Metrics)

  • Yield Rate = 유효 단어 / 전체 시도
  • Definition Quality Score = LLM peer review or CLIP 기반 의미 유사도
  • Consistency Rate = 동일 단어 정의 일치율
  • Coverage = prefix 단위 누락률

8. 한계와 도전 과제 (Limitations & Challenges)

  • 희귀어 처리: 전문어, 고어, 신조어 포함 여부 결정 필요
  • 중의성(Polysemy): 다의어를 어떻게 분리할지 미해결
  • 법적/윤리적 문제:
    • 저작권 회피 → 문체/표현 자율적 생성 보장 필요
    • 허위 정보 포함 가능성 지속 관리 필요

9. 향후 계획 (Future Work)

  1. 희귀어 전용 수집 스테이지
  2. 동음이의어 처리 모델 추가
  3. 다국어 확장 (한국어, 일본어 등 병렬 사전 구축)
  4. API/SDK 배포 → 외부 서비스 연동

10. 결론 (Conclusion)

  • 단순 접두사 순서(sa → se → …)는 본질이 아님
  • 핵심은 LLM-only 환경에서 품질을 어떻게 보증하느냐
  • “생성 → 검증 → 합의 → 거절”의 반복적 파이프라인이 웹스터급 품질의 LLM 사전 구축의 핵심
  • 향후 연구는 희귀어, 다의어, 다국어로 확장 가능

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다