[카테고리:] 미분류

  • LLM-Only Dictionary Project Whitepaper

    1. 개요 (Overview)

    본 프로젝트는 전통적인 웹 크롤링이나 외부 사전 DB 없이, **대규모 언어 모델(LLM)**을 활용하여 웹스터(Webster) 수준의 영어 사전을 구축하는 것을 목표로 한다.
    핵심 전략은 과잉 생성(Generate) → 검증(Validate) → 합의(Self-Consistency) → 편집/거절(Edit/Reject) 의 4단계 파이프라인을 통해 정의·예문 품질을 보장하는 것이다.


    2. 문제 정의 (Problem Statement)

    • 기존 접근: 웹 크롤링 + 코퍼스 기반 → 저작권, 품질 불균형 문제
    • LLM 단독 접근: 무한한 후보 단어 생성 가능, 하지만
      • 허구어/환각 단어 혼입
      • 정의의 순환/모호성
      • 예문의 품질 저하
      • 일관성 부족
        이런 리스크가 존재한다.

    3. 시스템 아키텍처 (System Architecture)

    3.1 파이프라인

    1. Candidate Generation (후보 생성)
      • 접두사 기반(prefix-driven) 또는 알파벳 순서 기반
      • 각 prefix마다 수십~수백 단어 과잉 수집
    2. Validation (검증)
      • LLM이 “사전 편집자(editor)” 역할 수행
      • 필수 JSON 스키마 출력: { "word": "example", "pos": "noun", "short_def": "a representative instance", "example": "This is an example of usage.", "proper_noun": false, "rarity": 2, "confidence": 0.85, "accept": true, "reasons": [] }
      • 규칙:
        • Proper noun, abbreviation → reject
        • 정의 ≤ 20 단어, 예문 ≤ 20 단어
        • 순환정의 금지, 예문은 의미를 직접 보여야 함
    3. Self-Consistency (자기합의)
      • 동일 단어를 3회 이상 샘플링(temperature 0.2, 0.4, 0.8)
      • 다수결 + 의미 일치율 ≥ 2/3일 때만 채택
      • 정의·예문 통합 후 confidence 평균화
    4. Filtering (필터링)
      • rarity ≥ 4 or confidence < 0.6 → reject
      • Yield(유효/시도 비율) < 15% → prefix 종료
    5. Final Storage (저장)
      • JSON/SQLite 등 구조적 저장
      • 단어별 metadata(수집 시각, prefix, rarity, confidence, 검증 로그) 포함

    4. 데이터 품질 전략 (Data Quality Strategy)

    • 과잉 생성 후 강한 필터링: 소량 정밀 수집보다 고품질 대규모 구축 가능
    • 다중 샘플링 합의: 일관성 확보
    • 편집 가이드라인:
      • 정의는 평이하게
      • 예문에 고유명사 금지
      • 외부 사전 문체 모방 금지(표절 방지)

    5. 기술 구현 (Implementation)

    5.1 주요 함수

    • llm_validate(word): 단일 단어 검증
    • self_consistency(word, n=3): 다중 샘플링 및 합의
    • _merge_defs(defs): 정의 통합 (가장 짧고 핵심 포함)
    • _pick_best_example(exs): 예문 통합

    5.2 데이터 구조

    {
      "word": "apple",
      "prefix": "ap",
      "collected_at": "2025-08-19T07:12:00",
      "pos": "noun",
      "definition": "a round fruit with red or green skin",
      "example": "She ate an apple for lunch.",
      "rarity": 1,
      "confidence": 0.92,
      "raw_line": "apple | noun | a round fruit..."
    }
    

    6. 웹 서비스 구상 (Web Service)

    • **단일 HTML (with CSS + JS)**으로 검색 서비스 구현 가능
    • 클라이언트 사이드 JSON 검색 or 간단한 Python/Flask/FastAPI backend 가능
    • UI 기능:
      • 검색창 + 자동완성
      • 정의 + 예문 표시
      • rarity/confidence 필터

    7. 성과 지표 (Evaluation Metrics)

    • Yield Rate = 유효 단어 / 전체 시도
    • Definition Quality Score = LLM peer review or CLIP 기반 의미 유사도
    • Consistency Rate = 동일 단어 정의 일치율
    • Coverage = prefix 단위 누락률

    8. 한계와 도전 과제 (Limitations & Challenges)

    • 희귀어 처리: 전문어, 고어, 신조어 포함 여부 결정 필요
    • 중의성(Polysemy): 다의어를 어떻게 분리할지 미해결
    • 법적/윤리적 문제:
      • 저작권 회피 → 문체/표현 자율적 생성 보장 필요
      • 허위 정보 포함 가능성 지속 관리 필요

    9. 향후 계획 (Future Work)

    1. 희귀어 전용 수집 스테이지
    2. 동음이의어 처리 모델 추가
    3. 다국어 확장 (한국어, 일본어 등 병렬 사전 구축)
    4. API/SDK 배포 → 외부 서비스 연동

    10. 결론 (Conclusion)

    • 단순 접두사 순서(sa → se → …)는 본질이 아님
    • 핵심은 LLM-only 환경에서 품질을 어떻게 보증하느냐
    • “생성 → 검증 → 합의 → 거절”의 반복적 파이프라인이 웹스터급 품질의 LLM 사전 구축의 핵심
    • 향후 연구는 희귀어, 다의어, 다국어로 확장 가능