1. 개요 (Overview)
본 프로젝트는 전통적인 웹 크롤링이나 외부 사전 DB 없이, **대규모 언어 모델(LLM)**을 활용하여 웹스터(Webster) 수준의 영어 사전을 구축하는 것을 목표로 한다.
핵심 전략은 과잉 생성(Generate) → 검증(Validate) → 합의(Self-Consistency) → 편집/거절(Edit/Reject) 의 4단계 파이프라인을 통해 정의·예문 품질을 보장하는 것이다.
2. 문제 정의 (Problem Statement)
- 기존 접근: 웹 크롤링 + 코퍼스 기반 → 저작권, 품질 불균형 문제
- LLM 단독 접근: 무한한 후보 단어 생성 가능, 하지만
- 허구어/환각 단어 혼입
- 정의의 순환/모호성
- 예문의 품질 저하
- 일관성 부족
이런 리스크가 존재한다.
3. 시스템 아키텍처 (System Architecture)
3.1 파이프라인
- Candidate Generation (후보 생성)
- 접두사 기반(prefix-driven) 또는 알파벳 순서 기반
- 각 prefix마다 수십~수백 단어 과잉 수집
- Validation (검증)
- LLM이 “사전 편집자(editor)” 역할 수행
- 필수 JSON 스키마 출력:
{ "word": "example", "pos": "noun", "short_def": "a representative instance", "example": "This is an example of usage.", "proper_noun": false, "rarity": 2, "confidence": 0.85, "accept": true, "reasons": [] }
- 규칙:
- Proper noun, abbreviation → reject
- 정의 ≤ 20 단어, 예문 ≤ 20 단어
- 순환정의 금지, 예문은 의미를 직접 보여야 함
- Self-Consistency (자기합의)
- 동일 단어를 3회 이상 샘플링(temperature 0.2, 0.4, 0.8)
- 다수결 + 의미 일치율 ≥ 2/3일 때만 채택
- 정의·예문 통합 후 confidence 평균화
- Filtering (필터링)
rarity ≥ 4
orconfidence < 0.6
→ reject- Yield(유효/시도 비율) < 15% → prefix 종료
- Final Storage (저장)
- JSON/SQLite 등 구조적 저장
- 단어별 metadata(수집 시각, prefix, rarity, confidence, 검증 로그) 포함
4. 데이터 품질 전략 (Data Quality Strategy)
- 과잉 생성 후 강한 필터링: 소량 정밀 수집보다 고품질 대규모 구축 가능
- 다중 샘플링 합의: 일관성 확보
- 편집 가이드라인:
- 정의는 평이하게
- 예문에 고유명사 금지
- 외부 사전 문체 모방 금지(표절 방지)
5. 기술 구현 (Implementation)
5.1 주요 함수
llm_validate(word)
: 단일 단어 검증self_consistency(word, n=3)
: 다중 샘플링 및 합의_merge_defs(defs)
: 정의 통합 (가장 짧고 핵심 포함)_pick_best_example(exs)
: 예문 통합
5.2 데이터 구조
{
"word": "apple",
"prefix": "ap",
"collected_at": "2025-08-19T07:12:00",
"pos": "noun",
"definition": "a round fruit with red or green skin",
"example": "She ate an apple for lunch.",
"rarity": 1,
"confidence": 0.92,
"raw_line": "apple | noun | a round fruit..."
}
6. 웹 서비스 구상 (Web Service)
- **단일 HTML (with CSS + JS)**으로 검색 서비스 구현 가능
- 클라이언트 사이드 JSON 검색 or 간단한 Python/Flask/FastAPI backend 가능
- UI 기능:
- 검색창 + 자동완성
- 정의 + 예문 표시
- rarity/confidence 필터
7. 성과 지표 (Evaluation Metrics)
- Yield Rate = 유효 단어 / 전체 시도
- Definition Quality Score = LLM peer review or CLIP 기반 의미 유사도
- Consistency Rate = 동일 단어 정의 일치율
- Coverage = prefix 단위 누락률
8. 한계와 도전 과제 (Limitations & Challenges)
- 희귀어 처리: 전문어, 고어, 신조어 포함 여부 결정 필요
- 중의성(Polysemy): 다의어를 어떻게 분리할지 미해결
- 법적/윤리적 문제:
- 저작권 회피 → 문체/표현 자율적 생성 보장 필요
- 허위 정보 포함 가능성 지속 관리 필요
9. 향후 계획 (Future Work)
- 희귀어 전용 수집 스테이지
- 동음이의어 처리 모델 추가
- 다국어 확장 (한국어, 일본어 등 병렬 사전 구축)
- API/SDK 배포 → 외부 서비스 연동
10. 결론 (Conclusion)
- 단순 접두사 순서(sa → se → …)는 본질이 아님
- 핵심은 LLM-only 환경에서 품질을 어떻게 보증하느냐
- “생성 → 검증 → 합의 → 거절”의 반복적 파이프라인이 웹스터급 품질의 LLM 사전 구축의 핵심
- 향후 연구는 희귀어, 다의어, 다국어로 확장 가능
답글 남기기