맞습니다! 사용자님의 추론이 매우 정확합니다.
기술 스택 분석 결과
파이썬 기반 개발 환경
포테이토넷의 채용 공고와 기술 특성을 보면 파이썬 기반 개발이 확실해 보입니다:skku
최신 크롤링 기술 스택 추정
1. Scrapy 프레임워크 활용 가능성
일일 URL 5,000만 건 수집이라는 대규모 크롤링을 고려할 때, 다음과 같은 최신 파이썬 크롤링 기술을 사용할 것으로 추정됩니다:potatonet
- Scrapy: 대규모 크롤링에 최적화된 프레임워크dev-wisdom.tistory+1
- 분산 병렬 처리: 고성능 데이터 수집을 위한 분산 아키텍처
- 비동기 처리: asyncio, aiohttp 등을 활용한 고속 처리
2. AI/ML 프레임워크
LLM 기반 코드 맥락 분석과 생성형 AI 기능을 고려할 때:koita
- PyTorch: 연구 친화적이고 동적 그래프 지원mopipe.tistory+1
- Transformers (HuggingFace): LLM 모델 활용을 위한 라이브러리
- TensorFlow: 대규모 배포와 모델 서빙에 유리mopipe.tistory
3. 딥웹 크롤링 특화 기술
딥웹 10억 건 데이터 수집을 위한 특수 기술:sweetk
- Tor 네트워크 연동:
stem라이브러리 활용velog - Selenium + Scrapy: 동적 콘텐츠 처리pointer81.tistory
- 프록시 로테이션: 대규모 크롤링을 위한 IP 관리
현대적 기술 스택 예상 구성
python# 크롤링 스택
- Scrapy (대규모 웹 크롤링)
- Selenium (동적 콘텐츠 처리)
- asyncio/aiohttp (비동기 처리)
- requests (HTTP 클라이언트)
# AI/ML 스택
- PyTorch (딥러닝 모델)
- Transformers (LLM)
- scikit-learn (전통적 ML)
- pandas, numpy (데이터 처리)
# 데이터 저장
- MongoDB (비정형 데이터)
- Elasticsearch (검색 엔진)
- Redis (캐싱)
- PostgreSQL (정형 데이터)
# 배포 및 인프라
- Docker (컨테이너화)
- Kubernetes (오케스트레이션)
- FastAPI (API 서버)
- Nginx (리버스 프록시)
최신 파이썬 생태계의 베스트 프랙티스를 적용했을 가능성이 높습니다. 특히 딥웹 탐지라는 고도의 기술적 도전을 위해서는 가장 현대적이고 효율적인 도구들을 선택했을 것으로 판단됩니다.
- https://sw.skku.edu/sw/notice_grad.do?mode=download&articleNo=155216&attachNo=120361
- https://potatonet.ai
- https://dev-wisdom.tistory.com/197
- https://mmjourney.tistory.com/11
- https://www.koita.or.kr/board/evaluationCompaynView.do?no=30
- https://mopipe.tistory.com/218
- https://data-science.tistory.com/375
- https://www.sweetk.co.kr/download/%E2%98%85KODIA_%EB%8D%B0%EC%9D%B4%ED%84%B0%C2%B7AI%20%EC%84%A0%EB%8F%84%EA%B8%B0%EC%97%85%20%EC%B4%9D%EB%9E%8C_eBook.pdf
- https://velog.io/@lilac_21/%EB%AA%85%EC%84%B8-%ED%99%95%EB%A6%BD-%EA%B8%B0%EC%88%A0-%EC%8A%A4%ED%83%9D-%ED%99%95%EC%A0%95%ED%95%98%EA%B8%B0
- https://pointer81.tistory.com/entry/Selenium%EA%B3%BC-Scrapy%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%B4-%EB%84%A4%EC%9D%B4%EB%B2%84-%EC%87%BC%ED%95%91-%ED%81%AC%EB%A1%A4%EB%A7%81%ED%95%98%EA%B8%B0
- https://jennifersoft.com/ko/blog/tech/2022-05-24/
- https://smc-secu.net/wp-content/uploads/2024/01/%EC%A0%84%EA%B3%B5-%ED%8F%AC%ED%8A%B8%ED%8F%B4%EB%A6%AC%EC%98%A4-%EA%B2%BD%EC%97%B0%EB%8C%80%ED%9A%8C-%ED%98%84%EC%84%B1.pdf
- https://velog.io/@eunjeong0223/%EC%BD%94%ED%85%8C-%EC%A4%80%EB%B9%84-%EB%8B%A4%EC%9D%B4%EB%82%98%EB%AF%B9-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D
- https://firesoil-it.tistory.com/8
- https://www.mk.co.kr/news/it/11222408
- https://firesoil-it.tistory.com/13
- https://alim11.tistory.com/408
- https://www.reddit.com/r/learnprogramming/comments/osak78/should_i_learn_java_or_c_for_game_development/
- https://www.apptweak.com/ko/about/our-tech-stack
- https://potatonet.ai/pages/service
- https://firesoil-it.tistory.com/35
- https://www.koreascience.kr/article/JAKO202230853541206.pdf
- https://m.korean.go.kr/common/download.do;front=E7E8F55686EEF90D61CEBC962A137AB0?file_path=etcData&c_file_name=c95d8765-0761-4a67-8946-90fb0b640b63_0.hwp&o_file_name=%EC%9D%BC%EB%B0%98%EC%9A%A9%EC%96%B4190306.hwp
- https://www.reddit.com/r/learnprogramming/comments/18jmjfn/can_i_learn_programming_using_android_phone/
- https://www.scribd.com/document/854514993/%EB%B6%99%EC%9E%842-2024-%EA%B3%B5%EA%B8%89%EA%B8%B0%EC%97%85Pool
- https://potatonet.ai/pages/about
- https://pycoding.tistory.com/entry/scrapy%EC%8A%A4%ED%81%AC%EB%9E%98%ED%94%BC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EC%8B%A4%EC%A0%84-csv-%EC%A0%80%EC%9E%A5%EA%B9%8C%EC%A7%80
- https://translate.google.com/translate?u=https%3A%2F%2Fwww.quora.com%2FIs-it-possible-to-create-advanced-humanoid-robots-using-only-the-Python-programming-language&hl=ko&sl=en&tl=ko&client=srp
- https://hongong.hanbit.co.kr/%EB%94%A5%EB%9F%AC%EB%8B%9D-%ED%94%84%EB%A0%88%EC%9E%84%EC%9B%8C%ED%81%AC-%EB%B9%84%EA%B5%90-%ED%85%90%EC%84%9C%ED%94%8C%EB%A1%9C-%EC%BC%80%EB%9D%BC%EC%8A%A4-%ED%8C%8C%EC%9D%B4%ED%86%A0%EC%B9%98/
- https://www.reddit.com/r/Python/comments/12g6qif/pytorch_vs_tensorflow_for_beginners/
- https://wikidocs.net/198941
- https://www.youtube.com/watch?v=7VIEZTpnanA
- https://jybaek.tistory.com/927
- https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%ED%86%A0%EC%B9%98-%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%AA%A8%EB%8D%B8%EA%B5%AC%EC%B6%95
- https://dhjkl123.tistory.com/194
- https://harveywoods.tistory.com/entry/Scrapy-%ED%99%9C%EC%9A%A9-%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-%ED%95%98%EA%B8%B0
- https://engkimbs.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81%EB%B6%80%EB%8F%99%EC%82%B0-%EB%8D%B0%EC%9D%B4%ED%84%B0-scrapy%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%98%EC%97%AC-%EB%B6%80%EB%8F%99%EC%82%B0-%EA%B3%B5%EA%B3%B5-%EB%8D%B0%EC%9D%B4%ED%84%B0-DB%EC%97%90-%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0
맞습니다! 정확히 지적하셨네요. Playwright와 httpx가 바로 그 최신 파이썬 라이브러리들입니다!
Playwright – 차세대 웹 자동화 도구
핵심 특징
- 2025년 현재 가장 강력한 웹 자동화 라이브러리cathodicpro.tistory+2
- 자동 로그인 및 쿠키 처리 완벽 지원velog
- 비동기 처리로 고성능 크롤링minding-deep-learning.tistory
- WebSocket 기반 통신으로 Selenium보다 빠름roundproxies+1
로그인 및 쿠키 처리 예시
pythonfrom playwright.async_api import async_playwright
async with async_playwright() as p:
browser = await p.chromium.launch()
context = await browser.new_context()
page = await context.new_page()
# 로그인 처리
await page.goto('https://example.com/login')
await page.fill('#username', 'user')
await page.fill('#password', 'pass')
await page.click('#submit')
# 쿠키 자동 저장/관리
cookies = await context.cookies()
# 세션 유지로 다른 페이지 접근
await page.goto('https://example.com/protected')
httpx – requests의 현대적 대안
핵심 특징
세션 및 쿠키 처리 예시
pythonimport httpx
from http.cookiejar import LWPCookieJar
# 쿠키 자동 저장/로드
cookiejar = LWPCookieJar(filename='cookies.dat')
try:
cookiejar.load()
except FileNotFoundError:
pass
async with httpx.AsyncClient(cookies=cookiejar) as client:
# 로그인
response = await client.post('https://example.com/login',
data={'user': 'name', 'pass': 'word'})
# 쿠키 자동 저장
cookiejar.save()
# 인증된 상태로 데이터 수집
data = await client.get('https://example.com/api/data')
Crawl4AI – LLM 친화적 크롤러
AI 최적화 크롤링
- LLM 통합 크롤링 전문aiandgamedev+2
- 비동기 대규모 처리discuss.pytorch
- 구조화된 데이터 추출dev
사용자님 추론대로, 아마도:
크롤링 계층
python# 최신 비동기 크롤링 스택
- Playwright (브라우저 자동화, 로그인 처리)
- httpx (고성능 HTTP 클라이언트)
- asyncio (비동기 처리)
- Crawl4AI (AI 친화적 데이터 추출)
AI/ML 계층
python# LLM 기반 분석
- PyTorch/Transformers (딥러닝)
- LangChain (LLM 파이프라인)
- FastAPI (API 서빙)
- Vector DB (임베딩 저장)
일일 5,000만 건 URL 수집이라는 규모를 고려하면, Playwright + httpx + asyncio의 조합으로 분산 병렬 처리 아키텍처를 구축했을 가능성이 매우 높습니다.cathodicpro.tistory+1
특히 딥웹 탐지라는 특수성을 고려하면, Tor 네트워크 연동과 프록시 로테이션도 포함된 정교한 시스템일 것으로 추정됩니다.jonghoonpark
- https://cathodicpro.tistory.com/entry/%EC%87%BC%ED%95%91%EB%AA%B0-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B0%80%EC%9D%B4%EB%93%9C-Playwright%EC%99%80-PyQt%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%9B%B9-%EC%8A%A4%ED%81%AC%EB%9E%98%ED%95%91
- https://jonghoonpark.com/2023/07/24/dcinside-crawling-using-playwright-python
- https://blog.hashscraper.com/playwright-web-browser-automation/
- https://velog.io/@imkkuk/Selenium-Playwright-%EC%A0%84%ED%99%98%EA%B8%B0-%EC%86%8D%EB%8F%84%EC%99%80-%EC%95%88%EC%A0%95%EC%84%B1%EC%9D%84-%EC%9E%A1%EB%8B%A4
- https://minding-deep-learning.tistory.com/251
- https://roundproxies.com/blog/playwright-vs-selenium/
- https://www.browserstack.com/guide/playwright-vs-selenium
- https://github.com/encode/httpx/discussions/2229
- https://scrapfly.io/blog/posts/web-scraping-with-python-httpx
- https://aiandgamedev.com/ai/ollama-7-crawl4ai-llm-crawing/
- https://dev.to/ali_dz/crawl4ai-the-ultimate-guide-to-ai-ready-web-crawling-2620
- https://brightdata.com/blog/web-data/crawl4ai-and-deepseek-web-scraping
- https://discuss.pytorch.kr/t/crawl4ai-llm-ai-crawler/5282
- https://dodonam.tistory.com/417
- https://imgzon.tistory.com/150
- https://beomi.github.io/2017/01/20/HowToMakeWebCrawler-With-Login/
- https://bravehangni-study.tistory.com/31
- https://thkim610.tistory.com/123
- https://developshrimp.com/entry/Spring-%EB%A1%9C%EA%B7%B8%EC%9D%B8-%EC%B2%98%EB%A6%AC-12-%EC%BF%A0%ED%82%A4Cookie%EC%99%80-%EC%84%B8%EC%85%98Session
- https://itstory1592.tistory.com/62
- https://thunderbit.com/ko/blog/python-web-scraping
- https://fleetwood.tistory.com/84
- https://velog.io/@sua0714/%ED%95%99%EC%8A%B5-%EC%A0%95%EB%A6%AC-%EC%BF%A0%ED%82%A4%EC%99%80-%EC%84%B8%EC%85%98-2025-03-20
- https://eliclosetshop.tistory.com/69
- https://velog.io/@rlfrkdms1/%EB%A1%9C%EA%B7%B8%EC%9D%B8-%EC%BF%A0%ED%82%A4-%EC%84%B8%EC%85%98
- https://tofof.tistory.com/25
- https://catsbi.oopy.io/0c27061c-204c-4fbf-acfd-418bdc855fd8
- https://apidog.com/kr/blog/python-requests-cookies-2/
- https://scrapfly.io/blog/answers/save-and-load-cookies-in-requests-python
- https://apidog.com/blog/python-requests-cookies/
- https://www.browsercat.com/post/playwright-vs-selenium-deep-comparison
- https://stackoverflow.com/questions/31554771/how-can-i-use-cookies-in-python-requests
- https://saucelabs.com/resources/blog/playwright-vs-selenium-guide
- https://github.com/unclecode/crawl4ai
- https://github.com/encode/httpx/discussions/1481
- https://www.scrapingbee.com/blog/crawl4ai/
- https://abstracta.us/blog/functional-software-testing/playwright-vs-selenium/
- https://www.youtube.com/watch?v=od6AaKhKYmg
- https://www.reddit.com/r/dotnet/comments/1im7oly/selenium_vs_playwright/
답글 남기기