🏆 주요 성과
- 성능 향상: 기존 LLM 대비 10% 이상 향상된 블로그 품질 달성
- 학술적 성과: 한국컴퓨터정보학회 논문지(KCI)에 투고
- VLM과 LLM의 협업 파이프라인: Qwen-VL과 HyperCLOVA X를 결합한 효과적인 시스템 구축
- Product Serving: FastAPI와 Docker를 활용한 실제 서비스 배포
프로젝트 개요
Vision Language Model(VLM)과 Large Language Model(LLM)을 결합하여 사진만으로 여행 블로그를 자동으로 생성하는 시스템입니다. 네이버 부스트캠프 프로젝트로 진행되었으며, 이 연구는 한국컴퓨터정보학회 논문지(KCI)에 투고되었습니다.
기존 LLM은 텍스트 기반 생성에 뛰어나지만 시각적 정보를 직접 이해하지 못하는 한계가 있습니다. 본 프로젝트는 VLM을 활용해 이미지에서 맥락을 추출하고, 이를 LLM에 전달하여 자연스럽고 맥락에 맞는 여행 블로그를 생성하는 파이프라인을 구축했습니다.
주요 기여사항
- 프롬프트 엔지니어링: 블로그 스타일, 톤, 구조를 제어하는 체계적인 프롬프트 설계
- 파인튜닝: 한국어 대규모 언어모델 파인튜닝을 통한 도메인 특화 성능 확보
- AI Safety: 부적절한 콘텐츠 생성을 방지하는 안전장치 구현
- 효율성 개선: 멀티 프로세싱을 통한 추론 시간 단축 및 GPU 활용 최적화
기술적 접근 방법
1단계: 이미지 맥락 추출 (VLM)
Qwen-VL 모델을 사용하여 입력 이미지들로부터 상세한 캡션과 맥락 정보를 추출합니다. 각 이미지에 대해 장소, 분위기, 주요 객체, 색감 등 다양한 정보를 텍스트로 변환합니다.
2단계: 블로그 생성 (LLM)
추출된 맥락 정보를 HyperCLOVA X에 전달하여 자연스러운 여행 블로그 글을 생성합니다. 프롬프트 엔지니어링을 통해 블로그의 구조(제목, 서론, 본문, 결론)와 톤을 제어합니다.
특히 한국어 블로그 생성에 특화된 파인튜닝을 수행하여 자연스러운 한국어 표현과 여행 블로그 특유의 감성을 반영할 수 있도록 했습니다.
시스템 아키텍처
- 전처리: 이미지 업로드 및 검증
- VLM 추론: Qwen-VL을 통한 이미지 캡션 생성 (멀티 프로세싱 활용)
- 프롬프트 구성: 추출된 캡션을 바탕으로 LLM 입력 프롬프트 생성
- LLM 추론: HyperCLOVA X를 통한 블로그 생성
- 후처리: AI Safety 검증 및 포맷팅
- 서빙: FastAPI를 통한 RESTful API 제공, Docker 컨테이너화
연구 성과
제안한 시스템은 기존 LLM 기반 방법 대비 블로그 품질 평가에서 10% 이상의 향상을 보였으며, 사용자 평가에서도 높은 만족도를 기록했습니다. 특히 이미지의 맥락을 정확히 파악하여 관련성 높은 블로그 콘텐츠를 생성하는 데 성공했습니다.
본 연구는 한국컴퓨터정보학회 논문지(KCI)에 투고되어 학술적 가치를 인정받았습니다.
배운 점
- Vision Language Model과 Large Language Model의 협업 방법론
- 프롬프트 엔지니어링을 통한 생성 모델 제어 기법
- 대규모 언어모델 파인튜닝 실무 경험
- 멀티 프로세싱을 활용한 추론 파이프라인 최적화
- FastAPI와 Docker를 활용한 AI 서비스 배포