건축 고시 PDF 페이지와 LLM 인덱스 참조 방식 예시

LLM 기반 PDF 청킹에서 인덱스 참조로 Output 토큰 90%, 레이턴시 87% 절감하기

TL;DR: LLM에게 “어디부터 어디까지"만 묻고, 텍스트는 서버가 직접 꺼내면 됩니다. 3페이지 실측 기준 Output 토큰 90% 감소, 레이턴시 87% 감소, 비용 61% 절감. 배경: Docling에서 PyMuPDF + VLM으로 건축 법규 검토 AI를 만들면서, 건축 고시/지침 PDF를 의미 단위의 청크(chunk)로 나눠야 했습니다. RAG 파이프라인의 검색 단위로 사용하기 위해서입니다. 처음에는 IBM의 Docling을 사용했습니다. OCR 모델로 문서 구조를 파악한 뒤 청킹하는 방식인데, 두 가지 문제가 있었습니다: 무거움: OCR·레이아웃 분석 모델(RT-DETR 등)이 포함되어 Docker 이미지 크기와 처리 시간이 큼 커스텀 어려움: 내부 파이프라인이 블랙박스에 가까워, 건축 문서 특유의 계층 구조(장 > 조 > 항 > 호)나 표 처리를 세밀하게 제어하기 어려움 그래서 OCR 모델을 걷어내고 PyMuPDF로 텍스트와 폰트 메타데이터를 직접 추출하는 방식으로 전환했습니다. 구조 분석은 멀티모달 LLM(VLM)의 Vision 기능으로 대체하면 OCR 의존성을 완전히 제거하면서도 커스텀이 자유롭습니다. ...

2026년 3월 9일 · 5 분 · 김보근
돋보기로 문서의 텍스트를 확대하여 들여다보는 모습

불법 건축물을 합법으로 만들 뻔했다: Vision AI의 '한 글자' 환각 잡기

건축 법규검토 AI에서 “4층 이하"와 “4층 이상"을 혼동하면 어떻게 될까? 높이 상한이 뒤집혀 불법 건축물이 합법으로 판정된다. 이 글은 그 한 글자 차이를 잡기 위한 여정이다. 문제: PDF 표가 검색되지만 신뢰하기 어렵다 건축 법규검토 시스템은 지구단위계획 고시, 설계 지침서 등 건축 관련 PDF를 분석하여 건폐율, 용적률, 높이제한 등의 기준을 추출한다. PDF 전처리 파이프라인은 Docling을 사용해 문서를 파싱하고, 텍스트를 청킹한 후 임베딩을 생성하여 하이브리드 검색(키워드 + 시맨틱)을 지원한다. Docling의 HierarchicalChunker는 표 내용도 마크다운 형태로 청킹하여 검색 인덱스에 포함한다. 표가 아예 빠지는 건 아니다. 문제는 그 마크다운의 품질이었다. ...

2026년 2월 11일 · 8 분 · 김보근
농약 제품 이미지 인식 시스템 아키텍처

AWS Bedrock Vision LLM과 OpenSearch를 활용한 농약 제품 이미지 인식 시스템 구축기

(주)경농 파밍노트 고도화 프로젝트 — 농약 제품 사진 한 장으로 제품 정보를 자동 검색하는 AI 시스템의 설계와 구현 과정을 공유합니다. 프로젝트 배경 경농은 이전 단계에서 AWS, 메가존클라우드와 함께 생성형 AI 기반 농업 전문 챗봇을 구축한 바 있습니다. Amazon Bedrock Claude Sonnet 3.5와 OpenSearch를 활용한 RAG 아키텍처로, 농업인이 자연어로 질문하면 작물보호제 정보를 자동으로 응답하는 서비스였습니다. 이 챗봇을 운영하던 중, 경농으로부터 현장의 의미 있는 피드백과 함께 새로운 제안을 받았습니다. 고령의 농업인이 많은 현장 특성상, 스마트폰으로 길고 생소한 농약 제품명을 직접 타이핑하는 것을 매우 번거로워하신다는 점이었습니다. ...

2026년 2월 2일 · 9 분 · 김보근
AI 기술 기반 데이터 네트워크 분석 개념 이미지

한국어 법률 문서 임베딩 모델 비교 평가 보고서

1. 평가 개요 목적 한국어 법령 및 조례 검색(RAG) 시스템에 최적화된 임베딩 모델 선정 평가 데이터셋 KCL-MCQA (Korean Canonical Legal Benchmark) 282개 질문, 867개 판례 (전문가 태깅 Ground Truth) 평가 데이터 선정 이유 현재 한국어 법령/조례에 대한 공개 벤치마크 데이터셋이 부재 KCL-MCQA는 법률 도메인에서 검증된 유일한 한국어 검색 평가 데이터셋 판례와 법령/조례는 동일한 법률 용어 및 문체를 공유하여 유사한 임베딩 성능 예상 향후 법령/조례 특화 평가 데이터셋 구축 시 재평가 권장 평가 환경 ...

2026년 1월 30일 · 5 분 · 김보근