CTU Tech Blog

LLM 기반 PDF 청킹에서 인덱스 참조로 Output 토큰 90%, 레이턴시 87% 절감하기

TL;DR: LLM에게 “어디부터 어디까지"만 묻고, 텍스트는 서버가 직접 꺼내면 됩니다. 3페이지 실측 기준 Output 토큰 90% 감소, 레이턴시 87% 감소, 비용 61% 절감. 배경: Docling에서 PyMuPDF + VLM으로 건축 법규 검토 AI를 만들면서, 건축 고시/지침 PDF를 의미 단위의 청크(chunk)로 나눠야 했습니다. RAG 파이프라인의 검색 단위로 사용하기 위해서입니다. 처음에는 IBM의 Docling을 사용했습니다. OCR 모델로 문서 구조를 파악한 뒤 청킹하는 방식인데, 두 가지 문제가 있었습니다: 무거움: OCR·레이아웃 분석 모델(RT-DETR 등)이 포함되어 Docker 이미지 크기와 처리 시간이 큼 커스텀 어려움: 내부 파이프라인이 블랙박스에 가까워, 건축 문서 특유의 계층 구조(장 > 조 > 항 > 호)나 표 처리를 세밀하게 제어하기 어려움 그래서 OCR 모델을 걷어내고 PyMuPDF로 텍스트와 폰트 메타데이터를 직접 추출하는 방식으로 전환했습니다. 구조 분석은 멀티모달 LLM(VLM)의 Vision 기능으로 대체하면 OCR 의존성을 완전히 제거하면서도 커스텀이 자유롭습니다. ...

[제조 AI 시리즈 — 트러블슈팅 편] 279TB 제조 데이터 수집 트러블슈팅 — 하드웨어 한계부터 정합성 보장까지

가상화 기반 Edge 배포 · Pub/Sub Payload 한계 우회 · 멱등성 기반 정합성 확보 파일럿 현장의 돌발 변수와 클라우드 한계를 극복한 MDE 최적화 과정 Cloud Tech Unit · GCP Delivery SA 3 윤성재 | 2026-02-23 문제 정의 — 진흙탕 속의 엔지니어링 아키텍처 설계도가 아무리 완벽해도, 제조 현장의 랙 마운트 서버와 네트워크 케이블 앞에서는 무용지물이 되곤 합니다. 지난 글에서 ‘우아한’ 아키텍처를 다뤘다면, 이번에는 파일럿 기간 동안 현장 엔지니어들이 온몸으로 부딪혀야 했던 진흙탕 같은 트러블슈팅 과정을 다룹니다. ...

[제조 AI 시리즈 — 아키텍처 편] 279TB 수집을 위한 MDE 아키텍처 설계 — 8개 공장 Edge-to-Cloud 파이프라인 구축기

250+ 산업 프로토콜 지원 · Edge-to-Cloud 파이프라인 · 물리적 수준의 프로젝트 격리 보안과 비용의 Trade-off를 고려한 Manufacturing Data Engine 실전 구축기 Cloud Tech Unit · GCP Delivery SA 3 윤성재 | 2026-02-23 사업 배경 — PINN 모델 기반 융합데이터 플랫폼 제조 산업의 디지털 전환(DX)에 있어 가장 큰 허들은 현장의 IT와 OT 데이터를 클라우드로 안전하고 끊김 없이 옮기는 ‘라스트 마일(Last Mile)‘에 있습니다. 이 글은 대한민국 정부 주도로 진행된 ‘2025년 PINN(Physics-Informed Neural Networks) 모델 제조 융합데이터 수집·실증 사업’의 클라우드 인프라 파트너로서, 8개 제조 기업의 이기종 데이터를 Google Cloud Manufacturing Data Engine(MDE) 기반으로 통합 구축한 사례를 다룹니다. ...

불법 건축물을 합법으로 만들 뻔했다: Vision AI의 '한 글자' 환각 잡기

건축 법규검토 AI에서 “4층 이하"와 “4층 이상"을 혼동하면 어떻게 될까? 높이 상한이 뒤집혀 불법 건축물이 합법으로 판정된다. 이 글은 그 한 글자 차이를 잡기 위한 여정이다. 문제: PDF 표가 검색되지만 신뢰하기 어렵다 건축 법규검토 시스템은 지구단위계획 고시, 설계 지침서 등 건축 관련 PDF를 분석하여 건폐율, 용적률, 높이제한 등의 기준을 추출한다. PDF 전처리 파이프라인은 Docling을 사용해 문서를 파싱하고, 텍스트를 청킹한 후 임베딩을 생성하여 하이브리드 검색(키워드 + 시맨틱)을 지원한다. Docling의 HierarchicalChunker는 표 내용도 마크다운 형태로 청킹하여 검색 인덱스에 포함한다. 표가 아예 빠지는 건 아니다. 문제는 그 마크다운의 품질이었다. ...

공공데이터 CSV 448K건 증분 동기화 — 52초를 0.3초로 줄인 3-Layer 최적화

HTTP HEAD 사전 체크 · High-Water Mark 역순 스캔 · Score 임계값 노이즈 필터링 공공데이터포털 81MB CSV → PostgreSQL 서버리스 동기화 실전기 문제 정의 — 왜 최적화가 필요했나 건축 법규 검토 AI 시스템에서 “지구단위계획 고시 매칭” 기능을 구현하고 있었습니다. VWorld API로 특정 주소의 지구단위계획 정보를 조회하면 ntfc_sn(고시 일련번호)이 반환되는데, 이 번호만으로는 실제 고시 문서에 접근할 수 없습니다. 토지이음(eum.go.kr)에 고시 목록이 있지만, 해당 사이트의 WAF가 AWS IP 대역을 차단하고 있어 직접 API 호출이 불가능했습니다. 대안으로 공공데이터포털에서 제공하는 고시목록 CSV 파일을 PostgreSQL DB에 넣고 매칭하는 전략을 선택했습니다. ...

AWS Bedrock Vision LLM과 OpenSearch를 활용한 농약 제품 이미지 인식 시스템 구축기

(주)경농 파밍노트 고도화 프로젝트 — 농약 제품 사진 한 장으로 제품 정보를 자동 검색하는 AI 시스템의 설계와 구현 과정을 공유합니다. 프로젝트 배경 경농은 이전 단계에서 AWS, 메가존클라우드와 함께 생성형 AI 기반 농업 전문 챗봇을 구축한 바 있습니다. Amazon Bedrock Claude Sonnet 3.5와 OpenSearch를 활용한 RAG 아키텍처로, 농업인이 자연어로 질문하면 작물보호제 정보를 자동으로 응답하는 서비스였습니다. 이 챗봇을 운영하던 중, 경농으로부터 현장의 의미 있는 피드백과 함께 새로운 제안을 받았습니다. 고령의 농업인이 많은 현장 특성상, 스마트폰으로 길고 생소한 농약 제품명을 직접 타이핑하는 것을 매우 번거로워하신다는 점이었습니다. ...

한국어 법률 문서 임베딩 모델 비교 평가 보고서

1. 평가 개요 목적 한국어 법령 및 조례 검색(RAG) 시스템에 최적화된 임베딩 모델 선정 평가 데이터셋 KCL-MCQA (Korean Canonical Legal Benchmark) 282개 질문, 867개 판례 (전문가 태깅 Ground Truth) 평가 데이터 선정 이유 현재 한국어 법령/조례에 대한 공개 벤치마크 데이터셋이 부재 KCL-MCQA는 법률 도메인에서 검증된 유일한 한국어 검색 평가 데이터셋 판례와 법령/조례는 동일한 법률 용어 및 문체를 공유하여 유사한 임베딩 성능 예상 향후 법령/조례 특화 평가 데이터셋 구축 시 재평가 권장 평가 환경 ...