현장 속으로
행정안전부가 주최하고 한국지역정보개발원(이하 개발원)이 주관하는 ‘2026 CCTV 통합관제 콘퍼런스’가 지난 3월 18일 일산 킨텍스 제1전시장 콘퍼런스룸에서 열렸다. 이번 콘퍼런스에서는 정부 정책과 AI 기반 영상분석, 영상보안 시스템 간 연동 표준 소개 등 최신 기술 동향이 공유됐다.
AI 행정 전환의 출발점, 제도와 현장의 연결
이번 행사는 단순한 기술 소개를 넘어 지방정부의 실제 행정 역량을 높이기 위한 자리였다. 한국지역정보개발원(이하 개발원)에 따르면 이번 프로그램은 공공 부문의 AI 활용 역량을 강화하고, 현장에서 즉시 적용 가능한 실질적 방향을 공유하기 위해 마련됐다.
이날 축사에 나선 행정안전부 이일령 재난안전데이터과장은 “통합관제센터는 2007년 최초 도입 이후 전국으로 확대됐다”면서 “이제는 단순한 범죄 예방을 넘어 재난안전 대응의 핵심 인프라로 전환되고 있다”고 말했다. 이어 “특히 2022년 이태원 참사를 계기로 영상 기반 관제 시스템을 재난 대응에 보다 적극적으로 활용해야 한다는 요구가 커졌다”며 “이를 반영한 제도 정비도 빠르게 진행되고 있다”고 밝혔다.
이러한 흐름에 맞춰 행정안전부는 2025년 「재난 및 안전관리 기본법」 개정을 통해 통합관제센터의 설치 근거를 명확히 하고, CCTV 등 영상정보의 수집·활용에 대한 법적 기반을 마련했다. 나아가 수집된 영상 데이터를 AI 학습 데이터로 활용하고, 이를 기반으로 한 재난 대응 모델 개발도 추진 중이다. 이는 기존의 ‘관제’ 중심 시스템이 데이터와 인공지능을 결합한 ‘예측·대응 시스템’으로 확장되고 있음을 보여준다.
행정안전부, 통합관제센터 운영 기준 제시
이후 진행된 행정안전부 정책 및 사업 소개에서는 보다 구체적인 제도 설계와 운영 기준이 공유됐다. 행정안전부의 통합관제센터 운영을 위한 고시(안)과 제도 정비 방향은 법 개정 이후 현장에서 혼선이 없도록 표준 기준을 마련하는 데 정책의 초점이 맞춰져 있다.
이번 고시(안)은 ▲통합관제센터 설치·운영 기준 ▲영상정보 처리기기 연계 및 통합 범위 ▲인공지능 기반 관제 시스템 도입 근거 ▲운영 책임자 및 인력 기준 ▲영상정보 활용 및 보호 기준 등으로 요약된다. 특히 기존에는 설치 목적에 한정됐던 CCTV 활용 범위를 재난 및 안전 대응까지 확대할 수 있는 법적 근거를 명확히 했다는 점이 눈에 띈다. 이는 축적된 영상 데이터를 보다 적극적으로 활용할 수 있는 기반이 될 것으로 보인다.
이러한 제도 정비 방향 속에서 개인정보 보호와 활용의 균형 역시 주요 과제로 제시됐다. 기존에는 설치 목적 외 활용이 엄격히 제한됐으나, 이번 제도 정비를 통해 생명·신체·재산 보호와 관련된 재난 상황에서는 일정 범위 내에서 관제 기능을 활용할 수 있는 기준이 마련됐다. 다만 목적 외 사용은 여전히 금지되며, 정보 공개와 관리 기준은 한층 강화됐다.
현장 운영 기준도 보다 구체화됐다. 고시(안)에는 통합관제센터에 전문 인력을 우선 배치하고, 재난 대응 경험자나 관련 자격 보유자를 적극 활용하도록 하는 내용이 담겼다. 또한 재난 상황이 탐지될 경우 관계 기관과 즉시 정보를 공유하고 대응 체계를 가동하도록 규정했다. 이는 기존의 단순 모니터링을 넘어 ‘조기 대응 체계’로의 전환을 보여주는 대목이다.
한편, 제도의 현장 적용을 위한 통합관제센터 운영 매뉴얼이 소개됐다. 약 500페이지 분량의 해당 매뉴얼에는 CCTV 설치 근거부터 기관 간 연계 방식, 재난 대응 절차, 영상정보 제공 기준, 보안 관리, 교육·훈련까지의 전 과정이 담겼다. 특히 재난 발생 시 소방·경찰·재난안전상황실과의 협업 절차를 구체화해 현장에서 즉시 활용할 수 있도록 설계된 점이 특징이다.
이번 정책 발표는 단순한 제도 안내를 넘어, 공공이 보유한 데이터와 인프라를 ‘AI 기반 행정’으로 전환하는 방향을 제시했다는 점에서 의미가 있다. 기존 관제 시스템이 ‘보고’ 중심이었다면, 앞으로는 데이터와 인공지능을 결합해 ‘예측·대응 시스템’으로 발전시켜 가겠다는 의지의 표현인 것이다.
이처럼 개회 및 정책 소개 세션은 이후 AI 특강의 배경을 형성했다. 제도와 기술, 현장과 전략이 맞물리는 지점에서 공공의 역할이 어떻게 재정의되고 있는지를 보여주는 출발점이었다.
개발원, 데이터 기반 관제 전환 본격화
이날 발표에서는 개발원이 추진 중인 AI 기반 CCTV 관제 지원 시스템 구축 사업도 함께 소개됐다. 발표를 맡은 윤평원 책임은 전국 통합관제센터 운영 현황과 함께, 데이터 기반 관제로의 전환 필요성을 강조했다.
윤 책임은 먼저 “현재 전국 217개 통합관제센터에는 약 71만 대의 CCTV가 운영되고 있다”면서 “특히 최근 들어 AI 기반 관제 도입이 빠르게 늘어나면서 지능형 관제 시스템의 비중이 점차 확대되고 있다”고 밝혔다. 이어 “이러한 흐름은 단순 모니터링 중심의 관제에서 벗어나, 분석과 대응 중심의 관제로 전환되고 있음을 보여준다”면서도 “그러나 현장에서 체감하는 기술 성능과 기대 수준 간에는 아직 간극이 존재한다”고 말했다.
윤 책임은 이러한 한계의 원인을 넓은 화각과 낮은 해상도, 야간 환경 등 실제 CCTV 운영 조건과 AI 모델 학습 환경 간의 괴리에서 찾았다. 다시 말해 AI 영상 분석 기술이 발전했음에도 불구하고, ‘데이터의 한계’로 인해 실제 관제 영상에 적용할 경우 성능 저하가 발생할 수밖에 없다는 분석이다.
이러한 한계를 보완하기 위한 시도도 소개됐다. 개발원은 현장 CCTV 데이터를 AI 학습에 활용할 수 있도록 관련 체계를 구축 중이다. 지방자치단체 관제센터에서 발생하는 사건·사고 영상을 수집해 학습 데이터로 가공한 뒤 기업과 연구기관에 제공하는 방식이다. 이를 통해 고도화된 AI 기술이 다시 관제센터에 적용되는, 이른바 데이터–기술–현장 간 선순환 구조를 만드는 것을 목표로 하고 있다.
데이터 구축과 함께 AI 기술 개발도 병행되고 있다. 개발원은 단순 데이터 축적을 넘어 생성형 AI 기반 영상 기술을 함께 개발 중이다. 예를 들어 실제 CCTV 영상에서 추출한 이미지를 바탕으로 침수 상황을 다양한 조건(시간대·계절 등)으로 재현하거나 침수 영상을 생성해 학습 데이터를 확장하는 방식이다.
기술 적용 범위 역시 확대될 전망이다. 2026년에는 아동 대상 이상행동 감지, 산불 상황 생성 AI 등 다양한 재난·안전 분야로 적용 영역을 넓히고, 영상의 맥락을 이해해 텍스트로 설명하는 기능까지 도입할 계획이다. 이를 통해 관제요원이 단순 모니터링을 넘어 AI 분석 결과를 기반으로 판단까지 가능하도록 하는 것을 목표로 하고 있다.
아울러 전국 CCTV 데이터를 기반으로 침수 위험 지역과 사각지대 등을 지도 형태로 시각화해 관제와 시설 설치, AI 도입 의사결정을 지원하는 서비스도 추진된다. 해당 기능은 향후 구축될 ‘영상 학습 포털’을 통해 외부에도 제공될 예정이다.
이번 발표는 공공이 보유한 방대한 영상 데이터를 단순 저장 자원이 아닌 AI 행정의 핵심 자산으로 전환하려는 방향을 보여줬다는 점에서 의미가 있다. 특히 그 출발점이 지방정부 통합관제센터라는 점이 강조되며 관심을 모았다.
기반 관제, 데이터에서 시작되는 변화
이어 김동칠 한국전자기술연구원(KETI) 책임연구원이 ‘영상보안 시스템 간 연동 표준’을 주제로 발표를 이어나갔다.
김 연구원은 먼저 지능형 CCTV 확산에 따라 다양한 제조사의 솔루션이 동시에 도입되면서, 시스템 간 호환성과 연계 문제가 현장에서 주요 과제로 떠오르고 있다고 짚었다. 실제로 서로 다른 시스템 간 연동이 어려워 이중 관제 체계를 운영하거나, 추가 연동 비용이 발생하는 사례도 적지 않다는 것.
김 연구원에 따르면 이러한 문제를 해결하기 위해 추진된 것이 영상 보안 시스템 연동 표준이다. 해당 표준은 단순 영상 공유를 넘어, 영상·이벤트·객체 분석 결과·카메라 제어 정보까지 포함한 통합 인터페이스 규격을 정의하는 데 목적이 있다. 즉, 서로 다른 시스템이라도 동일한 방식으로 데이터를 송수신할 수 있도록 구조를 맞추는 것이다.
연동 구조는 크게 다섯 단계로 구성된다. 사용자 인증을 통해 접근 권한을 확인한 뒤, 연동 가능한 프로토콜을 결정하고 카메라 정보와 영상 접근 데이터를 공유한다. 이후 실시간 이벤트와 객체 분석 정보를 전달하며, 마지막으로 PTZ 카메라의 원격 제어까지 지원한다.
김 연구원은 이러한 표준이 향후 센서, 출입통제 시스템 등과 결합되면, 영상 중심 관제를 넘어 물리보안 전반을 통합하는 기반으로 확장될 수 있다고 설명했다. 즉, 관제 시스템 간 연결을 넘어 통합 보안 체계로 나아가기 위한 토대라는 의미다.
텍스트에서 멀티모달로, ‘이해’의 범위를 넓히다
콘퍼런스는 허유정 KT 수석연구원의 ‘텍스트 AI의 옴니모달(Omni-modal) 아키텍처 전환’ 발표로 마무리됐다.
허 연구원은 먼저 AI의 발전 흐름을 언어 모델 중심에서 멀티모달로 확장되는 과정으로 설명했다. 초기에는 통계 기반 언어 모델이 주를 이뤘으나, 2017년 트랜스포머 구조 등장 이후 GPT 계열 모델로 발전했고, 최근에는 이미지·영상·음성까지 함께 처리하는 형태로 진화하고 있다는 것이다.
허 연구원에 따르면, 언어 모델의 기본 구조는 ‘다음 단어를 예측하는 방식(next token prediction)’이다. 여기에 인스트럭션 튜닝(지시 수행 학습)과 RLHF(인간 피드백 기반 강화학습)가 결합되면서 점차 사용자의 의도를 이해하고 응답하는 수준으로 발전했다. 그런가 하면, 여기에 이미지 처리 기능이 추가된 구조가 멀티모달 모델이다. 이미지를 이해하는 시각 인코더, 이를 언어 모델과 연결하는 모듈, 그리고 최종 응답을 생성하는 언어 모델이 결합된 형태를 말한다. 대표적으로는 이미지와 텍스트를 함께 학습하는 CLIP 계열 구조와, 이를 확장한 LLaVA 등이 이에 속한다.
이와 함께 ‘에이전트형 AI’ 개념이 소개되기도 했다. 이는 사용자의 요청에 단순히 응답하는 수준을 넘어, 문제를 분석하고 계획을 수립한 뒤 외부 데이터를 조회하고 결과를 검증해 최종 답을 생성하는 과정을 스스로 수행하는 구조를 의미한다.
허 연구원은 이와 관련, “최근 모델은 한 장의 이미지 수준을 넘어, 다수 이미지와 영상까지 동시에 처리할 수 있도록 확장됐다”면서 “텍스트뿐 아니라 음성이나 이미지 형태로 결과를 생성하는 등 입력과 출력 모두에 멀티모달이 적용되는 방향으로 발전하고 있다”고 귀띔했다.
한편, KT는 이러한 흐름에 맞춰 한국어와 국내 환경에 최적화된 AI 모델을 개발하고 있다. 이를 통해 텍스트·이미지·음성을 통합 처리하는 기술을 다양한 서비스에 적용, 효율성과 응답 속도 개선을 함께 추진 중이다.