![엄정한 BLT특허법인 파트너 변리사. [사진=엄정한]](https://image.inews24.com/v1/94d628d5fee6d5.jpg)
인공지능(AI) 기술이 급격히 발전하며 다양한 산업에서 활용되고 있지만, AI 개발의 핵심인 데이터셋 수집·정제·가공 과정은 여전히 반복적인 수작업으로 진행되고 있다. 모든 산업 분야에서 AI 도입이 가속화되고 있지만 데이터 라벨링 방식은 근본적인 변화를 맞이하지 못하고 있다.
AI 모델이 제대로 학습하려면 엄청난 양의 정제된 데이터가 필요하다. 하지만 대부분의 기업들은 자체적인 데이터 라벨링 팀을 구축하기 어려운 것이 현실이다. 포브스(Forbes)에 따르면, 인공지능 개발자가 데이터셋을 준비하는 기간이 전체 AI 개발 시간의 88%를 차지한다고 한다. 이를 해결하기 위해 많은 기업들은 단기간에 데이터를 가공하기 위해 파트타임 인력 10~100명을 고용해 급조된 데이터셋을 만들어내는 경우가 빈번하다. 그러나 이런 방식은 필연적으로 데이터 품질의 불균형을 초래하며, 이를 해소하기 위해 추가적인 검수 인력을 투입하는 비효율적인 구조를 반복하고 있다.
또한, 대량의 데이터 라벨링 작업이 이루어지는 과정에서 개인정보 보호 문제도 발생하고 있다. 수많은 라벨러들에게 데이터가 노출되면서 초상권 및 민감한 데이터 보호 문제가 대두되고 있지만, 여전히 이를 고전적인 방식으로 해결하려는 한계를 보인다. 테슬라(Tesla)처럼 자체적으로 데이터 라벨링 팀을 운영하는 기업은 극소수이며, 대부분은 크라우드소싱이나 외부 전문 라벨링 업체를 활용할 수밖에 없다. 하지만 이런 기존 방식이 지나치게 비효율적이라는 점이 문제다. 가이드라인을 작성하고, 협력 업체를 선정하고, 인력을 모집하는 과정에서 많은 시간과 비용이 투입되며, 그 과정에서 데이터 품질이 흔들리는 경우도 많다.
이러한 문제를 해결하기 위해 등장한 스타트업이 바로 '애자일그로스(Agile Growth, 대표 이정훈)'다. 기존 데이터 라벨링 방식의 구조적 한계를 극복하고, AI 학습용 데이터를 자동으로 생성하는 솔루션을 개발했다. 이들이 제안하는 핵심 가치는 '완전 자동화(Fully Auto)된 데이터 가공'이다. 이를 통해 데이터 라벨링 과정에서 발생하는 인적오류(휴먼에러, Human Error)를 제거하고, AI 학습의 효율성을 극대화하는 것을 목표로 한다.
애자일그로스의 가장 큰 강점은 '휴먼에러 제로(Human Error 0)'를 목표로 한 데이터 가공 방식이다. 기존 데이터 라벨링 과정에서 발생하는 오류는 주로 가이드라인 해석 오류, 반복 작업으로 인한 집중력 저하, 그리고 검수 과정에서의 오류 발견 미흡에서 비롯된다. 데이터 라벨링 작업자는 가이드라인을 다르게 해석할 수 있으며, 같은 기준이라도 작업자의 경험이나 이해도에 따라 다른 결과가 나올 수 있다. 또한, 수많은 데이터를 수작업으로 처리하는 과정에서 실수가 누적되며, 검수자도 사람이기 때문에 이전 작업자의 실수를 완전히 걸러내지 못하는 경우가 많다.
![엄정한 BLT특허법인 파트너 변리사. [사진=엄정한]](https://image.inews24.com/v1/84e64036640838.jpg)
애자일그로스는 이러한 문제를 해결하기 위해 AI 기반의 자동 라벨링 시스템을 도입했다. 이 시스템은 대형 AI 모델을 활용하여 데이터를 분석하고, 라벨링 작업을 자동 수행한다. 특히, 애자일그로스의 AI는 반복적인 학습을 통해 점진적으로 성능이 개선되며 데이터 품질을 지속적으로 높여나간다. 기존의 라벨링 방식과 비교했을 때 애자일그로스 솔루션의 성능 차이는 확연하다. 기존 수작업 방식에서는 숙련된 전문가가 1시간 동안 약 800건의 데이터를 처리하는 반면, 애자일그로스의 자동 라벨링 기술은 1시간에 10만 건 이상의 데이터를 처리할 수 있다. 또한 프로젝트당 최소 2번의 검수 과정을 거쳐 오류 발생률을 0에 가깝게 줄이는 것을 목표하고 있다.
기존의 데이터 라벨링 공정은 매우 복잡하다. 일반적인 AI 개발 기업이 데이터 라벨링을 결정하면, 데이터 가공 업체를 소싱하고 협상하는 과정부터 시작해, 데이터 가이드라인을 작성하고 아웃소싱 또는 크라우드소싱을 통한 라벨러를 모집해야 한다. 이후 데이터 라벨링 작업을 수행하고, 검수와 수정을 거쳐 최종적으로 AI 모델 훈련과 검증이 이루어진다. 이러한 과정은 상당한 시간과 비용을 소모하며, 그 과정에서 휴먼에러가 발생할 가능성이 높다.
애자일그로스는 이 문제를 해결하기 위해 대규모 언어 모델(LLM)을 활용한 자동 데이터 라벨링 솔루션 '살몬(Salmon)'을 개발했다. 기존의 복잡한 프로세스를 단순화하여, 사용자는 애자일그로스 플랫폼에 접속한 뒤 간단한 채팅을 통해 데이터 가이드라인을 입력하면 AI가 자동으로 데이터 라벨링을 수행한다. 이후 즉시 AI 모델 훈련과 테스트가 가능해진다.
![엄정한 BLT특허법인 파트너 변리사. [사진=엄정한]](https://image.inews24.com/v1/f59bbf0b6bfc6d.jpg)
이 솔루션을 활용하면 사람이 개입하는 단계가 최소화되며, 대부분의 데이터 가공이 자동화된다. 결과적으로 기존 대비 90% 이상의 시간과 비용 절감이 가능하다. 또한, 자사의 생성형 AI 모델을 활용한 완전 자동 데이터 가공 SaaS 솔루션을 제공한다. 이 솔루션은 대규모 멀티 모달(음성·텍스트·영상 등) 인공지능 기술을 기반으로, 훈련하지 않은 데이터도 인식하고 자동으로 라벨링을 수행하며 그 결과를 검수한다. 대규모 멀티 모달 모델은 방대한 데이터셋으로 훈련되며, 모델의 성능을 극대화하고 궁극적으로 인간의 수행능력에 도달하는 것을 목표로 한다.
이같이 데이터 라벨링의 효율성을 끌어올린 애자일그로스는 다양한 산업 분야에서 데이터 가공 프로젝트를 수행해 왔다.
자동차 인포테인먼트 분야에서는 운전자 상태감시 데이터와 인간 3D 뼈대 데이터를, 자율주행 분야에서는 복합 SoC 비전 데이터를 처리했다. 로보틱스 분야의 경우 작업장 컨베이어 벨트 데이터를 다뤘으며, 스마트팩토리에서는 작업장 CCTV 비전 데이터와 유리 불순물 감지 데이터를 가공했다.
아울러 안전 분야에서는 외부 구조물 균열 데이터와 개발 회사 데이터 구축을 진행했고, 커머스 분야에서는 추천 시스템 및 NLP 데이터와 유아 신발 데이터를 처리했다. 또한 바이오 분야에서는 바이오 고객사 데이터 구축과 수면 질 평가 데이터를, 헬스케어 분야에서는 인간과 손의 2D 뼈대 데이터를 가공했다. 블록체인(NFT 가치 평가 데이터)·해양(해양 생물 데이터 312종을 처리) 분야에서도 폭넓은 데이터 가공 능력을 보여준 애자일 그로스의 기술력은 등록특허 제 10-2743377호 '영상 레이블링 평가 방법 및 서버' 등의 특허포트폴리오로 보호되고 있다.
![엄정한 BLT특허법인 파트너 변리사. [사진=엄정한]](https://image.inews24.com/v1/749a73ceb53b09.jpg)
애자일그로스의 최신 솔루션인 '살몬 2.0(Salmon 2.0)'은 기존에 작성된 데이터 작업 매뉴얼, 데이터셋 포맷, 특이 사항 문서를 자동으로 이해하고, 고객의 의도를 파악하여 연구 목적에 맞는 데이터를 생성하는 기능을 갖추고 있다. 또한, 데이터의 모수가 부족할 경우 데이터 증강과 데이터 합성을 통해 필요한 데이터를 빠르게 생성해 일관된 데이터 품질을 유지할 수 있다. 애자일그로스의 클라우드 기반 솔루션은 AutoML 파이프라인과 연계돼, 데이터 수집부터 AI 모델 개발, AI 훈련까지 전 과정을 노코드(No-code) 방식으로 구현할 수 있도록 지원한다. 이를 통해 AI 연구자와 기업들이 더욱 빠르고 효율적으로 AI 모델을 개발할 수 있는 환경을 제공하고 있다.
데이터 라벨링 시장은 더욱 빠르게 성장하고 있으며, 그 중요성도 점점 커지고 있다. 국내 데이터 시장의 상위 10개 기업의 매출만 해도 2000억 원이 넘고, 글로벌 데이터 라벨링 시장에서는 상위 3개 기업의 매출을 합치면 연간 5조 원 규모가 넘는다. 하지만 여전히 많은 기업들이 전통적인 방식의 데이터 라벨링을 고수하고 있으며, 그로 인해 AI 개발 속도가 지연되고 있다.
애자일그로스는 인공지능 솔루션을 개발하는 기업들이 데이터 가공의 문제에서 벗어나 연구와 개발에 집중할 수 있도록 돕는 것을 목표하고 있다. 완전 자동화된 AI 데이터 생성 솔루션을 통해 AI 개발자들이 데이터 걱정 없이 혁신적인 모델을 만들 수 있는 환경을 제공한다. AI 모델이 더욱 정교해질수록 데이터 품질의 중요성은 더욱 강조될 것이고, 애자일그로스의 역할도 더욱 커질 것이다. 데이터의 품질이 곧 AI의 미래를 결정짓는 시대, 애자일그로스가 데이터 라벨링의 새로운 표준을 만들어가고 있다.
![엄정한 BLT특허법인 파트너 변리사. [사진=엄정한]](https://image.inews24.com/v1/23006ee0ee8581.jpg)
■엄정한 변리사는?
서울대학교 공과대학 화학생물공학부를 졸업한 후 코스닥 기업에서 프로그래밍과 사업개발을 담당했다.
20대 초반부터 직접 창업에 도전했으며 현재 약 2500개 이상 스타트업과 기술창업 기업이 주 고객인 특허법인 BLT 파트너 변리사로 활동 중이다.
50여회 이상의 엔젤투자 경험을 토대로 역량 있는 스타트업들의 성장을 지원하고 있다. 저서로는 '기술창업 36계', '특허로 경영하라', '지식재산권 스쿨' 등이 있다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기