문의하기

데이터과학
데이터 구축 및 큐레이션

데이터 큐레이션이란?

데이터 큐레이션은 데이터 수집과 정제에서 어노테이션과 분류, 학습용 데이터 생성 등 데이터의 활용 가치를 높이기 위한 모든 활동을 의미합니다. 데이터 기반의 심층 분석과 기계학습을 위해서는 대규모 데이터의 확보뿐 아니라 기계가 읽고(readable), 학습하고(learnable), 의미 이해 가능한(understandable) 형태로 가공되어야 합니다. 데이터 큐레이션 서비스는 솔트룩스 20년의 데이터 품질관리와 기계학습 경험이 축적된 세계 최고 수준의 데이터 서비스를 제공합니다.


< 데이터 사이언스를 위한 데이터 큐레이션 6단계 >

데이터 큐레이션 영역


데이터 수집 큐레이션

인터넷 등 다양한 공간에서 텍스트, 이미지, 영상 등 원시 데이터 수집

데이터 구축 및 정제/가공

수집이 불가능한 데이터의 휴먼 큐레이터의 데이터 구축과 정제, 가공

다국어 언어/음성 코퍼스 구축

20개 이상의 다국어와 지역별, 성별, 나이별 음성 인식과 합성을 위한 데이터

데이터/정보 추출 큐레이션

RFP, 계약서 상의 리스크 데이터 자동 추출 및 분석


영상/이미지 데이터 어노테이션

DNN기반 이미지, 영상 인식 서비스와 자율 자동차 구현을 위한 고품질 어노테이션

과학기술 데이터 큐레이션

논문, 특허, 보고서의 그래프, 테이블, 설명문으로 부터 데이터 추출과 변환

질의응답, 대화 코퍼스 구축

Seq2Seqrhk IRQA 기반의 심층 질의 응답 시스템 및 대화 엔진 구현을 위한 코퍼스 구축

지식그래프/온톨로지 구축

인공지능 고객 상담시스템, 심층 질의응답, NKU와 의미분석을 위한 지식베이스 구축


데이터 큐레이션 서비스 특징

데이터 큐레이션 서비스는 지난 20년간 솔트룩스의 인공지능 연구와 제품 개발을 통해 누적된 대규모, 고품질 데이터 수집, 필터링 및 어노테이션 노하우가 집약되어 있습니다. 특히, 세계 최고 성능의 데이터 수집 플랫폼인 ‘토네이도’와 자체 보유한 국내외 전문 큐레이션 센터, 인공지능 연구소의 기술 지원을 통해 세계 최고 수준의 데이터 큐레이션 서비스를 제공합니다.


데이터 큐레이션 사례


  • 웹/소셜 데이터 수집, 정제
    수천 개의 웹/소셜 데이터 소스로부터 하루
    수백만 데이터 수집, 추출과 실시간 분석
  • 음성 인식/합성 데이터 구축
    20개국 이상의 다국어와 지역별, 성별
    나이별 음성 인식과 합성을 위한 데이터 구축
  • 영상/이미지 데이터 어노테이션
    DNN기반 이미지, 영상 인식 서비스와
    자율자동차 구현을 위한 고품질 어노테이션
  • 자연어처리 코퍼스 구축
    심층 자연어처리, 의미이해를 위한 대규모
    고품질, 다국어 코퍼스(말뭉치) 구축
  • 질의응답, 대화 코퍼스 구축
    Seq2Seq과 IRQA 기반의 심층 질의응답
    시스템 및 대화 엔진 구현을 위한 코퍼스
  • 지식그래프/온톨로지 구축
    인공지능 고객 상담시스템, 심층 질의응답,
    NLU와 의미분석을 위한 지식 베이스 구축
  • 다국어 자동번역 코퍼스 구축
    번역메모리, NMT 기반의 자동번역 엔진
    구현을 위한 다국어 병렬 코퍼스 구축
  • 감성분석용 학습 데이터 구축
    소셜 및 고객 상담, 민원 데이터로부터
    감성 분석 모델의 생성을 위한 학습 데이터
    • 언론진흥재단
  • 오픈 데이터 수집, 변환과 통합
    공공데이터를 포함한 오픈 데이터의
    수집, 변환, 통합과 LOD 퍼블리싱
  • 공간 데이터 통합과 분석
    공간데이터의 RDF 변환과 통합,
    센서, 교통, 관광 등 다양한 데이터 연계
  • 과학기술 데이터 큐레이션
    논문, 특허, 보고서의 그래프, 테이블,
    설명문으로부터 데이터 추출과 변환
  • 헬스케어 데이터 변환, 통합
    EMR, EHR 등의 의료데이터 통합과
    표준(SNOMED 등) 변환, 그래프 마이닝

학습 데이터 의 품질

Garbage-In, Garbage-Out!

빅데이터에 대한 관심이 크게 증가하던 초기에는 소위 데이터양이 많으면 품질이 커버될 수 있다는 “양질 변환”이 가능하다 믿어졌었습니다. 그러나 글로벌 규모의 시장 및 경쟁자 분석, 위험 조기 감지, 투자 예측/관리 등의 대부분 심층분석에서는 데이터양만큼이나 그 품질의 중요성이 강조되고 있습니다. 특히, 딥러닝을 포함한 기계학습 기반 인공지능 시스템 개발에서는 대규모 데이터 확보뿐 아니라 99.9% 이상의 정확도를 가지는 초고품질 학습 데이터의 확보가 더욱 중요해지고 있습니다. (자율주행을 위한 이미지 어노테이션, 자연언어처리를 위한 말뭉치 등)


< 솔트룩스 CNN기반 이미지 인식 품질 평가 사례 >

휴먼 인 더 루프

상용 수준의 실용적 인공지능 시스템 구현을 위해서는 모델의 높은 정확도뿐 아니라 기계학습을 위한 총비용을 낮추는 것이 핵심 성공 요소가 됩니다. ‘Human-in-the-loop’는 기계학습 과정에 사람이 적절하게 개입하여 비용을 낮추고 품질을 향상하기 위한 방법론을 총칭합니다. 데이터 큐레이션 서비스는 ‘이중 나선 방법론’에 기반한 ‘Human-in-the-loop’를 구현하고 데이터 큐레이션 센터의 기계학습 전문가와 글로벌 큐레이션 센터 및 크라우드 소싱을 통해 최적의 기계학습 프로세스 구현을 지원하고 있습니다.

액티브 러닝

이미지인식, 음성인식을 포함한 다양한 분류, 추천 등의 실용화된 기계학습(딥러닝) 모델들은 대규모, 고품질의 레이블링 된 학습 데이터가 필요합니다. 고품질 대규모 레이블 데이터를 확보하기 위해서는 막대한 비용이 듭니다. Active Learning(능동학습)은 레이블이 없는 대규모 원시 데이터로부터 교사학습에 최적화된 레이블 데이터를 반복적으로 확보하여 낮은 비용으로 지능형 시스템을 구현하기 위한 데이터 큐레이션 및 기계학습 방법입니다. 솔트룩스는 20년간 축적해온 인공지능 시스템 구현을 위한 Active Learning 경험을 데이터 큐레이션 서비스에 반영하고 있습니다.


데이터 바우처 소개

한국데이터산업진흥원의 데이터바우처 지원사업은 데이터 구축가공유통 등 각 단계를 유기적으로 연계하고, 데이터 구매·가공을 통한 거래를 확대함으로써 데이터·AI 산업 활성화 생태계 조성 및 데이터활용에 어려움을 겪는 중소·벤처기업, 소상공인 및 1인 창조기업을 대상으로 데이터 구매·가공 바우처를 지원하는 사업입니다. 솔트룩스는 데이터 공급기업(가공)으로 등록되어 있으며, 데이터 가공뿐만 아니라 수요 기업의 데이터 컨설팅을 담당하고 있습니다.

지원 사업명

데이터바우처 지원사업

총사업비

5년 간 총 3천억원
('19년 600억/구매바우처 200억, 가공바우처 400억)


사업 수행 방법

1차 데이터산업진흥원, 2차 분야별 수행기관을 통해 사업 수행

지원 사업 규모

연간 데이터 구매 1,000건, 가공 640건
(일반 400건, AI 240건)의 수요 발굴 및 지원