사업분야

AI 학습데이터 구축 및 모델링

데이터 지능화를 통한 데이터의 무한 가치 창출을 위한 사업

  • #데이터수집
  • #어노테이션
  • #심층QA
  • #지식그래프
  • #온톨로지구축
  • #코퍼스구축

디지털 뉴딜사업을 포함하여 현대자동차, 삼성전자, KT, SKT, 국립국어원 등과 함께해온
솔트룩스의 AI 학습데이터 및 모델링 서비스를 경험해 보세요.

기계학습 기반 인공지능 시스템 및 서비스 개발 비용의 60% 이상이 데이터 수집, 통합 및 학습용 데이터로의 전환과 품질 검수에 사용됩니다.
AI 모델의 성능과 품질은 학습용 데이터의 양과 분류 및 태깅 품질의 크게 의존하고 있으며,
이를 위한 비용을 낮추고 동시에 품질을 향상하기위한 기술과 프로세스 및 방법론에 확보는 매우 중요합니다.
솔트룩스는 대한민국 최초의 인공지능 전문기업이자 상장기업으로써 자연언어처리, 음성인식, 얼굴을 포함한 다양한 영상인지와 의료, 바이오 분야에 이르기까지
초대규모 학습용 데이터의 구축과 기계학습 모델 최적화 사업을 추진해 왔습니다.
자동화된 구축 프로세스와 구축 도구 및 품질 검수 체계를 보유하고 있으며, 국내 및 해외 자회사에 학습데이터 구축과 모델링 전담 조직을 보유하고 있습니다.
디지털 뉴딜사업을 포함하여 현대자동차, 삼성전자, KT, SKT, 국립국어원 등과 함께해온 솔트룩스의 비용 효과적인 AI 학습데이터 및 모델링 서비스를 경험해 보세요.

AI학습데이터 구축 사업이 왜 특별할까요?

  • 01

    AI 학습데이터 구축 프로세스와 자동화 도구

    솔트룩스가 20년 동안 축적하고 고도해온 학습데이터 구축 프로세스는 데이터 유형과 AI 응용에 따라 커스텀 응용과 최적화가 가능합니다. 솔트룩스의 프로세스는 대규모 데이터 수집, 통합, 협업적 어노테이션(레이블링) 등의 복잡한 작업의 자동화가 가능한 다양한(언어, 음성, 영상, 자율주행 등) 구축 도구를 제공하고 있습니다.

  • 02

    대규모 데이터 구축을 위한 크라우드 워커 환경

    초대규모 데이터 구축 비용을 절감하기 위해서는 프로세스의 자동화 뿐만 아니라 수백명 이상의 사람 작업자들이 쉽게 협업하고 데이터 구축과 검수를 진행할 수 있어야 합니다. 솔트룩스는 크라우드 워커들을 위한 ‘크로웍스’ 플랫폼을 자체 확보하고 이를 통해 데이터 구축 업무의 효율성을 극대화하고 있습니다.

  • 03

    국내 최대 규모 학습데이터 구축 경험과 자산

    10만시간 이상의 음성인식용 데이터 전사, 10 테라바이트 이상의 자율주행 학습데이터, 대한민국 모든 방언을 포함한 초대규모 언어모델 학습데이터, 폐암 진단 및 바이오 마커 발굴을 위한 학습데이터 등 국내최대 규모의 AI학습데이터 구축 경험과 함께 재활용 및 트랜스퍼 러닝에 활용 가능한 데이터 자산을 보유하고 있습니다.

  • 04

    ML Ops, 액티브 러닝 기반 AI 모델 최적화

    솔트룩스의 랭귀지 스튜디오, 보이스 스튜디오, 톡봇 스튜디오, 비전 스튜디오 그리고 날리지 스튜디오는 개발자가 아닌 일반인 누구나 AI 학습데이터를 구축하고 기계학습 모델을 생성할 수 있는 환경을 제공합니다. 또한, ML Ops 기반한 도구들은 액티브 러닝을 제공함으로 비용과 시간을 최대 80% 이상 절감할 수 있도록 돕습니다.

  • 05

    품질검증 전담조직과 프로세스

    대규모 학습 데이터 구축을 위해 수십명, 때로는 수백명 이상의 인간 작업자들의 업무를 관리하고 그 산출물의 품질을 검수하는 것은 많은 비용과 시간을 필요로 합니다. 솔트룩스의 품질검증 전담조직은 데이터 및 AI에 대한 풍부한 지식과 경험, 품질도구를 통해 99.9% 이상의 학습 데이터 품질을 보장합니다.

  • 06

    자회사와 파트너를 통한 비용 효과 극대화

    솔트룩스는 15년전부터 베트남과 미국의 현지 자회사 법인을 운영하고 있으며, 전세계 20개국에 데이터 구축을 위한 파트너 네트워크를 운영하고 있습니다. 이를 통해 데이터 구축 비용을 크게 절감할 수 있을 뿐 아니라 국내 비즈니스를 넘어 글로벌 사업을 확장하고자 하는 고객에게 최적의 파트너가 되고 있습니다.

  • 01

    AI 학습데이터 구축 프로세스와 자동화 도구

    솔트룩스가 20년 동안 축적하고 고도해온 학습데이터 구축 프로세스는 데이터 유형과 AI 응용에 따라 커스텀 응용과 최적화가 가능합니다. 솔트룩스의 프로세스는 대규모 데이터 수집, 통합, 협업적 어노테이션(레이블링) 등의 복잡한 작업의 자동화가 가능한 다양한(언어, 음성, 영상, 자율주행 등) 구축 도구를 제공하고 있습니다.

  • 02

    대규모 데이터 구축을 위한 크라우드 워커 환경

    초대규모 데이터 구축 비용을 절감하기 위해서는 프로세스의 자동화 뿐만 아니라 수백명 이상의 사람 작업자들이 쉽게 협업하고 데이터 구축과 검수를 진행할 수 있어야 합니다. 솔트룩스는 크라우드 워커들을 위한 ‘크로웍스’ 플랫폼을 자체 확보하고 이를 통해 데이터 구축 업무의 효율성을 극대화하고 있습니다.

  • 03

    국내 최대 규모 학습데이터 구축 경험과 자산

    10만시간 이상의 음성인식용 데이터 전사, 10 테라바이트 이상의 자율주행 학습데이터, 대한민국 모든 방언을 포함한 초대규모 언어모델 학습데이터, 폐암 진단 및 바이오 마커 발굴을 위한 학습데이터 등 국내최대 규모의 AI학습데이터 구축 경험과 함께 재활용 및 트랜스퍼 러닝에 활용 가능한 데이터 자산을 보유하고 있습니다.

  • 04

    ML Ops, 액티브 러닝 기반 AI 모델 최적화

    솔트룩스의 랭귀지 스튜디오, 보이스 스튜디오, 톡봇 스튜디오, 비전 스튜디오 그리고 날리지 스튜디오는 개발자가 아닌 일반인 누구나 AI 학습데이터를 구축하고 기계학습 모델을 생성할 수 있는 환경을 제공합니다. 또한, ML Ops 기반한 도구들은 액티브 러닝을 제공함으로 비용과 시간을 최대 80% 이상 절감할 수 있도록 돕습니다.

  • 05

    품질검증 전담조직과 프로세스

    대규모 학습 데이터 구축을 위해 수십명, 때로는 수백명 이상의 인간 작업자들의 업무를 관리하고 그 산출물의 품질을 검수하는 것은 많은 비용과 시간을 필요로 합니다. 솔트룩스의 품질검증 전담조직은 데이터 및 AI에 대한 풍부한 지식과 경험, 품질도구를 통해 99.9% 이상의 학습 데이터 품질을 보장합니다.

  • 06

    자회사와 파트너를 통한 비용 효과 극대화

    솔트룩스는 15년전부터 베트남과 미국의 현지 자회사 법인을 운영하고 있으며, 전세계 20개국에 데이터 구축을 위한 파트너 네트워크를 운영하고 있습니다. 이를 통해 데이터 구축 비용을 크게 절감할 수 있을 뿐 아니라 국내 비즈니스를 넘어 글로벌 사업을 확장하고자 하는 고객에게 최적의 파트너가 되고 있습니다.

사업분야

  • 웹/소셜 데이터 수집 및 정제

    수천 개의 웹/소셜 데이터 소스로부터 하루 수백만 데이터 수집, 추출과 실시간 분석

    1. #현대자동차
    2. #삼성전자
    3. #국방부
  • 음성 인식/합성 데이터 구축

    20개국 이상의 다국어와 지역별, 성별 나이별 음성 인식과 합성을 위한 데이터 구축

    1. #KT
    2. #ETRI
  • 영상/이미지 데이터 어노테이션

    DNN기반 이미지, 영상 인식 서비스와 자율자동차 구현을 위한 고품질 어노테이션

    1. #한국관광공사
    2. #부산광역시
  • 자연어처리 코퍼스 구축

    심층 자연어처리, 의미이해를 위한 대규모 고품질, 다국어 코퍼스(말뭉치) 구축

    1. #삼성전자
    2. #한국언론진흥재단
    3. #신한은행
  • 질의응답 및 대화 코퍼스 구축

    Seq2Seq과 IRQA 기반의 심층 질의응답 시스템 및 대화 엔진 구현을 위한 코퍼스

    1. #KT
    2. #삼성전자
    3. #신한은행
  • 지식그래프 및 온톨로지 구축

    인공지능 고객 상담시스템, 심층 질의응답, NLU와 의미분석을 위한 지식 베이스 구축

    1. #NH농협은행
    2. #신한은행
    3. #삼성전자
  • 다국어 자동번역 코퍼스 구축

    번역메모리, NMT 기반의 자동번역 엔진 구현을 위한 다국어 병렬 코퍼스 구축

    1. #IBM
    2. #LG전자
  • 감성분석용 학습 데이터 구축

    소셜 및 고객 상담, 민원 데이터로부터 감성 분석 모델의 생성을 위한 학습 데이터

    1. #현대자동차
    2. #한국언론진흥재단
  • 오픈 데이터 수집 및 변환과 통합

    공공데이터를 포함한 오픈 데이터의 수집, 변환, 통합과 LOD 퍼블리싱

    1. #행정안전부
    2. #과학기술정보통신부
  • 공간 데이터 통합과 분석

    공간데이터의 RDF 변환과 통합, 센서, 교통, 관광 등 다양한 데이터 연계

    1. #국토교통부
    2. #국토지리정보원
  • 과학기술 데이터 큐레이션

    논문, 특허, 보고서의 그래프, 테이블, 설명문으로부터 데이터 추출과 변환

    1. #삼성전자
    2. #한국과학기술연구원
  • 헬스케어 데이터 변환 및 통합

    EMR, EHR 등의 의료데이터 통합과 표준(SNOMED 등) 변환, 그래프 마이닝

    1. #SNOMED
    2. #세브란스병원
    3. #카톨릭중앙의료원

Reference

  • KMS 분석 및 지식화

    삼성전자

    집단지성플랫폼 MOSAIC

  • 문서중앙화

    현대모터스그룹

    현대기아자동차 문서중앙화 시스템 구축

  • KT VOC 시스템

    KT

    KT 통신상품에 대한 고객의 VOC 분석 및 리포트, 인사이트 제공

  • R&D Data Science 플랫폼

    LG

    R&D 데이터 수집 과 인지분석을 통해 신기술 센싱 기술 동향 분석

  • 오픈 데이터 구축

    국립중앙도서관

    LOD 기반의 귀중본 고신문 플랫폼 구축

  • 오픈 데이터 구축

    한국전자통신연구원

    인공지능 오픈 API·DATA 서비스

  • 오픈 데이터 구축

    특허청

    맞춤형 IP-Biz 정보공유 플랫폼 개발

  • 오픈 데이터 구축

    한국문화정보원

    LOD 기반 문화융성을 위한 융합·오픈DB

  • LOD 공개 플랫폼 제공

    부산광역시

    부산의 문화정보 데이터의 지식 그래프 구축 및 LOD 공개 플랫폼 제공

  • 소셜, 지식데이터 구축

    부산인적자원개발원

    부산관련 전문가, 지식인 통합관리 DB 기반 소셜, 지식 네트워크 플랫폼 구축

  • LOD 공공 포털 구축

    한국수자원공사

    수자원 및 지도데이터, 공공 LOD의 민간 활용이 가능한 산업 생태계 구성

  • 오픈 데이터 구축

    경기도

    경기도청 관리 데이터의 검색 기능 및 데이터 활용을 위한 LOD서비스 제공

  • 인문지리정보 구축

    국토지리정보원

    인문지리정보 온톨로지 기술 모델링 및 복합 검색 서비스 제공