다양한 인공지능 서비스에 꼭 필요한 맞춤형 언어모델 구축 플랫폼
복잡한 코딩을 줄이고 사용자 편의성을 고려한 LANGUAGE STUDIO를 통해 도메인에 특화된 챗GPT 같은 언어모델의 구축이 가능합니다. 금융, 법률, 공공기관, 민간 등 다양한 분야별 맞춤형 언어모델을 만들어보세요.
- #초거대언어모델
- #대용량언어분석
- #의도분류
- #감정/감성 분석
- #학습데이터구축
- #유사도분석


LANGUAGE STUDIO의 특별함
LANGUAGE STUDIO는 누구나 손쉽게 도메인에 최적화된 거대 언어모델을 만들 수 있는 기능을 제공합니다.
-
Point 01
딥러닝 기반의
고품질 자연어 처리
-
Point 02
도메인 적용의
용이성
-
Point 03
특화된 6가지의
전이학습 모델
-
Point 04
GUI기반 언어모델
직접 생성&관리
시스템구성
Core Technology
사전학습
언어이해를 가능하게 하는 초거대 언어모델
메인 대용량 학습용 데이터를 사용하여 특화된 전문 용어 사전 학습(Pre-Trained)을 통해 모델을 생성 다양한 자연어처리에 활용할 수 있는 초거대 언어모델을 제공합니다.
특장점
-
01딥러닝 기반의 고품질 자연어처리
최신 기계학습과 심층학습(인공신경망) 기술이 적용되어 기존 알고리즘보다 빠르고 높은 성능을 제공하고, 고품질 자연어처리가 가능합니다.
-
02도메인 적용의 용이성
대용량 학습데이터를 별도로 구축 할 수 있도록 기능을 지원하고, 기 보유 공통 사전 외에 각 도메인에 특화된 사전과 규칙을 활용하여 다양한 분야별 언어 특성에 따른 언어모델을 제공합니다.
-
03최신 초거대 언어모델 적용 가능
BERT, ELECTRA, RoBERTa, 챗GPT(ChatGPT) 등 최대 3.5억 파라미터 수를 가진 검증된 모델을 제공하고, 100G 이상의 대용량 데이터가 학습된 초거대 언어모델을 제공하여 도메인 특화 언어 모델을 구축합니다.
파인튜닝 / 전이학습
도메인별 다양한 Needs를 해결하는 언어모델
보유한 사전학습 모델기반 전이학습(Transfer Learning)을 통해 다양한 TASK(텍스트 분류, 문장 임베딩, 개체명 인식, 형태소 분석)를 학습하고, 모델 간 품질을 평가하여 우수한 성능을 보이는 최적의 모델을 제공합니다.
특장점
-
01텍스트 분류
사용자가 미리 정의한 범주(class)로 입력된 텍스트를 분류하는 기능을 제공하여 간단한 문장부터 복잡한 문서까지 분류가 가능합니다.
-
02문장 임베딩
Sentence Embedding 방식을 제공하여, 문장의 의미를 잘 이해할 뿐만 아니라, 유사한 문장을 찾아내는 기능을 제공합니다.
-
03개체명 인식
입력된 텍스트에서 사용자가 정의한 개체인식 모델을 제공하여, 높은 정확도를 필요로 하는 정보 검색 및 대화형시스템의 개체명 인식이 가능합니다.
-
04형태소 분석
어절의 최소 의미 단위인 '형태소'로 분석된 결과를 제공하여 형용사 및 동사의 원형 복원이 가능하고 사전 편집 기능을 통해 직접 결과를 편집할 수 있습니다.
-
05감정, 감성 분류
텍스트의 감정/감성을 분류하는 기능으로 문장의 긍/부정 및 대화 상대의 감정 상태 분류가 가능한 모델을 제공합니다.
-
06의도 분류
문장이 가지는 의미와 그 의도가 무엇인지 분류하는 기능을 제공하여, 대화처리에서 사용자의 대화 의도 파악을 위한 특화된 모델을 제공합니다.
LANGUAGE STUDIO TOOL
도메인별 맞춤형 통합 언어모델 구현 전문도구LANGUAGE STUDIO는 사전/전이학습 모델 구축부터 배포, 관리까지 텍스트 서비스 구현의 핵심 기능을 제공합니다.
-
학습 데이터 관리
-
모델학습
-
모델배포
-
모델관리
-
라벨링툴
도구소개
-
01학습 데이터 관리
-
대용량의 사전학습 데이터와 다양한 도메인 별 학습된 데이터의 통합 관리 기능 제공
- JSON파일 업로드/다운로드 기능
- 데이터 전처리 기능
- 데이터 통계 기능
- 데이터 샘플링 기능
-
-
-
02모델학습
-
GUI 방식의 모델 학습 기능 제공
- 최신 초거대 언어모델 적용 가능
- 멀티 GPU를 사용한 학습 기능
- 학습데이터 병합 및 통계 기능
- 모델 학습 현황 및 Loss Curve 조회 기능
-
-
-
03모델배포 및 관리
-
모델 생성부터 배포, 적용까지 통합 관리 기능
- 학습이 완료된 도메인 최적화 모델을 배포 가능
- 다양한 클라우드 방식으로 모델을 배포하고 즉시 적용 가능
- 웹 기반의 모델 관리 가능
- 모델 생성, 학습, 평가 등의 과정을GUI 방식으로 사용 가능
-
-
-
04라벨링툴(Option)
-
웹 기반의 어노테이션 기능
- 다양한 문제에 대한 데이터 커스터마이징 가능
- 다수의 도메인 전문가의 동시작업을 위한 공동작업 기능 제공
- 데이터 어노테이션 검수 기능
- 최종 결과물 JSON파일 다운로드 기능
-
-
Use Case
LANGUAGE STUDIO는 다양한 솔루션과 융합하여 새로운 가치를 창출합니다.
Success Story
-
KMS 분석 및 지식화
삼성전자 집단지성플랫폼 MOSAIC
사내 등록되는 KMS 지식 / 의견을 대상으로 전체적인 기술 프로세스 및 네트워크, 기술분석 트렌드에 대한 종합적인 지식관리 시스템 구축
-
- 삼성전자 KMS 등록문서의 분석 및 지식화로 지식 생산성 및 업무 효율성 향상
- 기존 시스템 대비 사용자 5배 증가
-
통합 VOC 시스템 구축
한화그룹 통합 VOC 분석 시스템
VOC 및 빅데이터 분석 시스템을 통해 각 그룹사별 내·외부 데이터 수집체계를 구성하고 VOC의 분석을 통해 CS경영지원 및 고객 업무 지원 모니터링 체계 구축
-
- VOC 분석 시스템을 통해 체계적인 수집 프로세스를 구성하고 사용자 니즈에 따른 VOC의 분석을 통해 한화 그룹의 VOC 경영자원화 강화
-
뉴스 분석 시스템 구축
한국언론진흥재단 미디어 컨텐츠분석 시스템 고도화
방대한 양의 뉴스 데이터를 가지고 있는 플랫폼을 깔끔하게 정제하여 비교적 쉽게 데이터를 만들 수 있는 시스템 고도화 사업 진행
-
- 글로벌 뉴스 데이터의 체계적 분석 기반 마련
- 언어 자원 정제 및 관리도구 고도화를 통한 언어분석 품질 개선
- 웹서비스 품질 개선을 통한 사용자 편의성 향상
Reference
-
지능형 통합검색 서비스
헌법재판소
일상용어를 통한 쉬운, 의미기반의 판례검색 서비스
-
신기술 센싱
삼성전자
R&D 트렌드 시그널을 광범위하게 감지한 지식관리시스템
-
불완전판매
NH농협카드
아웃바운드 불완전판매 모니터링 및 상담내용 분석 리포트
-
콜센터 상담 TOPIC 분석
NH농협은행
콜센터 상담 고객 긍/부정 분석
-
KT VOC 시스템
KT
KT 통신상품에 대한 고객의 VOC 분석 및 리포트, 인사이트 제공
-
VOC 분석 시스템
한국도로공사
비정형 VOC 분석을 통해 고객 불만사항 지속 모니터링 시스템 구축
-
2020년 디지털 뉴딜 우수사례
한국어 방언 AI 데이터한국지능정보사회
진흥원총 15,000시간, 총 250만 문장 지역별 방언 전사 학습데이터
-
일상대화 말뭉치 2020
국립국어원
2,000명 이상 각 지역별 화자 모집 전사 말뭉치 구축
-
전문분야 심층인터뷰 AI데이터
한국지능정보사회
진흥원전문분야 인터뷰 총 2,000시간 이상 심층 인터뷰 학습데이터 구축
-
국어 말뭉치 연구
국립국어원
현대국어 말뭉치 기초 연구 구어 말뭉치 550만 어절 구축
-
대규모 한국어 말뭉치
한국지능정보사회
진흥원총 20억 어절 대규모 웹데이터 기반 온라인 구어체 학습데이터 구축
-
구어 말뭉치
국립국어원
15,000시간 방송대화 수집 약 1,540만 원시 말뭉치 구축