문의하기

그래프데이터변환 엔진

구조화 데이터에는 RDBMS, 엑셀, CSV, TSV, RDF 등 데이터가 일정한 구조를 가지는 것을 말하며, 비구조화 데이터는 웹문서, 매뉴얼 등의 문서의 구조를 가지는 데이터를 말하며, 이렇게 내/외부 산재되어 있는 다양한 대용량의 데이터들 간의 아주 복잡한 관계를 더 쉽고 빠르게 파악할 수 있도록 Graph DB에 저장하기 위하여 그래프데이터로 변환하여 통합 처리하는 프로세스에서 시작합니다.

데이터를 변환하는 방법에는 데이터 소스의 구조와 지식그래프 데이터 모델을 매핑하거나 비구조화된 문서에서 지식그래프 모델에 해당되는 특정 리소스의 속성, 값 형태로 데이터를 추출하여 그래프 데이터로 변환할 수 있습니다. 또한, W3C의 RDF Direct Mapping 기술을 통해서 RDB와 RDF를 직접 연결하고 통합할 수 있습니다.

솔트룩스의 데이터변환엔진은 변환 및 통합을 위한 매핑 언어인 RML(Rule Mapping Language)과 W3C의 R2RML을 지원하고 있으며, RDB 뿐만 아니라 다양한 데이터 소스를 지원하고 매핑 과정에서 데이터에 대한 정제 및 필터링을 지원함으로써 양질의 그래프데이터 확보 및 처리에 적합한 엔진입니다.

< 그래프데이터변환 엔진 – 데이터변환 개념도 >

소개

그래프데이터변환 엔진은 데이터 소스(DBMS, CSV, RDF 등)와 지식그래프 모델간 매핑을 통해 지식그래프에 해당되는 데이터를 생성하기 위한 엔진입니다. W3C의 R2RML언어 지원뿐만 아니라 자체 데이터변환 규칙인 RML언어 제공을 통해 RDB와 같은 구조화된 형태를 가지는 모든 데이터를 대상으로 변환하는 기능을 제공하며, 사용자 데이터를 가상의 데이터 뷰(Data View)로 전환하고 처리하기 위한 기능을 제공하고 있습니다. 사용자는 그래프데이터변환엔진을 통해 데이터변환 업무를 쉽고 빠르게 수행할 수 있습니다.

< 그래프데이터변환 엔진 – 기능 구성도 >

데이터변환 엔진의 관리 기능은 데이터 매핑 및 변환 뿐만 아니라 데이터 소스 뷰어, 데이터 모델(스키마) 뷰어, SPARQL 뷰어 및 테스트, CSV/Excel 파일 뷰어, RML 편집기 및 테스트, 변환 통계기능 등 사용자가 데이터변환 처리(데이터 전처리, 변환, 데이터 후처리)에 있어 유용한 기능을 제공하고 있습니다.

< 그래프데이터 변환 절차 >

데이터변환 절차는 데이터 소스 선정, 데이터 소스에 해당되는 데이터 뷰 생성, 그래프 맵 정의, 데이터 뷰와 그래프 맵 바인딩, 그래프데이터 생성의 절차로 진행합니다. 그래프 맵은 그래프 모델에 해당되는 인스턴스를 정의하며 특정 리소스의 속성값을 생성할 때 값에 대한 필터링/정제가 필요할 경우는 함수를 이용하여 처리합니다.

< 대용량 비졍형데이터 지식 추출 절차 및 도구 >

주요 특징

그래프데이터변환 엔진은 대용량 데이터에 대한 변환뿐만 아니라 다양한 데이터 소스를 지원하는 가상의 데이터 뷰를 제공, 데이터변환 시 데이터에 대한 정제 및 필터링 제공 등 사용자가 정의한 데이터 뷰와 필터링 함수를 직접 정의하고 엔진에 적용할 수 있습니다. 그래프데이터변환 엔진의 가장 큰 장점은 사용자가 데이터 뷰(Data View)를 만들거나 사용자 함수(필터링, 정제 등)을 플러그인으로 만들 수 있으며, 이들은 모두 URI주소를 가지고 있어 다른 프로젝트(작업)에서 동일한 함수가 URI를 통해서 구분하여 사용할 수 있는 장점이 있습니다. 또한, 형상관리 서버(SVN, CVS, Git 등)와의 연동을 통해 작업중인 프로젝트 별 형상을 관리할 수 있습니다. 다음과 같은 주요 특징들을 가지고 있습니다.

주요 기능 및 사양

Graph DB Suite에 정형과 비정형 데이터에 대한 그래프데이터 생성을 담당하는 그래프데이터변환 엔진은 데이터변환 핵심기능과 손쉬운 변환 작업을 지원하는 관리도구로 구성되어 있습니다. 정형화된 데이터의 경우 스키마 매핑을 통해 데이터를 추출/변환할 수 있으며, 비정형화 데이터의 경우는 KENT의 데이터 추출 기능을 결합하여 데이터 모델에 필요한 속성의 값을 추출하고 변환할 수 있습니다.

다양한 포맷을 지원하는 데이터변환 기능
Graph DB Suite의 데이터변환 기능은 그래프데이터를 생성하기 위한 절차와 방법을 제공하고 있으며, 변환 전 결과에 대한 사전 테스트와 변환 결과를 Graph DB에 직접 저장할 수 있는 기능을 제공하고 있습니다. 핵심 기능들은 대부분 플러그인 형태로 구성되어 사용자 환경에 맞게 기능을 최적화할 수 있는 있습니다.
초 대용량 그래프 데이터변환과 증강 기능
그래프데이터변환 엔진은 위키피디아, 위키데이터 등 내/외부에 존재하는 큰 데이터셋에 대한 지식변환과 지식그래프 데이터에 대한 증강 및 오류보정 등 복잡한 데이터변환 프로세스와 방법을 제공합니다.
데이터 수집, 추출, 리소스 통합 및 보정, 그래프 데이터 생성 등의 기능을 제공하고 있으며, 플러그인 방식으로 기능을 추가하거나 최적화할 수 있습니다. 또한, 변환과정을 관리하고 통제하기 위한 관리 API를 제공하고 있습니다.
데이터변환 엔진 관리 기능
변환 엔진 관리도구에는 데이터변환 규칙 편집 및 실행, 데이터 소스, 사용자 함수, SPARQL, 리소스 뷰어 등의 기능이 있으며 사용자는 해당 기능을 사용하여 변환 규칙을 쉽고 빠르게 작성할 수 있습니다. 변환 엔진의 모든 함수는 네임스페이스에 기반하고 있어 중복되는 함수이름도 네임스페이스를 통해 구분하고 사용할 수 있습니다. 관리도구의 규칙 편집기는 변수, 함수 등에 대한 자동완성을 제공하고 있으며, 사용자의 데이터 모델을 가져오기 하면 자동으로 클래스, 속성을 편집기에서 자동완성 항목에 포함시켜 사용자가 클래스/속성을 쉽게 참조하여 변환규칙을 생성하는 데 사용할 수 있습니다.

프로젝트 관리 기능

플러그인 관리 기능

사용자 함수 자동완성 기능

변환규칙 편집 기능

데이터변환 및 테스트 기능

다양한 뷰어 기능

주요 엔진 화면

< SPARQL 뷰어 >

< 데이터 변환 테스트 >

< 변환규칙 편집 >

< 데이터 변환 결과 >