데이터 품질(Data Quality) 및 중요성
데이터 품질(Data Quality)이란?
데이터 품질은 데이터 세트가 정확성, 일관성, 신뢰성, 완전성 및 적시성에 대한 확립된 표준을 충족하는 정도를 평가합니다. 높은 데이터 품질은 정보가 신뢰할 수 있고 분석, 의사결정, 보고 또는 기타 데이터 기반 활동에 적합함을 보장합니다.
데이터 품질 관리에는 오류, 불일치, 부정확성을 식별하고 수정하기 위한 지속적인 프로세스가 포함됩니다. 이는 데이터 거버넌스 프레임워크와 광범위한 데이터 관리 시스템의 핵심 요소여야 합니다.
데이터 품질 관리는 정확하고 빠르고 쉽게 반복 수행할 수 있어야 합니다.
데이터 품질의 중요성
데이터 품질은 정보에 입각한 의사결정, 신뢰할 수 있는 보고, 정확한 분석을 뒷받침하므로 필수적입니다.
잘못된 데이터는 오류, 잘못된 해석, 잘못된 결정으로 이어질 수 있으며 잠재적으로 금전적 손실과 평판 손상을 초래할 수 있습니다. 신뢰할 수 있는 데이터를 사용하면 비즈니스 인텔리전스 통찰력에 대한 확신을 갖게 되어 더 나은 전략적 선택, 향상된 운영 효율성 및 향상된 고객 경험으로 이어집니다.
데이터 품질 관리가 필요한 이유
차세대 시스템 구축, 시스템 통합, 데이터 마이그레이션, 정보계 시스템 구축, 신규 어플리케이션 시스템 구축, ERP 구축, 빅데이터 구축의 성공여부는 상당 부분이 데이터의 품질에 달려있습니다.
많은 기업에서 정보시스템을 통합하는 과정이 발생합니다. 오래되었던 시스템을 개선하기 위하여 차세대 시스템 구축하거나 기업의 인수 및 합병으로 통합시스템을 구축하거나 전사 관점의 정보계 시스템을 구축하거나 최근의 이슈인 빅데이터 시스템을 구축하기 위해서는 데이터의 통합이 필수적입니다. 이 과정에서 가장 중요한 부분이 데이터의 정확성입니다. 막대한 예산을 투입해 구축한 시스템이 ‘데이터의 품질(Data Quality)’이라는 복병을 만나면서 기대만큼 성과를 거두지 못하고 있는 것이 현실입니다.
기업의 ‘데이터품질’ 문제를 극복하기 위한 노력은 각종 프로젝트의 성공을 위한 중요한 요소입니다.
데이터 품질 관리의 과제
Incomplete or Inaccurate Data: 데이터에 값이 누락되거나, 오류가 있거나, 필요한 세부정보가 부족하여 불완전하거나 부정확한 통찰력이 발생
Data Silos: 서로 다른 시스템과 부서로 인해 데이터 포켓이 분리되어 조직 전체에서 일관성과 정확성을 보장하기 어려움
Data Integration Complexity: 다양한 소스의 데이터를 병합하면 불일치가 발생할 수 있으며 데이터를 정렬하고 정리하는 데 상당한 노력이 필요함
Changing Data Formats: 데이터 소스가 발전함에 따라 형식, 구조 및 정의가 변경되면 표준 유지에 있어 불일치와 어려움이 발생
Limited Data Governance: 감독과 거버넌스가 부족하면 역할, 책임, 의무가 불분명
Lack of Standardization: 일관되지 않은 데이터 입력 방식과 다양한 데이터 정의로 인해 데이터가 호환되지 않고 신뢰할 수 없음
Data Volume and Velocity: 특히 실시간 또는 고속 데이터 스트림에서 데이터 볼륨이 증가함에 따라 표준을 관리하고 유지하는 것이 더욱 어려움 발생
Poor Data Entry Practices: 수동 데이터 입력 오류, 중복 기록, 오래된 정보는 품질에 부정적인 영향을 미칠 수 있음
Legacy Systems: 오래된 시스템에 필요한 조치를 시행하거나 최신 데이터 품질 도구와 원활하게 통합하는 기능이 부족할 수 있음
Cultural Challenges: 핵심 관행 채택에 대한 저항과 그 중요성에 대한 인식 부족은 효과적인 품질 관리를 방해할 수 있음
Resource Constraints: 예산, 시간, 숙련된 인력이 부족하면 조직이 포괄적인 계획을 구현하는 능력이 제한될 수 있음
Continuous Monitoring: 정기적으로 품질을 모니터링하고 유지하려면 지속적인 노력이 필요하며, 품질이 저하되면 시간이 지남에 따라 품질이 저하될 수 있음
Data Migration: 데이터 마이그레이션 또는 시스템 업그레이드 중에 표준을 유지하는 것은 복잡할 수 있으며 잠재적으로 데이터 손실 또는 성능 저하로 이어질 수 있음
Complex Data Ecosystems: 다양한 데이터 소스, 데이터 파이프라인, 분석 도구가 있는 환경에서는 일관된 품질을 유지하는 것이 어려울 수 있음
QDQM이란?
QDQM : Quick Data Quality Management 입니다.
마스터 테이블을 분석하여 데이터 타입 및 포맷, 길이속성, 문자속성, 논리속성파악합니다.
검사할 테이블의 필드를 프로파일링하여 필드의 데이터 타입 및 포맷, 길이속성, 문자속성, 논리속성 및 통계분석을 수행하여 데이터값의 유효성을 검사합니다.
검사할 필드와 마스터테이블을 값에 의한 비교로 적절한 유효 필드명과 유효율을 찾습니다.
마스터 필드별로 허용범위를 설정하여 허용율을 관리합니다.
사전 정의된 룰 및 마스터테이블을 메모리에 상주시켜 빠르게 수행됩니다.
분석된 데이터를 기반으로 다양한 분석 리포트 및 분석 파일을 제공합니다.
사용자가 마스터 및 검사할 필드명을 매핑을 수행하지 않고 자동으로 수행합니다.
QDQM 프로파일링 기능
데이터 타입 분석
- 텍스트, 숫자, 날짜, 타임스탬프, 숫자문자, 날짜문자 및 포맷 분석
길이속성
- 길이 종류, 길이 평균, 길이 다빈도, 최대 길이, 최소 길이
문자속성
- 한글, 숫자, 영문, 특수문자, 유니코드, 미완성 한글, 한자 및 각 문자속성의 조합
논리속성
- Uniqueness, Null 포함 및 비율
통계분석
- 다빈도, 다빈도의비율, Min, Max, Avg, Stdev, UCL, LCL, Outlier 및 각 분위수
QDQM 사전 정의되는 룰 및 마스터 테이블
프로파일링을 통하여 필드의 속성을 분석하고 이를 기반으로 필드의 값을 기업 내부 및 외부 다양한 마스터 테이블과 비교하여 최적의 유효 필드명을 매핑하고 매핑 유효율을 제공합니다.
마스터 테이블의 종류
- 기업 내부 마스터 테이블 : 프로젝트 시 추가합니다.
- (조직코드, 계정과목코드,거래처 코드, 사업코드, 제품코드, 사원번호, 사용자ID 등)
- 외부 일반 마스터 테이블 : 기본으로 제공됩니다.
- (우편번호, 주민번호, 사업자등록번호, 법인등록번호, 단위코드, 국가코드, 국가명, 증권종목코드, 행정동코드, 법정동코드, 금융회사명, 상호명, 건물명, 시도, 시군구, 읍면동 등 50여개)
- 룰에 의한 마스터 테이블은 기본으로 제공되며 기업 특성에 따라 추가합니다.
- 유효일자, 년월, 전화번호, URL, IP주소, eMail, Flag, 주석문, 성명, 위경도 좌표 등
- 마스터 테이블 비교 시 특수문자를 제거 후 비교됩니다.
- 전화번호 : 02-456-2345, 456-2345, 456국2345, 4562345 동일번호로 인식됩니다.
- 일자 : 20240123, 2024-01-23, 2024년01월23일 동일 일자로 인식됩니다.
QDQM Process
Requirements Definition
- 품질관리 대상 테이블들을 설정합니다.
- 비즈니스 요구 사항을 기반으로 유효성 검사 규칙을 정의합니다.
Assessment and Analysis
- 검사 대상 테이블을 선정하고 테이블별 검사 범위를 정의합니다.
Define Rule
- 기업 내부의 참조될 마스터 테이블과 비즈니스 룰을 생성하여 마스터 테이블을 완성합니다.
- 외부 마스터 테이블은 기본으로 제공됩니다.
Profiling
- 데이터 탐색, 프로파일링을 통하여 데이터 타입, 포맷분석, 길이속성, 문자속성, 논리속성 및 통계분석을 분석을 수행하여 데이터 특성을 이해합니다.
Validation
- 품질관리 대상 테이블을 프로파일링 결과와 메타 테이블과 비교하여 유효율을 계산하고 가장 높은 유효 필드명이 선택되며 정의된 유효 범위와 비교하여 적절성을 판단합니다.
Reporting
- 모든 결과물을 해석하여 리포트 및 파일을 생성합니다.
Connector
- 모든 상용데이터베이스(Oracle, MySQL, PostgreSQL, MariaDB, Amazon RDS, EC2), 어플리케이션(Apach, Cloudera, SFDC), 파일시스템(Excel, CSV, Text, Drop Box) 및 REST 액세스 제공합니다.
- 새로운 커넥터를 신속하게 개발할 수 있는 기능을 통해 신규 데이터에 액세스할 수 있습니다.
Extractor
- Connector로 연결된 시스템에서 검사 대상 테이블을 스케쥴러에 의해 추출 및 저장합니다.
Master Builder
- 검사의 기준이 되는 마스터 테이블을 포맷분석, 길이정보 및 문자속성을 파악하여 기준테이블을 생성합니다.
- 외부의 마스터 테이블은 기본으로 제공합니다. (사업자등록번호, 우편번호, 국가코드 등)
- 마스터 테이블이 없는 경우 Rule 분석 필드를 생성합니다. (eMail, URL, IP Address, 일자 등)
Profiler
- 데이터 탐색, 프로파일링을 통하여 데이터 타입, 포맷분석, 길이속성, 문자속성, 논리속성 및 통계분석을 분석을 수행합니다.
- 검사할 각 필드의 값을 마스터 데이터와 비교하여 유효필드명을 제공합니다. 각 마스터 필드별 매칭 허용율을 관리하여 매칭의 유효율을 제공합니다.
Report Builder
- 모든 결과물을 해석하여 리포트 및 파일을 생성합니다.
QDQM의 특징
QDQM은 엄청 빠르게 수행됩니다.
- 다양한 소스 데이터에서 추출합니다.
- 모든 마스터 테이블을 메모리에 상주하여 비교합니다.
- 검사 테이블의 데이터를 랜덤으로 샘플링하여 수행합니다.
QDQM은 매우 정확한 판단을 내립니다.
- 마스터 테이블과 직접 비교하기 때문에 정확합니다.
- 마스터 테이블별로의 우선순위, 가중치 및 허용값을 정의하여 판단합니다.
- 유효 필드명이 복수개가 나타날 경우 후보 유효 필드명도 제공됩니다.
- 마스터 테이블에서 우선순위, 가중치 및 허용값을 조정하여 반영합니다.
QDQM은 구축 기간이 무지하게 단축됩니다.
- QDQM의 Process 중 많은 부분이 사전에 정의되어 제공됩니다.
- 사용자의 전문기술 수준을 요구하지 않습니다.
- 모든 필드를 자동으로 매칭시키므로 사용자 정의가 필요하지 않습니다.
- 기업에서 무지하게 많은 테이블 및 필드를 어떻게 수작업으로 매핑 시킵니까?
다양한 소스 데이터 추출
다양한 소스데이터를 추출하기 위한 컨넥터를 제공합니다.
In-Memory Processing
- 다양한 마스터 테이블을 메모리에 상주
- 검사 테이블을 메모리에 적재 후 비교 분석
- Profiling 및 유효필드 검색 활용
기본 마스터 테이블 제공
- 외부의 다양한 마스터 테이블을 사전에 제공합니다.
- 기업 내부 마스터 테이블을 쉽게 추가합니다.
- 룰에 의한 마스터 테이블을 제공하며 기업 특성에 따라 추가합니다.
- 마스터 테이블 비교 시 특수문자, 유니코드 등을 제거 후 비교됩니다.
데이터 품질관리에 대하여
https://qliksense.tistory.com/category/QDQM
010-3716-2863
https://qliksense.tistory.com/196
데이터 품질관리 구축사례
QDQM이란? QDQM : Quick Data Quality Management 입니다. 마스터 테이블을 분석하여 데이터 타입 및 포맷, 길이속성, 문자속성, 논리속성을 파악합니다. 검사할 테이블의 필드를 프로파일링하여 필드의 데
qliksense.tistory.com
'QDQM' 카테고리의 다른 글
데이터 품질관리 구축사례 - 병원 (0) | 2024.03.07 |
---|---|
데이터 품질관리 구축사례 (0) | 2024.02.27 |