QDQM

데이터 품질관리 구축사례 - 병원

Qliker 2024. 3. 7. 11:08

병원 데이터를 분석하는데 많은 어려움이 있습니다. 병원의 데이터는 모두 사람이 입력하는 데이터 입니다. 그러다보니 많은 입력의 에러가 발생합니다. 특히 유니코드값이 들어있는 경우가 있어서 데이터베이스에 통합하는데 많은 어려움을 겪습니다. 전국의 수많은 병원의 데이터를 통합하는 건강보험심사평가원에서는 상당한 시간을 데이터 정제에 투입하고 있을 것입니다. 

요즈음  수많은 데이터버에스가 신규로 출시되고 오라클에서 벗어나고자 하는 기업이 많습니다. 

이 경우 데이터베이스 마이그레이션을 수행해야 하는데 현장에서 데이터의 오류로 많은 어려움을 겪고 있습니다. 

이에 QDQM 솔루션을 적용하였을 경우 어느 필드의 값이 오류인지 사전에 쉽게 찾아서 데이터 정제의 시간을 단축 시킬 수 있습니다. 

 

QDQM이란 

QDQM : Quick Data Quality Management 입니다.
마스터 테이블을 분석하여 데이터 타입 및 포맷, 길이속성, 문자속성, 논리속성파악합니다.
검사할 테이블의 필드를 프로파일링하여 필드의 데이터 타입 및 포맷, 길이속성, 문자속성, 논리속성 및 통계분석을 수행하여 데이터값의 유효성을 검사합니다.
검사할 필드와 마스터테이블을 값에 의한 비교로 적절한 유효 필드명과 유효율찾습니다.
마스터 필드별로 허용범위를 설정하여 허용율을 관리합니다.
사전 정의된 룰 및 마스터테이블을 메모리에 상주시켜 빠르게 수행됩니다.
분석된 데이터를 기반으로 다양한 분석 리포트 및 분석 파일을 제공합니다.
사용자가 마스터 및 검사할 필드명을 매핑을 수행하지 않고 자동으로 수행합니다.

QDQM의 특징은

QDQM엄청 빠르게 수행됩니다.
ü다양한 소스 데이터에서 추출합니다.
ü모든 마스터 테이블을 메모리에 상주하여 비교합니다.
ü검사 테이블의 데이터를 랜덤으로 샘플링하여 수행합니다.
QDQM매우 정확한 판단을 내립니다.
ü마스터 테이블과 직접 비교하기 때문에 정확합니다.
ü마스터 테이블별로의 우선순위, 가중치 및 허용값을 정의하여 판단합니다.
ü유효 필드명이 복수개가 나타날 경우 후보 유효 필드명도 제공됩니다.
ü마스터  테이블에서 우선순위, 가중치 및 허용값을 조정하여 반영합니다.
QDQM은 구축 기간이 무지하게 단축됩니다.
üQDQMProcess 중 많은 부분이 사전에 정의되어 제공됩니다.
ü사용자의 전문기술 수준을 요구하지 않습니다.
ü모든 필드를 자동으로 매칭시키므로 사용자 정의가 필요하지 않습니다.
ü기업에서 무지하게 많은 테이블 및 필드를 어떻게 수작업으로 매핑 시킵니까?
 
 
소스 데이터 
 

본 예제는 병원 데이터를 기반으로 수행한 결과 입니다. 

사용된 데이터는 테스트용으로 작성하였으며 첨부 파일을 참조하세요. 

 

각 필드의 이름은 Field01 부터 시작하여 연번이 부여되었습니다. 각 필드의 값은 내용을 보면 파악할 수 있을 것입니다.
배경색이 노란색은 고의로 틀린 데이터를 지정하였습니다.
 

 

검사 테이블 정보입니다. 

테이블별로 필드 수, 파일사이즈, 레코드, 유니크 필드, Null 100%, 차원 후보, 측정값, 특수문자(유니코드, 미완성 한글, 한자), 한글, 영문, 숫자, 스페이스 등이 포함된 필드 수 정보를 제공합니다.

 

검사 필드 정보입니다. 

테이블을 선택 후 유니크 필드, Null 100%, 차원 후보, 측정값, 특수문자(유니코드, 미완성 한글, 한자), 한글, 영문, 숫자, 스페이스 등이 포함된 필드명들을 제공하며 해당 분석 항목을 선택하면 상세 리포트로 이동하여 분석합니다. 

 

길이 속성 정보입니다. 

필드값의 길이 속성을 분석합니다. 길이의 종류, 최소, 최대, 평균, 다빈도 길이 및 비율정보, 유니크 수 및 비율, Null 필드 및 비율을 분석합니다.

 

문자 속성 정보입니다. 

검사 필드값의 문자 속성을 분석합니다. 메인 포맷 및 영문, 숫자, 한글, 특수문자 및 유니코드 포함 필드 수 및 분포율을 계산하여 분석합니다.

 

포맷 속성 정보 입니다. 

필드값의 포맷을 분석합니다. 영문 대소문자, 숫자, 한글, 특수문자 및 유니코드로 포맷 구성도를 작성하며 포맷별 필드 수 및 분포율을 계산하여 분석합니다.

마스터 필드와 검사할 필드 매핑 정보입니다. 

검사할 필드값의 속성을 분석하여 마스터 테이블과 비교하여 적절한 마스터 필드명을 제시하며 검사 필드값의 유효성을 제공합니다. 유효율은 마스터 필드별로 단계별 범위를 관리하며 고유의 색상으로 허용 결론을 내려서 시각화 합니다.
이 과정을 자동으로 수행합니다. 타 솔루션은 마스터필드와 검사할 필드를 사용자가 모두 매핑시켜야 합니다. 

숫자로 구성된 필드 즉 측정값의 후보가 될 수 있는 필드의 값에 대한 통계 분석을 수행합니다. 값이 있는 필드, 널포함여부, Zero 필드, Min, Max, Avg, Median, 각 분위수, StDev, LCL, UCL LCL 이하의 값을 갖는 필드 수, UCL 이상의 값을 갖는 필드 수 등에 대한 통계 분석을 수행합니다.

 
특수문자, 유니코드 미완성한글 및 한자가 포함된 필드 정보를 분석합니다. 
검사 필드값을 분석하여 미완성 한글(,,), 특수문자(!@#$), 유니코드() 및 한자가 포함된 필드 수 및 포함된 문자 리스트를 분석합니다.
거래처명, 사업자명, 주소 등에 의도하지 않은 문자가 포함된 정보를 제공합니다.

 

 

자세한 내용은 첨부파일을 참조하세요. 

QDQM 구축사례-병원.pdf
0.80MB
테스트병원_예제.xlsx
1.24MB

 

 

데이터 품질관리의 자세한 기능

데이터 품질관리 기능 및 구축사례에 대한 자세한 기능은 다음을 참조하세요.

https://qliksense.tistory.com/195

 

데이터 품질관리 솔루션 (QDQM)

데이터 품질(Data Quality) 및 중요성 데이터 품질(Data Quality)이란? 데이터 품질은 데이터 세트가 정확성, 일관성, 신뢰성, 완전성 및 적시성에 대한 확립된 표준을 충족하는 정도를 평가합니다. 높은

qliksense.tistory.com