[1강] OMOP CDM

1학년 2학기/임상데이터 분석 및 활용

[1강] OMOP CDM

seungyeonworld 2025. 3. 17. 23:38

What is OMOP/OHDSI?

[1. OMOP란 무엇인가?]

1. OMOP(Observational Medical Outcomes Partnership)의 정의

OMOP(Observational Medical Outcomes Partnership)는 실세계(real-world) 의료 데이터를 활용하여 의약품 및 치료법의 안전성과 효과를 평가하는 연구 프레임워크
다양한 의료 데이터베이스를 통합하고 표준화하여, 관찰 연구를 통해 의료 제품의 안전성과 효과성을 분석하는 시스템

2. OMOP의 탄생 배경

의약품 안전성 문제: 신약이 시장에 출시된 후, 예상치 못한 부작용이 발견되는 사례가 많았음.
FDAAA(미국 식품의약국 개정법) 요구: 2007년 FDAAA(Food and Drug Administration Amendments Act)에 의해, FDA는 새로운 약물 감시 체계를 구축해야 했음.
Sentinel Initiative: FDA는 이러한 감시 시스템을 위해 Sentinel Initiative를 추진하였으며, OMOP는 그중 하나의 프로젝트로 시작됨.
관찰 연구의 중요성 증가: 임상시험 데이터만으로는 충분한 근거를 제공하기 어려운 경우가 많아, 실제 임상 환경에서 생성되는 데이터를 활용하는 연구 방식이 필요했음.
이질적인 데이터 문제 해결: 다양한 기관에서 수집된 의료 데이터를 표준화하고 분석할 수 있는 방법론이 필요했음.

3. OMOP의 주요 목표

관찰 연구의 신뢰성 향상:
- 다양한 데이터베이스에서 얻어진 결과가 일관적인지를 검증.
- 데이터의 이질성을 고려하여 신뢰도 높은 분석 방법을 개발.
의약품 안전성 평가:
- 기존의 부작용 보고 시스템과 비교하여, 실세계 데이터(real-world data) 기반의 새로운 감시 시스템을 구축.
표준화된 연구 프레임워크 개발:
- 다양한 의료 데이터베이스를 비교하고 분석할 수 있도록, OMOP Common Data Model (CDM)을 개발하여 표준화.

4. OMOP에서 OHDSI로의 발전

OMOP 프로젝트가 종료된 후, 연구자들은 이를 확장하여 OHDSI(Observational Health Data Sciences and Informatics) 프로그램을 출범.
OHDSI는 OMOP에서 개발된 Common Data Model (CDM)을 활용하여 더 광범위한 의료 연구를 수행하는 개방형 협력 네트워크로 발전함.
현재 OHDSI는 21개국 이상, 114개 이상의 의료 데이터베이스를 통해 다양한 질병 및 치료법 연구를 수행하고 있음.

5. OHDSI의 연구 초점 (Areas of Focus)

데이터 표준화(Data Standardization): 다양한 출처의 의료 데이터를 일관되게 변환하여 연구 활용 가능하게 함
(다양한 기관의 다양한 형태의 의료 데이터의 표준화)
의료 제품 안전 감시(Medical product safety surveillance): 의약품 및 의료기기의 안전성을 모니터링.
비교 효과 연구(Comparative effectiveness research): 서로 다른 치료법이나 개입의 효과를 비교하여 최적의 치료 전략을 찾음.
개인 맞춤형 위험 예측(Personalized risk prediction): 개별 환자의 건강 데이터를 기반으로 질병 위험을 예측.
데이터 특성화(Data characterization): 데이터의 특성과 품질을 분석하여 연구에 활용.
품질 향상(Quality improvement): 의료 서비스 및 치료의 질을 개선하기 위한 연구 진행.

6. 결론

OMOP는 FDA의 Sentinel Initiative에서 출발하여, 의약품 및 치료법의 안전성을 평가하기 위한 연구 프레임워크로 개발되었으며, 데이터 표준화 및 분석 방법 개선을 통해 의료 연구의 신뢰도를 높이는 데 기여
이후 OMOP는 OHDSI로 발전하여 국제적인 연구 네트워크로 확장되었고, 현재도 실세계 의료 데이터 분석의 핵심적인 역할을 수행

[2. CDM(Common Data Model)란?] -> 다양한 의료 데이터를 표준화된 구조로 변환하여 연구에 활용할 수 있도록 하는 프레임워크

1. CDM의 필요성

의료 데이터는 병원, 연구 기관, 국가별 보건 시스템 등에서 다양한 형식과 구조로 저장
이러한 이질적인 데이터는 직접 비교하거나 분석하기 어렵기 때문에, 공통된 형식으로 변환하는 과정이 필요
PPT에서는 다양한 형태의 전원 콘센트를 예시로 들어
>> 국가마다 전기 플러그가 다르듯이,
>> 의료 데이터도 다양한 형식으로 존재하여 직접적으로 호환되지 않음을 강조

2. CDM의 구조

(1) 기존 데이터 처리 방식의 문제점

연구마다 다른 분석 코드(SAS, R Script)를 작성해야 함 : 비효율적
확장성 부족 (Not Scalable) : 같은 분석을 수행하더라도, 병원마다 데이터 구조가 다르므로 매번 새로운 코드로 변환
비전문가가 사용하기 어려움 (Prohibitive to non-expert routine use)
비용이 많이 들고 (Expensive), 투명성이 부족 (Not Transparent)

(2) CDM 방식 (표준화된 데이터)

CDM을 적용하면,

각 기관에서 사용하는 의료 데이터를 CDM 형식으로 변환
변환된 데이터를 공통 분석 방법을 통해 연구 가능
연구자들은 "One Study – One Script" (하나의 연구, 하나의 코드) 원칙을 적용하여 데이터의 출처와 관계없이 동일한 방식으로 분석 가능

3. CDM의 작동 방식

병원, 연구 기관마다 다른 데이터 구조를 CDM으로 변환
- 병원 1, 병원 2, 연구소의 데이터가 모두 CDM 구조로 변환됨.
CDM을 기반으로 공통 분석 기법을 적용
- 동일한 분석 방법(Analytic Methods)을 사용하여 각 데이터에 일관된 연구 수행.
결과를 집계(Aggregated Results)하여 해석 가능
- 개별 데이터셋이 아니라 전체 네트워크에서 일관된 결과를 도출.

4. CDM의 활용 사례

약물 순응도(Adherence) 분석
사망률(Mortality) 연구
비즈니스 정보 분석(Source of Business)
약물 안전성 감시(Safety Signals)

->OHDSI에서 개발한 도구(OHDSI Tools)를 활용하여,CDM을 기반으로 위와 같은 연구를 수행

5. CDM의 장점

데이터 간 일관성 확보 : 국가, 병원, 기관에 상관없이 동일한 데이터 구조로 변환
재사용 가능 : 한 번 변환된 데이터는 다양한 연구에서 재사용 가능
비용 절감 및 효율성 향상 : 연구마다 새로운 데이터 변환 과정을 거치지 않아도 됨
다국적 협력 연구 가능 : 전 세계 연구자들이 동일한 데이터 모델을 사용하여 협업 가능

6. 결론

CDM(Common Data Model)은 다양한 의료 데이터를 표준화하여 연구 효율성을 높이고, 보다 신뢰성 있는 분석을 수행할 수 있도록 돕는 핵심 인프라
OHDSI는 이를 통해 국제적인 의료 데이터 연구를 지원하고 있으며, "One Study – One Script"의 개념을 통해 데이터 소스에 관계없이 동일한 분석을 수행할 수 있는 환경을 조성

[3. OMOP CDM V6 주요 내용 정리]

-> 의료 데이터를 표준화하여 연구자들이 여러 병원의 데이터를 일관된 방식으로 분석할 수 있도록 설계된 데이터 모델

1. Standardized Clinical Data (표준화된 임상 데이터)

환자(Person), 방문(Visit), 질병(Condition), 약물 사용(Drug Exposure) 등과 같은 핵심 의료 데이터를 포함.
병원이나 연구기관에서 수집되는 원본 의료 데이터를 CDM 형식으로 변환하여 저장.

2. Standardized Health System Data (표준화된 건강 시스템 데이터)

위치(Location), 의료 기관(Care Site), 의료 제공자(Provider) 정보 등을 포함.
병원 및 의료 서비스 제공자의 정보가 포함되며, 의료 시스템 내에서 데이터를 조직화하는 역할을 함.

3. Standardized Derived Elements (표준화된 파생 요소)

Condition era, Drug era와 같이 여러 개의 개별 기록을 묶어 하나의 의미 있는 시퀀스로 변환.
예를 들어, 같은 질병이 여러 번 진단되었을 경우 이를 하나의 "Condition era"로 묶어 분석 가능.

4. Standardized Health Economics (표준화된 건강 경제 데이터)

진료비용(Cost), 보험 정보(Payer plan period) 등 의료 비용 관련 데이터를 포함.
건강 경제 및 비용 분석 연구를 가능하게 함.

5. Standardized Metadata (표준화된 메타데이터)

CDM 데이터의 출처(CDM_source), 데이터에 대한 추가 정보(Metadata)를 관리.
연구자가 데이터의 출처와 구조를 쉽게 이해할 수 있도록 지원.

6. Standardized Vocabularies (표준화된 용어)

의료 개념(Concept), 도메인(Domain), 관계(Concept Relationship) 등을 관리하는 부분.
다양한 의료 기관 및 국가에서 사용하는 서로 다른 용어 체계를 표준화하여 동일한 의미로 변환.

7. Results Schema (결과 스키마)

연구 결과를 저장하는 구조로, 코호트(Cohort), 코호트 정의(Cohort definition) 등이 포함됨.
연구자가 특정한 환자 그룹을 정의하고, 해당 그룹에 대한 분석 결과를 체계적으로 관리할 수 있도록 함.

★ 3. Standardized Derived Elements (표준화된 파생 요소) 보충설명===================================

[4. OHDSI - Data to Evidence & Open Science]

-> 의료 데이터를 어떻게 활용하여 신뢰할 수 있는 근거(evidence)를 도출하는지
->개방형 과학(Open Science)과 FHIR(Health Data Interoperability) 가이드라인 설명

1. Data to Evidence (데이터에서 근거로)

- 의료 데이터를 수집하고 이를 분석하여 신뢰할 수 있는 근거를 도출하는 과정을 설명

- 다양한 유형의 관찰 데이터 : 의료 데이터는 다양한 방식으로 수집될 수 있으며, 그 특성에 따라 연구의 활용도가 달라짐

- 연구의 신뢰도를 높이기 위해서는 데이터의 출처와 특성을 이해하는 것이 중요함.

(1) 다양한 유형의 관찰 데이터

Populations (환자 그룹)
- 소아 vs 노인 (Pediatric vs. elderly)
- 사회경제적 격차 (Socioeconomic disparities)
Care setting (진료 환경)
- 입원 환자 vs 외래 환자 (Inpatient vs. outpatient)
- 1차 진료 vs 2차 진료 (Primary vs. secondary care)
Data capture process (데이터 수집 방법)
- 건강보험 청구 데이터 (Administrative claims)
- 전자의무기록 (Electronic health records)
- 임상 레지스트리 (Clinical registries)
Health system (건강보험 체계)
- 보험 가입자 vs 비가입자 (Insured vs. uninsured)
- 국가별 정책 (Country policies)

-> 이러한 개별 환자 수준의 데이터를연구 목적에 맞게 변환하여 신뢰할 수 있는 근거로 활용할 수 있음

(2) 의료데이터 활용 연구분야 (Types of evidence desired)

임상적 특성 연구 (Clinical Characterization)
- 임상시험 가능성 평가 (Clinical Trial Feasibility)
- 치료 이용 패턴 분석 (Treatment Utilization)
- 질병 자연 경과 연구 (Disease Natural History)
- 의료 서비스 품질 향상 연구 (Quality Improvement)
집단 수준 효과 분석 (Population-Level Effect Estimation)
- 의약품 안전성 감시 (Safety Surveillance)
- 비교 효과 연구 (Comparative Effectiveness)
환자 수준 예측 연구 (Patient-Level Prediction)
- 정밀 의학 (Precision Medicine)
- 질병 예방 및 조기 진단 (Disease Interception)

-> 이러한 데이터 분석 과정을 통해 연구자들은 의료서비스 개선과 치료법 평가에 도움을 주는 신뢰할 수 있는 근거를 생성

2. 의료 데이터의 개방성과 상호운용성(Open Science & Interoperability)의 중요성

- 의료데이터 연구가 효과적으로 이루어지기 위해서는 데이터 공유 및 협력이 필수적임

- OHDISI는 개방형 과학과 데이터 표준화를 적극적으로 활용해야함

(1) 개방형 과학의 원칙 : 연구자들은 데이터를 쉽게 공유하고 재사용 할 수 있으며, 연구결과의 신뢰성을 높일 수 있음

Open Standards (개방형 표준) : 데이터의 일관성을 유지할 수 있도록 표준화
Open Source (오픈 소스) : 연구 도구와 코드가 모두 공개되어 누구나 활용 가능
Open Data (오픈 데이터) : 연구 데이터를 공유하여 협업 연구 가능
Open Discourse (오픈 토론) : 연구자 간 활발한 논의와 협력을 장려

(2) FHIR 기반 의료 데이터 상호운용성(Interoperability)

* FHIR(Fast Healthcare Interoperability Resources) : 의료데이터가 서로 다른 기관이나 시스템에서도 동일한 방식으로 사용될 수 있도록 하는 국제표준 -> 전세계 의료연구자들이 동일한 형식의 데이터를 활용하여 연구협력을 강화

Findability (검색 가능성) : 데이터가 쉽게 검색되고 활용될 수 있도록 설계
Accessibility (접근 가능성) : 연구자가 데이터를 쉽게 접근할 수 있도록 개방된 환경 제공
Interoperability (상호운용성) : 기관 간 데이터 공유 및 협업 가능
Reusability (재사용성) : 한 번 정리된 데이터를 여러 연구에서 반복 활용 가능

★요약 : OHDSI는 의료 데이터를 효과적으로 활용하여 과학적 근거를 창출하고, 개방형 연구 문화를 확산시키며, 의료 데이터의 글로벌 협력을 강화하는 역할을 함

[5. OMOP Vocabulary ]

1. OMOP Vocabulary

OMOP CDM에서는 다양한 출처에서 수집된 의료 데이터를 일관된 분석이 가능하도록 표준화된 용어(Vocabulary)를 사용
다양한 기관에서 사용하는 서로 다른 의료 용어들을 통합하여 하나의 공통된 체계로 변환하는 역할
공공 및 민간 의료용어들을 통합하여 표준화된 개념을 제공
SNOMED, RxNorm, ICD, LOINC 등의 글로벌 의료 용어 체계를 기반으로 함
연구자가 동일한 개념을 사용할 수 있도록 매핑을 제공하여, 데이터의 일관성을 유지
(기관별로 다른 용어를 사용하더라도 OMOP Vocabulary를 이용해 동일한 의미의 개념으로 통일)

2. OMOP Vocabulary 의 주요 원칙

표준화된 구조 (Standardized structure): 여러기관에서 사용하는 의료 데이터를 OMOP CDM에 맞게 표준화된 형식으로 변환
고유한 표준 개념 (Unique Standard Concepts): 동일한 개념을 여러 용어 체계에서 다르게 표현하더라도, 이를 하나의 표준 개념(Standard Concept)으로 매핑
도메인 할당 (Domain Assignment): 모든 개념은 특정 도메인(예: 질병, 약물, 검사 등)에 할당됨
포괄적인 데이터 적용 (Comprehensive coverage): 환자의 전체 의료 경험을 포함하여 다양한 데이터 유형을 통합
계층적 구조 (Hierarchy & Relationships): 개념 간의 관계를 정의하여 유사 개념을 그룹화하고 분석을 용이하게 함

-> 연구자들이 일관된 방식으로 데이터를 분석하고 비교연구를 수행할 수 있음

[6. 개념(Concept)과 개념 테이블 구조 ]

1. 개념(Concept)이란?

OMOP CDM에서는 모든 의료 데이터가 개념(Concept)이라는 단위로 정의
각 개념은 Concept ID를 가지며, 표준화된 명칭과 코드를 포함
ex) 심방세동(Atrial Fibrillation)의 다양한 코드 체계

2. 개념(Concept) 테이블

CDM에서 개념을 저장하는 주요 테이블로, 모든 개념은 Concept Table에서 관리
이 테이블을 통해 질병, 약물, 검사, 의료절차 등의 데이터를 구조화하여 표준화된 방식으로 저장
연구자는 Concept Table을 활용하여 특정 질병, 약물, 검사등의 데이터를 표준코드에 맞춰 변환하고 분석할 수 있음
개념테이블의 주요 칼럼

3. 개념을 찾는 방법

1. Concept ID로 찾기

- SELECT * FROM concept WHERE concept_id = 313217;
- Concept ID가 313217인 데이터를 찾음
2. Concept Code로 찾기

- SELECT * FROM concept WHERE concept_code = '49436004';
- SNOMED에서 제공하는 49436004 코드가 있는 데이터를 찾음
3. Concept Name으로 찾기

- SELECT * FROM concept WHERE concept_name = 'Atrial fibrillation';
- Atrial fibrillation 이라는 개념을 포함하는 데이터를 찾음
4. 다른 코드 체계에서 매핑된 개념 찾기

- SELECT * FROM concept_relationship WHERE concept_id_1 = 44821957;
- ICD-9코드 44821957이 다른 코드체계와 어떻게 연결되어 있는지 확인

4. 요약

OMOP CDM에서는 의료 데이터를 표준화하기 위해 "개념(Concept)"이라는 체계를 사용
OMOP Vocabulary는 다양한 용어 체계를 통합하여 연구자가 일관된 방식으로 데이터를 분석할 수 있도록 지원
연구자는 Concept Table을 활용하여 원하는 개념을 찾고, 표준 개념을 기반으로 데이터를 정리하여 분석 가능
SQL 쿼리를 활용하여 특정 개념을 검색하고, 표준 개념과 매핑된 정보를 활용할 수 있음

현재글[1강] OMOP CDM

seungyeonworld 님의 블로그

seungyeonworld 님의 블로그 입니다.

확률과통계, r사용법, 통계학, 확률변수, 초기하분포 기대값, 초기하분포 분산, 머신러닝, 다변량초기하분포, 통계, 기초통계, 이산형균일분포, 이항분포, 이화여자대학원, 이석민, 유니와이즈, 확률, 데이터사이언스, 확률변수 공식, 주변밀도함수, 결합형확률변수,

Today :
Yesterday :

seungyeonworld 님의 블로그

[1강] OMOP CDM

What is OMOP/OHDSI?

[1. OMOP란 무엇인가?]

[2. CDM(Common Data Model)란?] -> 다양한 의료 데이터를 표준화된 구조로 변환하여 연구에 활용할 수 있도록 하는 프레임워크

[3. OMOP CDM V6 주요 내용 정리]

[4. OHDSI - Data to Evidence & Open Science]

[5. OMOP Vocabulary ]

[6. 개념(Concept)과 개념 테이블 구조 ]

'1학년 2학기/임상데이터 분석 및 활용'의 다른글

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31