1학년 2학기/임상데이터 분석 및 활용

[1강] OMOP CDM

seungyeonworld 2025. 3. 17. 23:38

What is OMOP/OHDSI?

 

[1. OMOP란 무엇인가?]

 

1. OMOP(Observational Medical Outcomes Partnership)의 정의 

 

  • OMOP(Observational Medical Outcomes Partnership)는 실세계(real-world) 의료 데이터를 활용하여 의약품 및 치료법의 안전성과 효과를 평가하는 연구 프레임워크
  • 다양한 의료 데이터베이스를 통합하고 표준화하여, 관찰 연구를 통해 의료 제품의 안전성과 효과성을 분석하는 시스템

 

2. OMOP의 탄생 배경

  • 의약품 안전성 문제: 신약이 시장에 출시된 후, 예상치 못한 부작용이 발견되는 사례가 많았음.
  • FDAAA(미국 식품의약국 개정법) 요구: 2007년 FDAAA(Food and Drug Administration Amendments Act)에 의해, FDA는 새로운 약물 감시 체계를 구축해야 했음.
  • Sentinel Initiative: FDA는 이러한 감시 시스템을 위해 Sentinel Initiative를 추진하였으며, OMOP는 그중 하나의 프로젝트로 시작됨.
  • 관찰 연구의 중요성 증가: 임상시험 데이터만으로는 충분한 근거를 제공하기 어려운 경우가 많아, 실제 임상 환경에서 생성되는 데이터를 활용하는 연구 방식이 필요했음.
  • 이질적인 데이터 문제 해결: 다양한 기관에서 수집된 의료 데이터를 표준화하고 분석할 수 있는 방법론이 필요했음.

3. OMOP의 주요 목표

  1. 관찰 연구의 신뢰성 향상:
    • 다양한 데이터베이스에서 얻어진 결과가 일관적인지를 검증.
    • 데이터의 이질성을 고려하여 신뢰도 높은 분석 방법을 개발.
  2. 의약품 안전성 평가:
    • 기존의 부작용 보고 시스템과 비교하여, 실세계 데이터(real-world data) 기반의 새로운 감시 시스템을 구축.
  3. 표준화된 연구 프레임워크 개발:
    • 다양한 의료 데이터베이스를 비교하고 분석할 수 있도록, OMOP Common Data Model (CDM)을 개발하여 표준화.

4. OMOP에서 OHDSI로의 발전

  • OMOP 프로젝트가 종료된 후, 연구자들은 이를 확장하여 OHDSI(Observational Health Data Sciences and Informatics) 프로그램을 출범.
  • OHDSI는 OMOP에서 개발된 Common Data Model (CDM)을 활용하여 더 광범위한 의료 연구를 수행하는 개방형 협력 네트워크로 발전함.
  • 현재 OHDSI는 21개국 이상, 114개 이상의 의료 데이터베이스를 통해 다양한 질병 및 치료법 연구를 수행하고 있음.

5. OHDSI의 연구 초점 (Areas of Focus)

  • 데이터 표준화(Data Standardization): 다양한 출처의 의료 데이터를 일관되게 변환하여 연구 활용 가능하게 함
    (다양한 기관의 다양한 형태의 의료 데이터의 표준화)
  • 의료 제품 안전 감시(Medical product safety surveillance): 의약품 및 의료기기의 안전성을 모니터링.
  • 비교 효과 연구(Comparative effectiveness research): 서로 다른 치료법이나 개입의 효과를 비교하여 최적의 치료 전략을 찾음.
  • 개인 맞춤형 위험 예측(Personalized risk prediction): 개별 환자의 건강 데이터를 기반으로 질병 위험을 예측.
  • 데이터 특성화(Data characterization): 데이터의 특성과 품질을 분석하여 연구에 활용.
  • 품질 향상(Quality improvement): 의료 서비스 및 치료의 질을 개선하기 위한 연구 진행.

6. 결론

  • OMOP는 FDA의 Sentinel Initiative에서 출발하여, 의약품 및 치료법의 안전성을 평가하기 위한 연구 프레임워크로 개발되었으며, 데이터 표준화 및 분석 방법 개선을 통해 의료 연구의 신뢰도를 높이는 데 기여
  •  이후 OMOP는 OHDSI로 발전하여 국제적인 연구 네트워크로 확장되었고, 현재도 실세계 의료 데이터 분석의 핵심적인 역할을 수행

 

 

[2. CDM(Common Data Model)란?]  -> 다양한 의료 데이터를 표준화된 구조로 변환하여 연구에 활용할 수 있도록 하는 프레임워크

 

1. CDM의 필요성

 

  • 의료 데이터는 병원, 연구 기관, 국가별 보건 시스템 등에서 다양한 형식과 구조로 저장
  • 이러한 이질적인 데이터는 직접 비교하거나 분석하기 어렵기 때문에, 공통된 형식으로 변환하는 과정이 필요
  • PPT에서는 다양한 형태의 전원 콘센트를 예시로 들어
    >> 국가마다 전기 플러그가 다르듯이,

     >> 의료 데이터도 다양한 형식으로 존재하여 직접적으로 호환되지 않음을 강조

2. CDM의 구조

 

(1) 기존 데이터 처리 방식의 문제점

  • 연구마다 다른 분석 코드(SAS, R Script)를 작성해야 함 : 비효율적
  • 확장성 부족 (Not Scalable) : 같은 분석을 수행하더라도, 병원마다 데이터 구조가 다르므로 매번 새로운 코드로 변환
  • 비전문가가 사용하기 어려움 (Prohibitive to non-expert routine use)
  • 비용이 많이 들고 (Expensive), 투명성이 부족 (Not Transparent)

(2) CDM 방식 (표준화된 데이터)

 

CDM을 적용하면,

  • 각 기관에서 사용하는 의료 데이터를 CDM 형식으로 변환
  • 변환된 데이터를 공통 분석 방법을 통해 연구 가능
  • 연구자들은 "One Study – One Script" (하나의 연구, 하나의 코드) 원칙을 적용하여 데이터의 출처와 관계없이 동일한 방식으로 분석 가능

 

3. CDM의 작동 방식

  1. 병원, 연구 기관마다 다른 데이터 구조를 CDM으로 변환
    • 병원 1, 병원 2, 연구소의 데이터가 모두 CDM 구조로 변환됨.
  2. CDM을 기반으로 공통 분석 기법을 적용
    • 동일한 분석 방법(Analytic Methods)을 사용하여 각 데이터에 일관된 연구 수행.
  3. 결과를 집계(Aggregated Results)하여 해석 가능
    • 개별 데이터셋이 아니라 전체 네트워크에서 일관된 결과를 도출.

 

4. CDM의 활용 사례

  • 약물 순응도(Adherence) 분석
  • 사망률(Mortality) 연구
  • 비즈니스 정보 분석(Source of Business)
  • 약물 안전성 감시(Safety Signals)

->OHDSI에서 개발한 도구(OHDSI Tools)를 활용하여,CDM을 기반으로 위와 같은 연구를 수행

 

5. CDM의 장점

 

  • 데이터 간 일관성 확보 : 국가, 병원, 기관에 상관없이 동일한 데이터 구조로 변환
  • 재사용 가능 : 한 번 변환된 데이터는 다양한 연구에서 재사용 가능
  • 비용 절감 및 효율성 향상 : 연구마다 새로운 데이터 변환 과정을 거치지 않아도 됨
  • 다국적 협력 연구 가능 : 전 세계 연구자들이 동일한 데이터 모델을 사용하여 협업 가능

 

6. 결론

 

  • CDM(Common Data Model)은 다양한 의료 데이터를 표준화하여 연구 효율성을 높이고, 보다 신뢰성 있는 분석을 수행할 수 있도록 돕는 핵심 인프라
  • OHDSI는 이를 통해 국제적인 의료 데이터 연구를 지원하고 있으며, "One Study – One Script"의 개념을 통해 데이터 소스에 관계없이 동일한 분석을 수행할 수 있는 환경을 조성

 

[3. OMOP CDM V6 주요 내용 정리]

-> 의료 데이터를 표준화하여 연구자들이 여러 병원의 데이터를 일관된 방식으로 분석할 수 있도록 설계된 데이터 모델

 

1. Standardized Clinical Data (표준화된 임상 데이터)

  • 환자(Person), 방문(Visit), 질병(Condition), 약물 사용(Drug Exposure) 등과 같은 핵심 의료 데이터를 포함.
  • 병원이나 연구기관에서 수집되는 원본 의료 데이터를 CDM 형식으로 변환하여 저장.

2. Standardized Health System Data (표준화된 건강 시스템 데이터)

  • 위치(Location), 의료 기관(Care Site), 의료 제공자(Provider) 정보 등을 포함.
  • 병원 및 의료 서비스 제공자의 정보가 포함되며, 의료 시스템 내에서 데이터를 조직화하는 역할을 함.

3. Standardized Derived Elements (표준화된 파생 요소)

  • Condition era, Drug era와 같이 여러 개의 개별 기록을 묶어 하나의 의미 있는 시퀀스로 변환.
  • 예를 들어, 같은 질병이 여러 번 진단되었을 경우 이를 하나의 "Condition era"로 묶어 분석 가능.

4. Standardized Health Economics (표준화된 건강 경제 데이터)

  • 진료비용(Cost), 보험 정보(Payer plan period) 등 의료 비용 관련 데이터를 포함.
  • 건강 경제 및 비용 분석 연구를 가능하게 함.

5. Standardized Metadata (표준화된 메타데이터)

  • CDM 데이터의 출처(CDM_source), 데이터에 대한 추가 정보(Metadata)를 관리.
  • 연구자가 데이터의 출처와 구조를 쉽게 이해할 수 있도록 지원.

6. Standardized Vocabularies (표준화된 용어)

  • 의료 개념(Concept), 도메인(Domain), 관계(Concept Relationship) 등을 관리하는 부분.
  • 다양한 의료 기관 및 국가에서 사용하는 서로 다른 용어 체계를 표준화하여 동일한 의미로 변환.

7. Results Schema (결과 스키마)

  • 연구 결과를 저장하는 구조로, 코호트(Cohort), 코호트 정의(Cohort definition) 등이 포함됨.
  • 연구자가 특정한 환자 그룹을 정의하고, 해당 그룹에 대한 분석 결과를 체계적으로 관리할 수 있도록 함.

★ 3. Standardized Derived Elements (표준화된 파생 요소) 보충설명===================================

[4. OHDSI - Data to Evidence & Open Science]

-> 의료 데이터를 어떻게 활용하여 신뢰할 수 있는 근거(evidence)를 도출하는지
->개방형 과학(Open Science)과 FHIR(Health Data Interoperability) 가이드라인 설명

 

1. Data to Evidence (데이터에서 근거로)

 

 - 의료 데이터를 수집하고 이를 분석하여 신뢰할 수 있는 근거를 도출하는 과정을 설명

 - 다양한 유형의 관찰 데이터 : 의료 데이터는 다양한 방식으로 수집될 수 있으며, 그 특성에 따라 연구의 활용도가 달라짐

 - 연구의 신뢰도를 높이기 위해서는 데이터의 출처와 특성을 이해하는 것이 중요함.

 

(1) 다양한 유형의 관찰 데이터

  • Populations (환자 그룹)
    • 소아 vs 노인 (Pediatric vs. elderly)
    • 사회경제적 격차 (Socioeconomic disparities)
  • Care setting (진료 환경)
    • 입원 환자 vs 외래 환자 (Inpatient vs. outpatient)
    • 1차 진료 vs 2차 진료 (Primary vs. secondary care)
  • Data capture process (데이터 수집 방법)
    • 건강보험 청구 데이터 (Administrative claims)
    • 전자의무기록 (Electronic health records)
    • 임상 레지스트리 (Clinical registries)
  • Health system (건강보험 체계)
    • 보험 가입자 vs 비가입자 (Insured vs. uninsured)
    • 국가별 정책 (Country policies)

-> 이러한 개별 환자 수준의 데이터를연구 목적에 맞게 변환하여 신뢰할 수 있는 근거로 활용할 수 있음


(2) 의료데이터 활용 연구분야 (Types of evidence desired)

  • 임상적 특성 연구 (Clinical Characterization)
    • 임상시험 가능성 평가 (Clinical Trial Feasibility)
    • 치료 이용 패턴 분석 (Treatment Utilization)
    • 질병 자연 경과 연구 (Disease Natural History)
    • 의료 서비스 품질 향상 연구 (Quality Improvement)
  • 집단 수준 효과 분석 (Population-Level Effect Estimation)
    • 의약품 안전성 감시 (Safety Surveillance)
    • 비교 효과 연구 (Comparative Effectiveness)
  • 환자 수준 예측 연구 (Patient-Level Prediction)
    • 정밀 의학 (Precision Medicine)
    • 질병 예방 및 조기 진단 (Disease Interception)

 -> 이러한 데이터 분석 과정을 통해 연구자들은 의료서비스 개선과 치료법 평가에 도움을 주는 신뢰할 수 있는 근거를 생성

 

2. 의료 데이터의 개방성과 상호운용성(Open Science & Interoperability)의 중요성

 

 - 의료데이터 연구가 효과적으로 이루어지기 위해서는 데이터 공유 및 협력이 필수적임

 - OHDISI는 개방형 과학과 데이터 표준화를 적극적으로 활용해야함

 

(1) 개방형 과학의 원칙 : 연구자들은 데이터를 쉽게 공유하고 재사용 할 수 있으며, 연구결과의 신뢰성을 높일 수 있음

 

  • Open Standards (개방형 표준) : 데이터의 일관성을 유지할 수 있도록 표준화
  • Open Source (오픈 소스) : 연구 도구와 코드가 모두 공개되어 누구나 활용 가능
  • Open Data (오픈 데이터) : 연구 데이터를 공유하여 협업 연구 가능
  • Open Discourse (오픈 토론) : 연구자 간 활발한 논의와 협력을 장려


(2) FHIR 기반 의료 데이터 상호운용성(Interoperability) 

        * FHIR(Fast Healthcare Interoperability Resources) : 의료데이터가 서로 다른 기관이나 시스템에서도 동일한 방식으로 사용될 수 있도록 하는 국제표준 -> 전세계 의료연구자들이 동일한 형식의 데이터를 활용하여 연구협력을 강화

 

  • Findability (검색 가능성) : 데이터가 쉽게 검색되고 활용될 수 있도록 설계
  • Accessibility (접근 가능성) : 연구자가 데이터를 쉽게 접근할 수 있도록 개방된 환경 제공
  • Interoperability (상호운용성) : 기관 간 데이터 공유 및 협업 가능
  • Reusability (재사용성) : 한 번 정리된 데이터를 여러 연구에서 반복 활용 가능

★요약 : OHDSI는 의료 데이터를 효과적으로 활용하여 과학적 근거를 창출하고, 개방형 연구 문화를 확산시키며, 의료 데이터의 글로벌 협력을 강화하는 역할을 함

 

 

[5. OMOP Vocabulary ]

 

1. OMOP Vocabulary 

  • OMOP CDM에서는 다양한 출처에서 수집된 의료 데이터를 일관된 분석이 가능하도록 표준화된 용어(Vocabulary)를 사용
  • 다양한 기관에서 사용하는 서로 다른 의료 용어들을 통합하여 하나의 공통된 체계로 변환하는 역할
  • 공공 및 민간 의료용어들을 통합하여 표준화된 개념을 제공
  • SNOMED, RxNorm, ICD, LOINC 등의 글로벌 의료 용어 체계를 기반으로 함
  • 연구자가 동일한 개념을 사용할 수 있도록 매핑을 제공하여, 데이터의 일관성을 유지
    (기관별로 다른 용어를 사용하더라도 OMOP Vocabulary를 이용해 동일한 의미의 개념으로 통일)

 

2. OMOP Vocabulary 의 주요 원칙

  • 표준화된 구조 (Standardized structure): 여러기관에서 사용하는 의료 데이터를 OMOP CDM에 맞게 표준화된 형식으로 변환
  • 고유한 표준 개념 (Unique Standard Concepts): 동일한 개념을 여러 용어 체계에서 다르게 표현하더라도, 이를 하나의 표준 개념(Standard Concept)으로 매핑
  • 도메인 할당 (Domain Assignment): 모든 개념은 특정 도메인(예: 질병, 약물, 검사 등)에 할당됨
  • 포괄적인 데이터 적용 (Comprehensive coverage): 환자의 전체 의료 경험을 포함하여 다양한 데이터 유형을 통합
  • 계층적 구조 (Hierarchy & Relationships): 개념 간의 관계를 정의하여 유사 개념을 그룹화하고 분석을 용이하게 함

-> 연구자들이 일관된 방식으로 데이터를 분석하고 비교연구를 수행할 수 있음

 

[6. 개념(Concept)과 개념 테이블 구조 ]

1. 개념(Concept)이란?

  • OMOP CDM에서는 모든 의료 데이터가 개념(Concept)이라는 단위로 정의
  • 각 개념은 Concept ID를 가지며, 표준화된 명칭과 코드를 포함
  • ex) 심방세동(Atrial Fibrillation)의 다양한 코드 체계 

 

2. 개념(Concept) 테이블

  • CDM에서 개념을 저장하는 주요 테이블로, 모든 개념은 Concept Table에서 관리
  • 이 테이블을 통해 질병, 약물, 검사, 의료절차 등의 데이터를 구조화하여 표준화된 방식으로 저장
  • 연구자는  Concept Table을 활용하여 특정 질병, 약물, 검사등의 데이터를 표준코드에 맞춰 변환하고 분석할 수 있음
  • 개념테이블의 주요 칼럼

 

3. 개념을 찾는 방법

  • 1. Concept ID로 찾기

    - SELECT * FROM concept WHERE concept_id = 313217;
    - Concept ID가 313217인 데이터를 찾음
  • 2. Concept Code로 찾기

    - SELECT * FROM concept WHERE concept_code = '49436004';
    - SNOMED에서 제공하는 49436004 코드가 있는 데이터를 찾음

  • 3. Concept Name으로 찾기

    - SELECT * FROM concept WHERE concept_name = 'Atrial fibrillation';
    - Atrial fibrillation 이라는 개념을 포함하는 데이터를 찾음

  • 4. 다른 코드 체계에서 매핑된 개념 찾기

    - SELECT * FROM concept_relationship WHERE concept_id_1 = 44821957;
    - ICD-9코드 44821957이 다른 코드체계와 어떻게 연결되어 있는지 확인

 

4. 요약

  • OMOP CDM에서는 의료 데이터를 표준화하기 위해 "개념(Concept)"이라는 체계를 사용
  • OMOP Vocabulary는 다양한 용어 체계를 통합하여 연구자가 일관된 방식으로 데이터를 분석할 수 있도록 지원
  • 연구자는 Concept Table을 활용하여 원하는 개념을 찾고, 표준 개념을 기반으로 데이터를 정리하여 분석 가능
  • SQL 쿼리를 활용하여 특정 개념을 검색하고, 표준 개념과 매핑된 정보를 활용할 수 있음