[Data Science] 이화여자대학원 23

[2강_off] Pandas

[1. Pandas] 1.pandas 소개구조적 데이터의 표현과 처리에 적합함다양한 포멧으로 저장된 데이터 접근 및 효율적인 분석/ 처리 가능CSV, Excel, RDB 등 다양한 입력 형식 지원데이터 입력 및 출력 용이데이터 가공과 필터링, 그룹화통계 및 데이터 분석과 시각화 지원pandas 설치 및 사용Colab에는 기본 설치되어 있음import pandas as pd예시: pd.Series([1,3,5,12]) 2.pandas 의 데이터 타입시리즈(Series): 1차원 데이터 구조, 1차원 라인 그래프 형태로 데이터를 시각화 가능데이터프레임(DataFrame): 2차원 데이터 구조, 표 형태로 나타패널(Panel): 3차원 데이터 구조 (현재는 거의 사용되지 않음)4차원 이상의 데이터: Panel..

[1강] OMOP CDM

What is OMOP/OHDSI? [1. OMOP란 무엇인가?] 1. OMOP(Observational Medical Outcomes Partnership)의 정의  OMOP(Observational Medical Outcomes Partnership)는 실세계(real-world) 의료 데이터를 활용하여 의약품 및 치료법의 안전성과 효과를 평가하는 연구 프레임워크다양한 의료 데이터베이스를 통합하고 표준화하여, 관찰 연구를 통해 의료 제품의 안전성과 효과성을 분석하는 시스템 2. OMOP의 탄생 배경의약품 안전성 문제: 신약이 시장에 출시된 후, 예상치 못한 부작용이 발견되는 사례가 많았음.FDAAA(미국 식품의약국 개정법) 요구: 2007년 FDAAA(Food and Drug Administratio..

[2강_on] Linear Regression(선형회귀)

[1. Linear Regression (선형 회귀) ] 1.선형회귀 입력 변수(예 : 집 크기)를 이용해 출력 변수(예 : 집가격)를 예측하는 방법가장 단순한 형태의 머신러닝 알고리즘예측 모델이 직선( Linear Function)의 형태를 따름2. 선형회귀 기본공식y = w ₁ x + w ₀ > y : 예측값 (집가격)> x : 입력값 (집크기)>  w ₁ : 기울기 ( x가 1씩 증가할 때 y가 얼마나 변하는지를 의미)> w ₀ : 절편 (x가 0일때 y의 값)선형 회귀의 목표는 입력변수x와 출력변수y 사이의 관계를 직선 방정식으로 나타내는 것임3. 도식화테스트데이터로 알고리즘을 훈련시킨 모델 f입력변수 x를 f에 넣어 y를 예측 ( ŷ : ^햇지는 추정치에 해당하는 변수나 값에 붙이는 기호임) [..

[1강_off] Python Packages

1. Pandas📌 주요 역할:데이터 조작 및 분석구조화된 데이터를 쉽게 다룰 수 있도록 도와줌📌 핵심 기능:DataFrame, Series 구조 제공 (엑셀과 유사한 데이터 구조)데이터 정리, 필터링, 그룹화, 결합 등 가능결측치 처리 및 데이터 변환 2. NumPy (Numeric Python)📌 주요 역할:수학적 연산 및 배열(array) 연산 수행머신러닝에서 수치 연산을 빠르게 처리하는데 필수📌 핵심 기능:다차원 배열 (ndarray) 제공행렬 연산, 선형대수, 난수 생성 등 다양한 수학 연산 지원 3. Scikit-Learn📌 주요 역할:머신러닝 모델 구현 및 분석을 위한 필수 라이브러리간단하면서도 강력한 데이터 분석 및 모델링 도구 제공📌 핵심 기능:지도 학습(Supervised L..

[1강_on] 머신러닝 개요 (Machine Learning Overview)

[ 머신러닝 개요 (Machine Learning Overview) ] 1.머신러닝이란?데이터를 기반으로 컴퓨터가 스스로 학습하여 의사결정을 내리는 기술인간과 유사하게 기억(Remember) → 공식화(Formulate) → 예측(Predict)의 단계를 거친다. [ 머신러닝의 주요 개념]1. 지도학습(Supervised Learning) 입력데이터(input)와 정답(label)이 주어진 상태에서 학습회귀(Regression): 연속적인 값을 예측 (예: 주택 가격 예측) -> 연속성분류(Classification): 카테고리를 예측 (예: 암 양성/음성 판별)2. 비지도 학습(Unsupervised Learning)입력데이터에 정답(label)이 없는 상태에서 데이터의 구조/패턴을 찾아 학습클러스터링..

[1강_on] Basic Grammar in R

Section.1) Basic Grammar in R[기본내용] 1.프롬프트(prompt) 개념 > : 명령어를 입력할 수 있는 자리 (R 콘솔에서 기본 입력 프롬프트) + : 명령문이 한줄에서 완전히 끝나지 않고 다음줄로 이어질 경우 표시됨입력중이던 명령문에서 빠져나오려면 Esc 키를 사용 2. 명령어 입력 규칙일반적으로 한 줄에 하나의 명령문을 입력 한줄에 여러개의 명령을 입력하려면 ;(세미콜론) 으로 구분한줄이 넘어가면 + 프롬프트가 표시되며 계속 입력해야 함3. 주석(comment)# 이후의 내용은 주석 처리되어 실행되지 않음R에서는 파이썬처럼 여러 줄을 감싸는 블록주석기능이 없음(''' ''', """ """)(단,여러줄 선택후 Ctrl + Shift + C 사용시 선택된 줄 마다 # 이 자동추..

[유니와이즈]17강. 음이항분포와 기하분포

5.5 음이항분포와 기하분포  - 베르누이과정 :  베르누이시행 (성공 또는 실패 2개의 결과를 가진 시행)을 고정된 수를 반복하여 성공횟수를 셈  - 이항분포 :  n번의 실행 중 x번 성공할 확률  - 음이항실험 : 베르누이 실행을 고정된 성공횟수가 나올 때까지 실행횟수를 셈  - 음이항확률변수 : k번째 성공이 일어날 때까지의 시행횟수  - 음이항분포 :  음이항확률변수의 분포, b*(x ; k, p)로 나타냄 ** 음이항분포   - 독립적인 반복시행에서 성공확률이 p, 실패확률이 q라 하면, k번째 성공이 일어날때까지의 시행횟수인 확률변수 X의 확률분포는    아래와 같이 나타난다.  - b*(x ; k, p) : x-1번째 시행까지 k-1번의 성공과 x-k번의 실패가 일어난 후 x 번째 시행에서..

[유니와이즈]16강. 초기하분포

5.4 초기하 분포 ** 이항분포 - 독립시행, 복원추출의 경우** 초기하분포  - 비복원추출의 경우 활용  - 전체 모집단에서 특정한 속성을 가진 항목을 포함한 개수를 구하는 확률  - ex. 빨강공 5개, 파란공 10개 있는 상자에서 무작위로 4개공을 비복원 추출할때, 빨강공이 2개나올 확률       ** 초기하실험   - N개의 유한모집단으로부터 크기 n인 확률표본을 비복원으로 추출  - N개중  k 개는 성공, N - k는 실패  - 초기하확률변수 X : 초기하실험엣 표본 중 성공의 수  - 초기하분포 : 초기하확률변수의 확률분포, h(x;N, n, k)로 표시    (N : 모집단크기, n : 표본의 수, k : N개중 성공의 개수) ** 초기하분포   - k 개의 성공과 N - k 개의 실패..

[유니와이즈]15강. 다항분포

5.3 다항분포 ** 다항분포   - 여러개의 범주 중 하나를 선택하는 실험으 여러 번 반복할때 발생하는 확률분포  - 베르누이 분포는 성공/실패의 두 가지 결과만 가지지만, 다항분포는 여러개의 결과를 가질 수 있음  - 다항분포는 이항분포를 일반화한 형태이며, 이항분포는 k(가능한범주개수) = 2인 특수한 경우에 해당  -  여러범주로 나뉘는 사건에서의 확률을 분석할 때 유용함  ★다항분포 예시

[유니와이즈]14강. 이산형 균일분포

5.1 이산형 균일분포 **이산형 균일분포   - 이산형 확률변ㅅ x가 유한개의 갑을 취하고 각 값에서 확률이 모두 같은 경우 X는 이산형 균일분포를 한다고 한다.  - 이산형 확률변 X가 x1,x1,```,xk의 값을 가지고, 각 갑을 취할 확률이 동일하다.  - 이산형 균일분포 :  f(x;k)=k1​,x=x1​,x2​,…,xk  - 균일분포는 모수 k 에 종속되어 있음을 나타내기 위해 ​  f(x;k) 라는 기호를 사용  **이산형 균일분포의 평균과 분산      [ 공식 ]      [ 평균구하기 ]      [ 분산구하기 ] ★이산형 균일분포일 때 평균과 분산 쉽게 구하는 공식                                                                   ..