[특집]연구중심병원·제약산업 오픈이노베이션

데이터 공유에서 증거 공유로: 공통데이터모델기반 분산연구망

모바일, 사물인터넷, 빅데이터, 인공지능으로 대변되는 4차산업혁명에 대한 기대감과 우려가 커지고 있다. 맞춤 정밀의료와 이를 통한 국민건강 증진, 사회 경제적 비용 절감, 의료기관 운영효율화 등에 대한 기대감으로 의료계에서도 이들 기술에 대한 투자를 어느 때보다 과감히 진행하고 있다. 하지만 역설적이게도 빅데이터를 가장 많이 축적하고 있으면서도 가장 활용하지 못하고 있는 분야가 바로 의료계이다. 쌓여 가는 의료 데이터를 어떻게 초연결 (hyper-connectivity), 초지능(super-intelligence) 기술에 연동하느냐가 성공의 관건이 될 것이다.

의료 데이터는 기관별로 데이터의 구조와 형식이 다르며 데이터의 질과 양이 다를 뿐 아니라, 개인정보보호 관련 정부의 강력한 규제, 타인에게 데이터를 제공할 유인의 부재, 자신의 진료 데이터 공개에 대한 두려움 등 기관간 데이터 공유에 많은 장벽을 가지고 있다. 아직까지 전국민을 대표할 의료 빅데이터가 구성되지 못한 이유다. 기존의 의료 빅데이터 연구라 일컫는 연구는 심평원/보험공단의 보험청구자료를 기반으로 하는 경우가 대부분이다. 하지만 보험청구자료는 구체적인 임상 정보 및 비급여 데이터의 부재라는 내재적인 문제와 정부의 엄격하고 폐쇄적인 보안 정책으로 4차 산업혁명의 원동력으로 사용하기에는 많은 제한점을 가지고 있다.

최근 국내 대형 병원을 중심으로 공통데이터모델(Common Data Model, CDM) 도입이 급격히 증가하고 있다. 공통 데이터 모델이란 의료기관간 데이터의 의미와 구조를 표준화한 것이다. 서로 다른 기관에서 같은 형식과 의미로 연구에 필요한 데이터를 표준화한 후 R이나 SQL로 작성된 분석 코드만을 보내어, 분석된 통계 결과값 만을 공유하는 연구방식으로서 이를 분산 연구망이라 한다. 즉, 각 병원의 환자정보를 공통데이터모델 로 가명화 및 표준화한 후 공통데이터모델 데이터를 병원 폐쇄망 안에 두고 사용자의 요청에 따라서 기관 안에서 분석코드/프로그램을 실행해 분석된 요약 집합정보(평균, 합, 표준편차, 오즈비, 위험도 등)만 수요자에게 회신하는 방식이다. 수요자는 폐쇄망 안에 있는 환자의 개별 정보를 보거나 취득할 수 없지만, 전체 데이터를 모아서 분석한 것과 동일한 분석 결과를 도출할 수 있다(그림). 다양한 공통데이터모델이 제시되었지만, 현재 국내에서 가장 활발히 적용되고 있는 공통데이터모델 은 비영리 국제컨소시엄인 오딧세이(Observational Health Data and Informatics, 이하 OHDSI)에서 채택하고 있는 Observational Medical Outcomes Partnership(OMOP) CDM 이다.

OHDSI 프로그램(www.ohdsi.org)은 대규모 분석을 통해 헬스 데이터의 가치를 이끌어내는 여러 이해 관계자 간의 학제 간 협력을 이끌어내고 있다. OHDSI는 2000명 이상의 국제적인 연구자 협의체와 보건의료 데이터베이스(observational health databases) 네트워크를 구축했다. OMOP-CDM으로 변환된 데이터베이스는 19개국 99개 이상이며 포함된 총 환자수는 15억명을 넘어섰다. 코디네이팅 센터는 미국 동부의 Columbia University에 위치한다. OHDSI에 참여하는 국제 협력기관들은 각 대륙에 고루 분포하고 있으며, 한국에서는 대학병원을 중심으로 45개 이상의 의료기관이 참여하고 있다. OHDSI의 모든 솔루션은 오픈 소스로 공개되기 때문에 (github.com/ohdsi) OHDSI 연구 커뮤니티는 여러 분야(임상 의학, 생물 통계학, 컴퓨터 과학, 역학, 생명 과학)에 걸쳐 연구자들의 적극적인 참여를 가능하게 하고 있고 (forums.ohdsi.org), 다양한 이해 관계자 그룹(연구원, 환자, 제공자, 지불자, 제품 제조업체, 규제 기관)을 포괄하고 있다. 이는 4차 산업혁명의 또다른 키워드 중 하나인 집단 지성을 보건 의료 분야에 가장 활발히 적용하고 있는 대표적 모범 사례라고 할 수 있다.

▲ 분산연구망 작동원리: 각 참여기관의 정형데이터를 CDM으로 가명화 및 표준화 한 후에 원내 폐쇄망 안에 두고, 외부 연구자의 통계분석 실행코드를 받아서 분석한 후, 분석된 통계결과만 연구자에게 보내준다. 외부 연구자는 개별 환자 데이터를 보거나 취득할 수 없다.

2017년 10월 구글 팀에서 EHR 의 전송 표준인 FHIR를 기반으로 원내 사망 및 30일 이상 장기 입원을 예측하는 딥러닝 알고리즘을 개발하여 발표하였다. 당시 논문 제목 일부가 'Scalable and accurate deep learning(확장 가능한 정확한 딥러닝)' 이었는데 (Rajkomar et al.). 해당 논문에서 예측 및 분석 알고리즘 개발시 80%의 노력은 알고리즘 구성 자체가 아닌, 데이터 전처리, 융합, 가공 등에 사용되고 있다고 지적하며 표준에 기반한 알고리즘을 개발하여 전체 노력의 80%가 소모되는 데이터 전처리에 시간을 들이지 않고도 확장 가능한 알고리즘 개발한 것을 장점으로 부각시켰다. 소프트웨어 개발에 있어 공통데이터모델의 장점은 바로 이러한 확장성에 있다. 국내에서도 다양한 병원들이 다양한 기업과 협업하여 인공지능 시스템을 개발하고 있지만, 이러한 시스템들은 개발한 병원에서만 작동한다. 타 병원에도 작동할 수 있도록 하기 위해서는 막대한 데이터 전처리 작업을 되풀이하여야 하고, 실제 적용을 위해서는 병원별 다른 컴퓨터 시스템 환경에 맞추어 다시 개발하여야 한다. 하지만 공통데이터모델을 기반으로 개발한 소프트웨어는 한 번의 개발로 전 세계의 다양한 의료 기관에 직접 적용할 수 있다는 강력한 장점이 있다.

하지만, 기존의 공통데이터모델은 EHR 혹은 보험 청구자료 내의 정형화되어 있는 임상데이터만 포함할 수 있으며 생체신호, 라이프로그, 유전체 정보, 영상정보 등의 대규모 비정형자료를 포함할 수 없다는 단점이 있다. 영상, 유전체, 환경, 일상 생활속에서의 행동 등 다양한 비정형 데이터에 포함된 정보는 정형데이터의 가치를 능가하며 맞춤형 정밀의료를 위해서는 반드시 이들 비정형데이터가 기계가 인식할 수 있는(machine-readable) 형태로 전환되어야 한다. 공통데이터모델에 이들 비정형 데이터를 포함할 수 있도록 하기 위해서 아주대를 포함하여 연세대, 원광대를 포함한 여러 국내 대학이 주도하여 유전체, 영상, 라이프로그 등의 다양한 비정형 데이터를 공통데이터모델로 표준화하는 노력을 진행하고 있다.

공통데이터모델 기반 분산연구망은 기존 어떤 연구방식보다 훨씬 더 엄격히 개인정보를 보호하며, 데이터 소유자의 권리를 보호하기 때문에 전세계적으로 하나의 큰 흐름이 되었고, 앞으로도 참여하는 기관이 기하급수로 증가할 것으로 예상된다. 전세계의 집단 지성의 힘으로 공통데이터모델 기반의 오픈 소스 소프트웨어 개발은 가속되고 있고 (현재 135개), 개발된 소프트웨어는 공통데이터모델이 도입된 기관이라면, 전세계 어디에서나 적용이 가능하다는 무한한 확장성을 가지고 있다. 아울러 비정형 데이터가 표준화되어 기존 공통데이터모델과 융합된다면 의료 빅데이터 활용이 소수 전문가만 아니라 모든 의료인들에게 필수적이고 자연스러운 일상이 될 것이다.

병원신문 다른기사 보기