의료데이터 수집 및 해석이 현실적으로 어려운 이유

의료데이터 중 텍스트 정보의 수집과 분석의 어려움에 대해 살펴봅시다.
주식회사리엔's avatar
Nov 14, 2024
의료데이터 수집 및 해석이 현실적으로 어려운 이유

의료 정보의 분석이 어려운 이유

 
  1. 의료기관의 텍스트 정보가 무엇입니까?
    1. 영상, 이미지 정보 외 모든 정보. 검사정보, 외래정보, 수술기록, 간호기록, 퇴원기록, 약물처방, 영상정보에 연결된 판독기록, 건강검진기록, 타 병원에서 온 기록, 등 많은 정보가 포함되어 있습니다.
       
  1. 텍스트 정보를 수집하여 분석하는 것이 왜 어렵죠?
    1. xml 등의 형식의 텍스트라면 비교적 가져오기 쉽지만, 다른 형식의 기록은 추출 자체가 어려울 수 있습니다.
      근본적인 문제로는 추출한다고 하더라도 코드화가 많이 되어 있지 않습니다. 주로 약물, 검사명, 진단명 등 정도가 코드화되어 있지만, 코드화가 완벽하지 않습니다.
       
  1. 코드화가 완벽하지 않다는 의미가 무엇입니까?
    1. 국내의료기관을 커버하는 코드가 없다는 의미입니다. 의료기관 전체에서 통용되는 코드로는 청구코드 (EDI, 급여코드 라고도 함)가 있으나, 청구는 국민건강보험공단에 환자기록을 제출하여 일부를 돌려받습니다. 즉, 전 국민 의료보험 체계로 국가와 개인이 의료비를 납부하고 비급여는 개인이 지불하게 됩니다.
      그러므로 통용되는 코드는 청구코드이나, 모든 텍스트 정보를 포함하고 있지 않고, 종합병원에서는 청구코드외, KCD 등을 쓰고 있으며 개인의원은 청구코드를 주로 사용하고 있습니다.
       
  1. 자연언어처리 방법을 쓰면 안 되나요?
    1. 음성이나, 텍스트를 자연언어 처리 방법으로 추출은 가능할 것으로 보입니다. 그러나 해석을 하거나 문장을 이해하려면 단어의 기본형에 동의어 등이 포함된 언어사전이나 말뭉치가 필요합니다. (예: 가다 → 가니, 가고, 갑니다, 갈까……..) 언어사전을 통해 포탈에서는 중요 키워드를 수집하고 웹 페이지들을 연결하며, 각 단어와 단어의 문맥을 이해하기 위한 시소러스(Thesaursus) 가 존재합니다.
      물론, 인공지능의 발전으로 말뭉치, 언어사전, 시소러스의 역할이 줄어들고 있고, 대용량으로 기본 데이터를 만드는 것이 쉬워진 것은 사실이나, 아직 의료용어라고 한정한다면 기초연구가 매우 부족합니다
      누가 만든다고 하더라도, 의료시장, 의료기관, 공공기관에서 사용하지 않는다면 의미가 없습니다. 아직 국내에서는 대중적으로 사용하는 것은 청구코드이며, 이것은 의료정보의 많은 부분을 커버하지 못한다는 것입니다.
      즉, 자연언어처리 기법으로는 의료기관 내 텍스트 정보를 수집, 분석, 이해하는 것이 쉽지 않습니다.
       
  1. 해외의 용어체계를 가져와 사용하면 안 되나요?
    1. 국제적으로 많이 사용하는 의료용어체계로 SNOMED CT가 있습니다. 용어와 용어의 연결 및 관계가 설정되어 있고 그 용어의 의미 등, 모든 의료용어를 포함하고 있습니다. (질병, 약물,간호, 검사 용어 등등..)
      국내도 도입한 의료기관들이 있지만, 국내에 널리 통용되는 용어가 아니며, 특히 국내에서 사용되는 모든 용어 (한글 포함)와의 매핑이 어렵습니다. 국내 용어의 경우, SNOMED CT에 새로 등록해야 하는 절차가 필요합니다.
       
  1. 의료기관 전체 의료정보를 해석하기 위한 노력은?
  • CDM (Common Data Model) 의 도입
    • 이 모델은 각 의료기관의 데이터를 표준화하여 사용할 수 있도록 하는데 목적이 있습니다.
      환자를 중심으로 모델에 맞는 데이터를 연결하는 것입니다. 질병의 관찰기간, 약물, 진단, 그리고 용어에 관한 것으로 부정맥을 예를 들면, 질병명/심장병/부종맥의 종류 등을 모두 표시합니다. 그리고 그에 맞는 코드를 연결합니다.
      그런데 문제는 국내에 통용되는 코드인 청구코드의 연결은 관련 자료의 연동에 한계가 있습니다. 현재는 모델의 문제가 아니라 의료기간 전체의 표준 및 상호운용성을 위해 최소한 매핑한 상태입니다. 의료기관에 따라 좀 더 다양한 용어를 매핑한 것도 있으나, 그 역시 한계를 가지고 있습니다. 그 병원내부에서 일부 사용하기 때문입니다.
 
notion image
  • 출처: OMOP Common Data Model
 
  • baseline code
    • 한국보건의료정보원에서 확산하고 있는 것으로서, 기존 CDM의 확장 버전입니다. 이 코드에 영상정보를 연결 중이며, 특히 암관련 정보만을 따라 모으기 위한 클라우드로 구축하는 사업도 진행 중입니다. (K-CURE 사업)
 
  • HL7 FHIR
    • 국내에도 HL7 FHIR 메시징 표준을 사용하기 위해 노력 중이며, 분기별로 FHIR 연동 용어들을 발표하고 있습니다.
    • 국내 의료정보 기업들이 FHIR를 도입하고 있습니다. (아직 많은 기업이 참여하고 있지 않지만..)
    • 의료정보를 추출, 분석을 하는 (주)리엔은 의료정보 원본과 FHIR 기반으로 저장할 수 있도록 개발하였습니다.
 

의료정보의 해석을 위해 우리가 해야 하는 것들

 
  1. 하나의 의료기관이라 하더라도 오랜 기간 누적된 정보를 모은다.
    1.  
  1. RWD (Real World Data), 실데이터의 활용을 위한 노력이 필요하다.
    1. 특정 질환 및 검사 결과 등 10년간의 데이터는 임상시험을 보다 쉽고, 안전하고, 효과성을 분석하기 위한 귀중한 자료가 될 것입니다.
      (주)리엔은 의료기관 내 EMR, CDW 등에서 데이터를 자동 추출할 수 있는 솔루션을 개발하였고, 몇개의 의료기관이 도입하여 사용하고 있습니다.
       
  1. 제공자와 수요자, 그리고 전문가 네트워크가 필요하다.
    1. 수요자 입장에서 어느 의료기관에 어느 데이터가 있는지 확인하기 어렵습니다. 각 의료기관은 데이터 유출없이 (주)리엔에서 개발한 샘플박스를 이용하여 데이터 목록을 제공할 수 있습니다.
      수요자는 그 데이터를 보고 의료진과 협의할 수 있습니다. 또한 AI 전문가, 디자이너, 통계학자 등 전문가 네트워크를 형성할 수 있습니다.
      (주)리엔은 의료정보의 생태계를 위해 노력합니다.
 
Share article

주식회사 리엔