현재 서울대병원 연구실에서 산학으로 병리 AI에 관한 캡스톤 프로젝트를 진행 중에 있다.
연구에 도움이 될 만한 Medical AI, Computational Pathology 분야의 중요한 논문인 OCELOT 논문 발제를 위한 리뷰를 해보겠다.
공동 발제자 티스토리 링크:
https://kmuhan-study.tistory.com/
kmuhan의 도움이 되는 개발
나의 배움 너에게 가르침
kmuhan-study.tistory.com
Background & Motivation
기존 세포 검출 연구는 고배율 패치에만 초점을 맞추는 경향이 있었다. 그러나 병리학자는 일반적으로 넓은 시야(FoV)를 통해 먼저 조직의 구조를 이해한 후, 세부적으로 개별 세포를 분석한다. 이를 고려하여 OCELOT 데이터셋은 세포와 조직 간의 관계를 활용하여 세포 검출과 조직 분할의 성능을 동시에 향상시키는 것을 목표로 한다.
Paper introduces OCELOT, a new dataset with overlapping patches for cell detection and tissue segmentation
Key Contributions
OCELOT 데이터셋은 다기관 데이터를 포함하며, 세포와 조직 주석을 중첩하여 제공한다. 이를 통해 다중 작업 학습 방식을 적용할 수 있으며, 단일 작업 방식에 비해 F1-점수를 최대 6.79%까지 개선하였다. 또한 세포와 조직의 상호작용을 명시적으로 활용한 최초의 연구로, 병리학 이미지 분석에 새로운 가능성을 열었다.
OCELOT 데이터셋의 구성
OCELOT 데이터셋은 총 6개의 기관에서 추출한 전 슬라이드 이미지(WSI)를 포함한다. 1024 x 1024 픽셀 크기의 소형 시야 패치와 4096 x 4096 픽셀 크기의 대형 시야 패치로 구성되며, 세포 검출과 조직 분할을 위한 주석이 함께 제공된다.
세포 주석은 종양 세포(TC)와 배경 세포(BC)로 구분되며, 종양 세포가 전체의 35.01%, 배경 세포가 64.99%를 차지한다. 조직 주석은 픽셀 단위로 분할되며, 암 영역(CA), 배경(BG), 알 수 없는 영역(UNK)으로 나뉜다. 각각의 비율은 40.17%(CA), 55.77%(BG), 4.06%(UNK)이다.
데이터셋의 의의
OCELOT 데이터셋은 기존 데이터셋의 한계를 보완한다. 대부분의 세포 검출 데이터셋은 단일 기관에 초점을 맞추거나, 세포와 조직 주석 간의 중첩이 없는 경우가 많았다. 반면, OCELOT은 세포와 조직의 상호작용을 탐구할 수 있도록 설계되었으며, 기존 데이터셋(TIGER) 대비 두 배 이상의 주석을 포함한다. 이를 통해 세포와 조직 간의 관계를 기반으로 다중 작업 학습이 가능해졌다.
Emprical Research
Tissue-Label Leaking Model은 조직 정보를 세포 검출 작업에 직접적으로 활용하는 실험적 접근법이다. 이 모델은 조직 주석 정보를 네트워크에 주입하여, 세포 검출 성능 향상 가능성을 탐구하는 것을 목표로 한다. 특히, 조직 정보를 세포 검출의 맥락으로 활용할 때 발생하는 성능 향상을 정량적으로 검증하기 위해 설계되었다.
Exploratory experiment to see how using tissue labels affects cell detection.
Tissue-Label Leaking Model은 세포 검출 과정에서 조직 주석(ground truth tissue labels)을 모델의 추가 입력으로 사용한다. 이 접근은 실제 응용에서는 비현실적일 수 있지만, 조직 정보가 세포 검출 성능에 미치는 영향을 확인하는 데 중요한 역할을 한다.
• 주석 활용 방식:
• 조직 주석은 네트워크의 입력 또는 중간 계층에 직접 주입된다.
• 주입된 조직 정보는 세포 검출 작업을 위한 추가적인 컨텍스트를 제공하며, 세포 중심 예측의 정확도를 높인다.
이 모델의 실험적 성공은 조직 정보를 예측하여 활용하는 더 현실적인 모델(예: Tissue-Prediction Injection Model)의 개발로 이어졌다.
Methods
Dual Branch Architecture
OCELOT의 듀얼 브랜치 아키텍처는 두 개의 독립적인 U-Net 기반 분할 네트워크로 구성된다. 각 네트워크는 세포 검출과 조직 분할이라는 별도의 작업을 수행하며, 상호 보완적으로 작동한다.
1. 세포 검출 분기
• 고정 반경(fixed-radius) 주석을 기반으로 세포 확률 맵을 생성한다.
• 네트워크의 최종 출력은 세포의 중심점에 대한 점 예측(point prediction)으로 나타난다.
2. 조직 분할 분기
• 조직의 픽셀 단위 분할을 수행하며, 암 영역(CA)과 배경(BG) 등의 정보를 세분화한다.
• 생성된 조직 정보를 세포 검출 분기와 결합하여 세포 검출 성능을 높인다.
Tissue-prediction Injection Model
조직 정보가 세포 검출에 미치는 영향을 확인하기 위해, 조직 정보를 세포 검출 네트워크에 주입하는 방식을 설계하였다. 주입은 다음 네 가지 지점에서 이루어진다.
1. Pred-to-input: 조직 예측 값을 세포 검출 네트워크의 입력에 통합.
2. Pred-to-afterEnc: 조직 예측 값을 인코더(Encoder) 뒤에 주입.
3. Pred-to-afterASPP: 조직 예측 값을 ASPP 모듈 뒤에 주입.
4. Pred-to-afterDec: 조직 예측 값을 디코더(Decoder) 뒤에 주입.
이 방식은 세포와 조직 간의 내용을 채널 차원에서 정렬하고 결합함으로써 세포 검출 성능을 크게 향상시킨다.
Cell-Tissue Feature Sharing Model - 세포-조직 특성 공유 모델
조직과 세포의 특성을 양방향으로 주고받기 위해 세포-조직 특성 공유 모델을 도입하였다. 이 모델은 다음과 같은 방식으로 설계되었다.
1. 단순화된 양방향 주입 논리
• 각 세포와 조직 영역을 얕은 3x3 합성곱(conv)을 통해 처리한 후, 이를 채널 차원에서 결합.
• 효율적이면서도 계산 복잡도를 줄이는 방식으로 설계되었다.
2. 최적의 모델 구성
• 총 64개의 실험을 통해 가장 성능이 뛰어난 모델을 찾아냈으며, 이를 “Cell-Tissue Feature Sharing Model”로 명명하였다.
• 이 모델은 세포 검출의 F1-점수 향상에 있어 최고 성능을 기록하였다.
Experiment
OCELOT 데이터셋을 활용한 다중 작업 학습은 단일 작업 학습에 비해 세포 검출 성능에서 유의미한 개선을 보였다. 특히, 조직 정보를 활용한 모델은 F1-점수를 최대 7.69%에서 9.76%까지 향상시켰다. 이 모델은 세포와 조직 간의 관계를 효율적으로 학습하며, 다양한 기관 데이터셋에서도 안정적인 성능을 보였다.
Results and Future directions
OCELOT은 세포와 조직의 관계를 활용한 분석에서 새로운 가능성을 열었다. 본 연구는 세포 검출의 정확성을 높이는 데 초점을 맞추었으며, 향후 세포 정보를 활용한 조직 분할과 같은 양방향 연구로 확장될 가능성이 있다. 또한, 대규모 데이터셋으로의 확장과 실제 임상 환경에서의 활용 가능성에 대한 추가 연구가 필요하다.
이 보고서는 OCELOT 논문의 핵심 내용을 요약하였으며, 데이터셋의 기여와 연구적 의의를 중점적으로 다루었다.
Special thanks to @kmuhan
...오늘은 Computational Pathology 분야의 중요한 데이터셋 논문 OCELOT 논문을 리뷰해보았다.