慶応義塾大学医学部、日本初の乳がん超音波検診における 精密検査の要否判定を行う人工知能(AI)を開発 -専門医を凌駕する精度で画像診断を行い、乳がん検診の精度向上に貢献-

慶應義塾大学医学部外科学教室(一般・消化器)の林田哲専任講師、北川雄光教授を中心とする多施設共同研究グループは、株式会社フィックスターズと共同で、ディープラーニング技術を用いた人工知能(AI)による画像診断システムを開発した。このシステムは乳房超音波検査を対象としたもので、乳がん検診を受診した患者が、さらなる精密検査を受けるべきかどうかを高い精度で判定可能であることが明らかにした。
ディープラーニング技術の1つであるConvolutional Neural Network (CNN)と呼ばれる技術を利用して開発されたAIは、乳房超音波画像診断の国際的基準であるBI-RADS判定基準に基づいた診断を行い、対象となる超音波画像に精密検査が必要な病変を含むかどうかを判定することを目的に開発された。
このAIを用いて、教師データとは異なる3,166枚の乳房超音波画像(3,656病変を含む)を対象として診断を行ったところ、感度91.2%・特異度90.7%の精度で診断が可能であることが明らかになった。この結果は、日本乳がん検診精度管理中央機構が認定する「乳がん検診超音波検査実施・判定医師」の合格基準が感度80%・特異度80%であることを考慮すると、これらを大幅に上回る精度での診断結果だった。
さらに外科専門医10名を含む、20名の医師による乳房超音波画像診断の結果と、AIによる診断結果を比較したところ、AIが統計学的に有意に優れた精度で診断した。
今後、乳がん検診や人間ドックなどにおける乳房超音波によるスクリーニング検査には、このAIシステムが医師の診断補助として利用され、見逃しや過剰診断を防ぐことで、精度の向上や施設間格差の解消といった医療技術等の格差の是正に貢献することが期待される。
本研究成果は、2022年8月3日(米国時間)に国際科学誌Cancer Scienceオンライン版に掲載された。
研究の背景と概要
国内では乳がんの早期発見を目的とした乳がん検診が広く行われており、各自治体が提供する対策型検診や人間ドックなどの任意型検診では、マンモグラフィー検査と超音波検査が主要な検査方法として用いられている。
日本を含むアジア人女性は、乳腺の密度が高い「高濃度乳房」が多く、また乳がんの発症年齢が欧米女性より若い40〜50代に多いため、相対的に超音波検査の有用性が高いと考えられている。実際に日本で行われた大規模な臨床試験(J-START試験)の結果から、乳がん検診において、超音波検査を併用することで、マンモグラフィー単独の検査に比べて早期乳がんの発見率が高まることが明らかになっている。
乳房超音波検査は、患者の身体を医師や技師が超音波装置を用いて直接調べる「生理機能検査」に分類され、その精度は機材の良し悪しや、検査者の経験・疾患に対する知識・異常所見の見極め方などに左右されることが知られている。
そのため、乳がん検診における超音波検査の需要の増加に対応するには、検査技師や医師の育成および診断技術の向上が重要な課題と考えられているが、十分な成果は得られていない。実際に乳腺診療を専門としない医師が検診やドックの最終的な判定を行う事例が数多く存在している。
このような背景から研究グループは、近年目を見張る発展を遂げたディープラーニング技術を用いた人工知能(AI)を用いて、乳腺超音波検査の診断システムを構築し、診断精度の向上に貢献できるか検討を行った。
研究の成果と意義
このAI診断システムの開発は、乳房超音波検査における病変の有無とその診断に、人間の能力を超えた客観性を持たせることを目指して開始された。人の目では判断しきれない超音波画像の特徴をAIが読み取り、正確な診断を瞬時に提示することを目的としている。
これを実現するために、コンピュータの性能を最大限に引き出す高速化技術を社会に提供している株式会社フィックスターズが開発したConvolutional Neural Network (CNN)をベースとしたディープラーニング技術を利用し、まず初めに慶應義塾大学が提供する約1,500枚のアノテーション済み乳房超音波画像を教師データとして学習させたAI診断システムの構築を最初に行った。その結果、AI が高い精度で検査画像中の腫瘍を認識して、良悪性の判定を1枚あたり0.01秒以下で行うことが可能だった。
このAIを臨床応用するために、さらなる精度向上を目指して、慶應義塾大学を含む以下の8施設と共同研究グループを構築し、7,194枚の乳房超音波画像を収集し、その全てにアノテーション作業を行った。これを教師データ(4,028枚)とテストデータ(3,166枚)に2分し、AIシステムの構築と検証に使用した。
・慶應義塾大学医学部
・帝京大学医学部
・杏林大学医学部
・国立がんセンター中央病院
・国立がんセンター東病院
・埼玉医科大学国際医療センター
・北里研究所病院
・東京医療センター
乳房超音波検査において、病変の良悪性を鑑別することは重要な役割の1つだが、超音波検査のみで全ての病変を 100%の精度で診断することは不可能である。そのため、実際の臨床では検査で乳房に異常を発見した際に、「次にどのような行動を行うか」という判断が最も大切なことと考えられている。すなわち、追加で画像検査を行うか、生検を行うか、経過観察でよいのかなど、発見した病変に対して適切な診療行為を行うことが必要である。
乳房超音波検査の国際的な判定基準であるBI-RADS基準では、病変の特徴をもとに1から5までのカテゴリーに分類し、各カテゴリーの病変が乳がんである頻度と、次に行うべき行動が規定されている。またこの BI-RADS 基準を検診や人間ドックなどのスクリーニング検査に適用する場合は、BI-RADSカテゴリー4以上と判定された患者は組織生検を含む精密検査を行うことが強く推奨される。
これらの背景から、本研究グループはAIの臨床応用を目指すにあたり、良悪性の判断を行うのではなく、乳房超音波検査画像に含まれる病変が、この BI-RADS 基準において乳がんの頻度が高まる BI-RADS カテゴリー4 以上なのか、乳がんの可能性がほとんどない BIRADS3以下なのかを判定するAI診断システムを構築した(図1)。

図1 AI が病変を認識し、BI-RADS4以上(精密検査が必要)ならばオレンジ、BI-RADS3以下(精密検査は必要なし)ならば青枠で表示
このAIを用いて、前述の教師データとは異なるテストデータ(3,166枚の乳房超音波静止画像)を対象として診断を行ったところ、感度91.2%・特異度90.7%の精度で診断が可能であることが明らかになった。
判定の閾値を変化させて描いたROC曲線におけるAUCの値は1に近づくほど診断システムの精度がよいことを表すが、このAI診断システムのAUCは0.95であり、非常に精度が高いことが示された(図2)。

図2 診断の閾値を変化させた際のROCカーブ(左)と感度・特異度の変化(右)
日本乳がん検診精度管理中央機構が認定する「乳がん検診超音波検査実施・判定医師」は、乳房超音波検査を行う医師および技師が十分な水準の技量と診断能力をもつことを証明するものである。
この認定試験では、静止画のみではなく動画の判定も評価基準に含まれるため、今回の結果と単純な比較はできないものの、合格基準が感度80%・特異度80%であることを考慮すると、AIはこれらを凌駕する精度での診断結果を示し、最高クラスの診断能力を持つ専門医・放射線技師と同等以上の能力を持つことが期待される。
実際に、このAI診断システムと10名の外科専門医含む計20名の臨床医による、30枚の乳房超音波検査画像に対する診断精度比較を行ったところ、感度・特異度ともに統計学的に有意な差をもってAIが優れた精度での診断を行うことが示された(図3)。

図3 20 人の臨床医とAIによる診断の感度・特異度
お問い合わせ先
慶應義塾大学医学部 外科学教室(一般・消化器外科)
TEL:03-5363-3802