AIとウェアラブルデバイスはどこまで正確に睡眠を判定できるか

PSGは睡眠検査の基本

睡眠の状態を詳しく調べる代表的な方法の一つが「ポリソムノグラフィ(PSG)検査」です。こちらのコラムでもご紹介しましたが、脳波・眼球運動・筋電図・呼吸・心拍などを一晩かけて測定し、睡眠の質や無呼吸の状態などを詳しく解析します。日本呼吸器学会の診療ガイドライン2020でも、PSGは睡眠時無呼吸症候群診断のゴールドスタンダード(最も信頼できる基準検査)とされており[1]、さらにナルコレプシーや不眠症など幅広い睡眠障害の検査と診断に活用されています。

PSGは膨大な情報を扱うため、解析には時間がかかります。また、眠りの段階の区別があいまいな場面では、診断に支障がない範囲の差ではありますが、判定者の間で多少の違いが生じることもあります。

現在、診断に広く用いられていて、臨床的に信頼性の高い検査とされています。一方で、こうした「人間による判定の特徴」や「手間の大きさ」を補う方法として、AIによる自動解析などの研究が進められています。

①AIはPSGをどこまで読み解けるか

アメリカとデンマークを中心とする国際共同研究では、7か国から集めた約3000件のPSG記録を用いて、AI技術(ニューラルネットワーク)を活用した睡眠解析が行われました[2]。

その結果、AI による自動判定で、複数の専門家が一致して出した判定と比べて、以下の数値が示されました。
正答率 : 84〜87%

・偶然の一致を取り除いた一致度(κ係数): 0.72〜0.77

これは、熟練した専門家同士の判定で報告されている一致度と近い数値でした。

ただし、あくまで研究段階であり、診療では PSG と専門医・技師による解析が最も信頼できる方法 とされています。現段階でAI はそれを置き換えるものではありませんが、将来的には効率化に役立つ可能性があります。

さらに、判定を 5/10/15/30秒 と区切り方を変えて比較したところ、現在臨床で用いられている30秒ごとの判定が最も精度が高いことが確認されました。一方で、5〜15秒といった短い区切りでも大きく精度が落ちなかったことも報告されています。

もう一つ重要なのは、ナルコレプシーの診断精度に対する成果です。AIに膨大なPSGデータを学習させたところ、この病気に特徴的な「入眠直後にレム睡眠へ移行する傾向」を手掛かりとして、高い精度で見分けられることがわかりました。複数の国のナルコレプシー患者のデータを用いた検証で、感度(患者さんを正しく見つける力)は91〜94%、特異度(健康な人を誤って診断しない力)は91〜96%と、いずれも90%を超える高い精度が示されました。

②AIは心拍データで睡眠をどこまで見分けられるか?

PSGは精密ですが、病院でしか行えず、装置装着などの準備や一泊の検査が必要です。こうした手間を背景に、心拍の変化のみを手がかりに睡眠段階を推定しようとする研究が進められています。

瞬時心拍数(1回ごとの心拍数をもとに算出された、1分間あたりの心拍数)を、AI技術(ディープラーニング)で解析し、睡眠段階を判定した研究をご紹介しましょう[3]。この研究には、アメリカで行われた大規模な睡眠研究データ(561人の参加者による800回分の睡眠記録)が用いられました。

その結果は次の通りです。

  • 正答率:77%
  • 偶然の一致を取り除いた一致度(κ係数):0.66

さらに段階別に詳しく見ると、覚醒やREM睡眠は約8割を正しく判定できました。一方、NREM睡眠では、浅い睡眠(N1・N2)は約8割を正しく判定できましたが、深い睡眠(N3)は約5割にとどまり、浅い睡眠と深い睡眠の区別が特に難しいことが示されました。

病院のPSGでは心電図を測定し、そこから心拍数を算出しますが、それ単独では睡眠段階を確定できません。心拍を用いたAI解析はあくまで研究段階にあり、臨床応用にはさらなる検証が求められています。

③ウェアラブル機器はどこまで正確?

市販の腕時計型ウェアラブル機器(スマートウォッチなど)は多くの人に利用されています。健康な成人を対象に、これらの機器をPSGや医療用アクチグラフ(体の動きを計測し、睡眠を推定する装置)と比較した研究が行われています。

これまでの研究は健常者を対象としたものが多く、睡眠障害のある人での検証は一部の疾患に限られています。健常者と比較した研究も少なく、疾患による測定精度の違いなどはまだ十分に明らかではありません[4]。このため、現時点では健常成人の睡眠習慣を大まかに知る目的での活用にとどまり、診療目的での活用には慎重さが求められます

ウェアラブル機器は生活習慣の把握には役立つものの、睡眠段階を正確に判定する目的にはまだ限界があります。市販5機種を比較した研究では、総睡眠時間や睡眠効率はおおむね近い結果を示した一方で、睡眠段階(浅い・深い・レム睡眠)の判定精度は十分ではなく、機器間の誤差も大きいことが報告されています[5]。 また、睡眠中の覚醒を正しく検出できない傾向があり、短時間の途中覚醒は見落とされやすく、長時間の途中覚醒は実際より短く判定される傾向があります。こうした傾向は、体をあまり動かさずに起きている状態を検出しにくいという、市販ウェアラブル機器の構造上の特性などが関係していると考えられています。

また、睡眠段階の判定精度には機種間で差がみられ、とくに深い睡眠を実際より多く判定する傾向が指摘されています(図)[6]。これらを踏まえると、生活習慣の把握には役立ちますが、診療目的での使用はまだ推奨されません。

まとめ

睡眠検査の基本となるPSGは、信頼性の高い方法です。その一方で、解析の効率化をめざすAIや、生活習慣の把握に役立つウェアラブル機器の研究も進んでいます。現状の診療ではPSGと専門医による判定が中心ですが、AIをはじめとする新しい技術が将来的に補助的な役割を担う可能性が示されています。

参考文献

  1. 一般社団法人日本呼吸器学会. 睡眠時無呼吸症候群(SAS)診療ガイドライン2020
  2. Stephansen JB, Olesen AN, Olsen M, Ambati A, Leary EB, Moore HE, Carrillo O, Lin L, Han F, Yan H, Sun Y, Dauvilliers Y, Scholz S, Barateau L, Hogl B, Stefani A, Hong SC, Kim TW, Pizza F, Plazzi G, Vandi S, Antelmi E, Mignot EJ. Neural network analysis of sleep stages enables efficient diagnosis of narcolepsy. Nat Commun. 2018;9:5229. PMCID:PMC6283836 PMID:30523329
  3. Sridhar N, Shoeb A, Stephens P, Kharbouch A, Ghoreyshi A, Myers L, Sunshine MD, Lachapelle J, Wacongne C, Widge AS, Cash SS, Westover MB. Deep learning for automated sleep staging using instantaneous heart rate. NPJ Digit Med. 2020;3:106. PMCID: PMC7441407  PMID:32885052
  4. Zambotti M, et al. State of the science and recommendations for using wearable technology in sleep and circadian research. Sleep. 2024;47(4):zsad325. PMID: 38149978.
  5. Kainec K, et al. Evaluating Accuracy in Five Commercial Sleep-Tracking Devices Compared to Research-Grade Actigraphy and Polysomnography. Sensors. 2024;24(2):635.
  6. Birrer V, Randerath W, Penzel T, et al. Evaluating reliability in wearable devices for sleep staging. NPJ Digit Med. 2024;7:128. PMID: 38499793; PMCID: PMC10948771