<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">
Stanford accelerates Differential Privacy with IPUs

Nov 05, 2021 \ Healthcare, Computer Vision, Research

ディファレンシャルプライバシーと础滨:滨笔鲍による医疗情报の保护强化

笔者

Dr. Mario Michael Krell & Alex Tsyplikhin

疾患の诊断の迅速化と早期化、オーダーメード医疗、新薬の発见など、医疗分野におけるAIは、患者の転帰を剧的に改善し、命を救い、世界中の人々がより健康で长生きできるようにする大きな可能性を秘めています。 

进歩は急速に进んでおり、すでに大きな影响をもたらしていますが、その结果、AIモデルの学习に使用される、机密性の高い患者データのプライバシーとセキュリティに関する新たな课题が生まれています。当然のことながら、一般市民や医疗関係者、政府レベルにおいて、この问题についての议论が高まっています。また、データ机密性を高めるためのAI技术を向上させる研究が必要であることも明らかです。 

先日、スタンフォード大学医学部の研究者らが、机密データを保护するための重要な手法であるディファレンシャルプライバシーの利用において大きな突破口を开きました。このスタンフォード大学のチームはGraphcoreIPUを使用することで、ディファレンシャルプライバシーを用いたAI学习を10倍以上高速化することに成功したのです。 その结果、计算が难しすぎて普及しないと思われていた技术を、现実的なソリューションに変えることができました。

このチームはGraphcoreと协力して、プライバシーに関わることのない、机密性の高い学习データを使ってこの技术の有用性を実証しました。今后は、新型コロナウイルス感染症の胸部CT画像にこの技术を応用し、世界中の人々の生活に影响し続けているこのウイルスについて新たな知见を得ることを目指しています。

医疗AIにおけるデータプライバシーの课题  

机密性の高い个人データをAIに利用するには様々な课题がありますが、その中でも重要なのはデータ主権を维持することと、个人の特定を防ぐことです。スタンフォード大学の研究では、そのどちらにも応用できる、洗练された技术的なソリューションが発见され、その両方が実现可能であることが証明されています。

连合学习 

世界中の様々な人々を対象とした复数の机関やプロバイダーが保有するデータセットから得られた、大量かつ多様な患者データに基づいて学习されたモデルは、より坚牢で、特定のバイアスがかかりにくく、最终的にはより価値の高いものになります。

一般的な机械学习のアプローチでは、学习のためにデータを集中的に照合する必要があります。患者を识别できる情报を削除してデータを匿名化しようとしても、その情报を第叁者の研究机関や组织に提供しなければならないことが大きな问题となっています。実际に、患者データをその入手元である法域に留めることを义务付けるような规制を求める声も高まっています。

それに対して连合学习では、匿名化された患者データを集中管理することなくAIモデルの学习を進められるので、そのような問題の解決につながります。それどころか開発中のモデルを外に出して、その場でデータを学習させるのです。

连合学习は有益な技術ですが、最近の研究では、完全に学習されたモデルからデータを推論し、個人にリンクさせたり、元のデータセットを復元したりすることで匿名の医疗情報を再特定できることも明らかになり、プライバシーの脆弱性が指摘されています。 

そのため連合学习を利用するには、ディファレンシャルプライバシーの応用も進めていく必要があります。

ディファレンシャルプライバシー 

ディファレンシャルプライバシーとは、誰も连合学习モデルから学習データを推測したり、元のデータセットを復元したりできないような方法で连合学习モデルを学習させることによって、機密データの保護をさらに発展させるものです。 

ディファレンシャルプライバシー确率的勾配降下法(DPSGD)では、个々の学习データ项目の勾配をクリッピングしたり歪めたりすることで、匿名化された患者データにノイズが加えられます。このノイズが加わることで、敌対する相手によって、使用された个々の患者データが発见されたり、モデルの学习に使用された元のデータセットが復元されたりする可能性が低くなります。  

ディファレンシャルプライバシー确率的勾配降下法(DPSGD)が机密データの保护に役立つことは明らかですが、あまり研究されていない分野であり、GPUCPUなどの従来のAI演算の形态では计算コストが高すぎるため、これまで大规模データには応用されていませんでした。

スタンフォード大学医学部のコンピュータビジョンを専门とする放射线科の研究者チームはこの分野に着目し、论文「」でその结果を発表しました。 

通常、DPSGDは计算処理量が多くなるので、小规模なデータセットに応用され、分析されます。しかしスタンフォード大学のチームは、一般公开されているImageNetデータセットから採取した130万枚の画像を使って、IPUシステムで初めての分析を行うことに成功しました。この论文では、プライベートデータからなる大规模な画像データセットのプロキシとしてImageNetが使用されました。この研究は、ディファレンシャルプライバシーを大规模に展开する上での现在の障害を克服するのに役立つでしょう。  

IPUを使った结果の详细について、もう少しご説明します。

GraphcoreIPUを使ってNanoBatchDPSGDを加速させる 

処理を加速させる一般的なアプローチとしては、マイクロバッチを使用することがあります。その场合、データは共同で処理され、个々のサンプルベースの勾配の代わりに共同勾配がクリッピングされ、歪められます。これにより学习が加速されますが、分析によると、结果として得られるモデルの予测品质だけでなく、结果として得られるプライバシー保护メトリクスも低下するので、本质的には目的を达成できません。事実、マイクロバッチサイズを1として(つまり「NanoBatch」で)実験を行うと、最も高い精度が得られます。 

stanford figure 1_new

図1: 様々な勾配集積数に対する100エポック学習後の分類精度。サイズ1のマイクロバッチ(「狈补苍辞叠补迟肠丑」)とサイズ2のマイクロバッチを比较。マイクロバッチサイズに勾配集积数を掛けたものが有効バッチサイズ。异なる有効バッチサイズに対して、同じクリッピング比とノイズ比を使用。そのため、同じ有効バッチサイズのエントリーではプライバシー保护の保証が同じになる。

 

NanoBatchDPSGDが広く普及していない大きな理由に、ImageNetNanoBatchDPSGD Resnet50を実行すると数日かかるほど、GPUのスループットが大幅に低下することがあります。 

それとは対照的に、IPUではNanoBatchDPSGDをとても効率的に実行でき、GPUに比べて811倍の速度で结果が得られるため、数日かかる処理が数时间に短缩されます。IPUの场合、IPUMIMDアーキテクチャときめ细かな并列処理によって処理効率が格段に向上するので、DPSGDに必要な追加演算による计算オーバーヘッドは5090%を优に超え、10%まで大幅に减少します。 

さらに、プライバシー保护やNanoBatchDPSGDではバッチ正规化の代わりにグループ正规化を使用する必要があり、IPUでは高速に処理できますが、GPUでは大幅に遅くなります。Graphcore Researchは最近、新しい正规化技术であるプロキシ正规化を発表しました。この技术は、バッチ正规化の特性をグループ正规化に応用して、実行効率を高めるものです。この技术については今后、さらなる研究が期待されます。

Stanford Throughput comparison table

表:μ叠厂=1の场合の异なるハードウェアのスループット比较。骋笔鲍による顿笔厂骋顿は罢别苍蝉辞谤贵濒辞飞ディファレンシャルプライバシーライブラリで惫尘补辫を使用。左部分は前世代のチップ。右部分は最新世代のチップ。

 

NanoBatchDPSGDImageNet6时间学习 

これらの技术により、IPU-POD16システムでImageNet100エポック学习した场合、ResNet-50の学习时间は约6时间になります(GPUでは数日かかります)。精度は71%で、非プライベートのベースラインを5%下回りました。この结果は、ノイズが加わったことで予想されたことですが、予想以上に良かったとはいえ、今后の研究课题も残ります。 

ディファレンシャルプライバシーではイプシロンやデルタの値も报告するのが一般的です。この论文では、デルタが10-6の场合のイプシロンは11.4となっており、良好な范囲と言えます。これをさらに减らすためのアイデアとして、たとえば、学习率をより积极的に予定してエポック数を减らすなどがチームで検讨されています。

Stanford Differential privacy results table

表:トータルバッチサイズ(迟产蝉)と构成が异なる滨尘补驳别狈别迟のディファレンシャルプライバシーの结果(最终的なεとエポック100での精度)。期间は100エポックの学习にかかる时间で、时间単位で测定。

 

この研究は、個人の機密データの保護が重要視される医疗や金融サービスなど多くの分野における応用において、プライバシー強化の大きなチャンスを切り開くものです。 

 

その他の投稿