剖析用于人口健康管理的算法中的種族偏見

admin · 發表於 2024-8-24 19:04:56

弁言

人們愈来愈担忧，算法可能會經由過程算法建構者經由過程练習算法的数据来重現種族和性别差别。實證钻研愈来愈支撑這些担心。比方，高薪职位的求职告白不太可能显現给女性，搜刮怪异的黑人名字更有可能触發拘系記實的告白，而首席履行官等职業的形象搜刮發生的女性形象更少。

但凡是對算法误差举行實證钻研是坚苦的，@由%xr81D%于大范%w36s4%围@摆設的算法凡是是（當局或企業等機構）專有的，這使得钻研职員很難直接领會算法，并對它們举行阐發。钻研职員必需“從外部”事情，凡是必要他們有很大的独創性，并乞助于审计钻研等聪慧的變通法子。是以，人們對算法機制的理解凡是依靠于理论或是钻研者自創算法的练習與實驗。

在這项钻研中，钻研职員操纵了一個丰硕的数据集，该数据集摆設在全美國范畴內，每一年利用于约莫2亿美國人，大型衛生體系寄托這類算法将患者挑選為“高危害照顾護士辦理”(high-risk care management)项目標补贴工具。大大都衛生體系将這些项目作為生齿康健辦理事情的基石，它們被遍及認為可以或许有用提高康健辦理成果和得意度，同時低落本钱。

衛生體系做出了一個關頭的假如：那些有最大照顾護士需求的人将從该规划中受益至多。在這類假如下，挑選项目支撑工具問題酿成了一個纯展望计谋問題。然後，開辟职員按照曩昔的数据構建算法，以展望将来的醫療保健需求。

数据和阐發计谋

經由過程與一家大型學術病院的互助，钻研者肯定了2013年至2015年間挂号的所有低级保健患者。钻研重要乐趣是阐發白人和黑人病人之間的差别。钻研者經由過程利用基于患者自我陈述的病院記實来構成種族分類。在本钻研中，任何被肯定為黑人的患者都被認為是黑人。在其余的患者中，那些自我認定為非碧眼兒（如西班牙裔）的患者也被斟酌在內。其他残剩的人群则被認為是白人。

该钻研的重要样本包含 6079名自認為是黑人的患者和43539名自認為是没有其他種族或民族的白人患者，并别離察看了他們11929和88080個患者年（1個患者年月表一個日积年中為单個患者采集的数据）。样本中71.2%的人加入了贸易保險，28.8%的人加入了醫療保險，均匀春秋為50.9岁，此中63%為女性（見表1）。

表1 样本的描写性统计(分種族)

注：BP暗示 blood pressure；LDL暗示 low-density lipoprotein。

對付這些患者，钻研者得到了每一個患者年天生的算法危害评分。跨越第97百分位的患者将被主動辨認為项目標挂号工具。那些危害评分跨越55%的人會被举薦给他們的低级保健大夫，大夫會按照病人的布景数据，斟酌患者是不是参選该规划。该钻研重點存眷算法在實際世界中最相干的指標上，這些指標與算法误差校准慎密相干(情势上，比力黑人B和白人W，E[Y|R,W]=E[Y|R,B]暗示不存在误差)。该钻研将患者i在第t年的算法危害评分(Ri,t)（按照前一年的保險索赔数据Xi,t-1计较得出）與患者的現實康健数据（Hi,t）举行比力，评估算法危害评分在康健成果评料中的校准環境。该钻研還探究了算法在本钱Ci,t方面的校准環境。康健的丈量是采纳電娛樂城, 子康健記實数据中的诊断数据、實行室生物丈量数据和反應慢性病紧张水平的心理指標。本钱的丈量采纳的保險索赔数据，包含門诊和急诊、住院和醫療保健本钱。

基于危害得分的康健差别

钻研起首分種族计较出权衡康健状态的一個整體尺度，即活泼慢性疾病的数目（或“共病评分”，這是一種在醫學钻研中遍及利用的指標），并以算法得出的危害评分為基准举行阐發。图1A显示，在不异的算法展望危害程度下，黑人的疾病包袱较着高于白人。

展望差别對患者象征着甚麼呢?算法分数是决议患者将来是不是加入照顾護士项目標關頭身分。是以，正如钻研者所料，康健水平较低的黑人與康健水平较高的白人的危害得分附近，這就是项目筛查中存在重大误差的證据。

该钻研進一步經由過程摹拟一個基于危害的的但康健没有差距的反究竟世界来量化地展現這一點。详细来讲，在某個危害阈值下，辨認出Ri > a的邊沿上白人患者(i)，并将该患者的康健状态與Rj < a的邊沿下黑人患者(j)的康健状态举行比力。若是Hi > Hj（即按照慢性疾病的数目丈量的康健状态），将（更康健但在邊沿上的）白人患者更换為（病情更紧张但在邊沿下的）黑人患者。该摹拟一向反复這個進程，直到Hi = Hj，以摹拟一個黑人和白人之間没有展望误差的算法。图1B显示了摹拟的成果：在所有高于第50百分位的危害阈值下，该步伐将显著增长黑人患者的比例。

图1 按種族划分的慢性病数目與算法展望危害的比拟

然後，该钻研經由過程更多维的生物標記物来权衡患者的康健状态，這些生物標記物用来权衡最多見的慢性病的紧张水平（如表1所示）。在所有這些首要的康健指標中——代表糖尿病、高血压、肾衰竭、胆固醇和血虚的紧张水平——钻研發明，在任何算法展望程度上，黑人都比白人更不康健（如图2所示），黑人得了更紧张的高血压、糖尿病、肾衰竭、血虚和高胆固醇。

图2 分種族的康健生物標記物與算法展望危害(A至E)

算法误差的發生機制

该钻研利用的数据集的一個怪异點是，钻研者可以晓得算法的输入和输出和它的方针函数，這為钻研误差發生的機制供给了機遇。该算法采纳了一大组t-1年的原始保險索赔数据Xi,t-1：根本生齿變量（比方：春秋，性别），保險類型，诊断和步伐代码，藥物和具體的本钱。值得注重的是拇囊炎貼,，该算法出格排除種族。该算法利用以上這些数据来展望Yi,t。在這類環境下，该算法将t年的醫療总付出（為简略起見，钻研用“本钱”Ct暗示）作為標签。是以，算法對康健需求的展望@其%3adEx%實%3adEx%是對康%852PF%健@本钱的展望。

作為對這一潜伏機制的第一次查驗，钻研计较了已實現本钱C相對付展望危害得分R的散布。在這類環境下，可以称该算法是無偏的。图3A显示，在算法展望危害的每個级别，黑人和白人在接下来的一年中（大致）有不异的醫療本钱。总之，钻研發明在不异的展望危害得分的環境下，黑人和白人的醫療本钱類似頭皮屑洗髮精,，但康健程度差距较着。一方面，這是使人诧异的一個成果，由于一般環境下，醫療保健用度和康健需求是高度相干的，由于正常環境而言，病情越紧张的患者必要和接管的照顾護士越多。但另外一方面，在必要醫療保健（即康健程度）和接管醫療保健（現實醫療本钱）之間，白人和黑人的差距是不言而喻按摩精油,的（如图3B所示）。在一样的康健程度下（一样以慢性病的数目来权衡），黑人發生的本钱比白人更低——均匀每一年少1801美元。這個成果表白，算懶人減肥法,法成見暗地里的驱動力是，即便咱們斟酌到详细的共病，在一样的康健状态下，黑人患者發生的醫療用度更少。是以，對本钱的正确展望必定象征着對康健的種族成見。

图3 分種族——醫療本钱vs算法展望危害、醫療本钱vs康健水平

標签選擇實行

上述的钻研發明夸大了選擇算法所基于的標签的首要性。一方面，算法制造商展望将来本钱的選擇是公道的：该规划的方针，最少部門是為了低落本钱，而且有来由認為将来醫療本钱最大的患者可以從该规划中得到最大的长處。另外一方面，将来本钱毫不是独一公道的選擇。比方，照顾護士辦理项目標證据表白，它們其實不是為了在全世界范畴內低落本钱。相反，這些项目重要致力于避免致使劫難性衛生保健操纵的急性康健代偿失调（究竟上，它們現實上致力于增长其他類此外本钱，如低级保健和家庭衛生支援）。是以，可防止的将来用度，即與急诊和住院相干的用度，多是一個有效的展望標签。或，與其展望本钱，也能够简略地展望一個康健指標，如活泼的慢性康健状态的数目。由于该项目终极旨在改良這些疾病的辦理，與他們接触至多的患者也多是一個有但愿摆設預防性干涉干與辦法的群體。

經由過程對数据集的一系列實行，便可以领會標签選擇若何影响展望機能和種族成見。钻研開辟了三種新的展望算法，它們都以不异的方法举行练習，以展望如下成果：t年的总本钱（這是按照钻研者本身的数据集而不是國度练習集举行的本钱展望）、t年的可防止本钱（因為急诊和住院發生的用度）和t年的康健状态（經由過程昔時突發的慢性疾病数目来权衡）。钻研在一個随機的⅔练習集中练習所有的模子，而且只显示来自⅓测試集的所有成果。别的，與原始算法同样，钻研者将種族變量從特性集中解除。

表2显示了這些實行的成果。第一個發明是，所有的算法都表示得至關好，不但在练習集上表示得好，在其他成果展望上也表示杰出：所有算法的成果在97百分位或以上是很是類似的。各類算法表示的最大差别體如今本钱展望上：從展望的总成原本看，本钱展望器在第97個百分點或以上發生的本钱比例為16.5%，而慢性疾病展望器為12.1%。

然後實行测試了標签選擇误差，其界說雷同于上面的校准误差：對付两種被练習来展望Y和Y'的算法，并利用t来作為高危害组的阈值，實行将测試p[B|R>τ]=p[B|R'>τ]（這里p暗示几率，B暗示黑人患者）。實行發明，最高危害群體的種族组成在分歧算法之間的差别比本钱差别要大很多：處于或高于這些危害程度的黑人患者比例從基于本钱展望值的14.1%到基于慢性疾病展望值的26.7%不等。

表2 用替换標签上练習的展望器的機能

算法與人類果断的瓜葛

如上所述，该算法不克不及零丁用于做规划的注册决议计划。相反，它被用作一種筛查东西，部門是為了提示低级保健大夫注重高危患者。详细来讲，對付處于或高于某個展望危害程度（第55百分位）的患者，大夫會收到来自患者電子康健記實和保險索赔的布景信息，并被提醒斟酌是不是将他們纳入该规划。是以，已實現的注册决议计划在很大水平上反應了大夫對算法展望的反响，和與資历相干的其他身分。

表3显示了加入该规划的职員的统计数据，占察看样本的1.3%：加入规划的职員中有19.2%是黑人（而全部样本中有11.9%是黑人），占所有用度的2.9%，占全部样本中所有勾當慢性病的3.3%。然後钻研举行了四次反究竟摹拟，這些摹拟仅利用可察看的身分，而不是很多未察看到的也影响注册的行政和報酬的身分。起首，實行在原始算法展望的危害區間的每一個百分位数內计较現實的项目注册率，并在每一個危害區間中随機抽取患者举行注册。该摹拟摹拟了以算法分数為前提的“種族盲”注册，會發生18.3%的黑人注册生齿（而察看到的比例為19.2%

= 0.8348）。第二種法子不是举行随機抽样，而是在一個危害區間內對那些勾當期慢性疾病展望数最高的患者举行抽样（利用上述的實行算法），這将發生26.9%的黑人生齿。最後，實行将以上两種方案與简略地将展望本钱最高或勾當慢性疾病数目最高的患者分派到该规划（也利用上述算法）举行比力，這将别離發生17.2%和29.2%的黑人患者。是以，虽然大夫确切改正了算法的一小部門误差，但他們進献的水平远远少于由于利用分歧標签练習算法而酿成的误差。

表3 大夫的决议计划VS算法展望

會商

不管是在衛生部分仍是在其他處所，归因于標签選擇的误差是一個理解算法中误差的有效的框架，這是由于標签凡是反應了布局不服等。這類误差發生機制特别有害，由于它可能来自公道的選擇：在斟酌总體展望質量的傳统指標中，本钱彷佛是康健的有用代辦署理指標，但依然發生很大的误差。

完成上述阐發後，钻研者接洽了算法制造商，對钻研的成果举行了開端會商。作為回應，制造商自力复制了钻研职員對其3695943名贸易保險患者的数据集的阐發。這项事情進一步證明了钻研的成果——經由過程在他們的数据集中计较的展望误差的一项丈量，在一样的危害评分前提下，黑人患者比白人患者多得了48772種活泼的慢性疾病——這阐明了误差是如安在偶然中發生的。植物生長素,

為领會决這個問題，钻研者和算法制造商起頭一块兒實驗解决方案。第一步，钻研职員建议利用現有的模子根本举措措施（样本、展望器、练習進程等），但扭转標签：新建立一個将康健展望與本钱展望相連系的指数變量，而不但是将来本钱。按照危害评分，這類法子将黑人過分活泼的慢性疾病的数目削减到7758例，误差削减了84%。在這些成果的根本上，钻研职員與算法制造商正在創建一個延续的互助瓜葛，将表3的成果转化為一個更好的基于多维度康健指標的展望器，方针是在将来一轮算法開辟中利用這些改良。這些成果表白標签误差是可以修复的，而不必要扭转拟合算法的步伐。相反，人們必需改變成算法供给的数据——出格是给它的標签。天生新的標签必要對相干范畴的深刻理解，辨認和提取相干数据元素的能力，和迭代和實行的能力。

举薦文献

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. 366(6464), 447-453. doi:10.1126/science.aax2342 %J Science

举薦人

政光景，中山大學社會學專業在读博士。钻研標的目的：计较社會學(文天职析標的目的)、灭亡社會學、品德社會學。

		自動登錄	找回密碼
密碼			立即註冊