sidebanner

nijs

It Large Language Model (LLM) kin oertsjûgjende artikels skriuwe basearre op direkte wurden, profesjonele feardigenseksamens slagje, en pasjintfreonlike en empatyske ynformaasje skriuwe. Neist de bekende risiko's fan fiksje, fragiliteit en ûnkrekte feiten yn LLM, wurde oare ûnoploste problemen stadichoan de fokus, lykas AI-modellen dy't potinsjeel diskriminearjende "minsklike wearden" befetsje yn har skepping en gebrûk, en sels as LLM gjin ynhâld mear fabrisearret en dúdlik skealike útfierresultaten elimineert, kinne "LLM-wearden" noch altyd ôfwike fan minsklike wearden.

 

Untelbere foarbylden yllustrearje hoe't de gegevens dy't brûkt wurde om KI-modellen te trainen yndividuele en sosjale wearden kodearje, dy't binnen it model fêstige wurde kinne. Dizze foarbylden omfetsje in ferskaat oan tapassingen, ynklusyf automatyske ynterpretaasje fan boarströntgenfoto's, klassifikaasje fan hûdsykten, en algoritmyske beslútfoarming oangeande de tawizing fan medyske boarnen. Lykas oanjûn yn in resint artikel yn ús tydskrift, kinne foaroardielde trainingsgegevens de wearden en foaroardielen dy't oanwêzich binne yn 'e maatskippij fersterkje en iepenbierje. Krektoarsom, ûndersyk hat ek oantoand dat KI brûkt wurde kin om foaroardielen te ferminderjen. Bygelyks, ûndersikers hawwe djippe learmodellen tapast op röntgenfoto's fan 'e knibbel en faktoaren ûntdutsen dy't mist waarden troch standert earnstichheidsindikatoaren (beoardiele troch radiologen) binnen it knibbelgewricht, wêrtroch ûnferklearbere pineferskillen tusken swarte en wite pasjinten wurde fermindere.

Hoewol hieltyd mear minsken de foaroardielen yn KI-modellen beseffe, benammen op it mêd fan trainingsgegevens, krije in protte oare yngongspunten fan minsklike wearden net genôch omtinken yn it ûntwikkelings- en ynsetproses fan KI-modellen. Medyske KI hat koartlyn yndrukwekkende resultaten berikt, mar foar in grut part hat it gjin eksplisyt rekken hâlden mei minsklike wearden en har ynteraksje mei risikobeoardieling en probabilistyske redenearring, en it is ek net modellearre.

 

Om dizze abstrakte konsepten te konkretisearjen, stel jo foar dat jo in endokrinolooch binne dy't rekombinant minsklik groeihormoan foarskriuwe moat oan in 8-jierrige jonge dy't ûnder it 3e persintyl fan syn leeftyd leit. It stimulearre minsklik groeihormoannivo fan 'e jonge is ûnder 2 ng/mL (referinsjewearde, >10 ng/mL, referinsjewearde foar in protte lannen bûten de Feriene Steaten is >7 ng/mL), en syn kodearjende gen foar minsklik groeihormoan hat seldsume ynaktivaasjemutaasjes ûntdutsen. Wy binne fan betinken dat de tapassing fan minsklik groeihormoanterapy fanselssprekkend en ûnbestriden is yn dizze klinyske setting.

De tapassing fan minsklik groeihormoantherapy yn 'e folgjende senario's kin kontroverse feroarsaakje: de lingte fan in 14-jierrige jonge hat altyd yn it 10e persintyl fan syn leeftydsgenoaten west, en de pyk fan minsklik groeihormoan nei stimulearring is 8 ng/mL. D'r binne gjin bekende funksjonele mutaasjes dy't de hichte kinne beynfloedzje, noch oare bekende oarsaken fan koarte statuer, en syn bonkeleeftyd is 15 jier âld (d.w.s. gjin ûntwikkelingsfertraging). Mar in part fan 'e kontroverse komt troch ferskillen yn 'e drompelwearden dy't bepaald binne troch saakkundigen op basis fan tsientallen stúdzjes oangeande minsklik groeihormoannivo's dy't brûkt wurde foar it diagnostisearjen fan isolearre groeihormoantekoart. Teminsten likefolle kontroverse komt fuort út 'e risiko-foardielbalâns fan it brûken fan minsklik groeihormoantherapy út it perspektyf fan pasjinten, âlden fan pasjinten, professionals yn 'e sûnenssoarch, farmaseutyske bedriuwen en betellers. Pediatryske endokrinologen kinne de seldsume side-effekten fan deistige ynjeksjes fan groeihormoan foar 2 jier weagje mei de kâns op gjin of mar minimale groei yn folwoeksen lichemsgrutte yn ferliking mei hjoed. Jonges kinne leauwe dat sels as har lingte mar mei 2 sm tanimt, it de muoite wurdich is om groeihormoan te ynjeksjearjen, mar de beteller en it farmaseutyske bedriuw kinne ferskillende opfettings hawwe.

 

Wy nimme kreatinine-basearre eGFR as foarbyld, dat is in breed brûkte nierfunksje-yndikator foar it diagnostisearjen en stadiearjen fan groanyske niersykte, it ynstellen fan betingsten foar niertransplantaasje of donaasje, en it bepalen fan reduksjekritearia en kontraindikaasjes foar in protte medisinen op recept. EGFR is in ienfâldige regresjefergeliking dy't brûkt wurdt om de mjitten glomerulêre filtraasjesnelheid (mGFR) te skatten, wat in referinsjestandert is, mar de evaluaasjemetoade is relatyf omslachtich. Dizze regresjefergeliking kin net beskôge wurde as in AI-model, mar it yllustrearret in protte prinsipes oer minsklike wearden en probabilistyske redenearring.

It earste yngongspunt foar minsklike wearden om eGFR yn te fieren is by it selektearjen fan gegevens foar it passen fan fergelikingen. De orizjinele wachtrige dy't brûkt waard om de eGFR-formule te ûntwerpen bestiet foar it grutste part út swarte en wite dielnimmers, en de tapassing dêrfan op in protte oare etnyske groepen is net dúdlik. De folgjende yngongspunten foar minsklike wearden yn dizze formule omfetsje: it selektearjen fan mGFR-krektens as it primêre doel foar it evaluearjen fan nierfunksje, wat in akseptabel nivo fan krektens is, hoe't krektens mjitten wurde kin, en it brûken fan eGFR as in drompel foar it triggerjen fan klinyske beslútfoarming (lykas it bepalen fan betingsten foar niertransplantaasje of it foarskriuwen fan medisinen). As lêste, by it selektearjen fan de ynhâld fan it ynfiermodel, sille minsklike wearden ek yn dizze formule ynfierd wurde.

Bygelyks, foar 2021 suggerearje rjochtlinen om de kreatininenivo's yn 'e eGFR-formule oan te passen op basis fan 'e leeftyd, geslacht en ras fan 'e pasjint (allinich klassifisearre as swarte of net-swarte yndividuen). De oanpassing op basis fan ras is rjochte op it ferbetterjen fan 'e krektens fan' e mGFR-formule, mar yn 2020 begûnen grutte sikehûzen it gebrûk fan ras-basearre eGFR yn twifel te lûken, en neamden redenen lykas it útstellen fan 'e geskiktheid fan' e pasjint foar transplantaasje en it konkretisearjen fan ras as in biologysk konsept. Undersyk hat oantoand dat it ûntwerpen fan eGFR-modellen yn termen fan ras djipgeande en ferskillende ynfloeden hawwe kin op krektens en klinyske útkomsten; Dêrom reflektearret it selektyf fokusjen op krektens of it fokusjen op in diel fan 'e útkomsten weardeoardielen en kin it transparante beslútfoarming maskearje. Uteinlik stelde de nasjonale wurkgroep in nije formule foar dy't opnij oanpast waard sûnder rekken te hâlden mei ras om prestaasjes- en earlikensproblemen yn lykwicht te bringen. Dit foarbyld yllustrearret dat sels in ienfâldige klinyske formule in protte yngongspunten hat ta minsklike wearden.

Dokter mei firtuele realiteit yn operaasjekeamer yn sikehûs. Sjirurch analysearret pasjint herttestresultaat en minsklike anatomy op technologyske digitale futuristyske firtuele ynterface, digitale holografysk, ynnovatyf yn wittenskip en medisinen konsept.

Yn ferliking mei klinyske formules mei mar in lyts oantal foarsizzingsindikatoaren, kin LLM bestean út miljarden oant hûnderten miljarden parameters (modelgewichten) of mear, wêrtroch it lestich te begripen is. De reden wêrom't wy sizze "lestich te begripen" is dat yn 'e measte LLM's de krekte manier om antwurden út te lokjen troch fragen te stellen net yn kaart brocht wurde kin. It oantal parameters foar GPT-4 is noch net oankundige; syn foargonger GPT-3 hie 175 miljard parameters. Mear parameters betsjutte net needsaaklik sterkere mooglikheden, om't lytsere modellen dy't mear berekkeningssyklusen omfetsje (lykas de LLaMA [Large Language Model Meta AI] modelsearje) of modellen dy't fyn ôfstimd binne op basis fan minsklike feedback better sille prestearje as gruttere modellen. Bygelyks, neffens minsklike beoardielers presteart it InstrumentGPT-model (in model mei 1,3 miljard parameters) better as GPT-3 yn it optimalisearjen fan modelútfierresultaten.

De spesifike trainingsdetails fan GPT-4 binne noch net bekend makke, mar de details fan modellen fan foargeande generaasje, ynklusyf GPT-3, InstrumentGPT, en in protte oare iepen boarne LLM's, binne wol bekend makke. Tsjintwurdich komme in protte AI-modellen mei modelkaarten; De evaluaasje- en befeiligingsgegevens fan GPT-4 binne publisearre yn in ferlykbere systeemkaart levere troch it modelkreaasjebedriuw OpenAI. De skepping fan LLM kin rûchwei wurde ferdield yn twa stadia: de earste pre-trainingsfaze en de fynôfstimmingsfaze dy't rjochte is op it optimalisearjen fan 'e modelútfierresultaten. Yn 'e pre-trainingsfaze wurdt it model foarsjoen fan in grutte korpus ynklusyf de orizjinele ynternettekst om it te trainen om it folgjende wurd te foarsizzen. Dit skynber ienfâldige "automatyske foltôgingsproses" produseart in krêftich basismodel, mar it kin ek liede ta skealik gedrach. Minslike wearden sille de pre-trainingsfaze yngean, ynklusyf it selektearjen fan pre-trainingsgegevens foar GPT-4 en it besluten om ûnfatsoenlike ynhâld lykas pornografyske ynhâld út 'e pre-trainingsgegevens te ferwiderjen. Nettsjinsteande dizze ynspanningen kin it basismodel noch net nuttich wêze, noch by steat wêze om skealike útfierresultaten te befetsjen. Yn 'e folgjende faze fan fynôfstimming sille in protte nuttige en ûnskealike gedrachsfoarmen ûntstean.

Yn 'e fynôfstimmingsfaze wurdt it gedrach fan taalmodellen faak djipgeand feroare troch begeliede fynôfstimming en fersterkingslearen basearre op minsklike feedback. Yn 'e begeliede fynôfstimmingsfaze sille ynhierde oannimmers foarbylden fan antwurden skriuwe foar promptwurden en it model direkt traine. Yn 'e fersterkingslearfaze, basearre op minsklike feedback, sille minsklike evaluearders de modelútfierresultaten sortearje as foarbylden fan ynfierynhâld. Dan tapasse de boppesteande fergelikingsresultaten om it "beleanningsmodel" te learen en it model fierder te ferbetterjen troch fersterkingslearen. Geweldich leechnivo minsklike belutsenens kin dizze grutte modellen fynôfstimming jaan. Bygelyks, it InstrumentGPT-model brûkte in team fan sawat 40 oannimmers dy't rekrutearre waarden fan crowdsourcing-websides en slagge foar in screeningstest dy't rjochte wie op it selektearjen fan in groep annotators dy't gefoelich binne foar de foarkarren fan ferskate befolkingsgroepen.

Lykas dizze twa ekstreme foarbylden, nammentlik de ienfâldige klinyske formule [eGFR] en de krêftige LLM [GPT-4], oantoane, spylje minsklike beslútfoarming en minsklike wearden in ûnmisbere rol by it foarmjaan fan modelútfierútkomsten. Kinne dizze KI-modellen har ferskate pasjint- en dokterswearden fêstlizze? Hoe kinne wy ​​de tapassing fan KI yn 'e medisinen iepenbier begeliede? Lykas hjirûnder neamd, kin in opnij ûndersyk fan medyske beslútanalyse in prinsipiële oplossing foar dizze problemen biede.

 

Medyske beslútanalyse is net bekend by in protte klinisy, mar it kin ûnderskied meitsje tusken probabilistyske redenearring (foar ûnwisse útkomsten yn ferbân mei beslútfoarming, lykas oft minsklik groeihormoan administrearre wurde moat yn it kontroversjele klinyske senario werjûn yn figuer 1) en beskôgingsfaktoaren (foar subjektive wearden dy't oan dizze útkomsten ferbûn binne, waans wearde kwantifisearre wurdt as "nut", lykas de wearde fan in ferheging fan 2 sm yn manlike hichte), en systematyske oplossingen leverje foar komplekse medyske besluten. By beslútanalyse moatte klinisy earst alle mooglike besluten en kânsen bepale dy't ferbûn binne mei elke útkomst, en dan it nut fan 'e pasjint (of oare partij) dat ferbûn is mei elke útkomst opnimme om de meast geskikte opsje te selektearjen. Dêrom hinget de jildigens fan beslútanalyse ôf fan oft de útkomstynstelling wiidweidich is, lykas oft de mjitting fan nut en de skatting fan kâns akkuraat binne. Ideaallik helpt dizze oanpak te soargjen dat besluten bewiisbasearre binne en oerienkomme mei de foarkarren fan pasjinten, wêrtroch de kloof tusken objektive gegevens en persoanlike wearden lytser wurdt. Dizze metoade waard ferskate desennia lyn yn 'e medyske sektor yntrodusearre en tapast op yndividuele beslútfoarming fan pasjinten en beoardieling fan 'e sûnens fan' e befolking, lykas it jaan fan oanbefellings foar screening fan kolorektale kanker oan 'e algemiene befolking.

 

Yn medyske beslútanalyse binne ferskate metoaden ûntwikkele om nut te krijen. De measte tradisjonele metoaden ûntliene wearde direkt oan yndividuele pasjinten. De ienfâldichste metoade is it brûken fan in wurdearringskaal, wêrby't pasjinten har foarkar foar in bepaalde útkomst beoardielje op in digitale skaal (lykas in lineêre skaal fariearjend fan 1 oant 10), mei de meast ekstreme sûnensútkomsten (lykas folsleine sûnens en dea) oan beide úteinen. De tiidútwikselingsmetoade is in oare faak brûkte metoade. Yn dizze metoade moatte pasjinten in beslút nimme oer hoefolle sûne tiid se ree binne te besteegjen yn ruil foar in perioade fan minne sûnens. De standert gokmetoade is in oare faak brûkte metoade foar it bepalen fan nut. Yn dizze metoade wurdt pasjinten frege hokker fan 'e twa opsjes se leaver hawwe: of in bepaald oantal jierren yn normale sûnens libje mei in spesifike kâns (p) (t), en it risiko fan dea drage mei in 1-p kâns; Of soargje derfoar dat jo t jier libje ûnder krússûnensomstannichheden. Freegje pasjinten meardere kearen by ferskillende p-wearden oant se gjin foarkar sjen litte foar ien fan 'e opsjes, sadat it nut berekkene wurde kin op basis fan pasjintantwurden.
Neist metoaden dy't brûkt wurde om yndividuele pasjintfoarkarren út te finen, binne der ek metoaden ûntwikkele om nuttichheid te krijen foar de pasjintepopulaasje. Benammen fokusgroepdiskusjes (pasjinten byinoar bringe om spesifike ûnderfiningen te besprekken) kinne helpe om har perspektiven te begripen. Om groepsnut effektyf te aggregearjen, binne ferskate strukturearre groepdiskusjetechniken foarsteld.
Yn 'e praktyk is de direkte ynfiering fan nut yn it klinyske diagnoaze- en behannelingproses tige tiidslinend. As oplossing wurde enkêtefragenlisten meastentiids ferspraat ûnder willekeurich selektearre populaasjes om nutsskoares op populaasjenivo te krijen. Guon foarbylden binne de EuroQol 5-diminsjonale fragenlist, de 6-diminsjonale nutsgewicht koarte foarm, de Health Utility Index, en de Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30-ark.


Pleatsingstiid: 1 juny 2024