Osman Rana/Hayon Thapaliya/Unsplash

I dette indlæg beskrives nogle af de elementer jeg mener man skal tage i betragtning, når vi implementerer machine learning / AI-modeller der skal indgå i beslutningstagningsprocesser. Du vil få et indblik i hvorfor xAI er relevant og hvordan vi med et xAI-mindset kan hjælpe virksomheder og organisationer med succesfulde AI-implementeringer, der bliver velintegreret og brugbare, også frem i tid.

Algoritmiske modeller indenfor AI er under rivende udvikling; kompleksiteten i deres udformning og kunnen, er ikke længere entydigt. Samtidig udvides områderne, for hvor teknologien kan tages i brug, til stadighed. Der er ikke længere tale om ’AI’ der kan forudsige vejret – eller foreslå hvilken serie du nu skal se på Netflix. Derimod modeller der kan detektere cancer på røntgenbilleder, estimere din forsikringspræmie baseret på et billede af dig, vurdere din kreditscore i din bank, vurdere, om du er en dårlig betaler til SKAT eller måske identificere dig som værende i relation med kriminelle – som dermed øger sandsynligheden for, at du også selv er kriminel!

Algoritmer er blevet en større del af både vores arbejde og hverdag, og får større og større betydning for os som individer. Netop derfor er debatten om ’Explainable AI’ (xAI) blusset op i medierne de senere år. Nyheder om, hvordan folks foto fejlagtigt er udvalgt af en AI-model til at være gerningsmanden bag et væbnet røveri – og dømt derefter, dukker op i medierne. Samtidig søger folk hjælp til at forstå, hvorfor de ikke kan få prøveløsladelse, et lån eller hvorfor de får foreslået en fejlagtig og forkert behandling af deres cancer

Denne udvikling indenfor brugen af AI/ML skaber behovet for at forstå, hvad algoritmen gør. Organisationer og softwarevirksomheder opsætter programmer for at øge transparensen og forståelsen af disse kraftige værktøjer. Både i forsknings- og erhvervsverdenen er der stor enighed om at der skal langt mere fokus på forståelsen af hele processen for algoritmiske beslutninger og fortolkningen heraf. Dette er en nødvendighed for at vi kan komme videre i både udviklingen og implementeringen af ny teknologi – uden at gøre skade på individet.

Hvorfor er AI stadig mere hype end håndgribelige implementeringer? 

I 2017 rapporterede Danmarks Statistik, at vi i Danmark kun anvendte AI/ML i 5 pct. af vores virksomheder. På trods af det, var vi landet med den højeste digitaliseringsgrad på 42%. I 2019 har Microsoft og EY genereret en rapport om hvordan 277 af de største danske virksomheder bruger AI. Her rapporteres det at kun 4 pct. af virksomhederne aktivt bruger AI til håndtering af komplekse opgaver, hvorimod 61 pct. stadig er i gang med piloter, eller planlægger initiativer. Rapporten viser også de tre største risici som virksomhederne ser, i at arbejde med AI/ML er:

  1. Regulatory Requirements: Behovet for klare retningslinjer for AI, så der ikke investeres i noget der er lovligt lige nu, men på sigt ikke vil være lovligt.
  2. Impact on Personnel: Fornyelse hænger uløseligt sammen med forandring, håndtering af ’change management’ og et kulturelt skift imod at turde.
  3. Upkeep of the system: Frygten for at der skal komme noget nyt og bedre lige rundt om hjørnet, inden en acceptabel ROI er opnået. Derudover ser danske virksomheder det svært at demonstrere business casen for AI, i små pilotprojekter.

One of the key challenges is meeting the high expectations from the organization – AI is not magic, but takes considerable effort to successfully implement – H. Lundbeck

Dette er nogle af årsagerne til, at vi i Danmark, ikke er på forkant, når det gælder selve implementeringen og anvendelsen af disse stærke algoritmer. På trods af at vi er et af de højest digitaliserede lande i verden – og at vi har nogle af de bedst uddannede udviklere i verden, har implementeringen af disse mere avancerede modeller ikke taget fart endnu.

De tre nævnte overskrifter, hænger også tæt sammen med at vi i Danmark er et forsigtigt folkefærd, hvad ’nye’ ting angår. Vi har en manglende organisationsstruktur for at kunne håndtere et AI-projekt og tilhørende udfordringer med at tolke compliance og GDPR-lovgivningen, etableringen af ansvarsroller og selve udførelsen af projektet. Tolkning af lovgivningen bliver ofte unødigt kompliceret, hvis ikke man tænker det ind i projektet fra starten. Dette er meget klassisk, da vi endnu ikke har indarbejdet det i et klassisk CRISP-DM-framework! Derudover har vi, i kraft af vores digitale modenhed også været udsat for mange fejlslagne AI-projekter, fordi de testede eller implementerede modeller fortolkes forkert, eller forvrænges, i forhold til hvad intentionen af modellen har været. Derfor er der behov for at genetablere tilliden til de ’brændte virksomheder’, der tidligere har leget med ilden og nu skyer den.

Skærer vi helt ind til benet, handler (succesfulde) AI/ML-integrationer om interaktionen mellem mennesket og maskinen. Interaktionen skal være entydig, troværdig og ligetil! I udviklingen og etableringen af AI/ML-modeller, skal vi tilfredsstille hele kredsen af stakeholders, der varierer i forbeholdenhed; fra det toårige barn der stopper alt i munden uden at tænke over det, til den evige petitesse-rytter der vender og drejer den mindste detalje. I begge ender af skalaen skal vi kunne etablere en følelse af at vi er blevet godt behandlet af algoritmen, og at vi forstår hvad der sker. Dette er en kompliceret proces, men drives fundamentalt af: Trust (Tillid/Tiltro), Transparency (gennemsigtighed/gennemskuelighed) and Understanding (forståelse). 

TRUST

If we cannot explain the algorithms, we cannot argue against them, verify them, improve them or learn from them (Samek, Wiegand, & Müller, 2019).

Fagekspert og beslutningstager

Tillid til algoritmernes klassificering, forudsigelse eller afgørelse er essentielt ift. at kunne fortsætte vores teknologiske fremgang og udvikling af machine learning og AI. Når vi taler om mennesker, er det tydeligt at niveauet af tillid til et andet menneske, afgører ens egen ageren og handlinger. Dette gør sig også gældende, når vi interagerer med ’maskiner’. Stoler vi ikke på deres output, bruger vi det ikke, undgår eller omgår det, så hele implementeringen af en AI-model kan slå fejl. Dette er et typisk eksempel på en beslutningstagers problematik. De kan sidde som eksperter indenfor et fagligt område, og vurdere f.eks. din kredit i din bank, men samtidig have en skepsis overfor et maskin-genereret output, som ikke er gennemsigtigt. Derfor afviger de og følger deres egen vurdering. 

Studier fra Bakerly J. Dietvorst viser, at selv om en model har 85% præcision i en klassificeringsopgave, og man selv, som beslutningstager kun har 75%, dømmer vi modellen meget hårdere end vi burde, da vi selv bliver udkonkurreret. På trods af dette, vil vi gerne have modellen har tæt på 100% præcision før vi godtager dens output, specielt når der er tale om beslutninger, der træffes af fageksperter (Dietvorst, Simmons, & Massey, 2015). I disse tilfælde kan man benytte f.eks. en metode kaldet ekstern side-by-side sammenligninger. Denne sammenholder og anonymiserer både menneskets og ’maskinens’ klassifikation. På den måde testes begge afgørelser objektivt, samtidig.

Modtageren af en automatiseret beslutning

Når algoritmer bliver brugt til at understøtte beslutninger i form af forudsigelse, klassificering eller analyse, skal det være klart hvordan man fortolker det output modellen kommer ud med. Når det ikke længere handler om hvordan musikforslag fra Spotify genereres, men f.eks. hvilke piller du skal tage imod en infektion, er det straks noget andet. Her er det i værste fald dit eget liv der er på spil. 

Når det gælder afgørelser der vedkommer os selv, er vi (sjovt nok) meget mere kritiske, overfor en beslutning understøttet af machine learning. Vi som mennesker, har en tendens til at stole på algoritmerne frem for f.eks. vores doktor, så længe problematikken om udfaldet ikke er voldsomt kompliceret (Logg, 2018; Michelman, 2017). Men, bliver problematikken væsentligt mere kompliceret og lægen skal tage en længere sygehistorik med i perspektivet, er vi meget mere tilbøjelige til at stole på mennesket, frem for maskinen. Dette er i bund og grund helt på hovedet, da vi mennesker ikke kan holde styr på nær så mange faktorer som en maskine kan (bounded rationality), hvorfor en algoritme her, er meget mere anvendelig end os. Så, når vi står i en kompleks situation, der berører os selv, eller hvis vi har erfaringer med at en machine learning model ikke er perfekt, er vores egen dømmekraft påvirket og vi vil generelt hellere bruge vores egen dømmekraft eller ’intuition’, søge mod det kendte og, i vores øjne, ’stabile’ i mennesket.

Dette er et helt naturligt mønster, som vi stille og roligt er nødt til at rykke på, før vi for alvor kan tage machine learning modeller i brug, i mere kritiske beslutningstagningsprocesser. Derfor advokerer vi for at sætte gennemsigtigheden (Transparency) i højsædet, så vi kan forstå hvordan maskinen arbejder.

TRANSPARENCY

Man skal ikke lede længe efter ’black-box’ problematikker i pressen; politikere og forskere der argumenterer for at machine learning algoritmer skal være mere gennemsigtige. Argumenterne er ofte at minimere uligheder i klassifikationer/forudsigelser og dermed også eliminere diskrimination af mindre repræsenterede klasser eller fejlagtige bestemmelser, som dermed resulterer i en ulige behandlet af folk. Overordnet er hensigten om større gennemsigtighed god, og det er fristende at kunne løse problematikkerne vedrørende uforståelige algoritmer og deres bias ved at udlevere source code og det datasæt der er brugt til at træne modellen med. Det er dog desværre langt fra en løsning der skaber gennemsigtighed, og overvældende meget materiale ligger allerede offentligt tilgængeligt på steder som GitHub, Kaggle, Google Dataset Search, Stack Overflow m.fl. For os lægfolk, giver adgang til alt dette materiale ikke nogen synderlig stor forståelse af hvad der sker. Resultatet er at vi kun kan ’se, uden at forstå’ (Ananny & Crawford, 2016). Dermed opstår en uigennemsigtig barriere, der kun kan gennemtrænges af teknisk elitære folk, og ikke den almene befolkning. Ananny & Crawford beskriver, ud over teknisk elicitet, to andre årsager til uigennemsigtighed. Som tidligere nævnt, kan skalering i kompleksitet og mængder af data, samt antallet af faktorer der spiller ind, gøre det uoverskueligt for os som mennesker at gennemskue hvad der foregår (Burrell, 2016). Det er bl.a. derfor dybe neurale netværk ansees som ’black box’. I neurale netværk, er præcisionen ofte meget høj, men kompleksiteten ligeså, hvilket gør det umuligt for et menneske at begribe. Slutteligt er der en tilsigtet form for uigennemsigtighed baseret på organisatorisk / stats-’hemmeligheded’, som ikke alle skal kunne forstå. Eksempler herpå er f.eks. din risiko-score i din banken, så man ikke kan ’game’ systemet. Et andet eksempel er Googles søgemaskinealgoritme, der er uhyre komplekts, så man ikke bare kan smide alle de vigtige nøgleord i bunden af en side, for at rankere højest i en søgning. Selvom det er to meget forskellige eksempler, har de samme formål, at afholde folk fra at forstå hvad der foregår, fordi der er en (meget reel) frygt for at folk ellers vil misbruge systemet. Det var bl.a. dét argument, der blev brugt af OpenAI om deres teknologi, da de (i første omgang) lancerede en mini-version af deres ’historiegenerator’, af frygt for at den ville blive brugt med onde eller dårlige intentioner. Historiegeneratoren består af et neuralt netværk,  GPT-2, der kan fortsætte en historie du selv begynder (test den her). Frygten for autogenerering af ’fake news’ må imidlertid være aftaget (ifølge OpenAI, som bl.a. er støttet af Elon Musk), eftersom den fulde version nu er tilgængelig på GitHub.

“Some designers may not release detailed information about their systems, not due to trade secrets or competitive advantage, but because they lack trust in the ethics and intentions of those who might see them. Leonardo da Vinci refused to publish the exact details of his early submarine designs: “I do not publish nor divulge these, by reason of the evil nature of men, who would use them for assassinations at the bottom of the sea.” – Leonardo da Vinci (Pasquale, 2015)

Så, selvom det er fristende at argumentere for ren og skær gennemsigtighed over hele linjen, skal man altså overveje hvor det kan lade sig gøre, forretningsmæssigt, for hvem det giver mening for, at kunne ’se’ modellen, og slutteligt hvem det skaber værdi for.

UNDERSTANDING

 

“… if you understand something in only one way, then you scarcely understand it at all.” – Marvin Minsky (Minsky, 2006)

Selvom vi har adgang til kildekoden, har vi ikke alle de tekniske færdigheder til at kunne forstå hvad der rent faktisk foregår i en AI/ML-model. Når vi arbejder med machine learning skal vi derfor kunne forklare hvad der sker, på flere forskellige niveauer, for at tilgodese forskellige interessenter.

Den gode forklaring:

For at kunne forstå hvad en machine learning-model kommer med, af output, kræver det den ’rigtige’ forklaring i den ’rigtige’ kontekst, der resulterer i en acceptabel forståelse fra modtageren (Miller, 2019; Molnar, 2019). En forklaring er konstrueret af flere forskellige delelementer, som tilsammen skal fremme den gode forklaring. Nogle af de vigtige elementer i en forklaring er: 

  • En del af et socialt konstrueret miljø, hvor vi skal tage højde for hvem målgruppen for forklaringen er til.
  • At en forklaring skal kunne stå i kontrast til et andet udfald, da vi som mennesker søger forklaring på ’hvorfor foreslår modellen dette, og ikke et andet udfald?”
  • At en forklaring skal kunne have fokus på de anormale tilfælde, men samtidig også kunne bekræfte vores egne overbevisninger om generelle tendenser vi selv tror på.

Det er ikke så lidt, og måske også derfor det kan være svært at fremstille den gode forklaring, hvor du står tilbage med ro i maven og en fornemmelse af at du er blevet ordentligt behandlet af modellen. At kunne skabe denne forklaring, kræver et stærkt tværfagligt samarbejde mellem data scientists, adfærdsspecialister og kommunikationsfolk, så en forklaring rammer dig og dit behov. Ydermere, har forskning vist, at vi mister tiltroen til beslutninger truffet af machine learning algoritmer, hvis vi ikke forstår de generelle teorier der ligger til grund for deres udfald (Miller, 2019; Samek et al., 2019). Så vi skal altså også kunne sætte forklaringen i perspektiv for modtageren. Dette er i dag muligt, med fundament i xAI-løsninger så som LIME (Local Interpretable Model-agnostic Explanations), der giver mulighed for at få et indblik i hvordan machine learning modellen er nået frem til dens output, uden at være ekspert.

Med værktøjer så som LIME, SHAP, ELI5 og mange andre, kan vi nu også generere forklaringer på mange forskellige niveauer, for den individuelle prædiktion/klassifikation eller for en hel gruppe. De kan også forklare hvilke datapunkter der er årsagen til udfaldet og hvilke datapunkter der er misledende. Med disse xAI-værktøjer, kan vi nu komme tættere på en forklaring der skaber en bedre forståelse for både ’almindeligt dødelige mennesker’, der skal kunne forstå hvorfor de ikke kan omlægge deres huslån, eller hvorfor deres senfølger af brystkræft med større sandsynlighed vil være depression, frem for føleforstyrrelser – til den anden ende af forklarings-skalaen med de data scientists der skal sikre at machine learning modellen lever op til opsatte standarder. Disse folk kan med disse nye værktøjer få indblik i hvilke faktorer (selv i neurale netværk) der har størst indflydelse på udfaldet. xAI giver dermed udviklerne mulighed for at forstå hvor der er en kausalitet frem for korrelation og gøre modellen stærkere.

Med de mange forskellige typer af forklaringer, i forskellig kontekst, til forskellige mennesker, med forskelligt formål, skal vi ikke at gøre det mere kompliceret end det er. 

Vi som mennesker, er stadig begrænset i vores evne til at tage mange variabler med i overvejelserne om et givent udfald, (bounded rationality) og vores særlige sensitivitet i forhold til hvad vi tidligere er blevet præsenteret for af udfald, i lignende situationer, leder os på afveje (Kahneman, Slovic, & Tversky, 1973). Det resulterer i at vi, i almene tilfælde skal konstruere en forklaring der tager de væsentligste faktorer med, i stedet for dem allesammen og adressere det enkelte udfald i kontekst af helheden. 

Hos Carve ser vi et tæt samspil mellem TRUST, TRANSPARENCY og UNDERSTANDING i implementeringen af machine learning modeller, og har indopereret dette i vores tilgang for udvikling af machine learning modeller til vores kunder.

Med denne introduktion til, hvorfor machine learning projekter ikke altid bliver en successhistorie, og tre hovedemner der påvirker vores adoption af den til stadighed større brug af machine learning, håber jeg I har fået mod på: 

  • At se tilbage på tidligere pilotprojekter, som endnu ikke er taget i brug og stille spørgsmålet – hvorfor ikke, med xAI brillerne
  • Overveje om jeres første (ellers næste) machine learning projekt skal være med ’xAI by design’
  • Kontakte os for en demo af hvordan vi rent faktisk bygger xAI ind i vores machine learning modeller

Tak fordi du læste med!

Julie Gerlings

Julie Gerlings

Bibliography

Ananny, M., & Crawford, K. (2016). Seeing without knowing: Limitations of the transparency ideal and its application to algorithmic accountability. New Media & Society, 20(3), 1–17. https://doi.org/10.1177/1461444816676645

Burrell, J. (2016). How the machine “thinks”: Understanding opacity in machine learning algorithms. Big Data & Society, JanuaryJu, 1–12. https://doi.org/10.1177/2053951715622512

Dietvorst, B. J., Simmons, J. P., & Massey, C. (2015). Algorithm Aversion : People Erroneously Avoid Algorithms After Seeing Them Err. 144(1), 114–126.

Kahneman, D., Slovic, P., & Tversky, A. (1973). Judgement Under Uncertainty: Heuristics and Biases. In NTIS (24th ed.). Retrieved from c:%5CICT%5CEILS%5CHypergole Systeme%5C1973 Rep Effect of Pressure on Ignition of Hypergolic Liquid Propellants.pdf TS  – RIS

Logg, J. (2018). Theory of Machine: When Do People Rely on Algorithms? SSRN Electronic Journal. https://doi.org/10.2139/ssrn.2941774

Michelman, P. (2017). When people don’t trust algorithms. MIT Sloan Management Review, 59(1), 10–13. Retrieved from http://mitsmr.com/2sNfART

Miller, T. (2019). Explanation in artificial intelligence: Insights from the social sciences. Artificial Intelligence, Vol. 267, pp. 1–38. https://doi.org/10.1016/j.artint.2018.07.007

Minsky, M. (2006). The emotion machine : commonsense thinking, artificial intelligence, and the future of the human mind. Simon & Schuster.

Molnar, C. (2019). Interpretable Machine Learning. A Guide for Making Black Box Models Explainable. 247. Retrieved from https://christophm.github.io/interpretable-ml-book/

Pasquale, F. (2015). THE BLACK BOX SOCIETY: The Secret Algorithms That Control Money and Information. Retrieved from https://doc.lagout.org/science/0_Computer Science/2_Algorithms/The Black Box Society_ The Secret Algorithms that Control Money and Information %5BPasquale 2015-01-05%5D.pdf

Samek, W., Wiegand, T., & Müller, K.-R. (2019). EXPLAINABLE ARTIFICIAL INTELLIGENCE: UNDERSTANDING, VISUALIZING AND INTERPRETING DEEP LEARNING MODELS. Retrieved from https://arxiv.org/pdf/1708.08296.pdf).