AI alignment
AI alignment (uitlijning van kunstmatige intelligentie) is een onderzoeksgebied binnen de kunstmatige intelligentie dat zich richt op het in lijn brengen van de doelen en het gedrag van KI-systemen met menselijke waarden, intenties en belangen. Dit onderzoek heeft als doel KI-applicaties veilig en voorspelbaar te houden. Naarmate KI-systemen complexer, krachtiger en autonomer worden zal het waarschijnlijk lastiger worden om de gevolgen van hun gedrag/reacties te voorspellen en te beheersen. Daarnaast hebben bijvoorbeeld grote taalmodellen, beslissingssystemen of generatieve KI de gewoonte menselijk gedrag in extreme vorm na te bootsen waardoor vooroordelen versterkt worden of polarisatie bevorderd wordt.
In grote lijnen komt alignment op het volgende neer:
- Een systeem interpreteert de doelen van de ontwerper op de juiste manier
- Het streeft deze doelen na op een ethische manier en binnen maatschappelijk wenselijke grenzen
- Het gedraagt zich robuust in nieuwe en onvoorziene situaties.
Het implementeren van AI alignment speelt niet alleen wanneer in de toekomst een kunstmatige algemene intelligentie wordt ontwikkeld maar ook binnen minder geavanceerde applicaties. Zo kunnen grote taalmodellen hun gebruikers versterken in hun destructieve ideeën of onjuiste feiten presenteren die wel alom vertegenwoordigd zijn op internet. Sociale media kunnen hun gebruikers aanbevelingen doen waardoor ze langzaam in hun eigen bubbel of fuik terecht komen. Wanneer zelfrijdende auto's hun intrede gaan doen zullen ze ook afwegingen moeten gaan maken om ongelukken te voorkomen of wanneer het niet anders kan het aantal slachtoffers te beperken.
Het is moeilijk menselijke waarden en intenties volledig en ondubbelzinnig te formaliseren in een doel- of beloningsfunctie, terwijl onvolledige of verkeerd geformuleerde specificaties weer kunnen leiden tot ongewenst gedrag. Dit wordt het specificatieprobleem genoemd. Een ander probleem is dat een complex systeem mogelijk subdoelen zal nastreven. Het doel is dan wel gewenst maar de tussenliggende doelen, die mogelijk lang verborgen blijven, zijn niet gewenst. Commerciële organisaties zullen snel geneigd zijn om hun producten aan te bieden en hierom minder inzetten op veiligheid. Zo zijn sociale media winstgevend gebleken ondanks, of zelfs doordat, ze schadelijke uitwerking hebben zoals verslaving, polarisatie en nepnieuws. De concurrentiedruk kan leiden tot een neerwaartse spiraal in de veiligheidsnormen, de race naar de bodem.
Oplossingen
[bewerken | brontekst bewerken]Een aantal (deel)oplossingen zijn:
- Het vooraf filteren van schadelijke data. Bijvoorbeeld door toxische posts of haatspraak vooraf uit te sluiten bij het trainen van een model.
- Een beloningssysteem aan de training toevoegen dat het juiste gedrag herkent en beloont. Claude AI gebruikt een zogenaamde grondwet die als feedback dient bij het trainen van het taalmodel.
- Menselijke feedback. Doordat het model tijdens de training en mogelijk het gebruik, aan de hand van menselijke feedback leert wat juist is en wat niet. Dit worden proxy goals genoemd. Een van de kritiekpunten is dat een systeem mogelijk leert om mensen te misleiden.
- Regel-gebaseerde (guardrails) beperkingen inbouwen waarbij hardcoded een blokkade, noodstop of filter wordt ingebouwd.
- Transparantie en (Interne) monitoring waarbij constant geanalyseerd wordt wat een model doet en wat de onderliggende reden is.
- Robuustheid inbouwen door het model bewust te testen met manipulatieve, schadelijk of onlogische input.
- Inbouwen van menselijke tussenstappen waardoor op een cruciaal moment een mens eerst nog toestemming moet geven. Dit wordt ook wel human in the loop genoemd.