Raciale vooroordelen elimineren met synthetische gegevens in AI

Kunstmatige intelligentie (AI) blijft zijn waarde bewijzen door activiteiten te innoveren en de werklast voor organisaties in alle sectoren te optimaliseren. Naarmate meer industrieën de kracht van AI willen benutten, moeten we extra gevoelig zijn voor de gegevens die we gebruiken om deze technologie te trainen. Als we dat niet zijn, lopen we het risico terug te vallen tegen alle vooruitgang die de samenleving de afgelopen tijd heeft geboekt met betrekking tot intrinsieke vooroordelen tegen zwart, inheemse en gekleurde mensen (BIPOC).

De opkomst van synthetische data

Bedrijven gebruiken AI om zich op voorheen onontgonnen terrein te begeven. Human-in-the-loop datatraining kan je een heel eind brengen, maar hoe zit het met de gevallen waarin we geen eerdere gegevens hebben? Hoe kunnen we een AI-model leren iets te doen waar we zelf nog niet de tools of data voor hebben?

Oorspronkelijk moesten ontwikkelaars trainingsgegevens verzamelen die elk mogelijk scenario dekten om succesvolle AI-modellen nauwkeurig te kunnen trainen. Als een scenario zich niet eerder had voorgedaan of niet eerder was vastgelegd, waren er geen gegevens, waardoor er een enorm gat ontstond in het vermogen van de machine om dat specifieke scenario te begrijpen.

Er zijn realistische scenario’s die zich voordoen, maar die niet vaak genoeg gedocumenteerd zijn om over de overvloed aan gegevens te beschikken die nodig zijn om een ​​machine te kunnen trainen om deze te herkennen. We beschikken bijvoorbeeld niet over voldoende gegevens om een ​​alarmsysteem te trainen om een ​​indringer in huis te herkennen. Een ander voorbeeld is het trainen van een autonoom voertuig om een ​​kind te herkennen dat voor de auto rent. Hoewel extreem, zijn dit real-life scenario’s die we niet alleen kunnen trainen om een ​​machine te herkennen en erop te reageren met alleen human-in-the-loop data.

Waar een wil is, is een weg – en de weg wijst naar het pad van synthetische data.

Wat is synthetische data?

Synthetische gegevens worden gecreëerd door software, in tegenstelling tot gegevens die mensen hebben vastgelegd uit real-world scenario’s. Het stelt computerprogramma’s in staat om de hiaten in use-cases op te vullen door zeldzame gevallen en specifieke real-world scenario’s te orkestreren die typische door mensen verzamelde gegevens eenvoudigweg niet kunnen manifesteren. Dit worden randgevallen genoemd. Dit zorgt ook voor meer vrijheid en flexibiliteit als het gaat om het trainen van meer geavanceerde AI-toepassingen.

Edge-cases zijn de extreme, nachtmerriescenario’s waar de AI misschien niet op voorbereid is. Zo zijn rampen of misdrijven beide scenario’s waarin het moeilijk is om gegevens te verzamelen. Hoewel deze risicovrij kunnen worden gesimuleerd, moeten synthetische gegevens worden gebruikt in combinatie met zoveel mogelijk gegevens uit de echte wereld om de hiaten te dichten en holistische, inclusieve gegevenssets voor alle mogelijke scenario’s te garanderen.

tegen 2024, 60% van alle AI-gegevens naar verwachting synthetische gegevens zijn. Hoewel het idee van synthetisch gegenereerde data al geruime tijd bestaat, kan de recente groei voor een groot deel worden toegeschreven aan de sector van autonome voertuigen. Het kan echter worden toegepast in bijna elk programma dat gebruikmaakt van computervisie, zoals drones, beveiligingscamera’s en verschillende consumentenelektronica.

Geen mens betekent geen menselijke vooringenomenheid

Synthetische gegevens stellen bedrijven in staat om te breken met traditionele AI-gegevensbeperkingen. Wanneer ze worden gebruikt in combinatie met door mensen verzamelde gegevens, kunnen synthetische gegevens aanzienlijke voordelen bieden aan bedrijven, waaronder lagere kosten van gegevens en arbeid, hogere snelheid van gegevensverzameling, toegang tot edge-cases en meer inclusieve, minder vooringenomen datasets.

Net zoals vooringenomenheid een altijd aanwezige aanwezigheid in de samenleving is, heeft het ook ruimte in AI-datasets. Omdat deze datasets door mensen worden samengesteld, vertonen ze vaak dezelfde vooroordelen als de mensen die ze maken. Nee, dit zijn geen grote, voor de hand liggende vooroordelen, maar ze zijn genoeg om aanvragen te scheeftrekken op basis van geslacht en ras. Zelfrijdende auto’s herkennen bijvoorbeeld eerder blanke voetgangers versus zwartwat kan leiden tot grote veiligheidsproblemen.

Wat synthetische gegevens onderscheidt, is dat ze niet door mensen zijn gemaakt. Het zijn gegevens die door software voor AI zijn gemaakt. En hoewel het nog steeds bias kan erven van de originele set, betekent dit dat het veel minder of helemaal geen bias heeft.

Om de dataset echt inclusief te maken, moet deze alle mogelijke scenario’s en personen omvatten die deze kunnen gebruiken. Gezichtsherkenning voor uw mobiele telefoon moet bijvoorbeeld voor iedereen kunnen werken, dus moet deze worden getraind om huidskleur, haarkleur, haartype, verschillende gelaatstrekken, accessoires zoals een bril of zonnebril en meer te identificeren. Al deze variabelen moeten worden toegevoegd aan de trainingsdataset om inclusiviteit te garanderen. Meer specifiek, als we weten dat we geen gegevens hebben over brildragers, dan kunnen we die gegevens kunstmatig creëren om ervoor te zorgen dat de modellen werken voor brildragers.

Bovendien moet een autonoom voertuig worden getraind in alle wegsituaties, inclusief verschillende soorten wegen, verschillende straatgebarentalen, verschillende extreme ervaringen en wat er nog meer op zijn pad komt. Hoewel er actief gegevens uit de echte wereld worden verzameld om deze modellen te trainen, zijn er vaak scenario’s die onvoorspelbaar of zeldzaam zijn en die het model moet kunnen herkennen om alle betrokkenen veilig te houden. Laten we zeggen dat een ladder van de kofferbak valt voor het voertuig, het voertuig moet het object identificeren en eromheen bewegen. Deze scenario’s komen in de echte wereld niet genoeg voor om over voldoende gegevens te beschikken om een ​​model goed te trainen, maar ze kunnen kunstmatig worden gecreëerd door het gebruik van synthetische gegevens.

Nu synthetische gegevens steeds populairder worden, ziet de toekomst er rooskleurig uit voor AI. Naarmate meer en meer bedrijven het concept adopteren om door mensen verzamelde datasets aan te vullen, kunnen we veel meer inclusieve en representatieve datasets verwachten die zullen leiden tot veiligere en meer rechtvaardige toepassingen voor alle geslachten en rassen.


Wilson Pang is de CTO bij Appen en de co-auteur van Real World AI: een praktische gids voor verantwoord machinaal leren.


Leave a Comment

Your email address will not be published. Required fields are marked *