NieuwsMagazine

Keurmerk

Redactie: Rob van Steenbergen
Auteur: Nathalie Rooseboom de Vries – van Delft ● funtestic.fanatic@gmail.com
Nathalie Rooseboom de Vries - van DelftSommige artikelen vallen in eerste instantie niet op als relevant voor ‘ons testers’, het artikel over een algoritme-keurmerk is zo’n artikel. Het artikel verscheen veertien september in de Computable onder de titel: “Algoritme-keurmerk voor houvast in big data-bubbel”, geschreven door Pim van der Beek. Toch is het een voor ons vakgebied interessant artikel, waar een aanvullende ‘food-for-thought’ aan vastzit.
Het artikel bericht over twee bureaus (‘Verdonk Klooster & Associates’ en ‘Totta data lab’) die op dit moment bezig zijn een keurmerk te ontwikkelen die moet helpen beoordelen of algoritmes goed zijn gebouwd, goed worden beheerd en goed worden gebruikt. Ze verwachten eind september 2018 de eerste keurmerken te kunnen uitreiken. Dit is ook te lezen in het persbericht dat de beide bureaus naar buiten hebben gebracht (https://www.vka.nl/actueel/nieuws/totta-data-lab-en-vka-lanceren-eerste-keurmerk-algoritmes/) en waarop deze column is gebaseerd.
Toen ik het artikel las, gingen mijn gedachten in een razendsnel tempo van hot-naar-her en al snel begonnen de vragen zich op te stapelen. Overigens beken ik hier wel dat ik het artikel met een sceptische houding en enig cynisme heb gelezen en door mijn ervaringen in ‘datatesten’ en de debatten in ‘ethiek & data’ een bepaald vooroordeel heb over alles op het gebied van ‘toetsen/testen & data’.
Zo stellen de bureaus de vraag ‘Maar als algoritmes zo complex zijn, hoe weet je dan of het algoritme doet wat het moet doen?’. Ik vraag mij dan gelijk af: ‘ooit wel eens van het vakgebied ‘testen’ gehoord?’, waarbij gelijk in mijn achterhoofd diverse presentaties, publicaties en discussies spoken; ‘waarom dingen dan zo complex maken dat ze niet meer transparant zijn?’.
Onafhankelijkheid?
Vervolgens is er in het persbericht te lezen dat de beide bureaus een ‘onafhankelijk toetsingskader’ hebben ontwikkeld. Ik vraag me dan gelijk af ‘In hoeverre is iets ‘onafhankelijk’, als het ene bureau een auditor is en het ander bureau een ontwikkelaar van modellen (dat wil zeggen: de algoritmes waar het over gaat)?’. Is dit toetsingskader wel écht onafhankelijk of toetst het altijd in het voordeel van de genoemde ontwikkelaar? En als dit toetsingskader door een ander wordt uitgevoerd dan voornoemd toetsingsbureau, is dit toets zélf dan wel ‘onafhankelijk’ of – ik val in herhaling- valt de toets altijd in het voordeel uit van de genoemde ontwikkelaar? In het Sranan (Surinaams – wat ik op dit moment aan het leren ben) kent men een spreekwoord: ‘Als de ene hand de andere wast, worden ze beide schoon’ en ik vind dat een heel toepasselijke in dit kader. ‘Wij testers’ weten als geen ander wat het belang is bij toetsen en testen van onafhankelijkheid. We hebben regelmatig te maken met vraagstukken als deze als, bijvoorbeeld, iets gebouwd en getest wordt door hetzelfde bedrijf en we zijn ook bekend met het fenomeen dat bedrijven testen altijd door een ander bedrijf laten uitvoeren dan diegene die bouwt. Met de introductie van Agile teams is het vraagstuk van ‘onafhankelijk testen’ (zoals ook overigens beschreven staat in de oude en nieuwe standaarden) wellicht minder zichtbaar, maar nog steeds aan de orde.
Begrijp me niet verkeerd, ik ben blij dat er (eindelijk) serieuzer wordt gekeken naar de verschillende aspecten van datagedreven informatieverwerking zoals ‘privacy’, ‘vooroordelen’ en ‘discriminatie’. Zeker omdat – zoals het artikel ook stelt – er geen of nagenoeg geen beleid is bij de overheid (‘Er is op dit moment nog geen beleid vanuit de overheid voor het gebruik van algoritmes. We hebben ervoor gekozen om deze regelgeving niet af te wachten’) en ook in het kader van de ophef rondom de ‘motie Verhoeven’ (‘overwegende dat de onderliggende logica van het Systeem Risico Indicatie (SyRI) niet openbaar is, terwijl het systeem een aanmerkelijke impact op burgers heeft of kan hebben; verzoekt de regering, informatie over de gebruikte databestanden, algoritmes en analysemethodes van SyRI openbaar te maken’). Ik kan me echter voorstellen dat goede algoritmes goud waard zijn voor de ontwikkelende bedrijven en ze verre van staan te trappelen om die openbaar te maken. Ik vraag me dan af of dit toetsingskader is bedoeld om uiteindelijk de ‘maatschappij’ af te schepen met een keurmerk ‘het is goed’ en dan die transparantie niet hoeft te geven óf dat in dit toetsingskader juist een ‘kwaliteitsattribuut’ over ‘transparantie en openbaarheid’ en scoort men ‘lager’ als men er niet goed op scoort? En in het geval van het laatste: wat gaat men er aan doen en ook wie gaat er wat mee doen is hier relevant. Diegene die er achter komt dat een algoritme ‘problematisch’ is en dit aan de ‘grote klok’ wil hangen, denkt wel twee keer na als het om een grote multinational gaat of bepaalde overheden (paranoïde gedachtegang bij het lezen van een ander artikel in dezelfde Computable over de ‘verdwaalde’ Kamphuis: https://www.computable.nl/artikel/nieuws/security/6453767/250449/spullen-gevonden-van-vermiste-cyberexpert-kamphuis.html) ).
‘Stempels van goedkeuring’
Mijn laatste gedachtekronkel bij dit artikel is puur op het aspect ‘keurmerk’ gericht. Binnen ons ‘vakgebied’, heb ik dit in ieder geval al gezien, waarbij het ging om ‘onderhoudbaarheid van code’, waarmee de software improvement group in 2011 op de markt kwam en waar ook ‘iFSQ’ baanbrekend werk heeft verricht. De kwaliteitsattributen vanuit de ISO25010 (opvolger van ISO9126) lenen zich best (voor een groot deel dan) om te vertalen naar ‘stempels van goedkeuring’. De vraag is of er een behoefte aan is en of het bedrijf dat het keurmerk ontvangt er een voordeel bij heeft ten opzichte van een bedrijf dat het keurmerk niet heeft. Zo vraag ik me werkelijk af of die bedrijven die de voornoemde ‘onderhoudbaarheid’ keurmerken hebben ontvangen hier een significant voordeel uit hebben gehaald. Als klant heb ik in ieder geval niet gedacht: ‘O wauw! Bedrijf X heeft goed onderhoudbare code; daar ga ik mijn producten afnemen’. Vooralsnog denk ik dat keurmerken vooral de goedkeuring kunnen wegdragen van die bedrijven die ze voor een riante vergoeding uitreiken. Misschien moet ik toch overwegen het ‘Tested by Nathalie®’ keurmerk te vermarkten…

één reactie

  1. Het artikel was me ook opgevallen en bij mij dezelfde scepsis.
    Een eerste gevoel hierbij was ‘mosterd na de maaltijd’. Niemand begrijpt de algoritmes die ons hele wereldwijde economisch systeem besturen meer. Zonder enige aanwijsbare aanleiding kunnen de automatische systemen die aandelen verhandelen dingen doen die eigenlijk niemand meer begrijpt. Een keurmerk op dergelijke code zou leuk zijn, maar het komt dan wel een kleine 10 jaar te laat.
    Dan is er nog het belang van de grote internationale privacy-schenders (Google, Facebook, de duizenden advertising-bedrijven) wiens bedrijfsmodel direct geschaad wordt door transparantie en ethische kaders. Die gaan dergelijke keurmerken nooit zelf aanvragen en als er overheden denken dit af te kunnen dwingen wordt de bedrijfsvoering wel verplaats naar landen waar overheden dit niet doen.
    Waar ik nog wel waarde zie is in software gebruikt door de overheid, bv. de software voor de stemcomputer. Aan de andere kant zie je daar al wel dat er transparantie geëist wordt, de code moet openbaar gemaakt worden en onafhankelijke specialisten kijken er dan doorgaans al kritisch naar. De vraag is wat een keurmerk dan toevoegt.
    Zijn er problemen op dit vlak? Zeer zeker (bv. het Amerikaanse systeem gebruikt in de rechtszaal waar de verdachte een ‘kans op herhalingscijfer krijgt…die software blijkt racistisch). Maar een keurmerk gaat dit niet oplossen tenzij bepaalde zaken door overheden worden afgedwongen via wetgeving. En als die wetgeving er is, wat voegt een keurmerk dan toe? Een stempel dat je aan de wet voldoen? Dat moet je sowieso wel.
    Een laatste probleem is dat een keurmerk als dit de belangrijkste ontwikkeling op gebied van algoritmes van de afgelopen jaren niet kan adresseren, namelijk neurale netwerken / AI’s. De algoritmes die door een dergelijk netwerk worden ‘bedacht’ zijn niet hard-coded en statisch te beoordelen…als ze al ingezien kunnen worden. Je zou wat kunnen zeggen over de trainingsdata en de opzet van het netwerk, maar dat biedt weinig zekerheid voor de toekomst (zie de chatbot van Microsoft die binnen een dag racisme twitterde).
    Wat mij betreft dus meer een stukje schijnzekerheid en werkverschaffing maar geen oplossing voor een daadwerkelijk probleem.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *