Hoe AI-data-engines te bouwen die de juiste data op het juiste moment gebruiken

Sluit je aan bij leidinggevenden van 26-28 juli voor Transform’s AI & Edge Week. Luister naar topleiders die onderwerpen bespreken rond AL/ML-technologie, conversationele AI, IVA, NLP, Edge en meer. Boek nu uw gratis pas!


Machine learning (ML) heeft brede toepassingen – en met name gesuperviseerde ML heeft de afgelopen jaren een vlucht genomen.

Het is dus van cruciaal belang dat organisaties data-engines bouwen die de juiste data gebruiken in de juiste fase van de levenscyclus van hun projecten, vertelde Manu Sharma het publiek op VentureBeat’s Transform 2022-evenement.

De oprichter en CEO van Labelbox legde uit dat het ‘fundamentele uitgangspunt’ van gesuperviseerde ML het creëren van geannoteerde of gelabelde gegevens is. Dit omvat het toepassen van semantische annotaties op ongestructureerde informatie, zoals tekst en video. De sleutel is om dit op een nauwkeurige manier te doen, zodat annotaties of labels een goed beeld geven van de bedrijfslogica of bedrijfstoepassing, legt Sharma uit.

Gegevens worden vervolgens ingevoerd in neurale netwerken, met de bedoeling dat die netwerken het gedrag van de gegevens nabootsen.

Het platform van Labelbox maakt het labelen van gegevens in elke modaliteit mogelijk – afbeeldingen, video of tekst – en in elke configuratie. Het catalogusaanbod van het bedrijf brengt alle ongestructureerde gegevens op één plek en stelt teams in staat om “de gegevens voor een verscheidenheid aan toepassingen te segmenteren, in stukjes te snijden en in blokjes te snijden”, aldus Sharma. De tools van het bedrijf bereiden ook gegevens voor voor modeltraining, evenals voor het testen en evalueren van modellen.

Knelpunt iteratiecyclus

Sharma beschreef een “fundamenteel knelpunt” als het gaat om iteratiecycli voor het ontwikkelen van kunstmatige intelligentie (AI) -systemen. In 90% van de ondernemingen kan het maanden duren voor elke iteratie – en de tijd tot implementatie wordt aanzienlijk als je bedenkt dat elk model 50 tot 100 iteraties kan doorlopen, zei hij.

“Het is echt moeilijk om gelabelde gegevens om te zetten in AI-productiemodellen”, zegt Sharma. “Het is gemakkelijk om prototypes te maken, maar het is erg moeilijk om die modellen om te zetten in productie.”

Sommige Labelbox-klanten hebben modellen in 3 tot 6 maanden kunnen implementeren, hoewel hij erop wees dat niet alle use-cases hetzelfde zijn. “Sommige use-cases zijn echt harde, verbazingwekkende longtail-edge-cases die teams blijven najagen”, zei hij.

Over het algemeen denken bedrijven echter op hogere niveaus en krijgen ze inzicht in hoe ze de juiste technologieën en producten kunnen gebruiken om hun modellen sneller te herhalen en in productie te krijgen.

“Alle technische spectrums hebben door de jaren heen geprofiteerd van snellere iteratie”, zei Sharma. Als voorbeelden noemde hij biotechnologie, zelfrijdende auto’s en raketten. “De beste bedrijven in deze segmenten zijn degenen die hun producten snel hebben kunnen integreren en op de markt hebben gebracht – vooral (die bedrijven) die zeer innovatief zijn.”

Hoewel snelheid tot implementatie van cruciaal belang kan zijn, moet deze zorgvuldig worden afgewogen tegen de behoeften van de klant en algemene veiligheids- en privacykwesties (met name bij zelfrijdende auto’s of banktoepassingen bijvoorbeeld).

“Er moeten zeker checks and balances komen waar teams ervoor zorgen dat ze hun modellen kunnen testen voordat ze in productie gaan”, aldus Sharma.

Het vliegwiel van de data-engine versnellen

Sharma beschreef vier “grote stappen” in de workflow van de moderne data-engine.

De eerste is het creëren van gegevens en het identificeren van de “juiste gegevens” om de modelprestaties te verbeteren.

De tweede is datalabeling, die zowel menselijke als programmatische labeling omvat. Afhankelijk van hun use-case moeten teams beslissen welke strategieën ze willen exploiteren, zei hij.

De derde en vierde stap zijn respectievelijk trainen, testen en evalueren. Engineeringteams werken aan het verbeteren van de gegevenskwaliteit – dat wil zeggen, het vaststellen van wat ‘de grondwaarheid’ wordt genoemd – door de ‘juiste gegevens’ te identificeren in de niet-gelabelde ruimte die moet worden gelabeld; en het uitvoeren van de vereiste “operatie” zoals het wijzigen van parameters of hyperparameters.

“De kracht van deze data-engine is dat als je hem eenmaal op een georganiseerde manier hebt opgezet, hij niet meer te stoppen is”, zegt Sharma. De applicatie produceert gegevens, krijgt deze gelabeld, modellen worden omgeschoold, dit alles bouwt een “vliegwiel” waarvan de waarde in de loop van de tijd toeneemt.

En veel bedrijven willen dit vliegwiel zo snel mogelijk bouwen, zei hij – wat betekent dat de best mogelijke gelabelde gegevens worden gebruikt, niet noodzakelijkerwijs modellen op alle beschikbare gegevens.

De toekomst van AI staat nog steeds onder toezicht

Een van de meest interessante dingen die nu gaande zijn in de AI-ruimte is de “heruitvinding” van natuurlijke taalverwerking (NLP), zei Sharma.

Chatbots hadden een hype-and-bust-cyclus, maar nu met de opkomst van GPT-3 en BERT, integreren meer organisaties NLP-modellen in dagelijkse interne ervaringen of klantbetrokkenheid. Deze modellen kunnen heel snel menselijk gedrag nabootsen met veel minder gegevens dan voorheen.

“De limiet is hier zeker eindeloos”, zei Sharma.

Ondertussen is toezicht hier om te blijven, zei hij.

Hij beschreef supervisie als elke handeling waarbij mensen tussenbeide komen met of instructies geven aan een computer tijdens het modelleringsproces. Dit kan inhouden dat ingenieurs de juiste gegevens selecteren en deze aan een model invoeren, elk type labeling uitvoeren of randgevallen bepalen.

“We willen er altijd zeker van zijn dat modellen de juiste beslissingen voor ons nemen, dat ze altijd in lijn zijn met de belangen van een bedrijf en dat ze de waarden van een bedrijf weerspiegelen”, aldus Sharma. “Vanuit dat perspectief [supervised learning] zal hier nog lang blijven.”

De missie van VentureBeat is een digitaal stadsplein voor technische besluitvormers om kennis op te doen over transformatieve bedrijfstechnologie en transacties. Leer meer over lidmaatschap.

Leave a Comment

Your email address will not be published.