Big data, big business

 
11 oktober 2013

Tekst Erik Bouwer

Op de agenda van CIO staan de komende jaren vijf thema’s, die in toenemende mate met elkaar verweven zullen raken: cloud computing, IT consumerization/mobile, het ‘Internet of Things’ en social/collaboration. Het vijfde thema is big data, één van de belangrijkste drivers van de andere vier trends.

Big data is hot. IT-dienstverleners proberen met ronkende zinnen duidelijk te maken dat  ondernemingen concurrentievoordeel kunnen realiseren door aan de slag te gaan met big data. De impact van big data wordt daarbij keer op keer verduidelijkt aan de hand van veelzeggende  cijfers over het volume en de groei daarvan. Maar eigenlijk is de groei van het datavolume op zich geen nieuws. Dat bedrijven sneller vooruitkomen wanneer ze intelligent gebruik maken van hun data, is ook al langer het geval: Albert Heijn was tien jaar geleden al goed in het tijdig afleveren van hamburgers in alle vestigingen wanneer mooi weer in aantocht was. Nieuw is wel, dat 90 procent van alle huidige data in de afgelopen twee jaar is ontstaan.

Big data gaat over volume, variatie en snelheid. Datasets worden steeds groter en complexer; ze worden opgebouwd uit verschillende informatiesoorten en -bronnen. De tijdsfactor – real time – gaat een steeds belangrijkere rol spelen en het verzamelen van data zal in toenemende mate geautomatiseerd geschieden.

Hype of geen hype?

De data-explosie heeft een enorme impuls gekregen doordat internet gemeengoed is geworden en het aantal internettoepassingen enorm is toegenomen. De grootste groei is afkomstig van het sociale web, waarbij vooral de gebruiker content plaatst of verrijkt: maandelijks miljarden updates op Facebook, dagelijks miljoenen Tweets of denk aan YouTube waar iedere minuut tientallen uren nieuw videomateriaal geplaatst worden. IT-systemen (zowel hardware als software) zijn goedkoper, beter en sneller geworden: een nieuwe smartphone levert meer kracht dan een doorsnee pc van tien jaar geleden. Een tweede belangrijke bron van data wordt het Internet of Things, waarbij allerlei voorwerpen en systemen data gaan genereren en uitwisselen. Het zijn vaak (nu nog onbekende of ongebruikelijke) combinaties van gegevensbronnen die voor nieuwe toepassingen gaan zorgen.

Ook aan de kant van de verwerking wordt vooruitgang geboekt. Analysetools worden beter, waardoor er sneller met grote gegevenssets kan worden gewerkt. En dat leidt weer tot nieuwe antwoorden en toepassingsmogelijkheden. Big data is beslist geen hype, maar een al langer bestaand verschijnsel dat in met name omvang en betekenis toeneemt door de digitalisering van onze samenleving.

Worden we slimmer door big data?

DataVan meer data alleen word je niet gelukkig

In hun recente boek De big data revolutie stellen schrijvers Mayer-Schonberger en Cukier* dat er geen exacte definitie van big data bestaat: “De term ‘big data’ verwijst naar dingen die je op een grote schaal kunt doen en op kleinere schaal niet mogelijk zijn, en waarmee je nieuwe inzichten verkrijgt of nieuwe vormen van economische waarde creëert op een manier die invloed heeft op (…) markten, organisaties en de relatie tussen burgers en overheden.”

Met big data zouden we eigenlijk een stuk slimmer moeten worden, maar daar kun je kanttekeningen bij plaatsen. Allereerst wordt de noodzaak om heel nauwkeurig te zijn steeds kleiner (er zijn voldoende gegevens en afwijkingen worden minder belangrijk). Op de tweede plaats wordt het weliswaar gemakkelijker om nieuwe informatie boven tafel te krijgen, maar met big data krijgen we niet direct inzicht in oorzakelijke verbanden. Wel wordt het met big data en predictive analytics mogelijk om steeds betere voorspellingen te doen over het gedrag van mensen en systemen.

Big data = in de groei

De hoeveelheid data waarmee bedrijven kunnen werken neemt toe door verschillende  ontwikkelingen. Door de permanente datastromen ontstaan er allerlei nieuwe toepassingsmogelijkheden en nieuwe business modellen. Roamler, de winnaar van de publieksprijs bij de Accenture Innovation Awards 2013, maakt gebruik van verschillende smartphone-functies: datum/tijd, geo-locatie, foto/filmfunctie en online communicatie.

Roamler-gebruikers verrichten in opdracht en tegen betaling kleinschalig marktonderzoek – ze fotograferen bijvoorbeeld in een supermarkt een schap met bepaalde levensmiddelen en sturen deze informatie door naar Roamler. De opdrachtgevers van Roamler kunnen zo zonder al te veel kosten zeer specifieke informatie laten verzamelen. Niet alleen mensen maar ook voorwerpen gaan in toenemende mate data produceren en delen, al dan niet via het web. Denk aan apparaten die met sensoren informatie uit hun directe omgeving afleiden en doorgeven: locatie, gewicht, snelheid of temperatuur. Data worden een steeds belangrijkere grondstof – zowel voor de concurrentiekracht als voor nieuwe business modellen en toepassingen.

Big data = game changer

Big data bestaat bij de gratie van IT. Dat maakt duidelijk dat de impact van IT op de business steeds groter wordt. Al is beslist niet te voorzien waar we over vijf jaar mee te maken hebben, early adopters grijpen de kans om spelregels te bepalen. Zij komen bijvoorbeeld met ‘disruptive innovations’ of verdrijven bestaande business modellen met nieuwe ideeën. Zoals scrum en agile bijdragen aan de snelheid van softwareontwikkeling en daarmee de time-to-market van de business verkorten, zo kan ook big data voor versnelling en/of vernieuwing gaan zorgen.

Big data brengt ook nieuwe vraagstukken met zich mee. Binnenkort legt bijvoorbeeld de auto zelf contact met het onderhoudsbedrijf als onderdelen aan onderhoud of vervanging toe zijn. Een BMW uit de hogere klasse bevat ongeveer tien miljoen lines of code. Met die software genereert zo’n auto ook steeds meer informatie. Is die informatie eigendom van het automerk, van de autoleverancier of van de bezitter van de auto? En waar wordt die informatie opgeslagen? Deze vraag is nu bijvoorbeeld aan de orde bij nieuwe, data-gedreven business modellen die gebaseerd zijn op toepassingen als eCall, bCall of sCall (voor emergency, breakdown en service).

Wat zijn de gevolgen voor IT?

Op dit moment zitten veel organisaties al op een enorme berg aan data. Ze hebben daar vaak al allerlei voorzieningen voor getroffen in de vorm van datawarehouses en BI-systemen. Maar meestal zijn die maatregelen vooral gericht op gestructureerde data en zitten die data in allerlei silo’s, hetgeen geïntegreerde analyse bemoeilijkt. Een tweede zwakke plek is dat bedrijven er maar matig in slagen om waarde te creëren aan de hand van hun data. Energiebedrijven hebben zich jaren lang toegelegd op het factureren van verbruik aan hun klanten. Nieuwe ontwikkelingen als lokale energieopwekking en salderingsmethoden (het verrekenen van vraag en aanbod van stroom) en nieuwe diensten zoals slimme meters leiden tot andere datastromen en -volumes. Uit onderzoek van T-Systems onder 250 Europese nutsbedrijven blijkt dat drie van de vier respondenten in de komende drie jaar een groei van vijfentwintig procent in datatoename binnen hun organisatie verwacht. Bijna de helft (47 procent) van de respondenten geeft aan de waarde van verzamelde data nog niet volledig te benutten.

IT zal de business moeten helpen op het gebied van vastleggen, opslag, zoeken, vinden, delen, overdracht, analyse en visualisatie. Gangbare database management tools en traditionele applicaties voor dataverwerking zijn bijvoorbeeld niet geschikt voor het verwerken van big data. Bij het big data vraagstuk horen ook vraagstukken ten aanzien van de toegang tot verschillende soorten informatie uit verschillende (externe) bronnen, het opslaan en integreren van die data met eigen data, het vermogen die informatie om te zetten in slimme acties. Denk aan CRMsystemen die opnieuw zullen moeten worden aangepast om bij campagnes en klantinteractie te kunnen werken met additionele data.

Big data aan het werk in……online retail

Binnen een contactcenter kun je de medewerkers bij het gesprek helpen met het tonen van relevante aanbiedingen voor de klant, gecombineerd met informatie over de emotie van de klant – door middel van analyse van intonatie en woordgebruik van de klant. Met andere woorden: welke producten zouden bij de klant passen, wat is het bestedingspatroon, welke webpagina’s heeft de klant bezocht en in hoeverre is de klant in een opgewekte stemming?

Het Amerikaanse Cablecom stelde vast dat veel klanten afscheid namen in de dertiende maand nadat ze abonnee waren geworden. Een analyse toonde aan dat klanten de beslissing daartoe al in de negende maand namen: dan waren er aanzienlijk meer telefoontjes van klanten die hun jaarcontract wilden opzeggen. Cablecom deed daarom in de zevende maand een verlengingsaanbod en bracht het aantal opzeggers binnen een jaar terug van 20 naar 5 procent. Bij creditcardmaatschappij Capital One bepalen algoritmes welke pagina bezoekers van de website te zien krijgen. Deze ‘behavioral targeting’ gebeurt in 0,2 seconden, op basis van de sociale en inkomensklasse van de bezoekers, waarop vervolgens een aanbod wordt gebaseerd dat het beste bij de klant past. De software maakt daarbij gebruik van tracking cookies van eerder bezochte websites.

Met software genereert een auto steeds meer informatie

…de zorg

Big data is en blijft een grote uitdaging voor zorgverleners. Er wordt geschat dat big data binnen de zorgsector met een huidige totale omvang van 150 exabytes verder zal stijgen met 1,2 exabytes per jaar. Door in ziekenhuizen gestructureerd gegevens over (anonieme) patiënten en hun behandeling op te slaan, kan nu landelijk onderzoek worden uitgevoerd dat vijftien jaar geleden nog niet voor mogelijk werd gehouden. Uit dat onderzoek kan bijvoorbeeld blijken dat een patiënt anders behandeld moet worden, maar het kan ook helpen bij de zoektocht naar nieuwe medicijnen. Een voorbeeld hiervan is de Britse ziektekostenverzekering National Health Service (NHS) die sinds de jaren ’60 gegevens verzamelt waarvan vele digitaal en openbaar beschikbaar zijn. Het bedrijf Accelrys zet hiervoor de eigen analysetoepassingen in, gecombineerd met het cloud computing platform BT for Life Sciences. Genalice, een startup uit Harderwijk, kan DNA-strengen in een handomdraai analyseren. Data waar een supercomputer een werkweek voor nodig heeft, kan een gewone pc met het programma van Genalice in enkele seconden analyseren: Genalice is in staat de dataset honderd keer kleiner te maken en duizend keer sneller te analyseren. Dat kan een doorbraak opleveren voor onderzoek naar bijvoorbeeld nieuwe behandelingen tegen kanker.

…de logistiek

Sinds 2008 worden bij de Hollandse Brug op de A6 via 145 sensoren dagelijks zo’n 11 gigabyte aan data vastgelegd. Die sensoren bestaan onder meer uit camera’s, weerstations, telsystemen en vibratiesensoren, die zowel brug als voertuigen op allerlei punten in de gaten houden. Het systeem genereert op basis van al deze data informatie over wanneer, waar en welk onderhoud nodig is. IBM ontwikkelde een ‘Traffic Prediction Tool’. Deze app gebruikt GPS-gegevens van de telefoon om de rijgewoontes van de gebruiker te analyseren en combineert deze vervolgens met real-time informatie over de verkeersomstandigheden. Daarop volgt een gepersonaliseerd advies voor een optimale route. Hierop kan de personeelsplanning van transportbedrijven afgestemd worden. Chauffeurs gaan daardoor efficiënter met hun tijd om, zodat de productiviteit stijgt. Bij DHL werd samen met T-Systems een systeem ontwikkeld dat onder andere rekening houdt met het laadvermogen en de ideale belading van trucks. DHL Express gebruikt ook weerinformatie bij het bepalen van de beste vliegroutes van dagelijks 3.000 vluchten. Hulpverlener SOS International ontwikkelde afgelopen jaar een app voor reizigers. Bij schade, pech of ongevallen zorgt de SOSapp er voor dat je direct contact hebt met de alarmcentrale, waarbij gelijktijdig informatie over de situatie (verzekeringsgegevens, aantal reizigers) en actuele locatie bij de callcentermedewerker op het scherm verschijnen. Niet alleen werkt de dienstverlening sneller, SOS zal na verloop van tijd op basis van data bijvoorbeeld een goed inzicht kunnen ontwikkelen ten aanzien van technische problemen bij auto’s en belangrijke knelpunten in de buitenlandse onderdelenlogistiek.

Hardware en software

Big data leidt tot extra investeringen in opslagen verwerkingscapaciteit. Gartner voorziet dat de wereldwijde IT-investeringen eind 2013 met 4,2 procent gestegen zullen zijn tot 3,74 triljoen dollar in 2013. Analistenbureau MarketsandMarkets voorspelt dat de big dataindustrie tot 2017 jaarlijks meer dan 54 procent zal groeien. De totale markt voor big dataspecifieke infrastructuur (rekenkracht, opslag, netwerken) zal volgens de Wikibon Analyst Group in datzelfde jaar 402 miljard dollar bedragen. IT moet zich ook voorbereiden op een IT-omgeving die meegroeit met de eisen die het werken met big data oplegt: met een goede beschikbaarheid (schaalbare en betrouwbare hardware) en snelheid (nieuwe databasetechnologie, in memory computing, snelle servers met bijvoorbeeld SSD’s). Volgens opslagproducent Seagate zal de wereld in 2020 behoefte hebben aan opslag ter grootte van 6 zettabyte, hetgeen overeenkomt met 6 miljard terabyte. Het is de vraag of er tegen die tijd voldoende hardware geproduceerd kan worden om aan de vraag te voldoen. David Newman, Research VP bij Gartner, ziet vooral op architectuurgebied een verschuiving: van traditionele methoden die gericht zijn op optimalisatie, standaardisatie en efficiency naar lichtere benaderingen die gericht zijn op harmonisatie en groei. Newman voorziet ook een tweede verschuiving: van data warehousing (met opslag en comprimering als voornaamste eigenschappen) naar data pooling (waar datastromen, links en deelbaarheid van data voorop staan).**

Informatiemanagement

In 2019 zal 90 procent van de organisaties te maken hebben met persoonsgegevens op IT-systemen die niet in eigen bezit of beheer zijn, aldus Gartner***. Bedrijven en instellingen zouden daarom privacybeleid moeten ontwikkelen dat persoonsgegevens binnen bereik houdt, maar ook onder controle houdt. Data raken meer en meer gedistribueerd – door het oprukken van cloud en het gebruik van steeds meer devices waarbij werk en privé door elkaar lopen. Waar hackers zich meer richten op zwakkere groepen (werknemers, freelancers, klanten/patiënten) moeten bedrijven en instellingen hun beveiligingsbeleid steeds aanpassen. Ook wordt steeds duidelijker dat organisaties twee verschillende strategieën moeten hanteren: één voor persoonsgegevens en één voor niet-persoonsgegevens. Dat onderscheid is van belang omdat de wetgeving verschilt. In theorie is het mogelijk dat data in de cloud staan opgeslagen, waarbij het datacenter gemanaged wordt door een offshore service provider in India en de data door middel van encryptie alleen toegankelijk zijn voor Europese medewerkers. De Indiase IT-medewerkers verzorgen alleen het beheer van routers en servers.

Big data wordt ook een arbeidsmarktvraagstuk

De ‘zachte’ gevolgen voor IT

Gartner ziet het doorbreken van silo’s – zowel managerial als technisch – als belangrijkste succesfactor. Ook Newman ziet ‘talent gaps’ en erkent de noodzaak van nieuwe interdisciplinaire teams op senior level. Volgens hem moeten er incentives en metrics worden geïntroduceerd om de silo’s en het gebrek aan vertrouwen te overwinnen. Uit onderzoek van de Big Data Insight Group onder 300 IT, finance en business senior managers kwam naar voren dat slechts 23 procent van de respondenten van mening is dat voor het big data vraagstuk nieuw personeel nodig is****. Big data wordt ook een arbeidsmarktvraagstuk, waarbij er nog veel meer wordt verwacht uit de samenwerking tussen disciplines als marketing, sales en IT. Big data is weliswaar een vraagstuk dat in de business thuishoort, maar desondanks sterk IT-gedreven is. De komende jaren zullen uitwijzen waar de echte knelpunten zitten: in de business of in IT.

Noten

* Mayer-Schönberger, V. en Cukier, K. (2012). De Big Data Revolutie. Maven Publishing, Amsterdam.

** Big Data Disruptions Tamed With Enterprise Architecture, Gartner, 2012, www.gartner.com/id=1964716

***Special Report The Future of Global Information Security, Gartner, 2013 www.gartner.com/newsroom/id/2513615

****‘Understanding the business benefits and strategic implications of big data’, Big Data Insight Group, 2012. http://bit.ly/JeX7TE