baina bigdata le futur eldorado
Post on 09-Jan-2017
401 Views
Preview:
TRANSCRIPT
Les Big DataLe nouvel Eldorado
Prof. Karim Baïnakarim.baina@gmail.com
Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Chef du Département Génie LogicielChef de Service de Coopération
Première rencontre duDigital Smart Systems Førum
autour de« Big Data : Nouvelles voies de R&D et
d’Innovation »Mercredi 01 Juin 2016, ENSIAS
© Karim Baïna 2016 2
Big Data – Introduction
Première rencontre duDigital Smart Systems Førum
autour de« Big Data : Nouvelles voies de R&D et
d’Innovation »Mercredi 01 Juin 2016, ENSIAS
© Karim Baïna 2016 3
Big Data 4 V
● VOLUME
– 90% des données universelles ont été créées durant les 5 dernières années
– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion
– La taille de l'univers digital plus que double chaque 2 ans
● VELOCITY (Fréquence de production de la donnée)
– 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population)
– Une voiture moderne embarque plus de 100 capteurs
– 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux
– 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde
● VARIETY
● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)
● VERACITY
● Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)
– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.
Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)
Samsung 16TB (Technologie SSD)Le plus large HD
© Karim Baïna 2016 4
Big Data – étude d'opportunité de Recherche (index de volume de
recherche google)
https://www.google.com/trends/
Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015
et il connaitra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020
© Karim Baïna 2016 5
Big Data -Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Information Systems
© Karim Baïna 2016 6
Big Data -Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
GridComputing
Information Systems
Cloud Computing
© Karim Baïna 2016 7
Big Data -Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
GridComputing
Information Systems
Cloud Computing
ComputationalLinguistics
KM
Data Management
© Karim Baïna 2016 8
Big Data -Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
GridComputing
Information Systems
Maths &Statistics
Cloud Computing
ComputationalLinguistics
KM
Data Management
Operational Research
© Karim Baïna 2016 9
Big Data -Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
GridComputing
Software engineering
Information Systems
Cloud Computing
ComputationalLinguistics
KM
Software programming
Data Management
Operational ResearchMaths &
Statistics
© Karim Baïna 2016 10
Vue globale de l'Architecture et des Processus Big Data
Real Time Processing
Big Data Zone
atake
© Amir Gandomi, et al. 2015, International Journal of Information Management
© Karim Baïna 2016 11
Démarche Big Data
● Démarche INDUCTIVE/INFERENTIELLE (typique dans les Big Data) : Les données (observations) sont collectées sans formuler préalablement d'hypothèse et les explications sont dérivées de ces données par généralisation des faits observés pour produire un modèle scientifique de la réalité dit prévisionnel.
– alias : observationnelle, corrélative, régressive
● Démarche DÉDUCTIVE : Le chercheur a une vue théorique du monde naturel, basée sur des concepts et théories acceptés, et cherche à vérifier certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs acceptations/rejets que se construisent les théories explicatives. Les scientifiques qui pratiquent cette approche sont qualifiés de rationalistes.
– alias : expérimentale
© Karim Baïna 2016 12
Big Data – Paradigm Shift
Première rencontre duDigital Smart Systems Førum
autour de« Big Data : Nouvelles voies de R&D et
d’Innovation »Mercredi 01 Juin 2016, ENSIAS
Big Data – L'univers digital devient de plus en plus large et interconnecté
© IBM
(10^12)
© Karim Baïna 2016 14
Big Data – Perception du Volume de l'univers digital
Lune
Terre
2/3 6,6x
TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
© Karim Baïna 2016 15
Volume - Big Data « data-intensive » Paradigm shift : Data Locality
Principle 1 : spread data across a cluster of computersPrinciple 2 : keep work physically close to the data
(partition/fragmentation)
Pour le Grid Computing « computing-intensive »les serveurs de traitements sont fixés et la datlocality n'est pas la priorité !
● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas les données initiales seulement des résultats intermédiaires.
Data at Rest
© Karim Baïna 2016 16
Volume - Big Data Paradigm shift :Synchronous batch processing
Le Grid Computing « computing-intensive » est defacto asynchrone !
Data at Rest
© Karim Baïna 2016 17
Variété - Big Data :multitude des formats de données
OLAP
non-structuré semi-structuré structuré
© Karim Baïna 2016 18
Varieté - Big Data Paradigme shift :Schema on Run/Read (aka ELT)
● Avec le Big Data - Schema on Run/Read (aka ELT) :
– Collecte des données non ou semi-structurées depuis les sources
– Stockage les données brutes sans structures explicites
– Compatible avec la démarche inductive (zéro hypothèse)
– Exploration et Analyse les données « programmatoirement » le programme s'adapte au format et pas l'inverse !!
– Stockage dans une structure cible pour de futures analyses
– Cycle de vie court et flexible
La Business Intelligence suit le paradigme « Schema on Load/Write » (aka ETL). L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée, Collecte des données de production structurées selon un format intial et Stockage dans un hyper-cube structuré. A chaque fois que les données évoluent, il y a nécessité de mise à niveau du datawarehouse et remise en question de la stratégie d’organisation de l’information (Cycle de vie très long et rigide)
© Karim Baïna 2016 19
Vélocité - Big Data paradigm shift :Real Time Analysis Processing (RTAP)
● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées
● Les traitements peuvent accueillir plusieurs millions d'événements par seconde.
Pattern recognition/correlation/scoring rules
Data in Motion
© Karim Baïna 2016 20Recommandationde services/produits
Prévision Catastrophes naturelles
...
Prévision des évolution des épidémies
Traitement des échanges boursiers
Sécurité territoriale
Mesure de la Perception du citoyen
Mesure de la Satisfaction du client
Anticiper les picsde la circulation
Sécurité du citoyen
© Karim Baïna 2016 21
Exemple pratique : Calcul de la carte du bonheur par pays
Un échantillonJson de Tweeter
Un dictionnaired'émotion
© Karim Baïna 2016 22
Exemple pratique : Calcul de la carte du bonheur par pays (en 7 mini-requêtes HiveQL)
I) Charger Dictionnaire d'émotioncreate table dictionary (word string, rating int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;
II) Charger Tweets depuis stockage flumecreate external table load_tweets(id BIGINT, text STRING, country STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'Tokeniser les tweetscreate table split_words as select id as id, split(text,' ') as words, country from load_tweets;Applatir les mots des tweetscreate table tweet_word as
select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;
III) Croiser Tweets & Dictionnairecreate table tweet_word_join as
select tweet_word.id, tweet_word.word, country, dictionary.ratingfrom tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);
Calculer moyenne score de chaque Tweetcreate table tweet_rating_avg as
select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating DESC;Calculer moyenne score de chaque Payscreate table location_rating_avg as
select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;
-Like
© Karim Baïna 2016 23
Big Data & visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 24
Big Data & visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 25
Big Data & visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 26
Big Data & visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
© Karim Baïna 2016 27
Big Data & visualisation « Dataviz »
http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
© Karim Baïna 2016 28
Big Data & visualisation « Dataviz »
Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world
Visualizing Big Data:Social Network Analysisby Michael Lieberman, 2014
© Karim Baïna 2016 29
Big Data – un écosystème de nouveaux concepts et technologies
© Karim Baïna 2016 30
Dev Ops Engineer
Builds the cluster
Data AnalystSQL & NoSQL guru
Big Data Developer/Insight Developer
Insight Developer, Productise insight
Data Scientist
Data Manager,Machine learning expert
Data Innovator
Business Analyst,Data Value services
INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION
Big Data – Quels Profils et Compétences ?
© Karim Baïna 2016 31
● Pour devenir Spécialiste de Big Data
– Un Statisticien devra apprendre à manipuler des données distribuées et qui ne tiennent pas en mémoire RAM d'une seule machine
– Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à écrire et exécuter des algorithmes décisionnels à l'échelle et faire du reporting sur des données stockées en format brute
– Un DBA devra apprendre à manipuler des données non-structurées
– Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats
© Bill Howe
Big Data – Quels Profils et Compétences ?
© Karim Baïna 2016 32
Big Data – Eldorado pour la R&D et l'Innovation
Première rencontre duDigital Smart Systems Førum
autour de« Big Data : Nouvelles voies de R&D et
d’Innovation »Mercredi 01 Juin 2016, ENSIAS
© Karim Baïna 2016 33
Nuage des topics liés à 15 conférences sur le Big Data de 2016
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
© Karim Baïna 2016 34
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
cloud 50 2,96%computing/tation 39 2,30%analysis/tics 36 2,13%application(s) 36 2,13%system(s) 28 1,65%semantic(s) 26 1,54%architecture(s)/al 24 1,42%management/ing 24 1,42%learning 23 1,36%service 23 1,36%network/ing 21 1,24%web/2 21 1,24%business 20 1,18%model/lling 20 1,18%security 17 1,00%social 17 1,00%privacy 16 0,95%enterprise 15 0,89%method/ologies 15 0,89%knowledge 14 0,83%smart 13 0,77%recommendations/der 9 0,53%virtual/isation 7 0,41%iot 6 0,35%sensor/itive 6 0,35%trust/ed/worthy 6 0,35%interoperability 2 0,12%
Topics liées à 15 conférences sur le Big Data de 2016 – top 30
© Karim Baïna 2016 35
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
data enterpriseapplications
learningmodel/lling techniques/logy
mobilescale/able
0
20
40
60
80
100
120
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
7,00%
Distribution des apparitions de mots dans les CFP
mot
fré
qu
en
ce d
'ap
pa
ritio
n
science/tist 13 0,77%bioinformatics/logical/logy/medical/metrics 12 0,71%health 8 0,47%market/ing 8 0,47%transport/ation8 0,47%energy 7 0,41%home 7 0,41%ehealth 5 0,30%governance 5 0,30%healthcare 5 0,30%cities 3 0,18%econometrics/nomics 3 0,18%human 3 0,18%medical 3 0,18%banking 2 0,12%hospitals 2 0,12%industrial 2 0,12%
Topics liées à 15 conférences sur le Big Data de 2016 – par domaine
© Karim Baïna 2016 36
Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages,
115.623 mots)
service(s)value/able/ed
computation/al/allytool/kit
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
distribution des apparitions des mots dans les études d'opportunité Big Data
mots
fré
qu
en
ce d
'ap
pa
ritio
n
privacy/vate/tivally 554 4,91%governance/nment 392 3,48%analytic/al/ze.. 370 3,28%social/itycs/etal/etally/ities/economic/logical/ethnical311 2,76%global/ization/lly/world 287 2,54%decision/ding/cisive 283 2,51%individual/lized 251 2,23%usability/er/sable/age/ed/ful/fulness220 1,95%policy/maker/making 213 1,89%science/tific/tifically 208 1,84%protection/tected/tecting/tective 2011,78%system/ic/ematic/emacally 1881,67%computation/al/ally 167 1,48%secure/ly/ing/ities 167 1,48%acces/ssibility/ssible 164 1,45%digital/lisation/tally/tised 163 1,45%Marketing 159 1,41%predict/able/ted/ting/tive/tion/tor 154 1,37%Mobile 125 1,11%
Analyse de 11280 occurrences de 229 mots du domaine (sans doublons) au total
© Karim Baïna 2016 37
Big Data Opportunité 1 - Services (446 occurrences)
risk
price/cing/stats/discrimination
production/ve/ivity
smart/er/erplanet/meter/phone
devices
bank/ing
transport/ation/ing
car/automtive/mobile
telecom
interoperability
interconnect/ed/ting/tivity
0 10 20 30 40 50 60 70 80 90 100
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
Op
po
rtu
nité
Big
Da
ta
© Karim Baïna 2016 38
Big Data Opportunité 2 - Security (396 occurrences )
risk
crime/minal
fraud/ulent
surveillance
account/ability/ant
prevent/tion/ting/tive
anomalies
anonymise/sation
trust/ed/ing/ees
terrorism/ist
cameras
0 10 20 30 40 50 60 70 80 90 100
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
Op
po
rtru
nité
Big
Da
ta
© Karim Baïna 2016 39
Big Data Opportunité 3 - Smart Governement (350 occurrences)
citizen
population
civil/ian/ized/rights
regulatate/lation/lating/lator/latory
popular/rity/rly
democracy/tic/tization/tized
political/ciations/tics
vote/r
0 10 20 30 40 50 60 70 80
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
Op
po
rtu
nité
Big
Da
ta
© Karim Baïna 2016 40
Big Data Opportunité 4 - Health (176 occurrences)
medical
genome/tic/ticist/alogy/e
bioinformatics/logical/logy/med/medical/metric/tech
senior
clinical/cian
epicentre/demic/demics/miologic/logical
pharmacy/ceutical/cogenomics
doctor
cancer
0 5 10 15 20 25 30 35 40 45
Nombre d'occurrences dans les études d'opportunité Big Data
Opportunité Big Data
Ap
pa
ritio
n
41
Opportunités Big Data – Améliorer le quotidien du citoyen Marocain
Améliorer la Sécurité Routière – plus de campagnes et de signalisation dans les régions/véhicules à haut risque
Améliorer la qualité du transport – mieux desservir la demande en période de pic
Améliorer les services sociaux – mieux desservir les régions selon les spécialités manquantes
Réduire le chômage et augmenter l'employabilité – mieux connecter offreurs et demandeurs d'emploi, anticiper les besoins du marché d'emploi
Améliorer l'éducation – mieux servir les régions marginalisées
42
Big Data – Sans oublier bien évidemment de Préparer le Maroc de
demainÉnergies
Desertec
Développement durable& Économie verte
Développement humain & Économie équitable
Environnement
Logistique
Industrie & Services
top related