karim baina seminaire bigdata iot isima juillet 2016

88
Séminaire Jeudi 07 Juillet 2016, à l'ISIMA Prof. Karim Baïna [email protected], [email protected] Prof. Invité à l' ISIMA Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprises du Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle Chef du Département Génie Logiciel et Chef de Service de Coopération

Upload: karim-baina

Post on 09-Jan-2017

767 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Prof. Karim Baï[email protected], [email protected]

Prof. Invité à l'ISIMA

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération

Page 2: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Plan

Partie I - Présentation de l'ENSIAS : L'École Nationale Supérieure d’Informatique et d’Analyse des Systèmes

Partie II - Les Big Data : Paradigm Shift et catalyseur de création de la Valeur

Partie III - Étude de Cas : Une Architecture intégrée IoT-Big Data pour la vidéo-protection des personnes âgées

Page 3: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

École Nationale Supérieured’Informatique et d’Analyse des Systèmes

المدرسة الوطنية العليا للمعلوماتية و تحليل النظم

Prof. Karim BAÏNA

Cooperation Service [email protected], [email protected]

Page 4: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 2/27

View of ENSIAS

Page 5: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 3/27Fall 2007 TIM5002 Technology Innovation Management

3

View of ENSIAS

Page 6: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 4/27

Created in 1992

3 computer science engineering years (6 semesters S1-S6) hiring after highly selective preparatory classes in math/physics

2015-2016• 22nd edition • 2500+ graduated engineers

68 full time professors, associate professors, and assistant professors

48 technical and administrative staff

ENSIAS, Some data

Page 7: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 5/27

Teaching

ENSIAS strives to offer students excellent instructional and educational opportunities in Computer Science & Information Systems Foundations and Applications.

Page 8: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 6/27

Engineer’s degree

• Study organization• Selection from preparatory classes after a national

examination + faculties under graduates

• 1 degree in computer science engineering with 6 specializations

• Biannual (semesters) and modular organization (European Bologna process)

• LMD & ENSIAS : currently 1+2 : 1 year (2 semesters of common courses) + 2 year of specialization

Page 9: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 7/27

Engineer’s degree• 6 engineering Programs (filières)– Software Engineering (3 groupes)

• Major Information systems and software Engineering

• Major Big Data Engineering

– e-Management and Business Intelligence (1 groupe)

– Embedded and mobile Systems (1 groupe)• Major Real Time and Safety Critical Embedded Systems Engineering

• Major Mobile and Electronic Commerce Systems Engineering

– Information System Security (1 groupe)

– e-Logistics engineering (1 groupe)

– Web and Mobile Engineering (2 groupes)

Page 10: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 8/27Fall 2007 TIM5002 Technology Innovation Management

Engineer population (2015/2016)

• in 1st Year• 288 engineer

• in 2nd year• 248 engineer

• in 3rd year• 202 engineer in Morocco + 17 in mobility

• Total of• 755 engineer

Page 11: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 9/27

Current student mobility agreements• Diploma mobility (double-graduation) agreements (2 degrees in 7

semesters : 4 semesters at ENSIAS + 3 semesters of abroad mobility)– France : ENSIMAG, ISIMA

• Credit mobility agreements (1 degree with international credits in 6 semester : 4 semesters at ENSIAS + 2 semesters of abroad mobility)– France : ENSEIRB-MATMECA, ENSEEIHT, ESIEE, Ecole des Mines de

Saint Étienne, Telecom Saint Étienne, Univ. du Havre

– Canada : Faculté de Génie, Université de Sherbrooke

– Tunisia : ENSI (Université de la Manouba)

– Spain : Universidad de Murcia

• Mobility for 1 semester of abroad mobility : – Sweden : DSV (SU)

– Germany : Bonn-Rhein-Sieg University of Applied Sciences (BRS)

– Canada : Montreal University, Sherbrooke

– USA : Texas University, Oklahoma University, University of Houston (PhDs)

Page 12: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 10/27

16,97%

25,45%

20,61%

20,00%

4,24%

4,24%6,67%1,82%

Répartition de la mobilité globale

ENSIMAG

ENSEIRB

ENSEEIHT

ISIMA

DSV-Suède

Télécom ST

Mines ST

BRS-Allemagne

Current student mobility agreements, in numbers

2008/2009 2009/2010 2010/2011 2011/2012 2012/2013 2013/2014 2014/2015 2015/2016 2016/20170

1

2

3

4

5

6

7

8

9

Evolution des étudiants en mobilité

sub-title

ENSIMAG

ENSEIRB

ENSEEIHT

ISIMA

DSV-Suède

Télécom ST

Mines ST

BRS-Allemagne

2008/2009 2010/2011 2012/2013 2014/2015 2016/20170

5

10

15

20

25

30

Evolution et Répartition de la mobilité

sub-title

BRS-Allemagne

Mines ST

Télécom ST

DSV-Suède

ISIMA

ENSEEIHT

ENSEIRB

ENSIMAG

33 / 165 étudiants échangés avec l'ISMA (soit 20% de la mobilité globale)

1/104

5/137

18/184

23/185

26/217 24/238

23/218

17/219

28/248

Entre 10 et 12 % par année

Page 13: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 11/27

Research

Scientific research is another major mission of ENSIAS and our objective is to have an efficient, productive and industry oriented research.

Page 14: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 12/27

Research Structures

• Research Topics :– Information Systems,– Software Engineering,– Big Data– Embedded Systems,– Networks and Communications,– Systems Security,– IoT & Cloud Computing,– Business Intelligence,– e-Logistics

Page 15: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 13/27

Research Structures13 research teams in total :

1. Al Jazari (Embedded & Mobile Systems)2. Al Bironi (Business Intelligence on Networked Information)3. ISRT (Information Security Research Team)4. LeRMA (Learning and Research in Mobile Age)5. RIITM (Information Retrieval, and text & multimedia document indexing)6. ROL (Operational Research and Logistics)7. TIME (Information Technology and Enterprise Management)8. Alqualsadi (Enterprise Architecture, Quality of their Development and

Integration)

SIME Laboratory of Mobile and Embedded Information Systems teams1. IMS (Systems & models Engineering)2. MIS (Mobile Intelligent Systems)3. SPM (Software Project Management)4. TSE (Telecom and Embedded Systems)5. TIES (Information Management and e-strategy)

Page 16: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 14/27

Doctoral program

• Doctoral Studies Center (Centre des études doctorales CEDOC STII Sciences des Technologies de l’Information et de l’Ingénieur)• Created in early 2008• Accreditation of a doctoral degree in computer science

and in engineering science (electrical, mechanical and environment engineering

• 43 Defended Phds• + 450 In progress PhD candidates• + 252 publications each year (130 indexed)

Page 17: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 15/27

Financed Projects

• ENSIAS was, and is involved in several international Projects :– Euro-Med projects : AVICENNA, MED NET’U,

MEDFORIST, TELESUN, JOIN-MED

– Many Tempus projects (Erasmus+)

– Many DaaD projects with Germany

– Many MENA projects financed by Swedish Research Council

Page 18: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 16/27

E-learning Center

• ENSIAS hosts a university E-learning center whose missions are :• Integrating ICT in education• Producing on-line educational materials

30 courses are already on-line http://moodle.um5.ac.ma/moodle/

Page 19: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 17/27

Current International Cooperation Map

Cooperation Partners in France

ENSIMAG ISIMA ENSEIRB-MATMECA ENSEEIHT Mines Saint Etienne Télécom Saint Etienne GEM (Grenoble Ecole de Management) BEM (Bordeaux Ecole de Management)

INRIA, IMAG, LIRIS, IRIT

Page 20: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 18/27

Current International Cooperation Map

Cooperation Partners in Germany

Bonn-Rhein-Sieg University University of Marburg Technische Universität Darmstadt

Page 21: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 19/27

Current International Cooperation Map

Cooperation Partners in Belgium

ULBUniversité Libre de Bruxelles

FUNDPFacultés Universitaires Notre-

Dame de la Paix Namur

Page 22: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 20/27

Current International Cooperation Map

Cooperation Partners in Sweden

Stockholm University

Page 23: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 21/27

Current International Cooperation Map

Cooperation Partners in Italy

Univerità di Roma « La sapienza »

Università « GUGLIELMO MARCONI », Roma

Page 24: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 22/27

Current International Cooperation Map

Cooperation Partners in Sweden

Stockholm University

Cooperation Partners in Portugal

•Universidade do Algarve

Page 25: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 23/27

Current International Cooperation Map

Cooperation Partners in Canada

•Université de Montréal, Canada

•École Polytechnique de Montréal

•Université de Sherbrooke

•Université de Concordia

Page 26: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 24/27

Current International Cooperation Map

Cooperation Partners in Australia

UNSWUniversity of New South Wales

Page 27: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 25/27

Current International Cooperation Map

Cooperation Partners in Tunisia

•Université de Tunis

•Université de Sfax

Page 28: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 26/27

Current International Cooperation Map

Cooperation Partners in Jordan

PSUTPrincess Sumaya University

for Technology

Page 29: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie I : 27/27

Current International Cooperation Map

Cooperation Partners in United Arab Emirates

ZUZayed University

Page 30: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie IILes Big Data

Paradigm Shift et Catalyseur de Création de la Valeur

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Prof. Karim Baï[email protected], [email protected]

Prof. Invité à l'ISIMA

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération

Page 31: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 2/44

Big Data – Introduction

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Page 32: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 3/44

Big Data – L'Univers digital devient de plus en plus large et interconnecté

© IBM

(10^9)

90% des données universelles ont été créées durant les 5 dernières années 6 Milliard(10 ) de ⁹mobiles% 8 Milliard de terriens

(10^12)

(10^9)

(10^9)

(10^9)

(10^9)

Page 33: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 4/44

Big Data – Perception du Volume de l'univers digital

Lune

Terre

2/3 6,6x

TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)

Page 34: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 5/44

Big Data 5 V● VOLUME

– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 à 44 trillion (10^12) GB

– La taille de l'univers digital plus que double chaque 2 ans

● VELOCITY (Fréquence de production de la donnée)

– Une voiture moderne embarque plus de 100 capteurs

– 2,3 Trillion (10^12) GB de données sont générées chaque jours dans le monde

● VARIETY

– 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)

● VERACITY

– Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)

– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.

● VALUE (VA mesurable générée à la société ou à l'entreprise)

– améliorer soins de santé, mieux comprendre & servir clients/citoyens, optimiser processus métiers & booster performance, améliorer sécurité & mieux maîtriser risques à l'international, obtenir de nouveaux avantages compétitifs, et créer de nouveaux modèles business radicaux, etc.

Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)

Samsung 16TB (Technologie SSD)Le plus large HD

Page 35: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 6/44

Big Data 3 P

● PERSONNALISATION

– Prise en compte personnalisée du comportement, pour proposer, suggérer et recommander

● PREDICTION / PREVISION

– Explication de phénomènes, Simulation des tendances et Prévision des conséquences

● PREVENTION

– Proposition de mesures, d’actions anticipatives pour limiter l’impact d’un phénomène

Page 36: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 7/44

Big Data – étude d'opportunité de Recherche (index de volume de

recherche google)

https://www.google.com/trends/

Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015

et il connaitra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020

Page 37: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 8/44

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Information Systems

ComputationalLinguistics

Page 38: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 9/44

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Information Systems

Cloud &Grid

Computing

ComputationalLinguistics

Page 39: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 10/44

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Information Systems

KM

Data Management

Cloud &Grid

Computing

ComputationalLinguistics

Page 40: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 11/44

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Information Systems

Maths &Statistics

& OR

ComputationalLinguistics

KM

Data Management

Cloud &Grid

Computing

Page 41: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 12/44

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Software engineering

Information Systems

Maths &Statistics

& RO

ComputationalLinguistics

KM

Data Management

Cloud &Grid

Computing

Page 42: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 13/44

Big Data – Positionnement

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Page 43: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 14/44

Architecture Big Data

(Real Time Processing)

Big Data Zone

atake

(Batch Processing)

Page 44: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 15/44

Processus Big Data

© Amir Gandomi, et al. 2015, International Journal of Information Management

● L'enregistrement sur les disques des data nodes n'est pas toujours un pré-requis du traitement (real time in memory processing) !

Page 45: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 16/44

● Démarche INDUCTIVE/INFERENTIELLE (typique dans les Big Data) : Les données (observations) sont collectées sans formuler préalablement d'hypothèse et les explications sont dérivées de ces données par généralisation des faits observés pour produire un modèle scientifique de la réalité dit prévisionnel.

– alias : observationnelle, corrélative, régressive

● Par opposition à la Démarche DÉDUCTIVE (alias expérimentale) qui représente le monde naturel selon une vue théorique et cherche à vérifier certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs acceptations/rejets que se construisent les théories explicatives. Les scientifiques qui pratiquent cette approche sont qualifiés de rationalistes.

(Patterns Discovery)

Démarche Big Data

Page 46: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 17/44

Big Data – Paradigm Shift

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Page 47: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 18/44

Volume - Big Data « data-intensive » Paradigm shift : Data Locality

Principle 1 : spread data across a cluster of computersPrinciple 2 : keep work physically close to the data

(partition/fragmentation)

● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas les données initiales seulement des résultats intermédiaires.

Data at Rest

Page 48: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 19/44

Volume - Big Data Paradigm shift :Synchronous batch processing

Data at Rest

Page 49: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 20/44

Big Data Map Reduce vs Grid Computing

● Analyse asynchrone en lots sur des données réparties (asynchronous batch processing « compute-intensive »)

● Les traitements (en lots) sont distribuées en parallèle sur des serveurs fixés et les données sont envoyées à ces serveurs pour traitement, la data locality n'est pas prioritaire !!

● Compute-intensive : La fréquence des calculs (en millions) prévaut sur le volume des données. Et les traitements parallèles peuvent partager des données sur le réseau.

● Asynchrone : Le client n'attend pas le résultat, il est notifié quand c'est prêt

● Les temps de réponse varient entre plusieurs heures à quelques jours

Page 50: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 21/44

Variété - Big Data :multitude des formats de données

OLAP

non-structuré semi-structuré structuré

Page 51: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 22/44

Varieté - Big Data Paradigme shift :Schema on Run/Read (aka ELT)

● Avec le Big Data - Schema on Run/Read (aka ELT) :– Collecte des données non ou semi-structurées depuis les sources

– Stockage les données brutes sans structures explicites

– Compatible avec la démarche inductive (zéro hypothèse)

– Exploration et Analyse les données « programmatoirement » le programme s'adapte au format et pas l'inverse !!

– Stockage dans une structure cible pour de futures analyses

– Cycle de vie court et flexible

Par contre La Business Intelligence suit le paradigme « Schema on Load/Write » (aka ETL). L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée, Collecte des données de production structurées selon un format intial et Stockage dans un hyper-cube structuré. A chaque fois que les données évoluent, il y a nécessité de mise à niveau du datawarehouse et remise en question de la stratégie d’organisation de l’information (Cycle de vie très long et rigide)

Page 52: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 23/44

Vélocité - Big Data paradigm shift :Real Time Analysis Processing (RTAP)

● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées

● Les traitements peuvent accueillir plusieurs millions d'événements par seconde.

Pattern recognition/correlation/scoring rules

Data in Motion

Page 53: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 24/44

Val

Recommandationde services/produits

Prévision Catastrophes naturelles

...

Prévision des évolutiondes épidémies

Traitement des échanges boursiers

Sécurité territoriale

Mesure de la Perception du citoyen

Mesure de la Satisfaction du client

Anticiper les picsde la circulation

Sécurité du citoyen

Valeur

Page 54: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 25/44

Exemple pratique : Calcul de la carte du bonheur par pays

Un échantillonJson de Tweeter

Un dictionnaired'émotion

Page 55: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 26/44

Exemple pratique : Calcul de la carte du bonheur par pays (en 7 mini-requêtes HiveQL)

I) Charger Dictionnaire d'émotioncreate table dictionary (word string, rating int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;

II) Charger Tweets depuis stockage flumecreate external table load_tweets(id BIGINT, text STRING, country STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'Tokeniser les tweetscreate table split_words as select id as id, split(text,' ') as words, country from load_tweets;Applatir les mots des tweetscreate table tweet_word as

select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;

III) Croiser Tweets & Dictionnairecreate table tweet_word_join as

select tweet_word.id, tweet_word.word, country, dictionary.ratingfrom tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);

Calculer moyenne score de chaque Tweetcreate table tweet_rating_avg as

select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating DESC;Calculer moyenne score de chaque Payscreate table location_rating_avg as

select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;

-Like

Page 56: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 27/44

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 57: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 28/44

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 58: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 29/44

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 59: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 30/44

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 60: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 31/44

Big Data & visualisation « Dataviz »

http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline

Page 61: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 32/44

Big Data & visualisation « Dataviz »

Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world

Visualizing Big Data:Social Network Analysisby Michael Lieberman, 2014

Page 62: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 33/44

Big Data – un écosystème de nouveaux concepts et technologies

Page 63: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 34/44

Dev Ops Engineer

Builds the cluster

Data AnalystSQL & NoSQL guru

Big Data Developer/Insight Developer

Insight Developer, Productise insight

Data Scientist

Data Manager,Machine learning expert

Data Innovator

Business Analyst,Data Value services

INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION

Big Data – Quels Profils et Compétences ?

Page 64: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 35/44

● Pour devenir Spécialiste de Big Data

– Un Statisticien devra apprendre à manipuler des données distribuées et qui ne tiennent pas en mémoire RAM d'une seule machine

– Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à écrire et exécuter des algorithmes décisionnels à l'échelle et faire du reporting sur des données stockées en format brute

– Un DBA devra apprendre à manipuler des données non-structurées

– Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats

© Prof. Bill Howe

Big Data – Quels Profils et Compétences ?

Page 65: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 36/44

Big Data – Eldorado pour la R&D et l'Innovation

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Page 66: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 37/44

Nuage des topics liés à 15 conférences sur le Big Data de 2016

Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

Page 67: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 38/44Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

cloud 50 2,96%computing/tation 39 2,30%analysis/tics 36 2,13%application(s) 36 2,13%system(s) 28 1,65%semantic(s) 26 1,54%architecture(s)/al 24 1,42%management/ing 24 1,42%learning 23 1,36%service 23 1,36%network/ing 21 1,24%web/2 21 1,24%business 20 1,18%model/lling 20 1,18%security 17 1,00%social 17 1,00%privacy 16 0,95%enterprise 15 0,89%method/ologies 15 0,89%knowledge 14 0,83%smart 13 0,77%recommendations/der 9 0,53%virtual/isation 7 0,41%iot 6 0,35%sensor/itive 6 0,35%trust/ed/worthy 6 0,35%interoperability 2 0,12%

Topics liées à 15 conférences sur le Big Data de 2016 – top 30

Page 68: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 39/44Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

data enterpriseapplications

learningmodel/lling techniques/logy

mobilescale/able

0

20

40

60

80

100

120

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

7,00%

Distribution des apparitions de mots dans les CFP

mot

fré

qu

en

ce d

'ap

pa

ritio

n

science/tist 13 0,77%bioinformatics/logical/logy/medical/metrics 12 0,71%health 8 0,47%market/ing 8 0,47%transport/ation8 0,47%energy 7 0,41%home 7 0,41%ehealth 5 0,30%governance 5 0,30%healthcare 5 0,30%cities 3 0,18%econometrics/nomics 3 0,18%human 3 0,18%medical 3 0,18%banking 2 0,12%hospitals 2 0,12%industrial 2 0,12%

Topics liées à 15 conférences sur le Big Data de 2016 – par domaine

Page 69: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 40/44

Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages,

115.623 mots)

service(s)value/able/ed

computation/al/allytool/kit

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

distribution des apparitions des mots dans les études d'opportunité Big Data

mots

fré

qu

en

ce d

'ap

pa

ritio

n

privacy/vate/tivally 554 4,91%governance/nment 392 3,48%analytic/al/ze.. 370 3,28%social/itycs/etal/etally/ities/economic/logical/ethnical311 2,76%global/ization/lly/world 287 2,54%decision/ding/cisive 283 2,51%individual/lized 251 2,23%usability/er/sable/age/ed/ful/fulness220 1,95%policy/maker/making 213 1,89%science/tific/tifically 208 1,84%protection/tected/tecting/tective 2011,78%system/ic/ematic/emacally 1881,67%computation/al/ally 167 1,48%secure/ly/ing/ities 167 1,48%acces/ssibility/ssible 164 1,45%digital/lisation/tally/tised 163 1,45%Marketing 159 1,41%predict/able/ted/ting/tive/tion/tor 154 1,37%Mobile 125 1,11%

Analyse de 11280 occurrences de 229 mots du domaine (sans doublons) au total

Page 70: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 41/44

Big Data Opportunité 1 - Services (446 occurrences)

risk

price/cing/stats/discrimination

production/ve/ivity

smart/er/erplanet/meter/phone

devices

bank/ing

transport/ation/ing

car/automtive/mobile

telecom

interoperability

interconnect/ed/ting/tivity

0 10 20 30 40 50 60 70 80 90 100

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtu

nité

Big

Da

ta

Page 71: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 42/44

Big Data Opportunité 2 – Security & Privacy protection (396

occurrences )

risk

crime/minal

fraud/ulent

surveillance

account/ability/ant

prevent/tion/ting/tive

anomalies

anonymise/sation

trust/ed/ing/ees

terrorism/ist

cameras

0 10 20 30 40 50 60 70 80 90 100

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtru

nité

Big

Da

ta

Page 72: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 43/44

Big Data Opportunité 3 - Smart Governement (350 occurrences)

citizen

population

civil/ian/ized/rights

regulatate/lation/lating/lator/latory

popular/rity/rly

democracy/tic/tization/tized

political/ciations/tics

vote/r

0 10 20 30 40 50 60 70 80

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtu

nité

Big

Da

ta

Page 73: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie II : 44/44

Big Data Opportunité 4 - Health (176 occurrences)

medical

genome/tic/ticist/alogy/e

bioinformatics/logical/logy/med/medical/metric/tech

senior

clinical/cian

epicentre/demic/demics/miologic/logical

pharmacy/ceutical/cogenomics

doctor

cancer

0 5 10 15 20 25 30 35 40 45

Nombre d'occurrences dans les études d'opportunité Big Data

Opportunité Big Data

Ap

pa

ritio

n

Page 74: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Partie IIIAngel Assistance :

Une Architecture intégréeIoT-Big Data

pour la vidéo-protection des personnes âgées

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Prof. Karim Baï[email protected], [email protected]

Prof. Invité à l'ISIMA

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération

Page 75: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 2/14

La SociétéLa Société

● Angel Assistance : SARL créée en Août 2013

● Jeune Entreprise Innovante : 4 Brevets + 2 en cours

● Angel Assistance Établissements : SARL créé en Octobre 2014

● Localisation : Nancy et Metz

● Type de clientèle : Établissements et Particuliers

● Offre : Service aide à la détection de chute par vidéo-protection et assistance pour seniors fragiles

● URL : www.angel-assistance.fr

Page 76: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 3/14

Pyramide des âges en France - 2060

Estimation de la pyramide des âges en 2060 (courbe rouge) et comparaison avec la pyramide de 2007, INSEE

en 2015 :12.000.000 personneaura plus de 60 ans 18 % de la population

en 2060, Ils seront +1/3 de la population

Page 77: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 4/14

Trajectoires de la dégradation des Trajectoires de la dégradation des capacités physiquescapacités physiques

« World Report On Ageing and Health », World Heath Organisation, 2015

Page 78: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 5/14

Décès (2015)

12000

Fractures du col du fémur+55.000

Hospitalisations

+125 000

Interventions médicales

+500 000

Personnes Chuteuses à répétition

+3 Millions

On considère ici qu'une personne âgée (senior) a plus +75 ans, seuil en Europe où les problèmes de santé commencent à s'aggraver.

Le retard des secours aggrave les conséquences de la chute.

L’intervention rapide grâce à un détecteur de chute peut éviter26% des hospitalisations soit 325M€ et 80% des décès.

La Chute Chez les SeniorsLa Chute Chez les Seniors

Page 79: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 6/14

Silver economySilver economy

● Du fait du vieillissement de la population, la demande d’aménagement du domicile, de produits et de services liés à l’autonomie devrait doubler en l’espace d’une vingtaine d’années.

« La Silver Économie, une opportunité de croissance pour la France », Rapport du CGSP (Commissariat général à la stratégie et à la prospective), Décembre 2013

Page 80: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 7/14

Solution Angel AssistanceSolution Angel Assistance

● Solution propriétaire d’aide à la détection des chutes et service d’assistance

● Service testé et validé dans plusieurs EHPAD

● Détection des chutes et de situations risquées

Page 81: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 8/14

Supportés financièrement par

● Programme R&D● Programme accélération startup

Page 82: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 9/14

Qualification : ChuteSituation risquée

Procédure d’interventionProcédure d’interventionProcédure d’intervention

SLA = 5 Minutes max

Service 24H / 7J – 5 mnService 24H / 7J – 5 mn

Page 83: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 10/14

Qualification : ChuteSituation risquée Procédure d’intervention

5 Minutes

Solution Angel AssistanceSolution Angel Assistance Solution Angel AssistanceSolution Angel AssistanceDétection chutes

Détection situations risquées

Page 84: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 11/14

Bilan spécifique auBilan spécifique auGROUPE SOS SeniorsGROUPE SOS Seniors

6 mois 4 chambres

● 14 Chutes Détectées

– 64 % jour / 36 % nuit

– Assistance en 5 minutes● 22 Chutes Évitées

– Prévention chutes● + de 3 Hospitalisations Évitées

● Bonne Acceptation, Sentiment de sécurité

– Résident

– Famille

– Personnel

Page 85: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 12/14

Benchmark des Offresde télé-assistance

Le senior doit appuyer sur un bip d'alerte pour communiquer en cas d'incident

le capteur vidéo analyse le comportement du patient et déclenche l'alerte

des capteurs portés par le patient (accéléromètre, signaux biologiques) ou environnementaux (présence, sol, portes) déclenchent l'alerte

Page 86: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 13/14

Architecture macro

Page 87: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

© Karim Baïna 2016 Partie III : 14/14

L'étude de Cas Angel-Assistance vs 5V

● Vélocité/Volume

– Flux Caméra HD * 24H * 7j * Nombre Résidents

● Véracité

– Le vidéo-détecteur est couplé avec l'opérateur humain● Valeur

– sécuriser les personnes âgées et leur éviter des hospitalisation

● Variété (autres capteurs)

– ne fait pas partie des problématiques actuellement

Page 88: Karim Baina Seminaire BigData IoT ISIMA Juillet 2016

Merci pour votre attention

made with :

SéminaireJeudi 07 Juillet 2016, à l'ISIMA

Prof. Karim Baï[email protected], [email protected]

Prof. Invité à l'ISIMA

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération