appmetrics - análisis y datos sobre el mercado de aplicaciones móviles
TRANSCRIPT
Appmetrics
MBIT – Master Executive Big Data Science 25 Junio 2016 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
mA
Presentación Final
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 2 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
EL PROYECTO
Optimización de precios
Análisis de competencia
MERCADO OBJETIVO• Desarrolladores de aplicaciones• App Stores
MBIT – Master Executive Big Data Science 3 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
RIESGOS Y LIMITACIONES
MBIT – Master Executive Big Data Science 4 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Riesgos y limitaciones Plan de mitigación
Muestra estratificada:• Aplicaciones más relevantes (mayor
número de comentarios por categoría)
Dependencia de las fuentes• Recopilación periódica de datos para
análisis históricos.• Evaluación de fuentes alternativas
Disponibilidad de los datos
Alcance limitado debido a:• Imposibilidad de recuperar información
sobre permisos por aplicación• Necesidad de aplicar a todo el universo.
Volumen de datos
Detección de fraude
EQUIPO EQUILIBRADO
Experience
ComputerScience
Analytics
BusinessKnowledge
Daniel GarcíaBI IT Administrator & Data Science
Experience
ComputerScience
Analytics
BusinessKnowledge
Miguel PólizBI Project Manager & Data Science
Experience
ComputerScience
Analytics
BusinessKnowledge
Carlos RuizBI SW Architect & Data Science
Experience
ComputerScience
Analytics
BusinessKnowledge
Ferran ArroyoBI Data Architect & Data Science
MBIT – Master Executive Big Data Science 5 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
MERCADO ACTUAL
MBIT – Master Executive Big Data Science 6 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
* https://en.wikipedia.org/wiki/List_of_mobile_software_distribution_platforms
Google Play iTunes Store
450000
800000
1200000
1400000
2012 2013 2014 2015
Número de aplicaciones Descargas
100 billion
50 billion
+150 billones de descargas
desde 2008
Usuarios
+ 850 descargas por segundo
+ 120 aplicaciones descargadas por usuario
MERCADO ACTUAL - Competencia
MBIT – Master Executive Big Data Science 7 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
AppAnie AppMonsta AppLyzer Appmetrics
Análisis de
optimización de
precio
Centrado en sistemas de
incremento de ingresos,
pero sin un análisis de
optimización concreto
Ofrece datos en bruto.
Múltiples indicadores
respectos al mercado,
basados en precio y
beneficios.
Múltiples indicadores
respecto al mercado
Análisis de
competencia
Ranking análisis basado
en descargas, palabras
clave, puntuaciones y
App Store top ranking
Ofrece datos en bruto.
Combina información de
redes sociales.
Ranking análisis basado
en descargas, palabras
clave, puntuaciones y
App Store top ranking
Comparativa entre
aplicaciones de segmentos
similares (clusterización)
Evolución de las
aplicaciones en el
tiempo
Evolución del ranking de
descargas e ingresos.Ofrece datos en bruto.
Datos históricos de los
rankings basados en las
App Stores.
Análisis semanal de la
relación entre ratings,
ranking Alexa y número de
comentarios
Análisis de
comentarios
Análisis demográfico de
uso de aplicaciones sin
análisis de sentimientos
Análisis de sentimiento.Impacto de palabras
clave.
Análisis de sentimiento y
evolución del mismo en el
tiempo.
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 8 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
APPLE STORE – INFRAESTRUCTURA AZURE
MBIT – Master Executive Big Data Science 9 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
1. DataSources
2. Data Acquisition
3. Data Storage
4. Data Processing
3. Data Analysis
4. Reporting & Visualization
iTunes Store Website
iTunes Store RSS
ETL Data LakeBI
Analysis /Prediction
ETL
Azure Blob Storage
Programas personalizados
Azure SQL
APPLE STORE - OBTENCIÓN Y PROCESAMIENTO DE DATOS
MBIT – Master Executive Big Data Science 10 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Semana N Semana N+1
Web Scrapping Lee IDs de aplicaciones
PASOS:1. iTunes Store API (información básica)2. iTunes Web scrapping (Aplicaciones relacionadas, fecha
de actualización…)3. Lector RSS Reader (cometarios para text mining)
Almacenamiento permanente para mantener datos históricos
RECOLECCIÓN DE DATOS (SEMANA N)
PROCESAMIENTO DE DATOS
(SEMANA N-1)
APPLE STORE - OBTENCIÓN Y PROCESAMIENTO DE DATOS
MBIT – Master Executive Big Data Science 11 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Semana N Semana N+1
RECOLECCIÓN DE DATOS
(SEMANA N+1)
.
API
RSSWEB
PROCESAMIENTO DE DATOS (SEMANA N)
Read App Data
Extract
Transform
Load
Creación automática del clúster
Azure SQL
Obtención de Ranking Alexa
GOOGLE PLAY – INFRAESTRUCTURA GOOGLE CLOUD
MBIT – Master Executive Big Data Science 12 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
1. DataSources
2. Data Acquisition
3. Data Storage
4. Data Processing
3. Data Analysis
4. Reporting & Visualization
ETL Data Lake ETL
Scrapy web crawler Computer Engine
BIAnalysis /Prediction
GOOGLE PLAY - OBTENCIÓN Y PROCESAMIENTO DE DATOS
MBIT – Master Executive Big Data Science 13 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Semana N
Web Scrapping. Recopilación de la información de todas las aplicaciones existentes
Almacenamiento permanente para mantener datos históricos
RECOLECCIÓN DE DATOS PROCESAMIENTO DE DATOS
Read App Data
Extract
Transform
Load
Creación del clúster
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 14 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
IMP
OSS
IBLE
CA
SES
PO
SSIB
LE C
ASE
S
TEXT ANALYTICS – Universo de casos posibles
MBIT – Master Executive Big Data Science 15 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
TEXT ANALYTICS
LIKE / NO LIKE / UNCLASSIFIED
STANDARD CLASSIFICATION
ERROR / POWERFUL
SPECIAL CLASSIFICATION
Like Errors
Powerful
Not Like Errors
Powerful
Like Powerful
Like Errors
Not Like Errors
Not Like Powerful
Like
Not Like
Unclassified
TEXT ANALYTICS – Ejemplos de opiniones clasificadas
MBIT – Master Executive Big Data Science 16 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
TEXT ANALYTICS
LIKE / NO LIKE / UNCLASSIFIED
STANDARD CLASSIFICATION
ERROR / POWERFUL
SPECIAL CLASSIFICATION
TEXT ANALYTICS – CREACION DEL MODELO DE CLASIFICACIÓN
MBIT – Master Executive Big Data Science 17 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Naïve Bayes
Otros algoritmos
• El algoritmo solo clasifica una de las clases posibles.
• Accuracy bajo
• MAXENTROPY_LABEL detecta todas las clases• FOREST_LABEL únicamente detecta una clase• Accuracy bajo en general• Objetivo: 75-80%
TEXT ANALYTICS – ANALISIS DESCRIPTIVO. VISUALIZACIÓN DE LOS DATOS.
MBIT – Master Executive Big Data Science 18 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Mix de sentimientos
Nube de tags
ESTIMACIÓN DE DESCARGAS – ANALISIS INICIAL DE LOS DATOS
MBIT – Master Executive Big Data Science 19 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Unificación de categorías Variables del modelo
Correlación entre las variables
• Correlación positiva alta entre descargas y número de reviews.• Correlación prácticamente inexistente entre rating_value y
filesize y el número de descargas. • No existe multicolinealidad entre las variables independientes
ESTIMACIÓN DE DESCARGAS – ANALISIS DE OUTLIERS
MBIT – Master Executive Big Data Science 20 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
• 31 apps eliminadas quitando categorías 16 y 17.• 206 apps eliminadas quitando outliers cat 12-14
ESTIMACIÓN DE DESCARGAS – RESULTADOS DEL MODELO
MBIT – Master Executive Big Data Science 21 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
• La variable review_number es significativa individualmente y en su conjunto
• El coeficiente sobre el número de reviews, toma el valor 65.77. Esta es la aproximación que utilizaremos para estimar el número de descargas de la App Store.
• Los géneros que mejor se ajustan con este modelo son Games, Entertainment, Music y Photo&Video.
• Los géneros que peor se ajustan son Books y Health&Fitness
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 22 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
DEMO
MBIT – Master Executive Big Data Science 23 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
Demo
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 24 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
MODELO DE NEGOCIO
MBIT – Master Executive Big Data Science 25 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
SOCIOS PRINCIPALES ACTIVIDADES PROPUESTA DE VALOR RELACIONES CON CLIENTES SEGMENTOS DE CLIENTES
• App Stores (iTunes/Google Play)
• Alexa API• Redes sociales
(Facebook, Twitter)
• Optimización de precios• Análisis de competencia• Detección de fraude
• Análisis descriptivos• Análisis predictivos• Análisis de sentimientos• Clusterización
• Asistencia personalizada.• Petición de informes ad-
hoc• Automatización de
reportes• Desarrolladores de
Aplicaciones• Empresas de marketing• Data scientists• App stores
RECURSOS PRINCIPALES CANALES
• Infraestructuras cloud• Azure Machine Learning• Herramientas de reporting
• Website• E-mail• Aplicación móvil• Redes sociales
ESTRUCTURAS DE COSTES FUENTES DE INGRESOS
• Costes fijos:• Mantenimiento básico de infraestructuras (escalables)• Mantenimiento del Website• Factores humanos
• Costes variables:• Costes de desarrollo• Campañas de marketing
• Analítica como servicio (AaaS) • Venta de datos RAW• Modelos de subscripción• Reportes personalizados
AGENDA
1 El Proyecto
2 Infraestructura
3 Analítica
4 Conclusiones
5 Modelo de negocio
6 QA
MBIT – Master Executive Big Data Science 26 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz
MBIT – Master Executive Big Data Science 27 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz