ayudas y conocimiento del sector tic -  · financiación internacional fondo auditoria valoración...

23
Proyecto Big Data Ayudas y conocimiento del sector TIC 1 diciembre 2015

Upload: dothuan

Post on 18-Oct-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Proyecto Big Data Ayudas y conocimiento del

sector TIC1 diciembre 2015

Objetivos del proyecto BigData

• ¿Por qué es necesario mejorar el conocimiento del sector TIC?

- Sector muy dinámico y con alto grado de especialización. Dificultad para diseñar políticas

públicas eficaces, especialmente en el fomento de la I+D+i.

- Sector transversal, presente en ámbitos productivos y sociales muy diversos.

- Carencias en el conocimiento estadístico (sector mal censado, retraso medio en la elaboración

de estadísticas 18 meses , granularidad información de las estadísticas muy grosera. Ej CNAE

2009 TIC).

• ¿Por qué mejorar el procedimiento de ayudas a la I+D+i en TIC?

- Evaluación de multitud de tecnologías y proyectos innovadores. En periodos de tiempo de

evaluación muy reducidos. Agrupamiento de solicitudes para su evaluación.

- Necesidad de contrastar el contenido de las ayudas solicitadas con las concedidas por otros

organismos (CDTI, SETSI, SEIDI, …)

Visión general del sistema

3

Técnicas

Vistas

- Contratación pública

- Patentes

- [Corpus], [Corpus]_t

- …

- Ayudas

NLP

Machine Learning

Semántica Tópicos …

- Doc vs. [Corpus]

- [Corpus] vs. [Corpus]’

- - -

Los casos de uso del sistema son la

intersección de:

• Aplicación de ciertas Técnicas

• Sobre uno o varios Corpus

• Eligiendo unas Vistas concretas.

- Publicaciones científicas

- Web de empresas, noticias del sector

Algunos corpus documentales

Ayu

das

Ayudas SETSI

2008-201510K

Ayudas CDTI

2013-20143K

Ayudas SEIDI-FECYT2004-2013

58K

Pat

en

tes

Patentes ES TIC2004-2014

43K

Patentes EUEPO

Patentes USPTO TIC2005-2015

779K

Co

ntr

atac

ión

Portal Contratación Pública española

2010-2015

Patentes EUEPO

Contratación Pública Europea TED

1M/año

Otr

os Websites de compañías TIC

2013-201530K

Webs noticias sector TIC

Ofertas de empleo TICInfojobs, tecnoempleo,

monster 9K/mes

Pu

blic

acio

ne

s ci

entí

fica

s

Publicaciones investigaciones españolas objeto de ayudas WoK

Scopus TIC 2008-201510K/año

ETL+NLP

Extracción de datos (ETL)

● Estructurados

● No estructurados

Técnicas procesamiento de lenguaje natural (NLP)

Reducción de dimensión: tópicos (temas, áreas de conocimiento) presentes en el documento:

Similar a la caracterización de un usuario -documentos- que realizan las tiendas online (ej.: Amazon) en

función de los productos -términos- que ha comprado:

Análisis de tópicos (I)

Documentos

x

Términos

Documentos

x

Tópicos

Tópicos

x

Términos= x

T1

T2

T3

T1

T2

T3

=

=

Términos presentes en más de un tópico.

6

Estáticos (LDA, CTM)

Dinámicos (DTM)

Jerárquicos (rLDA)

Análisis de tópicos (II)

Ejemplo de tópicos (LDA-300 SEIDI)

8

Reducción de emisiones contaminantes

gas emisión combustión emisión combustible atmosfera contaminante motor reducción

partícula invernadero aire captura biomasa carbono efecto nox diesel reducir carbón dióxido

metano condición escape gei amoniaco composición operación mezcla comportamiento

Computación paralela

computación algoritmo implementación eficiente alto prestación recurso computacional

ejecución procesador paralelo procesamiento rendimiento distribuido grid arquitectura cloud

computo hardware diseño acceso cluster paralelismo cálculo heterogéneo complejidad

Financiación

financiero gobierno crisis inversión empresa contable corporativo capital información

financiación internacional fondo auditoria valoración riesgo contabilidad inversor actual banco

grado activo bancario finanza economía solvencia contexto empresarial evidencia deuda

Composición de tópicos de un documento

9

Composición peculiar del documento

1000 Tópicos…

AngularVibratingResonantPlate …

SensorSensing…

MagnetizedPolarityMagnetization…

Reducción del espacio:Diccionario -> Tópicos

Distancia según tópicos

10

Documento A

Documento B

A B A B A B

dCalculo d(A,B)

Caso de aplicación: OEPM

11

Objetivos perseguidos

● Asistir al evaluador en la tarea de examen de patentes

● Mejorar la visión de conjunto de una colección de patentes

Corpus tratados en patentes

● Patentes USPTO Grants (Enero 2005 a febrero 2015)

− Patentes en el sector TIC1 ( ̴779K)

− Subconjunto con IPC G06F Electric Digital Data Processing ( ̴42K)

Se buscaron 141K citas de patentes entre un universo de 779K patentes TIC.

Resultados detallados de la búsqueda de citas:

● 7.5% de las citas buscadas aparecieron como primer resultado

● El 20.8% aparecieron entre los 10 primeros resultados

● El 50% aparecieron entre los 161 primeros resultados

Caso de aplicación: SETSI

Objetivos perseguidos

● Obtener una visión de conjunto sobre las solicitudes de ayuda gestionadas

● Ofrecer herramientas que faciliten el trabajo de los evaluadores de solicitudes

Dar respuesta a preguntas como:

● ¿Cuales son los temas más propuestos? ¿qué volumen de solicitudes llegan por tema? ¿qué

temáticas se financian más?

● Perfil de la empresa, ¿en qué temas caracterizan los proyectos de una empresa?

● Obtención de proyectos por tema, ¿qué proyectos se han presentado en el ámbito de los

videojuegos?

● La evolución temporal de las temáticas.

12

Búsqueda textual enriquecida

Interfaz parametrizable para búsqueda textual enriquecida con filtrado por metadatos

13

Visión global del corpus

Visión global del corpus según los tópicos reconocidos, detalle de palabras más frecuentes del

tópico y documentos del corpus que mejor se adaptan al tópico

14

Evolución temporal de los tópicos (I)

Evolución de la temática contenida en los documentos del corpus.

15

Evolución temporal de los tópicos (II)

Con esta vista se pueden dar respuesta a las siguientes preguntas:

● ¿Qué temas están siendo cada vez más propuestos por las empresas?

● ¿Como evoluciona la financiación de cada temática?

● ¿Qué temas están surgiendo y cuales están desapareciendo en las propuestas de los

investigadores?¿y entre los proyectos financiados?

● Útil para determinar nuevas líneas de trabajo candidatas a ser apoyadas

● ¿Relación entre proyectos financiados y publicaciones científicas, patentes publicadas?

Indicadores anticipados, transferencia de conocimiento a la industria.

16

Búsqueda temática

Permite la búsqueda de documentos más parecidos a un texto dado, empleando una

búsqueda no textual basada en su proyección sobre un modelo de tópicos

La búsqueda temática es útil para los siguientes casos:

● ¿La propuesta a analizar es original? ¿Ha sido presentada en convocatorias anteriores?

● ¿La propuesta es original pero no es innovadora?

● Asignación de evaluadores. ¿Puedo encontrar un evaluador que haya examinado una

propuesta similar o tenga un perfil compatible?

17

Caso de aplicación: SEIDI

Objetivos perseguidos

● Visión de conjunto sobre sus ayudas tramitadas

● Gestión de las ayudas de múltiples organismos

Corpus tratados

● Conjunto de solicitudes admitidas a las convocatorias de proyectos de investigación básica

del Plan Nacional de I+D+i en el periodo 2004-2012, y a las convocatorias “Proyectos de

excelencia” y “Retos de investigación” de 2013, del Plan Estatal 2013-2016

● Conjunto de solicitudes aprobadas en las convocatorias del CDTI de los años 2013 y 2014

● Conjunto de documentos de la base de datos bibliográfica Scopus publicados en el periodo

2008-2014, dentro del área temática de ingeniería, si al menos uno de los autores está

afiliado a una institución española

18

Comparación multicorpus

Modelo de tópicos + clusterización + PCA para representar en un mismo espacio temático las áreas

tratadas por las Ayudas de diferentes organismos. Posibilidad de comparar las áreas temáticas

tratadas por cada organismo, los solapes y las exclusividades.

Ej. SECTOR TIC Español 2013

19

Compartición de modelos

La descomposición en tópicos es una huella del documento

● Cuanto más grande es el modelo más precisa y más exclusiva es la descomposición en

tópicos

● Representa las características temáticas de un documento sin desvelar su contenido

● Posibilidad de comparar documentos cuyo contenido se desconoce

Compartiendo modelo de tópicos entre organizaciones, pero sin compartir las solicitudes, se

podría responder a preguntas como:

● ¿Es una solicitud realmente original o es una reescritura de una solicitud presentada en

otro organismo?

● ¿Qué solicitudes se han presentado sobre un tema independientemente de donde fueron

presentadas?

20

Detección de duplicados

Búsqueda automática de parejas de documentos en el corpus con una similaridad de tópicos

anormalmente alta. Tres posibles escenarios:

● Los proyectos son clones

● Un proyecto es una reescritura de otro

● Los proyectos tratan temáticas similares

21

4. Mejoras y planteamiento futuro

● Incorporación de nuevos corpus documentales (otras publicaciones Elsevier, contenidos

formativos, otros sistema de Ayudas, …)

● Modelos transversales a varias organizaciones

● Uso de datos estructurados para reducir el espacio de búsqueda

● Prospectiva: comparación de modelos de diferentes organizaciones y multidioma

● Uso de técnicas semánticas empleando un conocimiento base

● Empleo de técnicas de aprendizaje automático

● Mejora pipeline NLP, TF-IDF, …

Gracias.

23