gestión de la información en el proceso de vigilancia ... · reciente creación en el 2003,...

48
Seminario sobre VIGILANCIA TECNOLÓGICA Gestión de la información en el proceso de Vigilancia Tecnológica Pere Escorsa y Katia Cueto IALE TECNOLOGIA MADRI+D, CEIM, CIMTAN, CITME Madrid, CEIM, 18 de junio de 2008

Upload: vuongdat

Post on 01-Oct-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Seminario sobre VIGILANCIA TECNOLÓGICA

Gestión de la información en el proceso de Vigilancia Tecnológica

Pere Escorsa y Katia Cueto

IALE TECNOLOGIA

MADRI+D, CEIM, CIMTAN, CITMEMadrid, CEIM, 18 de junio de 2008

¿Quiénes somos?

Somos una empresa spin off de la UPC

Nuestra dirección es:Balmes, 48, 2º-1ª, 08007 BarcelonaTel / Fax: (++34) 93 467 25 56Email: [email protected], [email protected]: www.iale.es

Oficinas en Viña del Mar-Valparaíso, (Chile), Madrid y Sevilla

Representaciones en Bogotá (Colombia), Caracas (Venezuela), México D.F. y Celaya (México), Montevideo/Pando (Uruguay) y Cochabamba (Bolivia)

Alianza con IRIT de Toulouse y MathéoSoftware de Marsella (Francia)

IALE Tecnología

Gestión de la innovación

Formación Especializada

InteligenciaCompetitiva

Ciclo de Vigilancia

Fuente: Adaptado a partir de Bernhardt (1994)

Planificación y dirección

Acciones

Difusión resultados

Análisis

Procesamiento

Obtención de información

Fuentes formales

Fuentes informales

La vigilancia tiene un papel de detección mientras la inteligencia competitiva tiene por misión el posicionamiento estratégico de la empresa en su entorno (Cohen)

La inteligencia no es sólo observación sino una práctica ofensiva y defensiva de la información. Es una herramienta que conecta el saber de la empresa con la acción (Baumard)

Inteligencia en lugar de Vigilancia (2)

Dos Niveles de Vigilancia Avanzada

Obtención/captura de la información (Internet, bases de datos, proveedores de noticias…)

Softwares de captura de la información

Tratamiento de la información (recuentos, coocurrencias, visualización con mapas..)

Softwares de tratamiento de la información

1

2

1. Análisis de la información:

* Estructurada* No Estructurada

2. La plataforma Vigiale de captura de la información.

Contenido

Softwares de Data Mining:

MATHÉO SOFTWARE

Reciente creación en el 2003, origen francés.

Funcionamiento en entorno Windows™.

Facilidad de uso y aprendizaje, interfase amigable.

La información se importa de bases estructuradas

Análisis mediante recuentos simples y coocurrencias.

Visualización de resultados mediante grafos, histogramas y matrices.

Características:

Softwares de Data Mining:

MATHÉO SOFTWARE

Plataformas:

Formas: Recuentos simples

Pares: Cruce de campos igual o diferentes

Clústeres: Agrupación de objetos en grupos similares

Conceptos relacionados

Visualización:

Tablas y matrices

Histogramas de frecuencias

Grafo de relaciones: Pares, formas, conectividad

Tres tipos de grafos: simétricos, asimétricos, condorcet

Pantalla de recuentos simples

Campos

Recuentos

Visualización

Registro primario

Softwares de Data Mining:

MATHÉO SOFTWARE

Softwares de Data Mining: MATHÉO SOFTWARE

Pantalla de Pares o cruces

Campos

Recuentos

Visualización

Registro primario

Campos

Softwares de Data Mining:

MATHÉO SOFTWAREVisualización

Condorcet: grupos homogéneos de noticias en relación al campo Afiliación

Peces de Aguas Frías: Merluza, Mero

Publicaciones por países

Mapas tecnológicos

ARTÍCULOS POR PAÍSES

40%

15%6%5%5%

4%

3%3%

3%

16%

USAJAPONREINO UNIDOFRANCIAALEMANIAITALIACHINACANADAESPAÑAOTROS

Cluster en que se ubica la UPC: hidroxiapatita, fosfato de calcio, bioactividad, tejido celular

Enfermedades: son relevantes para este grupo de especies, principalmente en cuanto a detección, control y transmisión

Alimentación con dietas vivas: elemento crítico en la tecnología de cultivo

Reclutamiento y evaluación de stocks: importancia de las pesquerías de estas especies en el Hemisferio Norte y Sur

Peces agua fría: temas principales

Mapas tecnológicos

Moluscos: Publicaciones en Chile

Publicaciones de autores chilenos

Mapas tecnológicos

El texto...

El texto es la mayor

fuente de información

y conocimiento para

las empresas

El texto...

Web de competidores, instituciones, informes de organismos, bases de datos de patentes, congresos y artículos, sistemas internos de manejo de documentos...

Situación actual:

La información está dispersa en diversas fuentes de textos

El flujo de información constante con actualizaciones diarias...

Medline

Factiva

10.000 abstract nuevos/semana

35.000 nuevos artículos/día

Minería de textos

La minería de textos se enfoca en el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, su objetivo es descubrir nuevas tendencias, desviaciones y asociaciones dentro de grandes volúmenes de información textual.

Text Mining es el proceso de aplicación de métodos automáticos para analizar y estructurar datos de texto con el objetivo de crear un conocimiento útil a partir de información estructurada y no estructurada.

Minería de textos

Comprende el lenguaje

Módulo Morfológico

Módulo Morfológico

Módulo Sintáctico

Módulo Sintáctico

Módulo Semántico

Módulo Semántico

text texto texto texotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto texto

Reconoce palabras, marcas de tiempo, género y número

Reconoce oraciones, crea

estructura gráfica, marca sujeto,

objeto, relaciones entre palabras

Reconoce red semántica

Descubre conocimiento que no existía explícitamente en ningún texto individual de la colección

Minería de textos

Estructura de información

EstructuradaEstructurada No estructuradaNo estructurada

Bases de datos de patentes,

publicaciones...

Texto libre

+ +Semi -Estructurada

Semi -Estructurada

Web, XML...

Minería de textos

Estado del arte

Etapa prep-procesamiento

Etapa prep-procesamiento Tipo de

representación

Tipo de representación

Categorización

Full-text

Extracción de información

Tipo de descubrimiento

Tipo de descubrimiento

Vectores de temas

Secuencia de palabras/conceptos

Tablas de datos

Nivel temático

Patrones de lenguaje

Relaciones entre entidades

Etapa de descubrimientoEtapa de descubrimiento

Minería de textos

Lingüística computacional: extracción de información

Lingüística estadística

Recuperación de información

Reconocimiento de patrones: Reducción de

características, clasificación, análisis de clústeres...

Disciplinas relacionadas

Minería de textos

Búsqueda de información: búsquedas avanzadas, centradas en conceptos y ofrecer alternativas.

Extracción de información: ofrecer conceptos o frases de documentos para decidir relevancia o formar nuevos documentos.

Análisis de colecciones de texto: Revisión de colecciones, categorización (previas) y clasificación/clustering automático.

Algunas aplicaciones

Compañía TEMIS

Editor de software creado en septiembre del 2000Líder europeo del Text Mining, presente en Francia, Alemania e Italia y, a través de sus socios, en el resto de Europa y en Estados Unidos.47 personas, tres filiales. Equipo de investigadores, desarrolladores y managers de IBM Francia, EUA, Alemania e Italia, XEROX,….Adquisición de Xerox Linguistics en julio de 2003.Más de 15 años de experiencia en soluciones de Text Mining.

TEMIS - características

Extracción de información de cualquier fuente: bases de datos, documentación e informes internos de la empresa, Internet, etc.

Nuevas aplicaciones: organización de la información, clasificación en grupos homogéneos de documentos.

TEMIS - características

Extracción de información de cualquier fuente: bases de datos, documentación e informes internos de la empresa, Internet, etc.Organización de la información e identificación de grupos homogéneos (clusters)4 módulos: “

TEMIS - Tecnología

Tecnología base: Cartuchos

Normas del idiomaTerminología técnica...

Ejemplo: Legislación en Salmón:

Normas de idiomasTerminología del sector del salmónTerminología legislativa...

TEMIS - Procesamiento

Análisis léxico y normalizaciónPalabras compuestas y expresionesPalabras vacíasStemming o Lemmatization (raíz de palabra)

Procesamiento lingüístico

TEMIS - Cartuchos

Cartucho Características

Cartuchos generales Trabajan con la información sin dar especial relieve a tipos de datos concretos.

Cartucho de Inteligencia Competitiva

Identifica las relaciones y acciones asociadas a fusiones, alianzas, adquisiciones, divisiones, nuevas

inversiones…

Cartucho para identificar la satisfacción del cliente

Da relevancia a las expresiones de satisfacción e insatisfacción de clientes:

Verbos modalesJuicios positivos y negativos

Cartuchos de sectores concretos Incluyen la terminología y estructura informativa específica

del sector para tratar la información adecuadamente

… …

TEMIS - cartuchos

Who

What

When

Where

How much

¿Cuales son los actores de un campo económico?

¿cuáles son las acciones que estos actores realizan?

¿cuándo se desarrollan estas acciones?

¿dónde se ejecutan estas acciones?

¿Describe las magnitudes y porcentajes?

Cartucho Inteligencia Competitiva - Extracción

TEMIS - cartuchos

Cartucho Inteligencia Competitiva - Extracción

Ejemplo de una extracciónTexto original: IBM Corp. late Thursday said it would acquire business strategy consultingfirm Mainspring Inc. In a deal worth more than $80 million

WhoWhenAnnouncemnetAcquisitionModalityWhomHow much

IBM CorporationLate thursdaySaidAcquirewouldBusiness strategy consulting firm Mainspring Inc.$80 million

TEMIS - cartuchos

Cartucho Int. Competitiva – Acciones Claves

Cartucho Int. Competitiva – Acciones No Claves

Relaciones: alianzas, acuerdos, sociedades, joint ventures...Transferencia de propiedad: Adquisiciones, fusiones...Financieras: Pérdidas, retornos, ganancia, valor de inventarios, beneficios...

Comunicación: anuncios, explicación, declaración, negociación, aprobación, confirmación, propuesta, rechazoPercepción: intención, expectación, estimación, planes, predicción...

TEMIS - cartuchos

Cartucho Int. Competitiva – Farmacia

Extracción automática de conceptos clave para la IC

Financieros: facturación, beneficios, crecimientoInvestigación & Desarrollo: estrategias I+D, pruebas clínicas, eficacia del producto, dosificación de productoReguladores: aprobación FDA, declaración de intenciones, reembolsoEstratégicos: acuerdo de licencia, co-desarrollo, co-marketing, fusión, adquisición, joint-ventureY más: Organización, Ventas & marketingPermite análisis de tendencias, clustering de temas,…

TEMIS - cartuchos

Cartucho Costumer Relationship Management (CRM): Extracción básica

Satisfacción de clientes a partir del estudio de adjetivos, verbos y expresiones típicas, negaciones, adverbios…

Percepciones de los clientes de las empresa, sus productos, del servicio al cliente y sus quejas.Clientes potenciales y clientes perdidos.Cuestiones legales.Spam.Queries.

Ejemplo de una extracción: Satisfacción del cliente.Texto original: I have tried to get residential phone service restored for over a week now. I do not

have a dial tone. We need a phone repairman to come out and check this box.Technical problem: no dial toneService request product: residential phone serviceUrgency degree: high

TEMIS – Estructura operativa

Para extraer

Conversión de Datos de Texto Desestructurados en Valor de Negocio

?

CompetidoresProductosÁreas de Negocio

Pharmacia Corp. fue adquirido por Pfizer Inc. en 2003Objetivo

Empresa

Objetivo

EmpresaAcción

Adquisición

Acción

AdquisiciónComprador

Empresa

Comprador

EmpresaFecha

Año

Fecha

Año

AdquisiciónObjetivoCompradorLocalización FechaImporte...

Para organizar

Para categorizar

TEMIS – Estructura operativa

¿¿La empresa dispone ya de una La empresa dispone ya de una clasificaciclasificacióón de su informacin de su informacióón?n?

ExtracciExtraccióón de la informacin de la informacióónn

NoNo SSíí

CreaciCreacióón de grupos n de grupos homoghomogééneos y definicineos y definicióón n

de categorde categoríías as

IntroducciIntroduccióón de nueva n de nueva informaciinformacióón en la n en la

clasificaciclasificacióón existenten existente

Vigilancia Tecnológica, económica, comercial…

Gestión de Contenidos Empresariales (ECM), Gestión de documental (Metadata)...

+

El Extractor...

Análisis morfo-sintáctico Análisis gramatical y semánticoMultilingüe 12 idiomas (inglés, francés, español, alemán,

italiano, portugués, holandés...)50 formatos posibles (XML, word, pdf, html, txt…)Extrae la información de: artículos, comunicados de

prensa, patentes, publicaciones científicas y técnicas, informes internos, documentación jurídica, foros y chat...Información identificada con un sistema de extracción de reglas: el Skill Cartridge™

El Extractor: Ejemplos

Ford Empresa SectorSatisfacción del cliente Inteligencia CompetitivaCoches

El Clusterizador...

Servidor de clasificaciónOrganiza automáticamente los documentos en

grupos homogéneos (clusters)Clasificación y jerarquizacion

Aplicaciones :Propuesta de un plan de clasificaciónCartografía documentalAnálisis de fondos documentales

El Clusterizador: Ejemplo

El Clusterizador: Ejemplo

Sector del Automóvil Aguas

El Categorizador...

Clasifica automáticamente documentos internos: artículos, informes, e-mails, CVs en categorías predefinidasAplicación : categorización de fondos documentales, alimentación de bases de conocimiento, rutaje documentalCalidad y fiabilidad:

Funciona a partir de una base de aprendizajeCálculo de la similitud a partir de vectores semánticos

El Categorizador...

Documentos de entrada

(artículos, patentes,

feedback de clientes…)

Documentos de entrada

(artículos, patentes,

feedback de clientes…)

Alertas IndividualizadasDocumentos clasificados

El Categorizador...

Caso real cedido por TEMIS para su demostración

Minería de Información

Flujos de prensaFactiva

Lexis NexisAlimentación

manual

Flujos de prensaFactiva

Lexis NexisAlimentación

manual

CATEGORÍASFinanzas

InfraestructuraCamposFusión

COMPAÑÍAGazprom

ShellSibneft

… Informes actualizados cada día

con historial de 8 días

Puesto en el Intranet

Informes actualizados cada día

con historial de 8 días

Puesto en el Intranet

DESPUÉS

Lectura SelecciónDifusión

Lectura SelecciónDifusión

ANTES

Demasiados docs/falta de tiempo/ lectura en diagonal >> pérdida de información

Temas genéricos y específicosSelección compleja

El Categorizador...

Flujos de prensaFactiva

Lexis NexisAlimentación Manual

Flujos de prensaFactiva

Lexis NexisAlimentación Manual

TEMAS GENÉRICOSFinanzas

InfraestructuraCamposFusión

COMPAÑÍAGazprom

ShellSibneft

Informes actualizados cada día

Informes actualizados cada día

Minería deInformación

TEMA ESPECÍFICOParadas refinadas

Flujos de prensaEuropress

Flujos de prensaEuropress

TEMA ESPECÍFICOMapas cuentas principales

Nueva fuente / Crawl sitios web

Nueva fuente / Crawl sitios web

Aplicaciones...

TextMining

Vigilancia eInteligencia

KM

Análisis deInformación

desestructurada

Análisis deInformaciónestructurada

Resúmenesy dossieres

RRHH

CRM