gestión de la información en el proceso de vigilancia ... · reciente creación en el 2003,...
Post on 01-Oct-2018
215 Views
Preview:
TRANSCRIPT
Seminario sobre VIGILANCIA TECNOLÓGICA
Gestión de la información en el proceso de Vigilancia Tecnológica
Pere Escorsa y Katia Cueto
IALE TECNOLOGIA
MADRI+D, CEIM, CIMTAN, CITMEMadrid, CEIM, 18 de junio de 2008
¿Quiénes somos?
Somos una empresa spin off de la UPC
Nuestra dirección es:Balmes, 48, 2º-1ª, 08007 BarcelonaTel / Fax: (++34) 93 467 25 56Email: info@iale.es, escorsa@iale.esWeb: www.iale.es
Oficinas en Viña del Mar-Valparaíso, (Chile), Madrid y Sevilla
Representaciones en Bogotá (Colombia), Caracas (Venezuela), México D.F. y Celaya (México), Montevideo/Pando (Uruguay) y Cochabamba (Bolivia)
Alianza con IRIT de Toulouse y MathéoSoftware de Marsella (Francia)
Ciclo de Vigilancia
Fuente: Adaptado a partir de Bernhardt (1994)
Planificación y dirección
Acciones
Difusión resultados
Análisis
Procesamiento
Obtención de información
Fuentes formales
Fuentes informales
La vigilancia tiene un papel de detección mientras la inteligencia competitiva tiene por misión el posicionamiento estratégico de la empresa en su entorno (Cohen)
La inteligencia no es sólo observación sino una práctica ofensiva y defensiva de la información. Es una herramienta que conecta el saber de la empresa con la acción (Baumard)
Inteligencia en lugar de Vigilancia (2)
Dos Niveles de Vigilancia Avanzada
Obtención/captura de la información (Internet, bases de datos, proveedores de noticias…)
Softwares de captura de la información
Tratamiento de la información (recuentos, coocurrencias, visualización con mapas..)
Softwares de tratamiento de la información
1
2
1. Análisis de la información:
* Estructurada* No Estructurada
2. La plataforma Vigiale de captura de la información.
Contenido
Softwares de Data Mining:
MATHÉO SOFTWARE
Reciente creación en el 2003, origen francés.
Funcionamiento en entorno Windows™.
Facilidad de uso y aprendizaje, interfase amigable.
La información se importa de bases estructuradas
Análisis mediante recuentos simples y coocurrencias.
Visualización de resultados mediante grafos, histogramas y matrices.
Características:
Softwares de Data Mining:
MATHÉO SOFTWARE
Plataformas:
Formas: Recuentos simples
Pares: Cruce de campos igual o diferentes
Clústeres: Agrupación de objetos en grupos similares
Conceptos relacionados
Visualización:
Tablas y matrices
Histogramas de frecuencias
Grafo de relaciones: Pares, formas, conectividad
Tres tipos de grafos: simétricos, asimétricos, condorcet
Pantalla de recuentos simples
Campos
Recuentos
Visualización
Registro primario
Softwares de Data Mining:
MATHÉO SOFTWARE
Softwares de Data Mining: MATHÉO SOFTWARE
Pantalla de Pares o cruces
Campos
Recuentos
Visualización
Registro primario
Campos
Softwares de Data Mining:
MATHÉO SOFTWAREVisualización
Condorcet: grupos homogéneos de noticias en relación al campo Afiliación
ARTÍCULOS POR PAÍSES
40%
15%6%5%5%
4%
3%3%
3%
16%
USAJAPONREINO UNIDOFRANCIAALEMANIAITALIACHINACANADAESPAÑAOTROS
Enfermedades: son relevantes para este grupo de especies, principalmente en cuanto a detección, control y transmisión
Alimentación con dietas vivas: elemento crítico en la tecnología de cultivo
Reclutamiento y evaluación de stocks: importancia de las pesquerías de estas especies en el Hemisferio Norte y Sur
Peces agua fría: temas principales
Mapas tecnológicos
El texto...
Web de competidores, instituciones, informes de organismos, bases de datos de patentes, congresos y artículos, sistemas internos de manejo de documentos...
Situación actual:
La información está dispersa en diversas fuentes de textos
El flujo de información constante con actualizaciones diarias...
Medline
Factiva
10.000 abstract nuevos/semana
35.000 nuevos artículos/día
Minería de textos
La minería de textos se enfoca en el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, su objetivo es descubrir nuevas tendencias, desviaciones y asociaciones dentro de grandes volúmenes de información textual.
Text Mining es el proceso de aplicación de métodos automáticos para analizar y estructurar datos de texto con el objetivo de crear un conocimiento útil a partir de información estructurada y no estructurada.
Minería de textos
Comprende el lenguaje
Módulo Morfológico
Módulo Morfológico
Módulo Sintáctico
Módulo Sintáctico
Módulo Semántico
Módulo Semántico
text texto texto texotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto textotexto texto texto texto
Reconoce palabras, marcas de tiempo, género y número
Reconoce oraciones, crea
estructura gráfica, marca sujeto,
objeto, relaciones entre palabras
Reconoce red semántica
Descubre conocimiento que no existía explícitamente en ningún texto individual de la colección
Minería de textos
Estructura de información
EstructuradaEstructurada No estructuradaNo estructurada
Bases de datos de patentes,
publicaciones...
Texto libre
+ +Semi -Estructurada
Semi -Estructurada
Web, XML...
Minería de textos
Estado del arte
Etapa prep-procesamiento
Etapa prep-procesamiento Tipo de
representación
Tipo de representación
Categorización
Full-text
Extracción de información
Tipo de descubrimiento
Tipo de descubrimiento
Vectores de temas
Secuencia de palabras/conceptos
Tablas de datos
Nivel temático
Patrones de lenguaje
Relaciones entre entidades
Etapa de descubrimientoEtapa de descubrimiento
Minería de textos
Lingüística computacional: extracción de información
Lingüística estadística
Recuperación de información
Reconocimiento de patrones: Reducción de
características, clasificación, análisis de clústeres...
Disciplinas relacionadas
Minería de textos
Búsqueda de información: búsquedas avanzadas, centradas en conceptos y ofrecer alternativas.
Extracción de información: ofrecer conceptos o frases de documentos para decidir relevancia o formar nuevos documentos.
Análisis de colecciones de texto: Revisión de colecciones, categorización (previas) y clasificación/clustering automático.
Algunas aplicaciones
Compañía TEMIS
Editor de software creado en septiembre del 2000Líder europeo del Text Mining, presente en Francia, Alemania e Italia y, a través de sus socios, en el resto de Europa y en Estados Unidos.47 personas, tres filiales. Equipo de investigadores, desarrolladores y managers de IBM Francia, EUA, Alemania e Italia, XEROX,….Adquisición de Xerox Linguistics en julio de 2003.Más de 15 años de experiencia en soluciones de Text Mining.
TEMIS - características
Extracción de información de cualquier fuente: bases de datos, documentación e informes internos de la empresa, Internet, etc.
Nuevas aplicaciones: organización de la información, clasificación en grupos homogéneos de documentos.
TEMIS - características
Extracción de información de cualquier fuente: bases de datos, documentación e informes internos de la empresa, Internet, etc.Organización de la información e identificación de grupos homogéneos (clusters)4 módulos: “
TEMIS - Tecnología
Tecnología base: Cartuchos
Normas del idiomaTerminología técnica...
Ejemplo: Legislación en Salmón:
Normas de idiomasTerminología del sector del salmónTerminología legislativa...
TEMIS - Procesamiento
Análisis léxico y normalizaciónPalabras compuestas y expresionesPalabras vacíasStemming o Lemmatization (raíz de palabra)
Procesamiento lingüístico
TEMIS - Cartuchos
Cartucho Características
Cartuchos generales Trabajan con la información sin dar especial relieve a tipos de datos concretos.
Cartucho de Inteligencia Competitiva
Identifica las relaciones y acciones asociadas a fusiones, alianzas, adquisiciones, divisiones, nuevas
inversiones…
Cartucho para identificar la satisfacción del cliente
Da relevancia a las expresiones de satisfacción e insatisfacción de clientes:
Verbos modalesJuicios positivos y negativos
…
Cartuchos de sectores concretos Incluyen la terminología y estructura informativa específica
del sector para tratar la información adecuadamente
… …
TEMIS - cartuchos
Who
What
When
Where
How much
¿Cuales son los actores de un campo económico?
¿cuáles son las acciones que estos actores realizan?
¿cuándo se desarrollan estas acciones?
¿dónde se ejecutan estas acciones?
¿Describe las magnitudes y porcentajes?
Cartucho Inteligencia Competitiva - Extracción
TEMIS - cartuchos
Cartucho Inteligencia Competitiva - Extracción
Ejemplo de una extracciónTexto original: IBM Corp. late Thursday said it would acquire business strategy consultingfirm Mainspring Inc. In a deal worth more than $80 million
WhoWhenAnnouncemnetAcquisitionModalityWhomHow much
IBM CorporationLate thursdaySaidAcquirewouldBusiness strategy consulting firm Mainspring Inc.$80 million
TEMIS - cartuchos
Cartucho Int. Competitiva – Acciones Claves
Cartucho Int. Competitiva – Acciones No Claves
Relaciones: alianzas, acuerdos, sociedades, joint ventures...Transferencia de propiedad: Adquisiciones, fusiones...Financieras: Pérdidas, retornos, ganancia, valor de inventarios, beneficios...
Comunicación: anuncios, explicación, declaración, negociación, aprobación, confirmación, propuesta, rechazoPercepción: intención, expectación, estimación, planes, predicción...
TEMIS - cartuchos
Cartucho Int. Competitiva – Farmacia
Extracción automática de conceptos clave para la IC
Financieros: facturación, beneficios, crecimientoInvestigación & Desarrollo: estrategias I+D, pruebas clínicas, eficacia del producto, dosificación de productoReguladores: aprobación FDA, declaración de intenciones, reembolsoEstratégicos: acuerdo de licencia, co-desarrollo, co-marketing, fusión, adquisición, joint-ventureY más: Organización, Ventas & marketingPermite análisis de tendencias, clustering de temas,…
TEMIS - cartuchos
Cartucho Costumer Relationship Management (CRM): Extracción básica
Satisfacción de clientes a partir del estudio de adjetivos, verbos y expresiones típicas, negaciones, adverbios…
Percepciones de los clientes de las empresa, sus productos, del servicio al cliente y sus quejas.Clientes potenciales y clientes perdidos.Cuestiones legales.Spam.Queries.
Ejemplo de una extracción: Satisfacción del cliente.Texto original: I have tried to get residential phone service restored for over a week now. I do not
have a dial tone. We need a phone repairman to come out and check this box.Technical problem: no dial toneService request product: residential phone serviceUrgency degree: high
TEMIS – Estructura operativa
Para extraer
Conversión de Datos de Texto Desestructurados en Valor de Negocio
?
CompetidoresProductosÁreas de Negocio
Pharmacia Corp. fue adquirido por Pfizer Inc. en 2003Objetivo
Empresa
Objetivo
EmpresaAcción
Adquisición
Acción
AdquisiciónComprador
Empresa
Comprador
EmpresaFecha
Año
Fecha
Año
AdquisiciónObjetivoCompradorLocalización FechaImporte...
Para organizar
Para categorizar
TEMIS – Estructura operativa
¿¿La empresa dispone ya de una La empresa dispone ya de una clasificaciclasificacióón de su informacin de su informacióón?n?
ExtracciExtraccióón de la informacin de la informacióónn
NoNo SSíí
CreaciCreacióón de grupos n de grupos homoghomogééneos y definicineos y definicióón n
de categorde categoríías as
IntroducciIntroduccióón de nueva n de nueva informaciinformacióón en la n en la
clasificaciclasificacióón existenten existente
Vigilancia Tecnológica, económica, comercial…
Gestión de Contenidos Empresariales (ECM), Gestión de documental (Metadata)...
+
El Extractor...
Análisis morfo-sintáctico Análisis gramatical y semánticoMultilingüe 12 idiomas (inglés, francés, español, alemán,
italiano, portugués, holandés...)50 formatos posibles (XML, word, pdf, html, txt…)Extrae la información de: artículos, comunicados de
prensa, patentes, publicaciones científicas y técnicas, informes internos, documentación jurídica, foros y chat...Información identificada con un sistema de extracción de reglas: el Skill Cartridge™
El Clusterizador...
Servidor de clasificaciónOrganiza automáticamente los documentos en
grupos homogéneos (clusters)Clasificación y jerarquizacion
Aplicaciones :Propuesta de un plan de clasificaciónCartografía documentalAnálisis de fondos documentales
El Categorizador...
Clasifica automáticamente documentos internos: artículos, informes, e-mails, CVs en categorías predefinidasAplicación : categorización de fondos documentales, alimentación de bases de conocimiento, rutaje documentalCalidad y fiabilidad:
Funciona a partir de una base de aprendizajeCálculo de la similitud a partir de vectores semánticos
El Categorizador...
Documentos de entrada
(artículos, patentes,
feedback de clientes…)
Documentos de entrada
(artículos, patentes,
feedback de clientes…)
Alertas IndividualizadasDocumentos clasificados
El Categorizador...
Caso real cedido por TEMIS para su demostración
Minería de Información
Flujos de prensaFactiva
Lexis NexisAlimentación
manual
Flujos de prensaFactiva
Lexis NexisAlimentación
manual
CATEGORÍASFinanzas
InfraestructuraCamposFusión
…
COMPAÑÍAGazprom
ShellSibneft
… Informes actualizados cada día
con historial de 8 días
Puesto en el Intranet
Informes actualizados cada día
con historial de 8 días
Puesto en el Intranet
DESPUÉS
Lectura SelecciónDifusión
Lectura SelecciónDifusión
ANTES
Demasiados docs/falta de tiempo/ lectura en diagonal >> pérdida de información
Temas genéricos y específicosSelección compleja
El Categorizador...
Flujos de prensaFactiva
Lexis NexisAlimentación Manual
Flujos de prensaFactiva
Lexis NexisAlimentación Manual
TEMAS GENÉRICOSFinanzas
InfraestructuraCamposFusión
COMPAÑÍAGazprom
ShellSibneft
…
Informes actualizados cada día
Informes actualizados cada día
Minería deInformación
TEMA ESPECÍFICOParadas refinadas
…
Flujos de prensaEuropress
Flujos de prensaEuropress
TEMA ESPECÍFICOMapas cuentas principales
…
Nueva fuente / Crawl sitios web
Nueva fuente / Crawl sitios web
top related