servicios de generaciÓn automÁtica de resÚmenes …

197
Página17 Preparado por el Grupo Investigación Istar- Versión 1.01 12/03/2008 SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES POR SUSCRIPCIÓN WEB Néstor Andrés Santos Vidales PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERIA Julio, 2013

Upload: others

Post on 10-Nov-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página17

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

SERVICIOS DE GENERACIÓN AUTOMÁTICA DE

RESÚMENES POR SUSCRIPCIÓN WEB

Néstor Andrés Santos Vidales

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

Julio, 2013

Page 2: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

CIS1310IS05

SERVICIOS DE GENERACIÓN AUTOMÁTICA DE

RESÚMENES POR SUSCRIPCIÓN WEB

Page 3: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página19

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

NÉSTOR ÁNDRES SANTOS VIDALES

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

BOGOTÁ, D.C.

2013

CIS1310IS05

SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES POR

SUSCRIPCIÓN WEB

Autor:

Néstor Andrés Santos Vidales

Page 4: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

MEMORIA DEL TRABAJO DE GRADO REALIZADO PARA CUMPLIR UNO DE LOS

REQUISITOS PARA OPTAR AL TITULO DE INGENIERO DE SISTEMAS

Director

Ing. Efraín Ortiz Pabón

Jurados del Trabajo de Grado

Rafael González

Fabio Aroca

Página web del Trabajo de Grado

http://pegasus.javeriana.edu.co/~CIS1310IS05

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

BOGOTÁ, D.C.

Mayo, 2013

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

Rector Magnífico

Joaquín Emilio Sánchez García S.J.

Page 5: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página21

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Decano Académico Facultad de Ingeniería

Ingeniero Francisco Javier Rebolledo Muñoz

Decano del Medio Universitario Facultad de Ingeniería

Padre Sergio Bernal Restrepo S.J.

Director de la Carrera de Ingeniería de Sistemas

Ingeniero Germán Alberto Chavarro Flórez

Director Departamento de Ingeniería de Sistemas

Ingeniero Rafael Andrés González Rivera

Artículo 23 de la Resolución No. 1 de Junio de 1946

“La Universidad no se hace responsable de los conceptos emitidos por sus alumnos en sus proyec-

tos de grado. Sólo velará porque no se publique nada contrario al dogma y la moral católica y

porque no contengan ataques o polémicas puramente personales. Antes bien, que se vean en ellos

el anhelo de buscar la verdad y la Justicia”

Page 6: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

AGRADECIMIENTOS

Quiero agradecer a Dios y a mi madre por darme la oportunidad de llegar hasta acá, también agra-

decer al profesor Oscar Chavarro por valorar el conocimiento extracurricular y abrirme un espacio

de dialogo sobre ideas de emprendimiento, al profesor Leonardo Flórez por sus sabias enseñanzas y

su gran paciencia, al profesor Alexander Gelbukh por guiarme en el camino del procesamiento del

lenguaje natural y ser mi norte, al profesor Efraín Ortiz por impulsar y mostrarme el camino del

emprendimiento, a Blanca Pérez por permitirme probar mis proyectos en las comunidades vulnera-

bles y finalmente al grupo de seguridad informática Ricteam, que desde el colegio hemos sido unos

apasionados por aprender un poco más.

También quiero agradecer al concurso prende y emprende de la universidad por darme el premio de

pasar a la segunda fase del concurso de VENTURES.

Page 7: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página23

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Índice de tablas

TABLA 1 FICHA TÉCNICA RADEX................................................................................................................................. 43

TABLA 2 FICHA TÉCNICA AUTOCM ............................................................................................................................ 45

TABLA 3 FICHA TÉCNICA SQUIDSEARCH ...................................................................................................................... 48

TABLA 4 MERCADO OBJETIVO SEGMENTADO [21] ........................................................................................................ 60

TABLA 5 MATRIZ DE PERFIL COMPETITIVO SQUIDSEARCH ............................................................................................... 69

TABLA 6 MATRIZ DE PERFIL COMPETITIVO RADEX ......................................................................................................... 70

TABLA 7 MATRIZ DE PERFIL COMPETITIVO AUTOCM ..................................................................................................... 71

TABLA 8 PROYECCIÓN DE VENTAS PARA EL ESCENARIO MÁS PROBABLE [FUENTE: OORLOG] .................................................. 86

TABLA 9 PROYECCIÓN DE VENTAS PARA EL PEOR ESCENARIO [FUENTE: OORLOG]................................................................ 86

TABLA 10 PROYECCIÓN DE VENTAS ANUALES PARA EL ESCENARIO OPTIMISTA [FUENTE: OORLOG] ......................................... 86

TABLA 11 GASTOS DE NÓMINA ANUALES .................................................................................................................... 92

TABLA 12 NECESIDADES Y REQUERIMIENTOS FASE INICIAL DE OORLOG ............................................................................ 97

TABLA 13 GASTOS DE OPERACIÓN DE LOS PRIMEROS 3 MESES DE OORLOG ........................................................................ 97

TABLA 14 PLAN DE FONDOS DE INICIO DE OORLOG....................................................................................................... 99

TABLA 15 ANÁLISIS DEL PUNTO DE EQUILIBRIO .......................................................................................................... 100

TABLA 16 UTILIDADES Y PÉRDIDAS PROYECTADAS ...................................................................................................... 101

TABLA 17 FLUJO DE CAJA PROYECTADO .................................................................................................................... 101

TABLA 18 BALANCE GENERAL PROYECTADO .............................................................................................................. 102

Page 8: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Índice de Figuras

ILUSTRACIÓN 1 CLASIFICACIÓN DE LA GENERACIÓN AUTOMÁTICA DE RESÚMENES ................................................................ 37

ILUSTRACIÓN 2 MODELO DE NEGOCIO DE OORLOG ....................................................................................................... 49

ILUSTRACIÓN 3 SEGMENTOS DE CLIENTES .................................................................................................................... 50

ILUSTRACIÓN 4 CENTROS DE SUSCRIPCIONES OORLOG ................................................................................................... 56

ILUSTRACIÓN 5 MOMENTO DEL PAGO DESDE PAYPAL .................................................................................................... 57

ILUSTRACIÓN 6 NOTIFICACIÓN DE PAGO INSTANTÁNEO .................................................................................................. 57

ILUSTRACIÓN 7 PRODUCCIÓN DE CONTENIDO EN EL MUNDO [16] .................................................................................... 61

ILUSTRACIÓN 8 CLASIFICACIÓN DEL CONTENIDO QUE SE GENERA EN INTERNET [16] ............................................................. 62

ILUSTRACIÓN 9 QUE TIPO DE CONTENIDO SE GENERA EN INTERNET [16] ........................................................................... 63

ILUSTRACIÓN 10 HORAS DEDICADAS A INTERNET [16] ................................................................................................... 64

ILUSTRACIÓN 11 EDADES Y USO DE INTERNET .............................................................................................................. 64

ILUSTRACIÓN 12 EN QUE PAÍSES COMPRAN MÁS ONLINE [16] ......................................................................................... 65

ILUSTRACIÓN 13 PERFIL DEMOGRÁFICO DE USUARIOS DE INTERNET EN LATINOAMÉRICA [16] .............................................. 65

ILUSTRACIÓN 14 PROPENSIÓN A COMPRAR EN SITIOS MULTI-CHANNEL[16] ...................................................................... 66

ILUSTRACIÓN 15 INTERNET COMO APOYO A LA TOMA DE DECISIONES [18] ........................................................................ 66

ILUSTRACIÓN 16 ESTADO DEL COMERCIO ELECTRÓNICO EN COLOMBIA Y LA REGIÓN [18] ..................................................... 67

ILUSTRACIÓN 17 METODOLOGÍA DE MERCADO ............................................................................................................ 72

ILUSTRACIÓN 18 ENCUESTA GOOGLE DOCS [OORLOG ................................................................................................... 74

ILUSTRACIÓN 19 ENCUESTA GOOGLE DOCS [OORLOG] .................................................................................................. 74

ILUSTRACIÓN 20 METODOLOGÍA DE PROMOCIÓN POR RICH MEDIA ................................................................................. 75

ILUSTRACIÓN 21 DESARROLLO DE LA CAMPAÑA [OORLOG] ............................................................................................ 76

ILUSTRACIÓN 22 COSTO PARCIAL DE LA CAMPAÑA EN DÍAS Y PORCENTAJE DE VISUALIZACIÓN DIARIA [OORLOG] ........................ 76

ILUSTRACIÓN 23 COSTO TOTAL EN DÍAS DE LA CAMPAÑA [OORLOG]................................................................................. 77

ILUSTRACIÓN 24 RESULTADOS OBTENIDOS DE LA ENCUESTA............................................................................................ 78

ILUSTRACIÓN 25 RESULTADOS OBTENIDOS DE LA ENCUESTA............................................................................................ 79

ILUSTRACIÓN 26 PRECIOS DE RADEX .......................................................................................................................... 84

ILUSTRACIÓN 27 PRECIOS DE AUTOCM ...................................................................................................................... 85

ILUSTRACIÓN 28 ORGANIGRAMA DE OORLOG PARA LA SEGUNDA FASE ............................................................................. 91

ILUSTRACIÓN 29 ESTRATEGIAS PARA EL DESARROLLO DE PRODUCTOS ............................................................................... 94

ILUSTRACIÓN 30 – ÁRBOL DE NAVEGACIÓN ............................................................................................................... 104

ILUSTRACIÓN 31 – DIAGRAMA DE CLASES ................................................................................................................. 107

ILUSTRACIÓN 32 – DIAGRAMA DE CASOS DE USO ........................................................................................................ 108

ILUSTRACIÓN 33 – DIAGRAMA DE DESPLIEGUE ........................................................................................................... 109

Page 9: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página25

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

ABSTRACT

This work exposed a business model canvas with lean startup for create a startup that focuses on the

automatic content generation with 3 solutions, SquidSearch which is an automatic searches ab-

stracts generator, Radex which is an documents summarizer and finally AutoCM which is an auto-

matic content generator for social media .With this work I was able to structure the business value

proposal, understand de target market and know its technique feasibility and profitability of the

business. These Early Adopters are segments in 50% owners of websites, 45% owners and commu-

nity managers of fan pages, and 5% people who download content to generate summaries of re-

search.

Page 10: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

RESUMEN

Este trabajo de grado propone un plan de negocio para una Startup que se enfocara en la metodolo-

gía Lean Startup para el desarrollo de productos que generen, clasifiquen y busquen información. Se

lograron desarrollar 3 prototipos mínimos viables que entregan valor como solución a los problemas

relacionados con la búsqueda, clasificación y generación de información de los Early Adopters.

Estos Early Adopters están segmentos en 50% dueños de páginas web, 45 % dueños o community

managers de fan pages y 5% personas que descargan contenido para generar resúmenes de investi-

gación.

Page 11: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página27

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

RESUMEN EJECUTIVO

Oorlog S.A.S. es una empresa que sustenta su idea de negocio en tres productos diferentes destina-

dos a facilitar el trabajo de las organizaciones, las personas, los investigadores; que clasifican, bus-

can y generan información relacionada con su campo de negocios, profesional, o de investigación

respectivamente.

Oorlog se basa en un sistema que selecciona, clasifica y genera contenidos online soportándose en

los términos de búsqueda que el usuario le indica. Es un sistema preciso que ha venido evolucio-

nando de una idea a convertirse en una realidad.

La oportunidad de negocio de Oorlog radica en que las personas gastan mucho tiempo buscando la

información que es realmente importante para ellos y generando información para sus páginas web,

Oorlog resuelve este problema obteniendo la información más importante de cada página web y

generando un resumen coherente con lo más relevante que las personas desean leer.

El mercado a el cual se dirige Oorlog está segmentado de la siguiente forma: 50% dueños de pági-

nas web, 35% dueños de Fan Pages y 15% investigadores académicos, los cuales necesitan obtener:

información relevante sobre una temática, generar contenido sobre una tema, resúmenes cortos so-

bre un dominio en específico.

Los objetivos de Oorlog son:

A corto plazo (Primer año de operación)

Producir un rendimiento mínimo anual del 10% sobre la inversión.

Lograr una participación de mercado del 2% al finalizar el año.

A mediano plazo (Segundo año de operación)

Generar utilidades mensuales mayores a 40.000.000 millones de pesos a partir del segundo

año.

Vender 1.000 suscripciones al finalizar el segundo año.

Buscar nuevas fuentes de ingresos relacionadas con las tendencias web.

Page 12: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

A largo plazo (Tercer año de operación)

Buscar asociaciones clave que permitan cumplir los objetivos de la empresa.

Triplicar las ventas al finalizar el año.

Expandir el mercado a otros idiomas.

Los costos de puesta en marcha (primeros 3 meses) llegan a $ 50.000.000 millones de pesos, que

son principalmente de equipo, arrendamiento y efectivo requerido para la promoción de los produc-

tos. Estos costes son financiados 10% por la inversión directa del emprendedor Néstor Santos y

90% por capital de inversión externo.

Con este capital invertido se han estimado unas ventas de $288.000.000 millones en el primer año,

420.000.000 $ en el segundo y $755.000.000 en el tercero con unos incrementos anuales de 20%,

45%,79% respectivamente.

Estos resultados son el producto de la puesta en marcha de las siguientes estrategias: a) lanzar al

mercado productos innovadores y de alta necesidad, b) precios por debajo de la competencia c)

brindar soporte personalizado d) Desarrollo de nuevos productos a partir de las tendencias web.

El equipo emprendedor está conformado por Néstor Santos y contará con un equipo de apoyo de

diseñadores, auxiliares de soporte ,administrador, promotor y un contador, los primeros dos se

contrataran en los primeros 3 meses de operación y el resto al finalizar el primer año.

La problemática que espera solucionar Oorlog está siendo atendida por otros competidores como

http://smmry.com, http://ies.intellexer.com, http://www.copernic.com en sus respectivos mercados,

resúmenes espontáneos, resúmenes en el ámbito médico y minería de texto para procesos de nego-

cio, la diferencia radica en que Oorlog busca, genera y clasifica la información para un mercado de

monetización de contenido online como lo son las páginas web, redes sociales y documentos infor-

mativos .

El retorno sobre la inversión estimado (TIR) para el tercer año será de 67%, y el VAN será de $46 a

una tasa de 6%.

Page 13: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página29

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

El proyecto se dividió en dos componentes principales: La elaboración del plan de negocios y el

desarrollo de los prototipos mínimos viables. En el plan de negocios se realizaron los siguientes

módulos; La naturaleza del proyecto, en el cual se definieron los objetivos, misión, visión, tipo de

empresa y la justificación de porque es una oportunidad de negocio; Mercadeo, donde se llevó a

cabo el estudio de mercado y la clasificación de las características más generales de los productos

que actualmente se encuentran disponibles, también se realizaron los videos promocionales de los

productos , esto con el fin de hacer una campaña de google Adwords para video que permitiría co-

nocer el mercado y los posibles compradores .En este módulo también se definieron estrategias de

promoción , distribución , comunicación, soporte y servicio con el fin de desarrollar el plan de

ventas, plan de soporte y plan de marketing online ; El modulo Técnico, aquí se planteó como reali-

zar los prototipos mínimos viables , se establecieron los pasos realizados para llegar a su estado

actual; Modulo de Organización, aquí se presentó la estructura organizacional , estableciendo cla-

ramente sus fortalezas, debilidades, oportunidades y amenazas; en el módulo financiero, se propo-

ne el balance general, el estado de resultados de pérdidas y ganancias, el flujo de caja que se tiene

presupuestado y la evaluación del proyecto desde diferentes perspectivas, con el fin de determinar

su viabilidad.

El segundo componente se basó en la realización de 3 fases, la primera fue la identificación de las

características de los productos que actualmente estaban en el mercado, seguido de esto fue la se-

lección de los Early Adopters , personas con necesidades diferentes pero abiertas a las soluciones

que Oorlog pudiera brindarles , en la segunda fase se desarrollaron 3 prototipos mínimos viables

que permitieron a los Early Adopters probar y aportar ideas para generar en cada prototipo un valor

agregado que fuera diferencial en el mercado , seguidamente se realizaron iteraciones a medida que

se iban pivoteando los prototipos con el fin de acercarse a las soluciones que esperaban estos Early

Adopters ,ya en la tercera fase se crearon 4 videos promocionales , el primero de la empresa expli-

cando su funcionamiento y como entregaba valor a los clientes y los tres siguientes explicaban el

funcionamiento de cada producto y hacían promoción a usarlo gratuitamente. Luego de haber gene-

rado los prototipos mínimos viables y los videos promocionales se dio paso al desarrollo de la plata-

forma de servicios que integraría de forma automática los productos con los pagos automáticos de

PayPal y el servicio de soporte proporcionado por Oorlog.

Page 14: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Estos dos componentes permitieron entender que hay una clara oportunidad de negocio además de

ser posible construir prototipos mínimos viables que realmente tengan valor para los clientes bajo

una metodología de Lean Startup y Release Often Release Early.

INTRODUCCIÓN

Desde hace ya varios años se ha venido aumentando el exceso de información que hace difícil los

procesos de búsqueda, clasificación y generación de la misma [24]. Los motores de búsqueda su-

man grandes esfuerzos por encontrar las páginas realmente relevantes de acuerdo a su temática y

luchan por determinar cuál es el contenido más importante entre varias páginas web, a esto se le

suma que cada dos días [19] se creen más de 2 Exabytes de información lo que saca a relucir pre-

guntas como, ¿Cómo filtrar la información semánticamente parecida?, ¿Bajo qué criterio filtrar esa

información?, ¿Cómo hacerlo en poco tiempo y de forma automatizada?, la web 3.0 surge como una

solución obligada a estas preguntas , generando un nuevo paradigma en el manejo de la información

en internet y creando formas de entender, visualizar y manejar la información.

La llegada de la web semántica hace visible la nueva era del manejo de la información, las personas

se están centrando en encontrar respuestas y no resultados de búsqueda o información que no sea

clara y precisa, ahora las búsquedas en bases de datos relacionales no se enfocaran en realizar una

consulta con un lenguaje técnico sino con un lenguaje totalmente natural y basado en un contexto

discursivo.

Este proyecto nace como respuesta de la transición de la web 2.0 a la web 3.0, con un enfoque de

automatización, donde las personas puedan obtener la información que es realmente relevante para

ellos y les permita hacer consultas de forma natural para obtener respuestas naturales.

Page 15: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página31

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

I - DESCRIPCION GENERAL DEL TRABAJO DE GRADO

OPORTUNIDAD, PROBLEMÁTICA, ANTECEDENTES

Descripción del contexto

La oportunidad de negocio se hace evidente en resolver la problemática del exceso de información ge-

nerado día a día en internet , para entregarle a las personas la información que están buscando de mane-

ra clasificada y filtrada , automatizando el proceso de generación de información a partir de soluciones

que ahorren tiempo y dinero .

Formulación del problema que se resolvió

¿Cómo aprovechar el nicho de mercado de redacción de artículos [18] en español desde la ingeniería de

sistemas, para generar un modelo de negocio rentable?

Justificación

La idea de negocio surge de conocer las nuevas tendencias en el manejo de la información y como la

web 3.0 está cambiando la forma en que se busca, clasifica y genera el contenido online. Esta idea de

negocio se vuelve una oportunidad de negocio al encontrar que existen pocas empresas enfocadas a

resolver la problemática del exceso de información, así mismo esta Startup permitirá:

Generar resúmenes de cualquier contenido existente en internet.

Servir de herramienta que permita a dueños de páginas web y de social media, generar conteni-

do único, coherente y de alta calidad.

Ahorrarle tiempo y dinero a personas que necesiten obtener información de documentos, ya sea

académicos o dentro de una organización de cualquier índole, generando la posibilidad de ha-

cerle preguntas al sistema como “¿cuánta mercancía hay disponible en stock?” o “¿Que provee-

dor falta por recibir su pago?”

Permitir a los clientes automatizar el proceso de publicación de contenido en sus fan pages.

Page 16: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Permitir a los usuarios acceder a una plataforma automatizada, desde los pagos hasta el funcio-

namiento de los servicios funciona de manera automático, escalando en poder atender múltiples

clientes al mismo tiempo y rebajando el precio de los servicios por su bajo coste de operación.

Permitir al cliente acceder a nuevos productos sin pagar más, ya que se cuenta con una plata-

forma robusta que integra los 3 servicios que actualmente se desarrollaron y permite integrar

nuevos sin causar ningún tipo de cambio brusco para el cliente.

Permitir al cliente encargarse del core del negocio mientras la empresa se encarga del back-

office relacionado con la búsqueda, clasificación y generación de contenido.

Impacto Esperado

El impacto esperado del proyecto es:

Corto Plazo: Terminar los prototipos mínimos viables y ejecutar la estrategia de marketing con

los videos promocionales de los productos.

Mediano Plazo: Registro de la empresa y buscar socios inversionistas que en base a los resul-

tados obtenidos en la campaña de marketing web, deseen invertir un capital de riesgo.

Largo Plazo: Desarrollar nuevos productos para expandirse a otros mercados y alcanzar ventas

que rentabilicen la inversión de los accionistas.

DESCRIPCIÓN DEL PROYECTO

Visión global

En este proyecto se desarrollaron dos grandes componentes. El primero fue un plan de negocios que

buscaba estructurar una idea de negocio encontrada para brindar soluciones a los problemas de 3 seg-

mentos de mercado específicos, en este plan de negocios se identificaron las necesidades de los merca-

dos, los medios y la infraestructura necesaria para la elaboración de los servicios así como también los

costos de operación y presupuesto de puesta en marcha. Todos estos ítems fueron necesarios para anali-

zar y evaluar la viabilidad y rentabilidad de este proyecto.

En el segundo componente se desarrollaron 3 prototipos funcionales , estos prototipos cumplen con las

características básicas existentes en los productos que se encuentran actualmente en el mercado y que

además de eso , cuentan con características adicionales que le proporciona un valor agregado que es

Page 17: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página33

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

diferencial y que hace posible que los Early Adopters que usaron estos prototipos se sintieran satisfe-

chos.

Objetivo General

Estructurar un plan de negocio para la creación de una empresa prestadora de servicios de generación

automática de resúmenes por suscripción web.

Fases metodológicas o conjunto de objetivos específicos

A continuación se muestran los diferentes objetivos específicos.

Justificar la oportunidad de negocio que brinda la tecnología que soportara la prestación de ser-

vicios a partir del análisis de mercado.

Formular los planes de mercadeo, operaciones y administrativos de la nueva empresa.

Formular los supuestos críticos de la empresa.

Desarrollar un Producto Mínimo Viable (PMV) [15] para realizar el Release Early Release Of-

ten.

Medir los resultados y verificar los supuestos.

Método que se propuso para satisfacer cada fase metodológica

Justificar la oportunidad de negocio que brinda la tecnología que soportara la prestación

de servicios a partir del análisis de mercado.

En esta primera fase se realizó una búsqueda formal de bibliografía que fuera la base sólida so-

bre el tema que se abordaba, además de obtener información necesaria del mercado y de los

conceptos y teorías necesarias para entender la evolución y desarrollo técnico que se ha venido

presentando sobre la generación automática de resúmenes. Luego de realizar el levantamiento

de la información se creó un blog http://plnpuj.blogspot.com/ donde se iban publicando las ano-

taciones y fragmentos de papers relevantes para el proyecto.

Formular los planes de mercadeo, operaciones y administrativos de la nueva empresa.

Page 18: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Se desarrollaron los planes de mercado, operaciones y administrativos de la empresa según el

estudio de mercado realizado, estos componentes formaron la base para el plan de negocio y

fueron diseñados previamente para cumplir con los mínimos exigidos por la carrera y poder

adaptarlos a los cambios que se venían presentando en el desarrollo de los prototipos mínimos

viales con respecto a las opiniones de los Early Adopters.

Formular los supuestos críticos de la empresa.

Por medio de un análisis de riesgos se construyó un escenario que permitiera establecer el grado

de riesgo asociado al proyecto para prever si era posible cumplir con todos los objetivos pro-

puestos.

Desarrollar un Producto Mínimo Viable (PMV) para realizar el Release Early Release Of-

ten.

Muchas empresas fallan porque crean un producto que nadie quiere o que nadie puede comprar.

Con el planteamiento de la hipótesis de este documento, se crearon productos con característi-

cas mínimas usando Rapid application development [14], identificando las funcionalidades bá-

sicas y entregando los productos por medio de Release Early Release Often [11] a los Early

Adopters [2] con el fin de corroborar la hipótesis y asegurar en el escenario planteado el éxito

de nuestra empresa.

Medir los resultados y verificar los supuestos.

En esta fase se lanzaron los prototipos (que serían el resultado de la prueba de la hipótesis) a un

grupo de clientes reales (Early Adopters).Estas personas realizaban comentarios y estos eran te-

nidos en cuenta para el Feedback. Luego de esto, se realizan pruebas y se miden los resultados,

validando así los supuestos. Luego los prototipos eran lanzados nuevamente de acuerdo a las

críticas que se recogían de los clientes. Esto permitió obtener un producto con un enfoque de

mercado seguro ya que comprueba la hipótesis de que el producto se acomoda a las especifica-

ciones de los clientes y no tenga riesgo de no ser aceptado.

Page 19: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página35

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

II -MARCO TEÓRICO

MARCO CONTEXTUAL

Estado del arte

El inicio de la generación automática de resúmenes se remonta a los laboratorios de IBM a mediados de

los 50 con el artículo “The Automatic Creation of Literature Abstracts” creado por Luhn, en este

artículo Luhn abordaba el tema de que características debería tener una frase para ser agregada a un

resumen y daba como posible respuesta la frecuencia de ocurrencia de la frase o la palabra en la

totalidad del texto.

A finales de los años 60 el paper “New methods in automatic extracting” de Edmunson describía

nuevos métodos de extracción automática basándose en la posición de las palabras clave , título ,

subtítulos e idea principal del texto .Lo realmente importante para destacar de este paper fue la in-

troducción de un diccionario de palabras ligeramente modificado para actuar como un corpus di-

námico que se iba modificando a medida que se iba procesando más textos , la selección de las

palabras que no eran importantes que ahora llamamos las Stop Words , la similitud de los proble-

mas relacionados con la elaboración de resúmenes abstractos y la traducción de forma automática.

Para inicios de los 70 se empieza a generar documentos relacionados con la coherencia y cohesión

de resúmenes generados de forma automática, también se empieza hablar de la necesidad de reducir

los dominios que se podían abarcar con el tamaño del corpus que se poseía en esos momentos ,

como es el caso del dominio de la química en el que salieron a relucir varios documentos descri-

biendo las posibilidades de mejorar la investigación en esta rama como “Automatic Abstracting

Research at Chemical Abstracts Service” donde se explicaba la relación entre la generación auto-

mática de resúmenes y la eficiencia en el tiempo de búsqueda de correlaciones basadas en múltiples

documentos.

En los años 80 surgen papers como” Automatic Summarisation of Legal Documents” y “Text con-

densation as knowledge base abstraction” que empiezan a describir modelos de relación entre la

idea principal del texto y los puntos más importantes para tomar en cuenta en cuanto a la selección

Page 20: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

de frases por medio de métodos estadísticos y basados en corpus. Estos papers fueron fuertemente

apoyados por las nuevas investigaciones realizadas en inteligencia artificial sobre la representación

del conocimiento y la Rhetorical Structure Theory.

Ya en los años 90 se formaliza la lingüística computacional relacionándose directamente con el proce-

samiento del lenguaje natural, la recuperación de información y la minería de texto .Así mismo se gene-

ran nuevas investigaciones en el campo de las redes neuronales, algoritmos de Naives-Bayes y la infe-

rencia difusa .

MARCO CONCEPTUAL

Fundamentos y conceptos relevantes

El resumen automático

El resumen automático es la reducción de un texto a sus mínimas frases que componen su idea princi-

pal, este resumen es generado por un computador en un menor tiempo que el realizado por una persona

pero con menor calidad también.

Existen dos grandes aplicaciones para generar resúmenes automáticos, la primera son los resúmenes a

un solo documento y la segunda es la generación de resúmenes a partir de múltiples documentos.

Sobre estas dos grandes aplicaciones se dividen los resúmenes extractivos y los resúmenes abstractivos.

Los resúmenes extractivos se enfocan en seleccionar los componentes más importantes de un documen-

to y su integración en el resumen final, los resúmenes abstractivos van más allá de la copia de fragmen-

tos de textos, estos resúmenes generan nuevo fragmentos a partir de un conocimiento previo del domi-

nio el cual describe el texto e incluye coherencia y cohesión que no ha sido puestos explícitamente en el

texto original.

La siguiente imagen muestra la jerarquía de técnicas que se han venido desarrollando cada una en su

propia rama sea por métodos extractivos o métodos abstractivos.

Page 21: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página37

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 1 Clasificación de la generación automática de resúmenes

III –DESARROLLO DEL TRABAJO

GENERALIZACIÓN DEL PLAN DE NEGOCIOS

El plan de negocios cuenta con siete capítulos:

Primero: Contiene la naturaleza del negocio explicando el alcance y la oportunidad.

Mono-documentos/multi-

documentos

Resumenes automáticos

Extractivos

Enfoques superficiales

Analisis estadistico

Localización

Frecuencia de palabras

Estructura del documento

Textual Entailment

Bonus y Stigma

Analisis del discurso

Análisis semantico

latente

rhetorical structure theory

Analisis de cohesión

Analisis de coherencia

Enfoque basado en grafos

Abstractivos

Representación del

conocimiento

Procesamiento del lenguaje

natural

resúmenes por comprensión

Jerarquía de conceptos

Aprendizaje de maquina

Aprendizaje supervisado

Aprendizaje no supervisado

Page 22: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Segundo: Se expone todo lo relacionado con los mercados a los cuales la empresa va dirigida

como la investigación de mercados y el análisis de la competencia.

Tercero: Se definen las estrategias de distribución, promoción, comunicación, soporte, marke-

ting web y servicio así como también el plan de mercadeo.

Cuarto: Acá se encuentra el plan estratégico, análisis DOFA y estructura organizacional.

Quinto: Muestra el plan operativo y las estrategias de desarrollo de los productos.

Sexto: Se hacen las proyecciones financieras.

Séptimo: Se muestran las conclusiones del plan de negocios.

Capítulo 1

NATURALEZA DEL NEGOCIO

Misión y visión

Misión: La misión de Oorlog es brindar soluciones a problemas de personas relacionadas con la bús-

queda, clasificación y generación de información, permitiéndoles ahorrar tiempo y dinero.

Visión: Ser en 5 años la empresa líder en procesos de negocio relacionados con la web semántica, ofre-

ciendo una interacción natural con el proceso de búsqueda, clasificación y generación de información a

los usuarios, cambiando el paradigma de manejo de la información.

Definición de objetivos

A corto plazo (Primer año de operación)

Producir un rendimiento mínimo anual del 10% sobre la inversión.

Lograr una participación de mercado del 2% al finalizar el año.

A mediano plazo (Segundo año de operación)

Generar utilidades mensuales mayores a 40.000.000 millones de pesos a partir del segundo año.

Vender 1.000 suscripciones al finalizar el segundo año.

Buscar nuevas fuentes de ingresos relacionadas con las tendencias web.

Page 23: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página39

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

A largo plazo (Tercer año de operación)

Concretar asociaciones clave que permitan cumplir los objetivos de la empresa.

Triplicar las ventas del segundo año al finalizar el tercer año.

Expandir el mercado a otros idiomas.

Ventajas competitivas

El mercado de monetización de páginas web es un mercado con 10 años de historia. Un sector que aun-

que ha sido monopolizado en sus precios por las grandes empresas de publicidad y marketing web como

Google con su producto Adwords [12] o Infolinks; no ha perdido el número de personas que desean

vincular sus páginas web para generar ganancias con el contenido que publican. El problema es que para

generar ganancias es necesario estar publicando contenido fresco y diario, lo que se vuelve un inconve-

niente cuando no se cuenta con el tiempo para realizar estas operaciones, es aquí donde Oorlog entra a

solucionar estas complicaciones con sus siguientes factores:

Operacionales:

Proceso automatizado, desde los pagos hasta la programación de los servicios automática-

mente, de modo que los costos de operación son muy bajos.

Contamos con varios productos, lo que nos vuelve robustos al no depender solo de 1 pro-

ducto.

Un producto para cada segmento de mercado, teniendo varios productos podemos abarcar

más segmentos de mercado.

Precios por debajo de la competencia, tener un bajo costo de operación nos permite bajar los

precios para incentivar el mercado.

Financieros:

Ayudamos a la gente a aumentar sus ingresos ahorrándole tiempo que pueden dedicar en el

core del negocio.

Automatizamos el proceso de publicación de contenido en las redes sociales de nuestros

clientes.

Generamos contenido, coherente, en poco tiempo y alineado con los objetivos de nuestros

clientes.

Page 24: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Perfil del emprendedor

Néstor Santos llevara adelante el emprendimiento, su perfil se puede definir como autodidacta y extro-

vertido. Es estudiante de Ingeniería de sistemas de la Pontificia Universidad Javeriana y un apasionado

por el desarrollo de aplicaciones que automatizan procesos. Cuenta con amplio conocimiento en seguri-

dad informática, ingeniería social, lenguajes de programación Java, JavaScript, Jquery, Perl, Assembler

y C. Su función será la de liderar Oorlog para conseguir asociaciones clave y lograr tener productos que

realmente generen valor para el mercado objetivo y destinara 30 horas semanales para el desarrollo del

emprendimiento. Néstor ya ha creado 2 emprendimientos, el primero es www.redinfocol.org , un grupo

de seguridad informática enfocado en la participación activa de eventos en seguridad y la generación de

soluciones de seguridad informática para aplicaciones Stand Alone. El segundo emprendimiento es

http://squidbacklinks.com/, una plataforma que realiza Link Building [1] para el mercado español.

Estructura Legal de la Empresa

Oorlog será una empresa creada por Néstor Andrés Santos Vidales e iniciará sus servicios a partir del 1

de julio de 2013 desde Bogotá (Colombia) hacia toda Latinoamérica (Internet).

Oorlog recibirá sus ingresos de parte de PayPal y estos serán derivados a la tarjeta internacional Payo-

neer, con la cual se podrán hacer retiros de hasta 75,000 (setenta y cinco mil dólares) mensuales.

Los pagos que realizaran los clientes por paypal a la cuenta del dueño de la empresa (Néstor) se consi-

dera como ingresos de fuente extranjera y por lo consiguiente no se debe tributar sobre ellos[7].

Al finalizar el primer año de operación Oorlog pasara a ser una empresa S.A.S, dadas las ventajas de

una sociedad sencilla pero con las posibilidades de una sociedad anónima [5].

Requerimientos de Inicio

Los requerimientos para iniciar las operaciones son:

Page 25: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página41

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

12 meses de hosting tipo amazon EC2 para mantener los servicios web y permitir la elasticidad1

de los mismos.

12.000 dólares que representan el monto de inversión destinado a la publicidad de los servicios,

este es uno de los factores más importantes para asegurar el éxito de la empresa.

200 dólares para la adquisición de credenciales de paypal y Payoneer.

8000 dólares en efectivo necesarios para cubrir los costos operación de los primeros 3 meses en

cuanto a pago de nómina y compra de scripts.

En la siguiente tabla se encuentra los requerimientos en dólares para poner en marcha la empresa.

Plan de Inicio Primeros 3 me-

ses

Activos Requeridos

Gastos de Inicio

Servidores amazon EC2 $1,200

Dominio $20

Conexión api paypal $30

Plantilla Pagina Web

Tarjeta payoneer

Adwords, facebook ads

$50

$200

$12,000

Total de Gastos de Inicio $13,500

Activos de Inicio

Efectivo Requerido $8,000

Otros Activos de Corto Plazo $0

Activos a Largo Plazo $4,000

Total de Activos $12,000

Total de Requisitos $25,500

Tabla 1 Requerimientos puesta en marcha Oorlog

1

Elasticidad es el aumento de recursos de hardware que brinda una empresa ante un cuello de botella de

un servicio web.

Page 26: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

PRODUCTOS

Oorlog ofrecerá en el inicio de sus operaciones 3 productos para 3 mercados diferenciados, las caracte-

rísticas de los productos son:

Radex

Modulo: Radex

DESCRIPCIÓN DEL

PRODUCTO

Radical Extraction Tool

Descripción general del

producto:

Es un producto que puede realizar búsquedas de información en grandes

cantidades de documentos pdf, txt y Word al mismo tiempo, encontran-

do la información rápidamente y mostrando los resultados de forma pre-

cisa.

Objetivo: Extrae fragmentos de texto de documentos PDF, WORD y TXT.

ARQUITECTURA

Descripción Se utilizó la arquitectura por capas ya que era necesario dividir en com-

ponentes el software para reducir la complejidad y tener una alta escala-

bilidad

REQUERIMIENTOS

DEL PRODUCTO

Requisitos del Sistema

(Servidor)

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Page 27: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página43

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Software: PHP 4.3 y Mysql 4.1.2, Apache

Requisitos del sistema

(Cliente)

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Software: Navegador con soporte para CSS3 , JDK java

REQUERIMIENTOS

Requerimientos Funciona-

les Generales:

En base a una carpeta dada, el software busca información relacionada

semánticamente con una palabra o frase, puede generar un resumen ex-

tractivo de la información que encuentra y referenciar los documentos de

donde los saco.

Requerimientos Adiciona-

les:

Requerimientos Legales

Aplicables:

Software tipo Freeware

Clientes del producto: Toda persona que necesite obtener información de varios documentos al

mismo tiempo.

Tabla 2 Ficha técnica Radex

1.10.1.1. Funcionalidades Específicas

1. Búsqueda de información

1.1. La aplicación permite colocar la carpeta donde están ubicados los archivos.

1.2. La aplicación permite colocar una palabra o frase para ser buscada dentro de los documentos

de la carpeta.

Page 28: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

2. Despliegue de información

2.1. La aplicación muestra los documentos que contienen las palabras o frases dependiendo del

grado de relevancia y de acuerdo a la desambiguación de las mimas.

2.2. La aplicación muestra las frases o párrafos que contienen la palabra o frase y subraya los tér-

minos de búsqueda para que el usuario pueda notar en qué parte del texto están.

AutoCM

Modulo: AutoCM

DESCRIPCIÓN DEL

PRODUCTO

Automatic Community manager

Descripción general del pro-

ducto:

Es un servicio web que permite a los clientes publicar contenido de

forma automatizada en Facebook de acuerdo a la combinación de unas

palabras o frases clave.

Objetivo: Generar contenido en base a una frase o palabra y publicarlo en una

fan page seleccionada.

ARQUITECTURA

Descripción Se usó la arquitectura REST ya que se transporta los datos vía http y se

genera menor tiempo de respuesta.

REQUERIMIENTOS DEL

PRODUCTO

Requisitos del Sistema (Ser-

vidor)

Page 29: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página45

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Software: PHP 4.3 y MySQL 4.1.2, Apache, Jquery

Otros:

Requisitos del sistema

(Cliente)

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Software: Navegador con soporte para CSS3, JavaScript y html5.

Otros:

REQUERIMIENTOS

Requerimientos Funcionales

Generales:

Se deben dar permisos a la aplicación en Facebook para que funcione.

Requerimientos Adiciona-

les:

Requerimientos Legales

Aplicables:

Aplicación web tipo Freeware

Clientes del producto: Personas con fan pages que deseen mantenerlas activas sin la necesi-

dad de estar publicando manualmente el contenido o programándolo

para publicarse en fechas posteriores.

Tabla 3 Ficha técnica AutoCM

Page 30: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Funcionalidades Específicas

1. Selección de fan pages

1. Permite la selección de una o varias fan pages para las publicaciones automáticas.

2. Generador de contenido

1. Permite colocar varias palabras clave con el fin de generar contenido aleatorio a estas

temáticas.

2. Permite colocar una página web, y a partir de la misma, generar las palabras clave con las

cuales se identifica esta página web.

3. Programación de publicaciones

1. Permite programar las horas y los días en que se desea que se publique el contenido en las fan

pages.

SquidSearch

Modulo: SquidSearch

DESCRIPCIÓN DEL

PRODUCTO

Generador automático de resúmenes de resultados de búsqueda

Descripción general del pro-

ducto:

Es un servicio web que permite generar resúmenes en base a un

dominio en específico.

Objetivo: Generar resúmenes sobre cualquier temática en base a una palabra o

frase.

ARQUITECTURA

Descripción Se usó la arquitectura REST [10] ya que se transporta los datos vía

http y se genera menor tiempo de respuesta.

Page 31: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página47

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

REQUERIMIENTOS DEL

PRODUCTO

Requisitos del Sistema (Servi-

dor)

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Software: PHP 4.3 y MySQL 4.1.2, Apache, Jquery

Otros:

Requisitos del sistema (Cliente)

Hardware: Memoria RAM 2 Giga , Procesador 1.7 GHz

Software: Navegador con soporte para CSS3, JavaScript y html5.

Otros:

REQUERIMIENTOS

Requerimientos Funcionales

Generales:

Se debe colocar la frase o palabra, el sistema generara un resumen

con base en el SERP2

que haya de los términos de búsqueda.

Requerimientos Adicionales:

2

SERP es la lista de las primeras 10 páginas que son más relevantes para un término de búsqueda.

Page 32: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Requerimientos Legales Apli-

cables:

Aplicación web tipo Freeware

Clientes del producto: Personas que tengan páginas web y necesiten generar contenido

diario sobre una temática.

Tabla 4 Ficha técnica SquidSearch

Funcionalidades Específicas

1. Crear campañas

Permite ingresar la temática o la ontología la cual será la base para generar los contenidos.

Permite ingresar mínimo 3 palabras clave para combinarla con la temática y de esta forma

tener un contenido rico en información relevante para el cliente.

Permite seleccionar el tipo de contenido, puede ser artículo, reseña, resumen o 140 caracteres.

Permite agregar información que se utilizara para combinarla con la temática y las palabras

clave.

2. Programar campañas

Permite programar la cantidad de resúmenes que se generaran por día.

3. Ver reportes

Permite ver los reportes de las campañas que se han realizado diariamente.

4. Actualizar cuenta

Permite actualizar el tipo de cuenta, de gratuito a Premium.

5. Mis datos

Permite ver los datos actuales de la cuenta tales como, nombre de usuario, cambiar contraseña.

6. Ayuda

Permite ver los diálogos de ayuda con el fin de orientar al cliente.

Page 33: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página49

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

MODELO DE NEGOCIO

A continuación se muestra la descripción del modelo de negocio usando el lienzo Model Canvas3

[6].

Ilustración 2 Modelo de negocio de Oorlog

3

Herramientas que describen como un modelo de negocio crea, entrega y captura valor.

Page 34: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Segmentación de los Clientes

Ilustración 3 Segmentos de clientes

El mercado principal (50%) de Oorlog son los dueños de las páginas web. Sin embargo, los dueños de

Fan Pages (35%) e investigadores (15%) también hacen parte pero en un menor porcentaje, las caracte-

rísticas del mercado son:

Poseen una cuenta paypal o tienen una tarjeta de crédito.

Hablan español.

El 50% Son propietarios de páginas web y las usan para monetización.

El otro 35% tienen Fan Pages activas.

Y por último el 15% descargan documentos de internet para hacer investigación.

Hemos encontrado estos tres segmentos de mercado a los cuales podemos entregarle valor a cada uno

con productos de alta necesidad, estos mercados tienen esa distribución porcentual debido a la capaci-

dad y medios de pago que posee cada mercado, esto significa que los dueños de páginas web represen-

tan la mayor fuente de ingresos para Oorlog.

Tiene una necesidad

• Nuestro segmento de mercado tiene problemas con la búsqueda clasificación y generación de contenido.

Busca una solución

• Nuestro segmento de mercado esta buscando una solución activamente.

Tiene como pagarla

• Cuenta con dinero digital

Page 35: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página51

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Propuestas de Valor

Oorlog significa guerra en holandés[8], decidimos tomar este nombre debido a nuestra lucha diaria

por automatizar procesos relacionados con el manejo de la información, El hombre pierde tiempo valio-

so realizando tareas repetitivas que no son adecuadas para el ser humano como son buscar, clasificar y

generar grandes volúmenes de información.

Por eso en Oorlog hemos declarado la guerra a las tareas repetitivas, que hacen perder tiempo a nuestros

clientes.

Servicios Innovadores

Nuestros servicios poseen el valor agregado de ser innovadores, esto permite ser un diferencial en el

mercado y obtener la atención de nuestros clientes.

Como características innovadoras podemos distinguir:

Plataforma de integración de servicios, nuestros clientes pueden manejar todos nuestros

productos desde una sola cuenta.

Nuestros servicios brindan al cliente una experiencia única, con la cualidad de solicitar

correcciones o cambios ilimitadamente.

Búsquedas rápidas dentro de documentos

Nuestros productos fueron desarrollados para mejorar los tiempos de búsqueda de los productos que ya

existen en el mercado, logrando que el cliente obtenga la información rápidamente y en un formato có-

modo de respuesta.

Generación de resúmenes con alta coherencia

Nuestros servicios de generación de resúmenes cuentan con el valor agregado de la revisión por huma-

nos de los resúmenes finales, esto es un valor agregado, ya que el cliente obtendrá un resumen de alta

coherencia, en el caso en que el cliente no esté de acuerdo puede solicitar una revisión manual sin nin-

gún costo adicional.

Page 36: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Precios por debajo de la competencia

Al tener pocos gastos de operación, Oorlog ofrece precios muy bajos por debajo de la competencia. Para

personas que necesitan usar los servicios, Oorlog cuenta con una prueba gratuita donde se les da la opor-

tunidad a los posibles clientes de probar el servicio y verificar su calidad.

Gestión automática de fan pages

El objetivo principal de Oorlog es automatizar procesos y uno de estos es la gestión de las redes sociales

realizada por los Community managers, con AutoCM los clientes pueden configurar como quieren que

sea publicada la información y que información quieren que se publique, el diferencial de AutoCM fren-

te a otros servicios de AutoPost en Facebook , es que AutoCM permite generar contenido basado en

frases o palabras clave que el cliente coloque , lo que permite controlar el tipo de información que se

publica automáticamente.

Servicio al cliente personalizado

Nuestros servicios están soportados bajo un lema “Generamos automatización”, es por esto que hace-

mos mucho énfasis en tener al cliente satisfecho y lograr que el uso de los servicios por parte de él sea

de la mejor manera posible. Como valores agregados podemos nombrar:

Soporte al cliente 24/7.

Corrección manual de resúmenes.

Webinars de preguntas frecuentes y actualizaciones.

Canales

www.unresumen.com

El sitio web de la empresa servirá como entrada a la plataforma de control de servicios de Oorlog y

como punto de pago y de contacto.

Redes Sociales

Las redes sociales ayudaran a Oorlog en:

Page 37: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página53

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Anunciar nuestros productos y servicios.

Resolver dudas y publicar actualizaciones

Generar encuestas de satisfacción.

Soporte de servicios personalizados.

Google Adwords

Google Adwords ayudara a Oorlog en:

Anunciar sus productos y servicios hacia clientes específicos y en países de habla hispana.

Analizar las palabras clave con el fin de tener un mayor impacto en internet.

Generar reportes de intereses sobre los posibles clientes que están buscando el servicio.

Administrar adecuadamente el dinero destinado al marketing web

Facebook Ads

Facebook Ads ayudará Oorlog en:

Anunciar sus productos y servicios hacia clientes específicos y en países de habla hispana.

Generar reportes de intereses sobre los posibles clientes que están buscando el servicio.

Administrar adecuadamente el dinero destinado al marketing web

Infolinks

Infolinks ayudara a Oorlog en:

Promocionar sus productos y servicios poniendo publicidad en palabras clave.

Encontrar rápidamente clientes webmasters debido a su caracterización en este mercado.

Presencia en miles de sitios de habla hispana.

Relaciones con los Clientes

Nuestro lema es “Generamos automatización”, para lograr esto hemos identificado estos aspectos:

Soporte en línea personalizado

Page 38: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

La relación de nuestros clientes será meramente virtual, para eso contaremos con:

Soporte vía:

Skype

Hangouts

Webinars

Facebook

Whatsapp

Autoevaluación periódica de los servicios

Por medio de pruebas periódicas, probaremos cada uno de los productos y servicios con el fin de lograr

la calidad que nos diferencia del resto del mercado. Para lograr esto vamos a utilizar:

o CheckList de coherencia

o Tests Stress de disponibilidad de servicio

Encuestas

Realizaremos encuestas con la finalidad de saber cómo se siente el cliente con nosotros, nuestros medios

para realizar esto recurriremos a:

o Encuestas en Facebook.

o Encuestas automáticas luego de usar el servicio/producto.

o Encuesta luego de usar el soporte.

Recursos Clave

Para Oorlog su recurso más importante es la tecnología, pues su plataforma de servicios y productos se

manejan de manera automática, así como también el centro de pagos automáticos de PayPal y el servi-

cio de soporte que se brinda desde la plataforma.

La descripción detallada de los recursos clave es la siguiente:

Recursos Tecnológicos

Page 39: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página55

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Para mantener los servicios activos, es necesaria una infraestructura de servicios en la nube, en este caso

se eligió Amazon como infraestructura, ya que permite elasticidad en el caso de tener un aumento en la

cantidad de usuarios que utilizan el servicio. También se necesita un computador para el desarrollador y

software especializado de apoyo como Netbeans, python console y perl console.

Recursos Humanos

Los recursos humanos están conformados por 2 personas:

o Néstor Santos

o Empleado de soporte

El diferencial de nuestra empresa está en el soporte personalizado y la calidad de los servicios. El sopor-

te lo realizará un empleado contratado por la empresa y el aseguramiento de la calidad como la adminis-

tración, mercadeo y gestión de estrategias lo realizara Néstor Santos.

Recursos Físicos

Debido a sus pocos recursos humanos, se usará el estilo de Remote Workers[9] con el cual se brindaran

los siguientes beneficios:

o Ahorro de dinero en cuanto a gastos de oficina.

o Trabajo en la comodidad de la casa.

o Ahorro de subsidio de transporte.

Tarjeta Payoneer[3]

La cuenta Payoneer es vital para recibir los ingresos por parte de paypal, para esto, es necesario

contar con una cuenta de ahorros en un banco partner de payoneer y tener una tarjeta de crédito,

requisitos cumplidos por Néstor Santos.

Actividades Claves

Las actividades que permitirán a Oorlog tener éxito son:

Análisis del Mercado: Estudiar el mercado constantemente permite a Oorlog desarrollar productos y

servicios para las necesidades cambiantes del mercado.

Page 40: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Innovación: Con la ayuda del análisis de mercado Oorlog estará en la responsabilidad de mejorar o

innovar los productos y servicios que se encuentren en el mercado, logrando mayor competitividad.

Actualizaciones: Con un mercado cambiante es necesario mejorar los productos y servicios constante-

mente, por eso Oorlog estará muy atento a implementar las actualizaciones que le permitan estar adap-

tarse a las nuevas tendencias para lograr la fidelización de sus clientes.

Soporte: Gran parte del éxito en el mercado depende del soporte técnico y de la interacción que lleven

los usuarios con los empleados de soporte, es por eso que diseñaremos guías que permitan al personal

de soporte, responder efectivamente a las solicitudes he inquietudes de los clientes con el fin de propor-

cionar una experiencia única de soporte.

Desarrollo: El desarrollo será el motor de la empresa, con la estrategia adecuada y los conocimientos

indicados, Oorlog se mantendrá en constante desarrollo de productos y servicios para automatizar pro-

cesos.

Socios Claves

Para alcanzar el éxito de Oorlog es necesario combinar los recursos de las siguientes empresas:

Paypal: Paypal es la plataforma de Money Transfer más grande de todo el mundo, con ella, Oorlog

recibirá la fuente de ingresos derivada de las suscripciones y compras online.

En la ilustración 4 se puede ver el funcionamiento de la plataforma de pagos:

Ilustración 4 Centros de suscripciones Oorlog

Page 41: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página57

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Como se puede ver en la ilustración 5, la persona se suscribe a un plan que se adapte a las necesidades.

Ilustración 5 Momento del pago desde PayPal

Luego de que la persona elije el plan que más se ajusta a sus necesidades, debe realizar el pago con su

cuenta paypal como se muestra en la ilustración 6, en este caso deberá iniciar sesión y se suscribirá al

servicio de Oorlog mediante el sistema de pagos automáticos.

Ilustración 6 Notificación de pago instantáneo

En la ilustración 6 se ve como se recibe un pago desde un cliente hacia Oorlog, en estos momentos se

realiza el proceso de generación automática de datos (Usuario, contraseña) y son enviados al correo de

Page 42: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

PayPal de los clientes. Con esto el usuario ya puede entrar a la plataforma y usar todos los servicios

Premium.

Amazon: Amazon es la segunda infraestructura más grande de computación en la nube, nuestra plata-

forma de servicios se encuentra alojada aquí, por tanto es vital mantener una relación directa con este

proveedor.

Payoneer: Payoneer es el servicio de intercambio de dinero, con él se podrá transferir el saldo de

PayPal hacia una cuenta de ahorros en un banco nacional

Estructura de Costos

Nuestros costos están concentrados en 4 aspectos principales:

Mercadeo

Salarios

Infraestructura Tecnológica

Gastos Administrativos

Fuentes de Ingresos

Oorlog obtendrá ingresos desde 2 fuentes principales:

Venta de productos: Nuestro objetivo es lograr que la venta de productos represente el 5% de

los ingresos totales.

Suscripción de servicios: El otro 95% será de los pagos por suscripción mensual por planes

Premium.

. Ventaja Competitiva

La ventaja competitiva de Oorlog está en la integración de diferentes servicios y productos innovadores

con solo una cuenta, esto permite a los clientes acceder a varios productos y servicios por un precio que

individual quintuplicaría su precio.

Nuestra estrategia de diferenciación es cubrir las necesidades que no han sido cubiertas por los produc-

tos y servicios disponibles en el mercado actualmente. Como valor agregado, los productos y servicios

Page 43: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página59

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

contarán con un soporte personalizado al cliente, lo que nos posicionara como una marca confiable y

segura.

Ventaja Competitiva

La ventaja competitiva de Oorlog está en la integración de diferentes servicios y productos innovadores

con solo una cuenta, esto permite a los clientes acceder a varios productos y servicios por un precio que

individual quintuplicaría su precio.

Nuestra estrategia de diferenciación es cubrir las necesidades que no han sido cubiertas por los produc-

tos y servicios disponibles en el mercado actualmente. Como valor agregado, los productos y servicios

contarán con un soporte personalizado al cliente, lo que nos posicionara como una marca confiable y

segura.

Capítulo 2

ANALISIS DEL ENTORNO Y DEL MERCADO

Análisis Del Mercado Objetivo

El análisis de mercado que se ha realizado para Oorlog se divide en 4 ítems:

Distribución del mercado de generación de contenido textual en el mundo

Los productos y servicios que se encuentren en estos momentos en el mercado

Los perfiles de los usuarios y el uso que le están dando a los productos y servicios que existen

Un análisis de palabras clave en Latinoamérica con el fin de estimar la respuesta que le pueden

dar los usuarios a los productos y servicios de Oorlog.

Personas, empresas y organizaciones de diversa índole sin importar su tamaño se pueden ver beneficia-

das con el uso de nuestros productos.

Existe un gran potencial dentro del segmento de estudiantes, profesionales, investigadores, empresas de

consumo masivo, medios de comunicación, organizaciones no gubernamentales, gobierno, entidades sin

Page 44: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

fines de lucro. El sector del turismo y el entretenimiento también podrían aprovechar las herramientas

de diferentes maneras.

El espectro que pretendemos abarcar es amplio ya que puede incluir gran parte de la población en capa-

cidad de hacer uso de la tecnología y de los dispositivos móviles. Los siguientes sectores que figuran en

el encabezamiento de la tabla "Mercado objetivo segmentado4

" son propensos a ofrecer la mejor oportu-

nidad para un nuevo territorio y la segmentación del mercado:

Sector web Total/Cantidad de pági-

nas web

Sitios de aficiones y tiempo libre 2.148.000

Sitios de arte y entretenimiento 6.761.000

Sitios de Noticias, medios de comunicación y

publicaciones 9.341.000

Sitios de Internet y telecomunicaciones 1.800.000

Sitios de Salud 862.000

Fan Page de aficiones y tiempo libre 44,352

Fan Page de arte y entretenimiento 83,579

Fan Page de Noticias, medios de comunicación y

publicaciones 30,519

Personas que bajan documentos para realizar

investigaciones 4,915

Tabla 5 Mercado objetivo segmentado5

[21]

4

El mercado objetivo segmentado son los posibles nichos de mercados que estarían interesados en adqui-

rir cualquiera de los 3 productos.

Page 45: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página61

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Distribución del Mercado de generación de contenido

Internet se está expandiendo año por año [4], la cantidad de información que se genera diariamente se

puede medir en terabytes[13]. En la siguiente imagen se puede observar la cantidad de información que

se genera por territorios. En la ilustración 7 se puede ver el porcentaje de contenido que se produce en

internet por cada región, vemos por ejemplo que Norte América y el occidente de Europa es donde más

se genera contenido, esto está directamente relacionado con la tasa de industrialización y acceso de in-

ternet de estas regiones.

Ilustración 7 Producción de contenido en el mundo [16]

La cantidad de información que se genera diariamente se puede dividir en 15 categorías en las cuales

predomina el social media , las revistas y los sitios de noticias online[16].

Page 46: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 8 Clasificación del contenido que se genera en internet [16]

Se han creado 12, 000,000 millones de blogs solo en el 2012, se generan 800,000 artículos nuevos cada

día y se crean 600,000 comentarios para blogs diarios. [20]

Solo en los Estados Unidos existen 31 millones de bloggers. [20]

El 43% de los bloggers usan WordPress.

El 35% utiliza Blogger como plataforma.

El 16% dedica su tiempo a ocio y usa Tumbler.

El 6% restante usa otras plataformas.[20]

Datos de monetización [20]:

El 8% de los bloggers se dedican a trabajar más de 5 horas diarias en su red de blogs para man-

tener a sus familias.

El 9% gana el dinero suficiente para mantener un estilo de vida cómoda para 1 persona.

El 81% de los bloggers no han generado

El 81% de los bloggers nunca ha ganado más de 100 dólares mensuales.

Por último y más importante solo el 2% de los bloggers ganan más de 150 mil dólares la sema-

na.

Datos de empresas:

Page 47: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página63

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

El 60% de las empresas a nivel mundial cuentan con su propio blog.

El 35% de ellas solo realiza una publicación mensual [20].

El restante 65% no ha actualizado su blog en un año o más tiempo.

El 66% de blogs a nivel mundial hablan inglés y solo el 8.7% de los bloggers escriben en el lenguaje

español, siendo el español el segundo idioma más escrito.[20]

Ilustración 9 Que tipo de contenido se genera en internet [16]

Conclusión del análisis de mercado en internet

Es bastante claro que hay una oportunidad de negocio generando contenido para empresas que tienen

blogs o sitios que no los mantienen actualizado; la generación de contenido está aumentando a pasos

agigantados y es fundamental aprovechar la tendencia del mercado para crear una empresa que permita

generar contenido automáticamente, haciendo que la empresa se concentre en lograr los objetivos del

negocio mientras aumenta su actividad y marca en internet.

Perfil de los Usuarios

En la ilustración 10 podemos observar el tiempo que las personas gastan en internet y en qué lo gastan,

se puede apreciar que ha incrementado exponencialmente esta cantidad en billones del 2007 al 2011,

logrando una tendencia de aumento de 5 billones de horas por mes al año.

Page 48: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 10 Horas dedicadas a internet [16]

También es interesante analizar el perfil de las personas que se conectan a internet, los datos recolecta-

dos muestran que un 34% de personas entre 15 y 24 años usan el internet para conectarse a las redes

sociales y enviar mensajes, a partir de los 34 años comienza a declinar el uso de estos servicios.

Ilustración 11 Edades y uso de internet

Podemos notar que los países más desarrollados son los que realizan más transacciones por internet, sin

embargo en América lantina existe un fuerte crecimiento, esto debido a las políticas de los gobiernos de

proveer internet gratuito y ampliar la cobertura, en la ilustración 12 podemos analizar por país cuanto

Page 49: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página65

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

porcentaje de personas realizan compras por internet. Oorlog está orientado a un mercado de lenguaje

castellano, lo que lo limita en países desarrollados para abarcar todo el mercado, sin embargo Oorlog

está enfocado en realizar estrategias de mitigación que le permitan convencer al mercado de habla espa-

ñol con fuertes estrategias de marketing web las cuales se describen en el plan de mercadeo.

Ilustración 12 En que países compran más online [16]

La distribución de la población de América Latina está estrechamente relacionada con el nivel de pene-

tración de Internet: Los usuarios jóvenes son los que más usan internet en latino América.[16]

Ilustración 13 Perfil Demográfico de Usuarios de internet en Latinoamérica [16]

Page 50: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

También podemos ver en la ilustración 14 la cantidad de personas que visitan páginas multi-channel,

Oorlog será una empresa orientada como sitio multi-channel debido a la facilidad de penetración de

mercado que tiene escoger este tipo de metodología web.

Ilustración 14 Propensión a comprar en sitios Multi-Channel[16]

Vemos en la ilustración 15 que en Latinoamérica las personas están usando más internet para tomar

decisiones sobre la compra de productos y servicios, esto significa que ahora las personas usan un 43%

más el internet para tomar la decisión de comprar o no un producto.

Ilustración 15 Internet como apoyo a la toma de decisiones [18]

Page 51: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página67

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 16 Estado del comercio electrónico en Colombia y la región [18]

En la ilustración 16 podemos ver las respuestas de las personas en el mercado colombiano sobre el

grado de consumo en el e-commerce, las preguntas realizadas fueron las siguientes:

¿Qué es lo que más compran los usuarios en Latinoamérica mediante e-commerce?6

o los usuarios de comercio electrónico en América Latina compran en su mayoría ropa y acceso-

rios (43%),

o electrónica (41%),

o música, películas y video (36%),

o electrodomésticos (35%),

o hardware de computadores (33%),

o tiquetes de entretenimiento (31%) y aplicaciones (31%).

Cuáles son las opciones o medios de pago que utilizan los usuarios de e-Commerce en América

Latina. o Tarjeta de crédito (74%),

o Transferencias electrónicas

o Tarjetas débito, ambas con un 41%.

6

Tomado de “el estado del eCommerce en Latinoamérica: Enfrentando Nuevos Desafíos”

Page 52: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

o Efectivo contra Entrega 26%.

o Tarjeta de Regalo 11%

o Otros 11%

Las personas están más seguras de realizar compras en internet y son más flexibles para adquirir artícu-

los y servicios de páginas que consideran seguras y de calidad.

Análisis de la Competencia

El proceso de análisis de la competencia se realizó haciendo una matriz de perfil competitivo sobre los 3

productos, SquidSearch, Radex y AutoCM, con los índices de factores internos como características de

los productos, estos productos son los más representativos del mercado y sus precios están expresados

en dólares.

La escala de calificación se basó en las características generales de los productos y se clasifico de la

siguiente forma:

Muy fuertes tienen una calificación de 4.

Fuertes tienen una calificación de 3.

Los menos débiles tienen una calificación de 2.

Los débiles tienen una calificación de 1.

Competencia Para SquidSearch

Factores críticos

Para el éxito

Peso SquidSearch Intellexer Copernic

Calificación Peso

Calificación Peso

Calificación Peso

Resume textos 0.2 3 0.6 4 0.8

4 0.8

Page 53: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página69

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Resume páginas web 0.1 4 0.4 3 0.3 4 0,4

Genera resúmenes extracti-

vos

0.2 4 0.8 4 0,8 4 0,8

Fecha de generación de re-

súmenes

0.2 4 0.8 3 0,6 2 0,4

Precio 0.3 4 1.2 3 0,9 4 1,2

Total 1.0 3,8 3,4 3,6

Tabla 6 Matriz de perfil competitivo SquidSearch

Vemos que SquidSearch tiene una fortaleza al permitir programar los resúmenes que se van a generar

para fechas posteriores, esto es un valor agregado y un diferencial ya que en el mercado en el cual se va

desenvolver SquidSearch es necesario programar el contenido que se desea generar diariamente.

Competencia Para Radex

Factores críticos

Para el éxito

Peso Radex Google Desktop Copernic Desktop

Calificación Peso

Calificación Peso

Calificación Peso

Busca cualquier tipo de fi-

chero

0.2 2 0,4 4 0,8 4 0,8

Necesita indexar los archivos

para buscar

0.3 4 1,2 1 0,3 3 0,9

Page 54: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Permite realizar búsquedas

semánticas

0.2 4 0,8 3 0,6 4 0,8

Genera resúmenes de las

búsquedas

0.2 3 0,6 3 0,6 2 0,4

Precio 0.1 4 0,4 4 0,4 4 0,4

Total 1.0 3,4 2,7 3,3

Tabla 7 Matriz de perfil competitivo Radex

El valor agregado de Radex es la posibilidad de realizar resúmenes de documentos sin la necesidad de ir

indexando los archivos, esto es crucial para investigadores que bajan documentos y solo necesitan obte-

ner la información que es más relevante del documento.

Competencia Para AutoCM

Factores críticos

Para el éxito

Peso AutoCM PostCron HootSuite

Calificación Peso

Calificación Peso

Calificación Peso

programar el contenido 0.2 4 0,8 4 0,8 4 0,8

publicar en varias fan pages 0.2 3 0,6 4 0,8 4 0,8

Publicar todo tipo de multi-

media

0.2 1 0,2 4 0,8 4 0,8

Page 55: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página71

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Contenido de forma automá-

tica

0.3 4 1,2 1 0,3 1 0,3

Precio(Dólares) 0.1 1 0,1 1 0,1 2 0,2

Total 1.0 2,9 2,8 2,9

Tabla 8 Matriz de perfil competitivo AutoCM

El servicio de AutoCM tiene su valor agregado en la capacidad de generar contenido de forma automá-

tica, el servicio de HootSuite no cuenta con esta característica pero es totalmente gratuito lo que iguala

al puntaje en la matriz de perfil competitivo.

Capítulo 3

PLAN DE MERCADEO

Estudio de Mercado

Por medio de este estudio se pretende recolectar y analizar toda la información relacionada con los posi-

bles Early Adopters7

que estarían dispuestos a pagar por una aplicación con características especiales y

que supla ciertas necesidades, para eso se implementó la metodología Lean Startup con Release Often

Release Early.

La metodología Lean Startup consiste sacar un producto mínimo viable lo antes posible, ponerlo a prue-

ba entre las personas que podrían comprar ese producto, recoger sus comentarios constantemente para ir

desarrollando un producto que realmente vaya hacer comprado por ese grupo de personas. Lean Startup

7

Los Early Adopters son personas con necesidades insatisfechas, dispuestos a pagar por suplir estas necesidades y por ser los

primeros en probar los nuevos productos que salen al mercado.

Page 56: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

permite verificar la viabilidad en el mercado de un producto, reduciendo las posibilidades de fracasar y

minimizando al máximo el monto de inversión de puesta en marcha.

Release Often Release Early es una filosofía que describe la práctica de realizar entregas frecuentes de

la metodología de desarrollo extreme programing, se decidió no escoger la metodología extreme como

tal ya que para este proyecto se carece de algunas características propias de la metodología como la

programación en parejas que no es posible ya que solo hay una persona programando o el desarrollo

incremental , que por el efecto pivote8

que se aplica en la metodología Lean Startup es difícil tener un

desarrollo iterativo siempre.

Release Often Release Early permite lograr una combinación de lanzamiento de versiones rápidas con

spike solutions [17], retroalimentación en tiempo real y correcciones de errores antes de añadir nuevas

funcionalidades.

Ilustración 17 Metodología de mercado

En la ilustración 17 se puede ver el proceso de la metodología de mercado que se realizó para probar la

hipótesis de los prototipos mínimos viables.

8

Pivotear es el proceso de cambiar el concepto del producto en el caso en que no se esté solucionando la problemática de la

oportunidad de negocio.

PMV •Se desarrollo un prototipo minimo viable de acuerdo a las caracteristicas del mercado y se añadio un valor agregado.

Videos •Se crearon los videos promocionales de los productos.

Rich Media

•Se realizo Video marketing con adwords para video y infolinks.

Encuestas •Se realizaron encuestas a los usuarios que querian seguir usando los servicios gratuitamente.

Page 57: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página73

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Encuesta

Encuesta tipo punto de venta: Se ha escogido este tipo de encuesta ya que interesa saber que piensa el

cliente sobre los productos que acaba de probar, adaptándolos posteriormente a sus necesidades y facili-

tándole de esta manera el proceso de compra.

Si los usuarios vuelven a utilizar los servicios, se realizan sondeos regulares para evaluar las caracterís-

ticas de los productos que siendo iguales, están sujetos a los cambios en las necesidades de los clientes.

En el enlace de abajo se puede ver la encuesta que se realizó, esta encuesta no se cerrara ya que se espe-

ra haya un flujo continuo de retroalimentación de las personas que prueben los productos gratuitamente.

https://docs.google.com/forms/d/161MHOznzUsukbxfSYM8XAQC2i8b4rBa98UxCKjnlw2Q

Encuesta de satisfacción y precios en Google Docs

A continuación se presenta la encuesta aplicada, esta encuesta estuvo disponible durante 30 días, la ma-

yoría de personas que realizaron la encuesta lo hicieron durante 15 días debido a la campaña de Ad-

words para video que tuvo la misma duración de 15 días .

Page 58: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 18 Encuesta Google Docs [Oorlog

Ilustración 19 Encuesta Google Docs [Oorlog]

Los servicios Premium mencionados en las ilustraciones 18 y 19 son los servicios que cuentan con un

valor agregado que diferencia radicalmente a los productos de Oorlog de la competencia.

Investigación de mercado con Adwords para video

Se creó una campaña en Adwords para video con un presupuesto de 310 dólares, las características de la

campaña fueron las siguientes:

Page 59: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página75

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Público objetivo: Personas que estuvieran viendo videos de resúmenes, contenido automático y web

3.0.

Lenguaje: Español.

Edades: Mayores de 18 años.

Tipo de campaña: Redes de Búsqueda y Display.

Ilustración 20 Metodología de promoción por Rich Media

En la ilustración 20 se puede apreciar el desarrollo de la campaña de publicidad durante los 15 días que

estuvo disponible con el video de la empresa.

En la ilustración 21 se puede observar que el video se insertó en 12.861 reproducciones de video y se

visualizó un total de 1.353 veces al 100%, esto significa que el video se reprodujo completamente.

Page 60: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 21 Desarrollo de la campaña [Oorlog]

Ilustración 22 Costo parcial de la campaña en días y porcentaje de visualización diaria [Oorlog]

Page 61: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página77

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

En la ilustración 22 se puede analizar que la campaña tuvo un costo total de 310 dólares con un valor

diario de 50.000 pesos, se logró un rendimiento CPV9

promedio de 133 pesos colombianos.

Ilustración 23 Costo total en días de la campaña [Oorlog]

Como se aprecia en la ilustración 23, se realizaron 2630 clicks en su totalidad, eso significa que 2630

personas únicas fueron directamente a la página, el 43% lo hizo cuando el video estaba en el 25% de

reproducción, el 5% lo hizo cuando el video estaba en el 50% de reproducción, el 32% cuando estaba en

el 75% de reproducción y finalmente solo el 20% fue a la página cuando el video se reprodujo totalmen-

te.

Resultados obtenidos

De las 2630 personas 737 llenaron la encuesta con los siguientes resultados:

9

CPV es el costo por visita que Google cobra al anunciante.

Page 62: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 24 Resultados obtenidos de la encuesta

Page 63: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página79

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 25 Resultados obtenidos de la encuesta

Page 64: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Conclusiones del estudio realizado

Vemos que para el servicio de SquidSearch hay una gran aceptación en el mercado ya que un 93% afir-

mó la utilidad del servicio, como también para Radex 88% y AutoCM con un 93%. El 44% de los en-

cuestados utilizaría el servicio una vez a la semana, 41% lo utilizaría frecuentemente, el 8% lo utilizaría

una vez al día y solo el 7 % no lo utilizaría.

Para los 3 servicios, hay aceptación por parte del mercado para comprar los productos por el precio

fijado.

Estrategias de mercadeo

Estrategias de pre-lanzamiento

Para la etapa de pre-lanzamiento se desarrollarán cuatro estrategias con el objetivo captar la mayor can-

tidad de Early Adopters10

potenciales de tal manera que se vuelvan nativos en el uso de los servicios y

generen networking de la marca.

Sitio Web: Se desarrollará un sitio web que funcionará como plataforma donde estarán todos

los servicios en funcionamiento y se enlazará al sistema de usuarios, permitiendo a visitantes

probar los servicios.

Videos: Se crearán 4 videos promocionales de los productos de la empresa y de la misma

empresa, esto con el fin de vender la idea de negocio rápidamente para captar la mayor cantidad

de visitantes, aprovechando la nueva tendencia de Rich Media, los videos serán un punto de

inflexión entre Oorlog y la competencia.

Campaña Adwords para video: Se lanzará una campaña de Adwords para video con el video

promocional de la empresa para captar a los posibles Early Adopters y probar si los productos

desarrollados cumplen con lo que espera el mercado o si es necesario pivotear.

10

Un Early Adopter es una persona que tiene una necesidad, la está buscando y está dispuesta a pagar por ella, también se

describen como personas dispuestas a probar nuevos servicios.

Page 65: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página81

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Voz a Voz: Se publicará información relacionada con la empresa y los productos en la Fan Page

de la empresa además se utilizará el propio producto de AutoCM para generar actividad en la

fan page y captar fans rápidamente.

Estrategia de servicio

Como el servicio web estará alojado en Internet, éste no necesitará ningún tipo de instalación para sus

clientes.

Dicho servicio de atención al cliente se divide en dos tipos:

Cliente suscripción mensual básica, Personas que pagan el plan básico.

Atención personalizada por webinars11

.

Ingreso a FAQS12

especializados con preguntas y respuestas más comunes.

Atención a los usuarios vía Whatsapp, Skype y Hangouts.

Cliente suscripción mensual avanzada: Empresas o individuos que utilicen la plataforma ma-

sivamente:

Atención telefónica y/o personal.

Atención personalizada por correo electrónico.

Estrategias de distribución

El canal de distribución está orientado al internet ya que los servicios que presta la empresa son servi-

cios web. Esto tiene ciertas ventajas al utilizar Internet como canal de distribución:

Multi-difusión y aumento constante de usuarios: Internet maximiza el alcance de la mar-

ca ya que al no existir fronteras geográficas es posible captar un mercado mucho mayor. El

número de personas que se suman a utilizar internet como medio de compras y dedición es

11

Un webinar es un tipo de videoconferencia que se realiza en internet

12

Un FAQ es un sitio donde se encuentran las preguntas más frecuentas con respuestas.

Page 66: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

cada vez mayor, los canales de distribución normales están limitados al ser costosos y no te-

ner una cobertura tan grande como lo tiene internet.

● Personalización: El uso tecnologías de últimas generación en cuanto a responsive design

como Html5 o Jquery permiten ofrecer contenidos personalizados y con una alta usabilidad,

logrando una interacción amigable con el cliente y rediseñando la interfaz según los gustos,

preferencias e intereses que sean evidentes en las tendencias del mercado.

Reducción de Costos: Al utilizar espacios como Co-works se reducirán drásticamente los

costos de arriendo y de servicios, esto permitirá concentrar el flujo de caja en la promoción

de los productos.

Estrategias de promoción

En las estrategias de promoción tendríamos dos categorías:

Early Adopters: Son los visitantes que desean probar el servicio gratuitamente para uso personal o para

solucionar un problema.

Los Early Adopters podrán usar los servicios gratuitamente la primera vez, pero luego tendrán que reali-

zar las siguientes acciones:

Darle me gusta en el botón de la fan page de la empresa.

Invitar a 10 amigos vía Facebook para probar el servicio.

Comentar alguno de los videos promocionales de la empresa.

Todos estos procedimientos son verificables y permitirán al Early Adopters seguir usando los servicios

gratuitamente.

Clientes: Para las personas o empresas que deseen usar los servicios masivamente se realizarán des-

cuentos de hasta el 50% por colocar a Oorlog como partner en la página de estos.

Estrategias de soporte

Por medio de Whatsapp, Skype y Hangouts, se perseverara en dar soporte las 24 horas teniendo en

cuenta las siguientes propuestas:

Page 67: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página83

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Se responderá a todas las solicitudes recibidas por correo y redes sociales en menos de 5

minutos durante todos los días a cualquier hora mediante un Agente Bot13

. Luego en el horario

de 8:00 am a 9:00 pm se procederá a dar solución humana.

Mantendremos informados a nuestros clientes y posibles Early Adopters por los canales de

distribución sobre nuevos productos, así mismo de las promociones y cambios de precio.

Estrategias Mercadeo Web

Utilizaremos las siguientes tácticas básicas para posicionar nuestra marca en el mercado:

Realizar SEO ON PAGE y SEO OFF PAGE [22].

Campañas en Adwords, Infolinks y Facebook Ads.

Canal de YouTube con los videos promocionales de los productos, grabaciones de webinars y

promociones.

Marketing Social (Facebook, Twitter, Google+)

Estrategias de Precio

Hemos definido de acuerdo al precio del mercado y a las características de valor agregado de cada pro-

ducto los siguientes precios:

Precios de SquidSearch

SquidSearch gratuito es un servicio que le permite a las personas generar resúmenes desde in-

ternet sobre una temática que están buscando.

SquidSearch de pago es un servicio que ayuda a los dueños de las páginas web a crear conteni-

do de forma rápida y confiable.

13

Un Agente Bot, es un software capaz de tener una conversación amigable con una persona y resolver sus dudas.

Page 68: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Precios de Radex

Radex gratuito es un producto que puede realizar búsquedas de información en grandes canti-

dades de documentos pdf, txt y Word al mismo tiempo , encontrando la información rápidamen-

te y mostrando los resultados de forma precisa

Radex de pago permite generar resúmenes extractivos de múltiples documentos, así como tam-

bién generar referencias de los fragmentos de textos que encuentra.

Ilustración 26 Precios de Radex

Precios de AutoCM

AutoCM gratuito es un servicio web que permite a los clientes publicar contenido de forma au-

tomatizada en Facebook de acuerdo a la combinación de unas palabras o frases clave.

AutoCM de pago cuenta está en la posibilidad de generar el contenido (Texto, Fotos, Video) de

una temática en particular y publicarlo de forma automática en múltiples fan page del cliente

Page 69: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página85

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 27 Precios de AutoCM

Proyección de Ventas

Se han definido tres posibles escenarios respecto al comportamiento de las tendencias del mercado y a

las necesidades de nuestros posibles clientes:

1. Escenario más probable, es el escenario que se describe en el presente y que se espera sea el que

continúe por el resto del año, aquí se esperan vender 300 suscripciones por cada producto.

2. Peor Escenario, es el escenario que indicaría un cambio radical en las tendencias del mercado y

afectaría significativamente las ventas de Oorlog, en este escenario se esperaría vender 50

suscripciones.

3. Escenario optimista, en este escenario se esperaría vender 1.000 suscripciones en la puesta en

marcha de la empresa, lo que dejaría ganancias millonarias y catapultaría a la empresa

internacionalmente.

Escenario Más Probable

Proyección de Ventas(en dólares)

Año 1 Año 2 Año 3

Venta en Unidades SquidSearch 54,000 84,000 144,000 Radex 18,000 16,800 36,000 AutoCM 72,000 162,000 204,000 Ventas por Unidades Totales 144,000 226,800 384,000

Precio por Unidad Año 1 Año 2 Año 3

Page 70: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

SquidSearch $15 $10 $10 Radex $5 $2 $3 AutoCM $20 $5 $15

Numero de suscripciones SquidSearch 300 700 1000 Radex 300 700 1000 AutoCM 300 700 1000 Ventas Totales $144,000 $226,800 $384,000

Tabla 9 Proyección de Ventas para el escenario más probable [Fuente: Oorlog]

Peor Escenario

Proyección de Ventas(en dólares)

Año 1 Año 2 Año 3

Venta en Unidades SquidSearch 9,000 18,000 27,000 Radex 3,000 6,000 9,000 AutoCM 12,000 24,000 36,000 Ventas por Unidades Totales 24,000 48,000 72,000

Precio por Unidad Año 1 Año 2 Año 3 SquidSearch $15 $10 $10 Radex $5 $2 $3 AutoCM $20 $5 $15

Numero de suscripciones SquidSearch 50 100 150 Radex 50 100 150 AutoCM 50 100 150 Ventas Totales $24,000 $48,000 $72,000

Tabla 10 Proyección de Ventas para el peor escenario [Fuente: Oorlog]

Escenario Optimista

Proyección de Ventas(en dólares)

Año 1 Año 2 Año 3

Venta en Unidades SquidSearch 180,000 360,000 540,000 Radex 60,000 120,000 180,000 AutoCM 240,000 480,000 720,000 Ventas por Unidades Totales 480,000 960,000 1,440,000

Precio por Unidad Año 1 Año 2 Año 3 SquidSearch $15 $15 $15 Radex $5 $5 $5 AutoCM $20 $20 $20

Numero de suscripciones (cantidad de usuarios) SquidSearch 1000 2000 3000 Radex 1000 2000 3000 AutoCM 1000 2000 3000 Ventas Totales $480,000 $960,000 $1,440,000

Tabla 11 Proyección de Ventas Anuales para el escenario optimista [Fuente: Oorlog]

Page 71: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página87

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Capítulo 4

Administración del Negocio

Principios y Valores Corporativos

La innovación es nuestro eje junto con la responsabilidad de brindarle a nuestros clientes productos con

una alta calidad y ética profesional ,queremos lograr una cultura organizacional de la honestidad y la

pasión por desarrollar productos dirigidos a automatizar procesos para que las personas puedan ocuparse

de lo que es realmente importante.

Código de conducta ética

La ética desde el punto de vista de la web semántica se ha venido trabajando desde el principio de la

veracidad e importancia de las fuentes, aunque es difícil para un robot determinar la similitud semántica

de dos textos, es aún mucho más difícil determinar cuál de los dos textos es el más relevante. En Oorlog

trabajaremos para entregar a nuestros clientes contenidos con la más alta coherencia, generando conte-

nido de varias fuentes previamente seleccionadas de acuerdo al Serp y mejorando día a día los procesos

de búsqueda, clasificación y generación de información.

Es responsabilidad de Oorlog entregar un contenido de alta calidad en cuanto a coherencia y cohesión a

sus clientes, pero también nuestros clientes tendrán que entregar un contenido que se adecue a las espe-

cificaciones de sus propios clientes, es por eso que en Oorlog hemos definido los siguientes códigos de

ética

El contenido generado por Oorlog y entregado a sus clientes estará libre de fragmentos sintácti-

camente iguales a los que existan en internet.

Los clientes de nuestros clientes sabrán que el contenido que se les está entregando ha sido ge-

nerado en base a un sistema de resúmenes automáticos.

Los clientes de Oorlog siempre podrán solicitar peticiones de generación de nuevos resúmenes

siempre, estas peticiones estarán relacionadas con el tipo de plan que tenga el cliente.

Page 72: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Factores Críticos de Éxito

Nuestros factores críticos de éxito para lograr una escala mundial son:

Innovar con responsabilidad.

Generar soluciones que respondan a necesidades reales.

Velocidad en el lanzamiento al mercado, usando la metodología Lean Startup.

Comunicación constante con el cliente.

Siempre precios por debajo de la competencia.

Productos alineados con las tendencias del mercado.

Análisis DOFA

Debilidades:

Falta de experiencia en el tema de creación y manejo de empresa.

No se cuenta con socios inversionistas que soporten la idea de negocio.

Si se llega a dar una gran cantidad de usuarios, no se tendría los suficientes recursos econó-

micos para adquirir hardware que lo soporte.

No se cuenta con experiencia en cuanto a temas financieros y administrativos.

Fortalezas:

2 años de experiencia en el desarrollo de servicios web.

Se cuenta con conocimientos sobre los mercados a los cuales va dirigida la empresa.

Se cuenta con socios clave para captar clientes.

Todos los procesos son automatizados, el ahorro en nómina se ve reflejado en la automatiza-

ción de los procesos de soporte, pagos y servicios.

Contamos con 3 productos enfocados a 3 mercados diferentes, lo que nos hace robustos ante

cambios en las tendencias.

Somos unos apasionados por la automatización, nos caracterizamos por hacer aplicaciones

que le faciliten la vida a las personas.

Tenemos un objetivo claro de lo que queremos hacer y a donde queremos llegar.

Page 73: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página89

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Oportunidades:

Cambios en las tendencias: añadir más características a los servicios no incurre en gastos

mayores.

Son pocas las empresas que se encuentran en nuestro mercado.

Nuestro mercado está en constante expansión, lo que nos permite obtener un flujo de clientes

constante.

Cualquier proceso a nivel de negocio que se pueda automatizar es una oportunidad de nego-

cio para nosotros.

A largo plazo se espera contar con varios inversionistas que respalden nuestra idea de nego-

cio, la web 3.0 ya es una realidad pero aún hay un retraso en la masificación del concepto, las

empresas como Oorlog que sea pioneras en la web 3.0 serán tentativas a ser aceleradas con

capital de riesgo.

Ser reconocidos tanto a nivel nacional como internacional.

Amenazas:

Se cree competencia por parte de las grandes empresas como Google o Bing.

Cambios radicales en la tendencia del mercado dado los algoritmos de Google.

Incrementos exorbitantes en los precios de nuestros proveedores.

Copia de la idea de negocio por parte de empresas con mayor capital

Disminución excesiva de los precios por parte de los productos que se encuentran en el mer-

cado.

Estructura Organizacional

La estructura organizacional que soportará la evolución del negocio durante los 3 primeros años de

operación se divide en dos fases:

Page 74: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Fase I: Puesta en Marcha y Terminación de Productos (Julio a Agosto 2013)

Durante los primeros 3 meses se necesitara la colaboración de un auxiliar de soporte para atender las

solicitudes de los clientes y un diseñador para mejorar la usabilidad del portal y las interfaces de

SquidSearch y AutoCM.

Funciones del Director de Proyecto

Puesta en marcha de la empresa.

Conseguir asociaciones clave.

Desarrollo del back-End del sitio web.

Desarrollo del back-End de SquidSearch

Desarrollo del Back-End de AutoCM

Desarrollo de Radex.

Selección del personal calificado.

Securización de la plataforma.

Implementación de las estrategias de pre-lanzamiento.

Funciones del Auxiliar de soporte

Atender las solicitudes de los Early Adopters en el horario establecido en la empresa.

Capacidad de resolver problemas

Responsabilidad para realizar teletrabajo.

Excelente ortografía.

Asertivo y creativo.

Funciones del Diseñador Gráfico

Responsabilidad para realizar teletrabajo.

Desarrollo Front-End de la plataforma.

Desarrollo Front-End de SquidSearch.

Desarrollo Front-End de AutoCM

Page 75: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página91

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Fase II Salida al Mercado

Ilustración 28 Organigrama de Oorlog para la segunda fase

Al finalizar el primer año de operación, Oorlog contará con un director general, Promotor de servicios,

un administrador de empresas, un contador y 2 empleados de soporte.

Director General

Ejecución de estrategias de marketing y promoción.

Conseguir capital de inversión.

Selección de Personal.

Desarrollo de nuevas funcionalidades para los productos.

Dirigir el enfoque de la empresa.

Promotor

Ejecución de estrategias de servicio

Ejecución de estrategias de mercadeo web.

Ejecución de estrategias de distribución.

Diseño del material necesario para la estrategia de marketing.

Cooperación en la selección de personal entrante.

Administrador

Ejecución de estrategias de precio

Director

Promotor

Soporte

Soporte

Administrador Contador

Page 76: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Alineación de las proyecciones de venta con las ventas reales.

Desarrollo de nuevas estrategias de marketing.

Contador

Realizar los procesos de facturación, nómina y finanzas.

Hacer la revisoría fiscal.

Soporte

Ejecución de las estrategias de soporte.

Soporte de las estrategias de mercadeo web.

Gastos de Personal

Plan de Personal

Año 1 Año 2 Año 3

Director General $9,000 $24,000 $24,000 Diseñador Grafico $2000 $0 $0 Promotor $3,600 $12,000 $12,000 Administrador de empresas $3,600 $12,000 $12,000 Contador $3,600 $12,000 $12,000 2 auxiliares de soporte $3,000 $6,000 $6,000 Total de Empleados 7 6 6

Total de Nomina $24,800 $66,000 $66,000

Tabla 12 Gastos de nómina anuales

Los empleados tenderán un contrato por prestación de servicios en la puesta en marcha de la empresa,

luego del primer año tendrán un contrato laboral. Para la puesta en marcha de la empresa (3 meses) el

director general recibirá 2250 dólares, el diseñador gráfico 2000 dólares, el promotor 900 dólares y los

dos auxiliares 750 dólares cada uno.

Aspectos Legales

Se ha decidido constituir a Oorlog como una empresa S.A.S por los siguientes factores:

Separación patrimonial, en caso en que la sociedad fracase, todas las deudas se encapsularan

dentro de la misma empresa, salvando el patrimonio natural.

Page 77: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página93

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Imagen del emprendimiento, la figura S.A.S tiene una normatividad que regula tanto a las rela-

ciones entre los socios como la misma administración de la empresa.

La ley 1429 de 2010 da beneficios a empresas con número de trabajadores inferiores a 50 y ac-

tivos menores a 5 mil salarios mínimos.

Con S.A.S; Oorlog queda exento de impuesto de renta durante los dos primeros años.

No hay retención en la fuente, porque se toma como pago anticipado.

Plan Operativo

Estrategias para el Desarrollo de Productos

Las estrategias de desarrollo de productos de Oorlog están fuertemente influenciadas por la metodolo-

gía Lean Startup y basadas en Release Often Release Early junto con el proceso de desarrollo rápido de

aplicaciones (RAD)14

14

RAD es una metodología de desarrollo ágil

PMV es un producto mínimo viable que genera valor para alguien.

Page 78: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 29 Estrategias para el desarrollo de productos

Identificar las Características del Mercado

En esta primera fase se debe realizar un scanning de los productos del mercado, con el fin de identificar

las características más comunes, luego se deben analizar si las necesidades del mercado están siendo

satisfechas por esas características.

Desarrollar un prototipo mínimo viable (PMV)

Ya teniendo previamente identificadas las características se debe realizar un prototipo mínimo viable

que permita visualizar esas mismas características en un producto de Oorlog .Para llevar a cabo un desa-

rrollo rápido y sin gastos desmesurados se hace uso de la metodología de desarrollo ágil, la cual permite

establecer los elementos más importantes que se deben plasmar para generar un producto mínimo fun-

cional.

Generar un valor agregado

Luego de tener un prototipo mínimo viable es vital encontrar un valor agregado que permita al PMV ser

un diferencial en el mercado, este valor agregado se debe identificar rápidamente puesto que necesita

salir al segmento de Early Adopters que están esperando un PMV con características especiales.

Identificar las caracteristicas del

mercado

Desarrollar un PMV

Generar un valor agregado

Probar el PMV con los Early Adopters

¿El PMV Soluciona el problema de los

Early Adopters?

Si

No,

Lanzar producto

Page 79: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página95

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Probar el PMV con los Early Adopters15

Los Early Adopters que están previamente focalizados, prueban el PMV y retroalimentan a Oorlog

mediante encuestas o checkLists, este Feedback permite pivotear o determinar si la oportunidad de ne-

gocio es realmente valida.

¿El PMV soluciona el problema de los Early Adopters?

En el caso en que los Early Adopters se sientan satisfechos porque un producto soluciona sus proble-

mas, estos serán los pioneros en probar el servicio, lo que les dará más good will al realizar publicacio-

nes de sus pruebas en sus sitios web y beneficiara a Oorlog en tener un producto realmente útil.

En el caso que el PMV no supla las necesidades de los Early Adopters se pivoteara16

, identificando ple-

namente las necesidades del mercado y volviendo a generar un PMV que realmente tenga valor.

Necesidades y Requerimientos

Las necesidades y requerimientos evolucionan como la estructura organizacional del negocio, por eso se

han definido los siguientes requerimientos para la primera fase de puesta en marcha de Oorlog:

Cantidad NECESIDADES COSTO USD

Salarios

15

Early Adopters son personas que están dispuestas a probar un nuevo producto que sale en el mercado

que es de su interés.

16

Pivotear es cambiar de idea o características con el fin de encontrar las que realmente tengan valor

para el mercado

Page 80: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

1 Director de Proyecto $5700

1 Diseñador Gráfico $2000

1 Auxiliar de soporte $3600

Hosting

1 Servidores amazon Ec2 $1200

Activos a Largo Plazo

2 Laptop Workstation $1690

1 Construct2 $340

1 Red de blogs $570

1 Adobe CS6 $1900

Servicios

1 Conexión Api paypal $30

1 Internet $195

1 Año Dominio $20

1 Google Adwords 6065

Page 81: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página97

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

TOTAL USD $25500

Tabla 13 Necesidades y Requerimientos Fase Inicial de Oorlog

Gastos de Operación

La siguiente tabla presenta el detalle de los gastos operativos de la primera fase de la puesta en marcha

de Oorlog.

Plan de Inicio

Activos Requeridos

Gastos de Inicio

Servidores amazon EC2 $1,200

Dominio $20

Gastos y costos asociados a paypal $30

Plantilla Pagina Web

Tarjeta payoneer

Adwords, facebook ads

$50

$200

$12,000

Total de Gastos de Inicio $13,500

Activos de Inicio

Efectivo Requerido $8,000

Otros Activos de Corto Plazo $0

Activos a Largo Plazo $4,000

Total de Activos $12,000

Total de Requisitos $25,500

Tabla 14 Gastos de operación de los primeros 3 meses de Oorlog

Plan Financiero

El plan financiero está fundamentado en el escenario de ventas más probable, el peor escenario y el

escenario más optimista serán tenidos en cuenta para la evaluación financiera.

Requerimientos de Inversión

Plan de Fondos de Inicio

Gastos de Inicio para Financiar

$11.000

Page 82: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Activos de Inicio para financiar

$13.000

Total de Fondos Necesarios

$24.000

Activos

Otros Activos de Inicio

$3.000

Efectivo Necesario para Inicio

$10.000

Fondos Adicionales Obtenidos

$0

Saldo en Caja en Fecha de Comienzo

$10.000

Total de Activos

$13.000

Pasivos y Patrimonio Neto

Pasivos

Préstamos a Corto Plazo

$0

Pasivos a Largo Plazo

$0

Cuentas por Pagar

$0

Otros Pasivos a Corto Plazo (sin interés)

$0

Total de Pasivos

$0

Page 83: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página99

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Patrimonio Neto

Inversiones Previstas

Propietario

$2000

Inversionista

$2300

Inversiones Adicionales

$23.975

Total de Inversiones Previstas

$24.000

Pérdida al Iniciar (Gastos de Inicio)

($11.000)

Total de Patrimonio Neto

$13.000

Total de Patrimonio Neto y Pasivos

$13.000

Total de Fondos

$24.000

Tabla 15 Plan de Fondos de Inicio de Oorlog

Punto de Equilibrio

El costo fijo mensual de Oorlog como lo muestra la tabla 15, debe tener un equilibrio de 345 unidades

vendidas mensualmente con unas ventas de 5100 dolares para no perder ni ganar dinero.

Page 84: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

El análisis de punto de equilibrio se realizó en base al precio del plan básico de SquidSearch y teniendo

en cuenta el cobro de comisión de paypal de 0,49 dólares. Al analizar la proyección de ventas se deter-

mina que la empresa en el primer año alcanza el punto de equilibrio.

Análisis de Punto de Equilibrio

Cantidad de Unidades Mensuales de Punto de Equilibrio 345 Ventas Mensuales de Punto de Equilibrio $5100

Supuestos Precio Promedio por Unidad $15 Costo Promedio Variable por unidad $0.49 Costo Fijo Mensual Aproximado $5000

Tabla 16 Análisis del Punto de Equilibrio

Estado de pérdidas y ganancias del negocio

En la tabla de utilidades y pérdidas a continuación, se muestran los resultados del Oorlog para los pró-

ximos 3 años.

Utilidades y Pérdidas Proyectadas

Año 1 Año 2 Año 3

Ventas $59,054 $243,610 $355,405 Costo Directo de Ventas $17,694 $73,035 $106,568 Otros Costos de Ventas $0 $0 $0 Total de Costo de Ventas $17,694 $73,035 $106,568

Margen Bruto $41,360 $170,575 $248,838 Porcentaje de Margen Bruto 70.04% 70.02% 70.02%

Gastos Nomina $37,400 $45,400 $47,400 Marketing y Promoción $9,000 $10,000 $11,000 Depreciación $0 $1,538 $1,538 Arrendamiento $5,400 $5,600 $5,800 Dominio y Hosting $75 $83 $90 Internet $780 $780 $780 Papelería $200 $200 $200

Total de Gastos Operativos $52,855 $63,819 $67,026

Utilidad antes de Impuestos e Intereses ($11,495) $106,756 $181,812 Utilidades antes de Intereses, Impuestos y Amortizaciones ($11,495) $108,294 $183,350

Page 85: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página101

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Gastos de Intereses $0 $0 $0 Impuestos $0 $0 $0

Utilidades Netas ($11,495) $106,756 $181,812 Utilidades y Pérdidas Netas -19.47% 43.82% 51.16%

Tabla 17 Utilidades y Pérdidas Proyectadas

El estado de pérdidas y ganancias proyectado para el primer año, muestra que las metas de ventas son

suficientes para cubrir los costos y gastos totales. La rentabilidad sobre ventas del proyecto es de 8,01%

mensual y se tendrá una recuperación total en el segundo año.

Flujo de Caja Proyectado

Flujo de Efectivo Proyectado

Año 1 Año 2 Año 3

Efectivo Recibido

Efectivo proveniente de Operaciones Ventas al Contado $59,054 $243,610 $355,405 Subtotal de Efectivo proveniente de las Operaciones $59,054 $243,610 $355,405

Efectivo Adicional Recibido Subtotal de Dinero Recibido $59,054 $243,610 $355,405

Gastos Año 1 Año 2 Año 3

Gastos de las Operativos Gastos pagados en Efectivo $37,400 $45,400 $47,400 Pago de Facturas $28,364 $87,310 $121,800 Subtotal de Gastos Operativos $65,764 $132,710 $169,200

Dinero Adicional en Efectivo Gastado Compra de Activos a Largo Plazo $1,390 $1,527 $1,527 Dividendos $0 $0 $0 Subtotal de Dinero en Efectivo Gastado $67,154 $134,237 $170,727

Flujo Neto de Efectivo ($8,101) $109,373 $184,678 Saldo en Caja $8,899 $118,272 $302,950

Tabla 18 Flujo de caja proyectado

Oorlog vende el 100% de contado y compra el 100% de contado.

Page 86: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

El proyecto presenta su menor superávit al inicio del proyecto por valor de 11.495 dólares, es necesario

que se descuente del valor de los inventarios, en caso de ser requeridos. Con este valor el proyecto es

viable.

Balance General

Balance General Proyectado

Año 1 Año 2 Año 3

Activos

Activos a Corto Plazo Efectivo $8,899 $118,272 $302,950 Otros Activos de Corto Plazo $0 $0 $0 Total de Activos de Corto Plazo $8,899 $118,272 $302,950

Activos a Largo Plazo Activos a Largo Plazo $7,690 $9,217 $10,744 Depreciación Acumulada $0 $1,538 $3,076 Total de Activos a Largo Plazo $7,690 $7,679 $7,668 Total de Activos $16,589 $125,951 $310,618

Pasivos y Patrimonio Neto Año 1 Año 2 Año 3

Pasivos a Corto Plazo Cuentas por Pagar $4,785 $7,390 $10,246 Préstamos a Corto Plazo $0 $0 $0 Otros Pasivos a Corto Plazo $0 $0 $0 Subtotal de Pasivos a Corto Plazo $4,785 $7,390 $10,246

Pasivos a Largo Plazo $0 $0 $0 Total de Pasivos $4,785 $7,390 $10,246

Capital $26,650 $26,650 $26,650 Utilidades Retenidas ($3,350) ($14,845) $91,911 Utilidades ($11,495) $106,756 $181,812 Total de Patrimonio Neto $11,805 $118,561 $300,372 Total de Pasivos y Patrimonio Neto $16,589 $125,951 $310,618

Valor Neto $11,805 $118,561 $300,372

Tabla 19 Balance General Proyectado

El balance general proyectado se analiza básicamente con dos indicadores, el primero de ellos es la ra-

zón de liquidez. Este indicador es una buena medida de la capacidad de pago de la empresa en el corto

plazo.

Al terminar el primer año, para el proyecto se concluye que por cada peso de pasivo corriente que debe,

la empresa tiene 2,7 pesos de activo líquido corriente para cubrirlo.

Page 87: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página103

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

En el momento de arranque de la empresa se observa que no posee nivel de endeudamiento lo cual se

considera favorable para su operación y viabilidad.

Viabilidad Comercial

Según el estudio de mercado realizado, el 93% de los encuestados les pareció útil el servicio de

SquidSearch y el 70% pagarían 15 dólares por ello.

Viabilidad Técnica

El desarrollaron 3 prototipos mínimos viables dentro de las fechas del semestre 1 del 2013 ya que el

emprendedor posee los conocimientos necesarios y las tecnologías adecuadas para lograr un producto de

valor para los Early Adopters. Además de eso se cuenta con la experiencia adquirida en el emprendi-

miento de www.squidbacklinks.com para manejar todo lo referente con posicionamiento web y Serp.

Viabilidad Legal

En Oorlog respetamos los derechos de propiedad intelectual, las páginas que no desean ser indexadas

por los motores de búsqueda debido a que protegen su contenido, crearon un archivo llamado robots.txt

que indica a los SpiderBots17

que no deben leer esa página, esto significa que Oorlog no podrá obtener

información de esas páginas debido a que los resultados de búsqueda omiten estas.

Viabilidad Ambiental

El proyecto es ecológicamente sostenible ya que la mayoría de las transacciones y procesos se realiza de

manera online, además al tratarse de servicios web, no generan deshechos en la producción de los pro-

ductos.

Viabilidad operativa

Al tratarse de un emprendimiento web , las soluciones de outsourcing se encuentran a la medida para

solucionar problemas comunes que ya estén resueltos en el mercado ,también al trabajar en entornos co-

17

Los Spider Bots son programas que buscan cualquier tipo de contenido en todas las páginas web y lo

guardan en base de datos externas.

Page 88: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

works se realizan importantes ahorros en arriendos e infraestructura física , así como también se incenti-

va el teletrabajo con estrategias de work-flows. Al tratarse de una empresa que está dirigida hacia la

tendencia de web 3.0 , es posible adoptar herramientas que ya se hayan validado en el mercado para

crear nuevas tendencias y generar posibilidades de rentabilización para la empresa así como también

estar atentos hacia los nuevos marcos de referencia que sean oportunidades de negocio en la internet.

DOCUMENTOS SOBRE EL SERVICIO SQUIDSEARCH

Como parte de la metodología Lean Startup, se desarrollaron los prototipos mínimos viables teniendo en

cuenta las características del mercado, estos prototipos desde el principio fueron pensados para ser fun-

cionales y sirvieron como perspectiva final de los productos que los Early Adopters deseaban.

Árbol de navegación

Ilustración 30 – Árbol de navegación

El árbol de navegación de la ilustración 31 corresponde al portal de Oorlog que se encuentra en

www.unresumen.com , este contiene textos, imágenes, videos y los campos para ingresar texto, títulos e

iconos que contemplan la plataforma funcional de servicios.

Especificación de requerimientos de software (SRS)

La especificación de requerimientos se detalla en el documento Requerimientos(Oorlog)-V.0.9.xlsx de

la carpeta de SRS.

Page 89: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página105

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Luego de tener claro el mercado al cual se estaba enfocando la empresa, se extrajeron los requerimien-

tos más comunes presentes en la mayoría de los productos que estaban actualmente disponibles , luego

se desarrolló la especificación de estos requerimientos con el fin de poder clasificarlos y priorizarlos

según las necesidades de los Early Adopters. Las principales características encontradas en el mercado

fueron las siguientes:

Funciones principales

Extraer las frases más importantes de un texto.

Extraer las frases más importantes de una página web.

Generar un resumen extractivo o abstractivo.

Funciones secundarias

Escoger el grado de resumen para un texto (desde 10% hasta 100%), esto permite al sistema

saber cuántas frases debe escoger, mientras más alto sea el grado, más frases del texto se se-

leccionaran.

Eliminar las StopWords.

Obtener las palabras principales del texto.

Entornos

Mono Documento: Se genera un resumen de solo 1 documento, extrayendo la idea principal

y sobre eso, extrayendo las frases que están conectadas a esa idea principal.

Multi Documento: Se genera un resumen extrayendo la idea principal de cada documento y

haciendo una comparación para no agregar frases que sean semánticamente diferentes al re-

sumen final.

Resúmenes extractivos: Es un texto que contiene las frases más importantes.

Resúmenes abstractivos: Es un resumen que contiene la idea principal de un texto, parafra-

seando las frases más importantes pero conservando la idea principal.

Características Adicionales

Guardar los resúmenes que se generan online

Acceder a otros servicios relacionados con la generación automática de resúmenes.

Agregar conectores ortográficos para unir las frases de los resúmenes extractivos.

Planes de pago para acceder a características Premium.

Resúmenes de búsquedas

Los usuarios registrados en la plataforma de SquidSearch tendrán soporte 24 horas los 7

días a la semana.

Para el desarrollo de los prototipos mínimos viables y la infraestructura web se usaron las siguientes

herramientas:

Page 90: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Plataforma web

Lenguaje de programación JavaScript, PHP y HTML para la maquetación web.

Jquery , CSS3 y HTML5 para el front –end

Perl con CGI para la respuesta a consultas del servicio gratuito de SquidSearch (Back-End).

Base de datos Mysql para almacenar a los usuarios e información relacionada sobre estos.

SquidSearch

Java para el servicio avanzado de SquidSearch, donde se generan resúmenes programables

por fechas.

Librerías relacionadas con el procesamiento del lenguaje natural y la minería de texto (estas

librerías se encuentran enunciadas en el diagrama de despliegue).

Json para el manejo de información entre los servidores generadores de resúmenes y la in-

fraestructura web.

Radex

Java para como entorno GUI de presentación.

JSON para el procesamiento del texto que se desea resumir por métodos de abstracción (ne-

gocio y datos).

AutoCM

Java para el servicio avanzado de AutoCM donde se realizaran búsquedas de texto, fotos y

videos relacionados con keywords dada por los clientes.

Librerías relacionadas con algoritmos de comparación de imágenes y videos.

Json para el manejo de información entre los servidores generadores de resúmenes y la in-

fraestructura web.

Page 91: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página107

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 31 – Diagrama de clases

Una vez creada la maquetación de la plataforma web, se empezó a realizar el diagrama de clases que

permitiría tener una visión en alto nivel de los servicios y la infraestructura integrada .En la ilustración

33 se puede observar el diagrama de clases correspondiente a la primera versión de la plataforma fun-

cional y a los servicios, cada uno expuestos como una gran súper clase que permitiría entender el flujo

de usuarios y control de los servicios.

Page 92: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 32 – Diagrama de casos de uso

Los casos de uso que se pueden ver en la ilustración 33, describen los aspectos más importantes que se

realizan en la plataforma, estos son los más importantes y necesarios para el correcto funcionamiento de

los prototipos y de la plataforma.

Documento de la arquitectura de software (SAD)

Gracias a la retroalimentación recibida de los Early Adopters, fue posible crear una arquitectura robusta

capaz de servir como recurso principal para los 3 servicios, esta arquitectura se complementa con la

arquitectura REST y la arquitectura cliente servidor para brindar una mayor flexibilidad en el uso de las

características individuales de cada prototipo mínimo viable.

Page 93: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página109

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

En la ilustración 34 se puede observar el diagrama de despliegue con las librerías, componentes y ar-

chivos además de visualizar claramente como es la comunicación entre ellos para permitir al sistema

cumplir con su objetivo.

Ilustración 33 – Diagrama de despliegue

Ya para finalizar se realizaron los atributos de calidad que implementan la plataforma de servicios y los

prototipos mínimos viables.

Seguridad: Permite el manejo transparente de sesión, autorización y es independiente de los

pagos que se realicen por fuera (Paypal), lo que asegura en un 90% las pérdidas de dinero de los

clientes por posibles fallos en la plataforma.

Page 94: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Escalabilidad y desempeño: Al tener la plataforma de servicios en los servidores amazon EC2

elastic , permite garantizar un flujo de tráfico continuo y un balanceo de cargas que permita ma-

nejar transacciones de más de 3000 usuarios concurrentes.

Disponibilidad: Al tener una base de datos Mysql en un servidor con total libertad, es posible

configurar un script que realice backups o replique la base de datos de manera automática, dado

un evento o programando una fecha de replicación.

Mantenibilidad: Al haber implementado el modelo vista controlador en la plataforma de servi-

cios, se logra un bajo acoplamiento, lo que permite reutilizar código que se haya comprado o

designar trabajos de Outsourcing sin comprometer el core del negocio.

IV - RESULTADOS Y REFLEXIÓN SOBRE LOS MISMOS

Emprender hoy en día se ha vuelto una necesidad cada vez mayor e infundada en las universidades, las

herramientas que brindan los gobiernos y la tecnología que se encuentra más disponible al mercado de

clase media – baja, hacen posible ver nuevas aplicaciones en el mercado que solucionan los problemas

de la vida diaria con mucha efectividad y son gratamente acogidas. El deseo de emprender hoy en día

solo se limita a tener una idea de negocio innovadora, pues la cadena que se necesita para llevar acabo

de una idea de negocio a un modelo de negocio rentable es proporcionada por los medios públicos y

privados que se encuentran ansiosos por encontrar soluciones simples a problemas complejos que nos

aquejan día a día.

Termino con la frase “Mientras mas común sea la búsqueda, mas grande sera la aguja en el pajar”.

V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS

Conclusiones

Este proyecto nace de la necesidad de acoger la web 3.0 para solucionar problemas de búsqueda, clasifi-

cación y generación de información con herramientas como el procesamiento del lenguaje natural, mi-

nería de texto y posicionamiento web.

Page 95: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página111

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Se pudo concluir que en estos momentos hay una oportunidad de negocio que aún no ha sido tomada

por muchas empresas, esto permite a Oorlog generar un branding rápidamente y consolidarse como una

empresa líder en pocos años.

Gracias a los cursos vistos en la carrera así como la motivación de emprender del profesor Efraín Ortiz,

es posible resumir este proyecto como un eslabón importante en la cadena de proyectos con carácter

emprendedor, impulsados con el conocimiento de la ingeniería de sistemas para crear nuevos productos

de alta innovación, apoyados en los cursos vistos de administración y finanzas durante la carrera, que

permiten entender, analizar y adaptarse a las condiciones del mercado.

Recomendaciones

Se recomienda hacer uso de las herramientas públicas de emprendimiento como Bogotá emprende o

apoyo al emprendedor del ministerio de tecnologías de Colombia, ya que al no contar con conocimien-

tos suficientes sobre planes de negocio, se necesita buscar a las personas adecuadas que sirvan como

guías para crear un modelo rentable.

Se recomienda también buscar socios que permitan a las Startup validar su idea de negocio rápidamente

ya que teniendo clara y definida esta oportunidad, es posible obtener más herramientas para el lanza-

miento al mercado de los productos y también lograr las metas propuestas por la Startup.

Trabajos Futuros

Este plan de negocios solo es un pitch para analizar de manera formal las posibilidades que existen de

emprender y generar productos innovadores sin la necesidad de costosos gastos de operación .La meto-

dología Lean es fundamental para una Startup que desee probar un concepto de modelo de negocio. Sin

duda alguna se utilizara esta metodología para futuros emprendimientos así como también para validar

productos en mercados variables.

También es importante recalcar que hacen falta mejorar los algoritmos, estos algoritmos son Open

Source y fueron modificados para el contexto de las ponderaciones de las páginas web, posicionamien-

to web y un corpus para resúmenes extractivos multi documentos.

Page 96: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Es necesario hacer pruebas desde el punto de vista de la semiótica, con profesionales en este campo que

ayuden a determinar una correcta relación de sentido y coherencia a la generación de resúmenes auto-

máticos. También se hace necesario contactar con personas especializadas en el campo del procesamien-

to del lenguaje natural, que den su punto de vista a los resultados de los algoritmos aplicados y que den

opiniones para realizar ajustes y lograr generar resúmenes más exactos al contexto humano.

VI – REFERENCIAS Y BIBLIOGRAFIA

[1] A. Khurana, “Link Building Strategies”, [Online]. Available:

http://ecommerce.about.com/od/Ecommerce-SEO/a/Link-Building-Strategies.htm

[2] Rocreguant,“ Como identificar y usar los early adopters para lanzar una startup”, [Online]. Availa-

ble: http://rocreguant.com/como-identificar-y-usar-los-early-adopters-para-lanzar-una-startup/430/.

[3] Payoneer,“ Virtual Prepaid Card - It’s virtually brilliant”, [Online]. Available:

http://www.payoneer.com/VirtualCard.aspx .

[4] Pingdom,“ Internet 2012 in numbers”, [Online]. Available:

http://royal.pingdom.com/2013/01/16/internet-2012-in-numbers/ .

[5] Otri,“ Tipos de empresas/formas jurídicas”, [Online]. Available: http://otri.ugr.es/creacion-de-

empresas-basadas-en-el-conocimiento/tipos-de-empresasformas-juridicas/ .

[6] E. Ries, “Lean Canvas”, [Online]. Available: http://theleanstartup.com/.

[7] C. A. Rodríguez Vargas.,“ Concepto N° 054399”, [Online]. Available:

http://www.cijuf.org.co/codian08/junio/o54399.html .

[8] wordhippo,“ What is the meaning of the Dutch word oorlog?”, [Online]. Available:

http://www.wordhippo.com/what-is/the-meaning-of/dutch-word-oorlog.html.

[9] L. SHIP,“ Marissa Mayer Needs to Bridge Distance Gap with Remote Workers”, [Online]. Availa-

ble: http://www.forbes.com/sites/hbsworkingknowledge/2013/03/12/marissa-mayer-needs-to-

bridge-distance-gap-with-remote-workers/ .

Page 97: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página113

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

[10] R. Thomas,“ Representational State Transfer (REST)”, [Online]. Available:

http://www.ics.uci.edu/~fielding/pubs/dissertation/rest_arch_style.htm.

[11] Catb,“ Release Early, Release Often”, [Online]. Available:

http://www.catb.org/esr/writings/homesteading/cathedral-bazaar/ar01s04.html.

[12] P. Anderson and B. Brookins,“ Google AdWords: A Guide to Acquiring, Optimizing, and

Maintaining an Effective Web Advertising Campaign”, [Online]. Available:

http://harbaugh.uoregon.edu/Papers/Google%20Adwords%20for%20Donations.pdf.

[13] John F. Gantz,“ The Expanding Digital Universe”, [Online]. Available:

http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf .

[14] W. Maner,“ A software development process that allows usable systems to be built in as little as 60-

90 days, often with some compromises”, [Online]. Available:

http://www.cs.bgsu.edu/maner/domains/RAD.htm .

[15] A. Matarranz,“ Productos Mínimos Viables”, [Online]. Available:

http://conversisconsulting.com/2011/10/23/productos-minimos-viables-deseables-factibles/ .

[16] Extreme Programming. Internet Advertising Statistics”, [Online]. Available:

http://econsultancy.com/co/reports/internet-advertising-statistics .

[17] ComScore,“ Create a Spike Solution”, [Online]. Available:

http://www.extremeprogramming.org/rules/spike.html.

[18] ComScore,“ Retail y Comportamiento del Consumidor Online”, [Online]. Available:

http://colombia.ecommercelatam.com/wp-content/uploads/2010/12/Marchant.pdf .

[19] MG Siegler,“ Eric Schmidt: Every 2 Days We Create As Much Information As We Did Up To

2003”, [Online]. Available: http://techcrunch.com/2010/08/04/schmidt-data/.

Page 98: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

[20] Pingdom, “Internet 2012 en números”, [Online]. Available: http://royal.pingdom.com/.

[21] Adwords ,“ Categorías de intereses de anuncio”, [Online]. Available:

https://support.google.com/ads/answer/2842480?hl=es.

[22] A. Disilvrestro ,“ On-Page SEO vs. Off-Page SEO: Which comes First?”, [Online]. Available:

http://www.highervisibility.com/blog/on-page-seo-vs-off-page-seo-which-comes-first/.

Page 99: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página115

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

ANEXO 1

Casos de uso

Page 100: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …
Page 101: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página117

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

A Actores:

Código-Actor Actor-Rol Descripc ion Acciones

ACT1 VisitanteEste actor solo usa los servicios gratuitos de la plataforma , en ningun

momento se registra pero si debe llenar una encuesta de satisfacción

ACT2 Usuario

Este actor se registra en el sistema , hace uso completo de todos los

servicios que le brinda la plataforma , tambien realiza consultas y tiene

acceso al soporte tecnico

ACT3 Administrador de soporte

Este actor es el encargado de mantener la plataforma en el correcto

funcionamiento resolviendo los problemas de los usuarios ,

dependiendo del nivel que posea este administrador se le concedera

acceso para modificar parte del sistema si llega a tener los permisos

para hacerlo

ACT4

ACT5

ACT6

ACT7

ACT8

ACT9

ACT10

Los clientes pueden generar resumenes

dependiendo del tipo de plan al cual esten

suscritos

Page 102: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

CU-001

Proyecto: Fecha: 02/04/2013

Autor: Versión: 1.0

Id Caso de Uso: CU-001 Nombre:

No. No. Aplicación web No. Servidor

1

2

3 Captura los datos de entrada

4 Envia el correo del Usuario y la contraseña al servidor

5 Recibe el correo del Usuario y la contraseña del sistema

6Verifica que el correo y la contraseña correspondan a los

datos guardados en el servidor

7Envía la respuesta de la validacion de el correo y la

contraseña al sistema

8 Recibe la validación del servidor

9 Ingresa al sistema

El Usuario debe estar conectado a la red

Post-Condiciones

Plataforma Oorlog

Néstor Santos

Iniciar Sesión

Objetivo en Contexto (Resumen): Identificar al usuario para que este ingrese al sistema

Ingresa los datos de entrada

Actores Participantes Usuario

Entradas Correo, Contraseña

Salidas Ingresa exitosamente al sistema

Pre-Condiciones

8

Condición final de éxito: Ingresa al sistema

Condición final de fallo: Denegación del ingreso

Si la validación es negativa informa error "El nombre de usuario o la contraseña introducidos no son

correctos.", vuelve al paso no. 2

Actor

Selecciona "ingresar"

FLUJO BÁSICO DE ÉXITO

Caminos Alternativos

Numeral Especificación del camino

Page 103: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página119

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

CU-002

Proyecto: Fecha: 02/04/2013

Autor: Versión: 1.0

Id Caso de Uso: CU-002 Nombre:

No. No. Aplicación web No. Servidor

1

2

3 Captura los datos de entrada

4 Envía el correo, el nombre y la contraseña del Usuario al servidor

5Recibe el correo, el nombre y la contraseña del Usuario

del sistema

6Verifica qué el correo recibido del sistema no esté ya

guardado

7Guarda el nombre, el correo y la contraseña creando un

nuevo Usuario

8 Envía confirmación de creación al sistema

9 Recibe confirmación del servidor

10 Ingresa al sistema

Numeral Especificación del camino

Caminos Alternativos

6a

Actor

Selecciona "registrarse"

Ingresa los datos de entrada

Pre-Condiciones El usuario debe estar conectado a la red

Post-Condiciones

Condición final de éxito: Usuario registrado

Condición final de fallo: Usuario no registrado

FLUJO BÁSICO DE ÉXITO

Salidas Confirmación del Usuario registrado

Actores Participantes Usuario

Si al verificar el Usuario ya se encuentra, informa el error "El Usuario ya se encuentra registrado porfavor

ingrese otro correo", se devuelve al paso 2, y vuelve a ingresar los datos

Plataforma Oorlog

Néstor Santos

Registrar Usuario

Objetivo en Contexto (Resumen): Permite a un usuario inscribirse al sistema y poder jugar

Entradas Correo, Nombre, Contraseña

Page 104: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

CU-003

Proyecto: Fecha: 02/04/2013

Autor: Versión: 1.0

Id Caso de Uso: CU-003 Nombre:

No. No. Aplicación web No. Servidor

1

2Envía solicitud al servidor con los datos (nombre de la

campaña,Tematica,palabras clave , tipo de resumen ,fecha de

3Recibe solicitud del sistema con los datos

(Tematica,palabras clave , tipo de resumen

4 Créa la campaña en el sistema

5Guarda la campaña creada en la lista de

campañas activas

6Envía notificación del estado de la campaña

al sistema

7 Recibe el estado de la campaña si esta fué creada ó no

8 Notifíca al Usuario

9 Éntra a la campaña creada

Plataforma Oorlog

Néstor Santos

Crear Campaña

Objetivo en Contexto (Resumen): Crear una campaña donde se configurara el tipo de resumen a crear y la fecha de creación

Caminos Alternativos

Actores Participantes Usuario

Entradas Tematica,palabras clave , tipo de resumen ,fecha de creación

Salidas Campaña creada

Pre-Condiciones El usuario debio iniciar sesión

Post-Condiciones

Condición final de éxito: se crea la campaña con exito

Condición final de fallo: no se crea la campaña

FLUJO BÁSICO DE ÉXITO

Actor

Selecciona "crear campaña"

Numeral Especificación del camino

4Si ya hay una campaña creada con el mismo nombre salta al paso 8 informando el error "La campaña no

pudo ser creada porque ya hay una campaña con el mismo nombre de usuario"

Page 105: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página121

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

CU-006

Proyecto: Fecha: 02/04/2013

Autor: Versión: 1.0

Id Caso de Uso: CU-006 Nombre:

No. No. Aplicación web No. Servidor

1Lista las campañas activas

2

3

4Cáptura el nombre de la campaña selccionada y el nombre

del Usuario

5Envía el nombre de la campaña y el nombre del Usuario al

servidor

6Recíbe el nombre de la campaña y el

nombre del Usuario de el sistema

7 Empezar campaña [CU-012]

2 Sí no hay campañas creadas sugiere al Usuario ir al caso de uso CU-003

Plataforma Oorlog

Néstor Santos

Programar campaña

Objetivo en Contexto (Resumen): Programar la fecha de publicación de los resúmenes

Condición final de éxito: Se configura una campaña

Condición final de fallo: No se configura la campaña

Entradas La campaña

Salidas La programación de la campaña

Pre-Condiciones El Usuario debio iniciar sesion

Post-Condiciones

FLUJO BÁSICO DE ÉXITO

Actor

Selecciona conectar campaña

Selecciona la campaña de la lista de

campañas activas

Sí no selecciona una campaña informa error "Debes seleccionar una campaña"

Numeral Especificación del camino

4

Caminos Alternativos

Page 106: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

ANEXO 2

CASOS DE PRUEBA

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que se pueda ingresar una palabra o

frase

Requerimiento probado R-0-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor Santos

Page 107: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página123

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que el sistema buscara una palabra

o frase

2. Se verifico que el sistema mostrara la palabra o

frase

Requerimiento probado R-1-CC-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que se pudiera seleccionar una pá-

gina para resumir

Page 108: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Requerimiento probado R-2-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que el sistema pudiera resumir una

pagina seleccionada

Requerimiento probado R-3-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Page 109: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página125

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que el sistema mostrar mínimo 5 re-

sultados de búsqueda

Requerimiento probado R-4-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Page 110: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que el sistema actualizara el conte-

nido de los resultados de búsqueda

Requerimiento probado R-5-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Page 111: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página127

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Notas o Instrucciones Adicionales

1. Se verifico que el sistema mostrar el contenido

en una nueva pagina

Requerimiento probado R-6-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. El sistema realiza la simulación del cambio de

hoja cuando se subraya

2. Solo funciona subrayando de izquierda a dere-

cha

Requerimiento probado R-7-EA-F

Observaciones Adicionales Se necesita pulir el movimiento del tanque

para que sea fluido de acuerdo a la posición

Page 112: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

del cursor del mouse.

¿Revisado? (Razón) No.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se probó que el sistema resumiera fragmentos

de textos

Requerimiento probado R-8-EA-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Page 113: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página129

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se verifico que la hoja de estilo CSS3 fuera so-

portada por las versiones release de los nave-

gadores chrome ,opera , Firefox y internet ex-

plorer

Requerimiento probado R-9-CC-F

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

Page 114: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

1. Se verifico que el sistema tuviera solo un cam-

po y un solo boton

Requerimiento probado R-12-CC-N

Observaciones Adicionales Se debe modificar el tamaño del botón y re

dimensionar dinámicamente el campo para

el tamaño del texto

¿Revisado? (Razón) No.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema resumiera una pá-

gina web en menos de 10 segundos

Requerimiento probado R-13-CC-N

Observaciones Adicionales

Page 115: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página131

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el usuario pudiera ingresar al

panel de servicios.

Requerimiento probado R-14-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Page 116: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite programar

la fecha de creación de resumenes

Requerimiento probado R-15-CC-N

Observaciones Adicionales ESTA IMPLENTADO PERO NO SE

MUESTRA EN PANTALLA

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Page 117: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página133

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema realiza scrapping

de contenido

Requerimiento probado R-25-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema selecciona frases

de una página web y las coloca en resumen fi-

nal

Requerimiento probado R-26-CC-N

Page 118: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Observaciones Adicionales Se debe mejorar el sistema de selección ya

que algunas veces no se escogen las más

importantes

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema estuviera disponi-

ble en internet

Requerimiento probado R-27-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Page 119: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página135

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite registrar

un correo

Requerimiento probado R-28-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Page 120: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite acceder a

un usuario después de la verificación con resul-

tado exitoso.

Requerimiento probado R-29-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Page 121: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página137

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema no deja registrar

usuarios que ya estén en la base de datos

Requerimiento probado R-30-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema resume una página

web en menos de 5 segundos

Requerimiento probado R-31-CC-N

Observaciones Adicionales Esto depende de la conexión a internet

Page 122: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema selecciona los

fragmentos más importantes de una pagina web

Requerimiento probado R-32-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Page 123: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página139

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite ingresar 3

palabras clave

Requerimiento probado R-33-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Page 124: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema muestra una lista

de temáticas

Requerimiento probado R-34-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite a seleccio-

nar entre un resumen extractivo , abstractivo y

desde internet

Requerimiento probado R-35-CC-N

Page 125: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página141

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema se puede visualizar

desde la página principal www.unresumen.com

Requerimiento probado R-36-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Page 126: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema resuelve una cam-

paña en la fecha seleccionada

Requerimiento probado R-37-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Page 127: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página143

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema asegura un grado

mínimo de coherencia entre las palabras

Requerimiento probado R-38-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema deja solo realizar

un resumen a visitantes

Requerimiento probado R-39-CC-N

Page 128: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite al usuario

actualizar una cuenta

Requerimiento probado R-42-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Page 129: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página145

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite al usuario

pagar con una cuenta paypal

Requerimiento probado R-43-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Page 130: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el permite disparar una bala

a en línea recta a velocidad constate.

Requerimiento probado R-44-CC-N

Observaciones Adicionales

¿Revisado? (Razón) Si.

Nombre del Reporte : Pruebas Prototipo SquidSearch1.2

Dirigido a Néstor Santos

Realizado Por Néstor

Versión de Actualización: v.1.0

Tipo de Reporte Interno

Notas o Instrucciones Adicionales

1. Se comprobó que el sistema permite elegir en-

tre 3 planes de suscripción

Requerimiento probado R-45-CC-N

Page 131: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página147

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Observaciones Adicionales

¿Revisado? (Razón) Si.

ANEXO 4

ENCUESTAS

Proceso de la metodología de aplicación de las encuestas

Metodología de mercado [Oorlog]

Encuesta

Encuesta tipo punto de venta: Se ha escogido este tipo de encuesta ya que nos interesa saber

que piensa el cliente sobre los productos que acaba de probar, adaptándolos posteriormente a

sus necesidades y facilitándole de esta manera el proceso de compra.

PMV •Se desarrollo un prototipo minimo viable de acuerdo a las caracteristicas del mercado y se añadio un valor agregado.

Videos •Se crearon los videos promocionales de los productos.

Rich Media

•Se realizo Video marketing con adwords para video y infolinks.

Encuestas •Se realizaron encuestas a los usuarios que querian seguir usando los servicios gratuitamente.

Page 132: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ya que los usuarios vuelven a utilizar los servicios, se realizan sondeos regulares para evaluar

las características de los productos que siendo iguales, están sujetos a los cambios en las necesi-

dades de los clientes.

Enlace:

https://docs.google.com/forms/d/161MHOznzUsukbxfSYM8XAQC2i8b4rBa98UxCKjnlw2Q

1.1.1. Encuesta de satisfacción y precios en Google Docs

Ilustración 34 Encuesta Google Docs [Oorlog

Page 133: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página149

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Proceso de aplicación de la encuesta

Investigación de mercado con Adwords para video

Se creó una campaña en Adwords para video con un presupuesto de 310 dólares, las características de la

campaña son las siguientes:

1.Publicidad Adwords Video

2.Visitantes prueban los

servicios

3.Si quieren volver a utilizar

los servicios llenan la encuesta

3.La encuesta va a un Google

Docs

4.Se genera Feedback

Page 134: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Público objetivo: Personas que estuvieran viendo videos de resúmenes, contenido automático y web

3.0.

Lenguaje:Español

Edades: Mayores de 18 años

Tipo de campaña:Redes de Búsqueda y Display

En la ilustración 32 se puede apreciar el desarrollo de la campaña de publicidad, con el video de la em-

presa, se puede observar también que el video se insertó en 12.861 reproducciones de video y se visuali-

zó un total de 1.353 veces al 100%, esto significa que el video se reprodujo completamente.

Desarrollo de la campaña [Oorlog]

Page 135: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página151

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Costo parcial de la campaña en días y porcentaje de visualización diaria [Oorlog]

En la ilustración 33 se puede analizar que la campaña tuvo un costo total de 310 dólares con un valor

diario de 50.000 pesos, se logró un rendimiento CPV18

promedio de 133 pesos colombianos.

Costo total en días de la campaña [Oorlog]

Como se aprecia en la ilustración 34, se realizaron 2630 clicks en su totalidad, eso significa que 2630

personas únicas fueron directamente a la página, el 43% lo hizo cuando el video estaba en el 25% de

reproducción, el 5% lo hizo cuando el video estaba en el 50% de reproducción, el 32% cuando estaba en

18

CPV es el costo por visita que Google cobra al anunciante.

Page 136: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

el 75% de reproducción y finalmente solo el 20% fue a la página cuando el video se reprodujo totalmen-

te.

Resultados obtenidos

De las 2630 personas 737 llenaron la encuesta con los siguientes resultados:

Page 137: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página153

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Page 138: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Conclusiones del estudio realizado

Vemos que para el servicio de SquidSearch hay una gran aceptación en el mercado ya que un 93% afir-

mo la utilidad del servicio, como también para Radex 88% y AutoCM con un 93%.

El 44% de los encuestados utilizaría el servicio 1 vez a la semana, 41% lo utilizaría frecuentemente, el

8% lo utilizaría una vez al día y solo el 7 % no lo utilizaría.

Para los 3 servicios, hay aceptación por parte del mercado para comprar los productos por el precio

fijado.

Page 139: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página155

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

ANEXO 5

Estimación de los riesgos

I.2 Estimación de los riesgos del Proyecto (Análisis de riesgos)

Probabilidad del Riesgo:

Valor Descripción Probabilidad de Ocurrencia

0.1 Muy Bajo No hay datos históricos que indiquen su

aparición

0.3 Bajo Poco probable

0.5 Medio Probable

0.8 Alto Ha ocurrido y puede volver a ocurrir

1.0 Muy Alto Esta registrado que ocurre

Tabla 20 probabilidad de ocurrencia de riegos

En la tabla anterior, se muestra cómo se van a clasificar los riesgos de acuerdo a su probabi-

lidad. La asignación se realiza de manera cualitativa.

Impacto del Riesgo:

En la siguiente tabla, se muestran cuáles son los objetivos que son primordiales para el pro-

yecto. Esto determina el impacto del proyecto y permite dar prioridad a las actividades que

tienen relacionados estos riesgos.

Page 140: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Objetivos MuyBajo(0.1) Bajo(0.3) Medio(0.5) Alto(0.8) Muy Alto(1.0)

Alcance El alcance es

mayor que el

proyectado

Se realizan

pequeños

cambios al

alcance del

proyecto.

Los cambios

que se reali-

zan al pro-

yecto son

significativos

Se modifica el

alcance debido

a que se de-

termina que no

se podrán al-

canzar los ob-

jetivos

El alcance no es

suficiente el pro-

yecto no alcanza

para trabajo de

grado

Calendario Cambios in-

significantes

dentro del

calendario

Hay que re-

planear po-

cas activida-

des en el

calendario

La planifica-

ción se ve

modificada

en un 5%.

Se realizan

cambios drás-

ticos al crono-

grama en un

40%.

Los cambios en

el cronograma

representan el

70% del proyec-

to.

Cliente Ya hay clien-

tes esperando

el producto

Se debe lan-

zar campa-

ñas para

conseguir

clientes

Las accio-

nes que se

realizan

para conse-

guir clientes

obtienen

poca canti-

dad de

clientes

Los clientes no

están interesa-

dos en el pro-

ducto

El producto es

un fracaso y no

hay un mercado

para este pro-

ducto

Calidad La calidad no

se ve afectada

en los proce-

sos de desa-

El prototipo

es desarro-

llado con

metodologías

Se necesita

evitar pro-

cesos que

vuelven al

Reducción de

calidad inacep-

table para el

cliente

El proyecto es

inservible.

Page 141: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página157

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

rrollo del pro-

totipo

agiles y esto

impide pro-

cesos de

calidad mí-

nimos.

prototipo

más lento

Tabla 21 Impacto de los riesgos de acuerdo a los objetivos

Se obtuvo una puntuación de 0.6, esta puntación al estar por debajo de 1.0 muestra que el

proyecto se desarrolló bajo el control de las variables que podían ocasionar un riesgo para el

proyecto, este control es resultado de las constantes reuniones con el director y de la respon-

sabilidad de él y del estudiante.

Probabilidad

Impacto

Muy Bajo Bajo Medio Alto Muy Alto

Muy Bajo Tolerable Tolerable Tolerable Tolerancia

Media

Tolerancia

Media

Bajo Tolerable Tolerable Tolerancia

Media

Tolerancia

Media

Tolerancia

Media

Medio Tolerable Tolerancia

Media

Tolerancia

Media

Tolerancia

Media Intolerable

Alto Tolerancia Tolerancia Tolerancia Intolerable Intolerable

Page 142: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Media Media Media

Muy Alto Tolerancia

Media

Tolerancia

Media Intolerable Intolerable Intolerable

Tabla22ProbabilidadVsImpacto

Riesgo Probabilidad Impacto Tolerancia Prevención Contingencia

El sistema no rea-

liza trabajo ade-

cuadamente

Medio Medio Tolerancia

Media

Se deben realizar

pruebas continuas

para asegurar el

funcionamiento del

sistema.

Realizar las

pruebas con los

EarlyAdapters

El servidor donde

está alojado el

servicio se cae

Muy Alto Muy Alto Tolerancia

Media

Comprar un servicio

que garantice su

estabilidad 24/7

Montar un ba-

ckup en otros

servidores

El servicio no es

bien visto por los

posibles clientes

Medio Alto Tolerancia

Media

Realizar el estudio

de mercado y la se-

lección del mercado

objetivo de manera

minuciosa.

Re-lanzar el pro-

totipo con las

críticas hechas

por los clientes

Mala planeación

en cronograma Medio Muy Alto Intolerable

Añadidura horas

extra de trabajo se-

manal en el crono-

Realización de

un nuevo crono-

grama después

Page 143: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página159

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

grama. del primer mes

de trabajo con el

cronograma an-

terior.

Tiempo de reunión

semanal con di-

rector no suficien-

te

Medio Medio Tolerancia

Media

Planeación adecua-

da de lo que se va

hablar con el director

de la carrera

Acordar con el

director reunio-

nes adicionales

semanal.

Baja disponibili-

dad por parte del

director

Muy Bajo Muy Alto Tolerable

Asegurar los hora-

rios de disponibilidad

del director

Asegurar el inte-

rés del proyecto

por parte del

director

El servicio no es

bien visto por los

posibles clientes

Muy Alto Muy Alto Intolerable

Realizar el prototipo

de acuerdo a las

críticas hechas por

los clientes

Re-lanzar el pro-

ducto lo antes

posible para

recibir la retro-

alimentación del

cliente.

El sistema es len-

to para resolver

los pedidos

Bajo Muy Alto Intolerable

Implementar hilos a

los procesos pesa-

dos del prototipo

Utilizar varias

instancias del

prototipo que

realicen tareas

diferentes

El plan de nego-

cios no está bien Bajo Muy Alto Tolerable

Realizar un análisis

de mercado ade-

cuado y encontrar el

Re-plantear el

mercado objetivo

centrándose en

Page 144: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

fundamentado mercado objetivo un grupo de

clientes

La empresa que

se desea montar

tiene mucha com-

petencia en Co-

lombia

Muy Alto Muy Alto Intolerable

Hacer un análisis del

sector para encon-

trar de manera con-

tundente todas las

empresas que están

dentro del sector

Cambiar de mer-

cado para enfo-

carse en otro

sector de clien-

tes

Pérdida o robo de

equipo propio Medio Muy Alto Intolerable

Realizar backups

preventivos para

asegurar que el sis-

tema no se perderá.

Utilizar los ba-

ckups que se

han realizado al

equipo

Tabla 23 Riesgos asociados al proyecto

Conclusiones

El proyecto se desarrollo según lo previsto en el cronograma y con los entregables, el día 17de mayo

realizaron un ataque a la plataforma de Oorlog ,el ataque realizado fue un defacement al index de la

plataforma , esto se debió a que en la sección de “se viene” donde se mostraba el producto que se espe-

raba desarrollar , había un archivo php que no estaba securizado y permitía la realización de un ataque

llamado LFI con una shell remota escondida dentro de una imagen . Los autores que realizaron el ata-

que, son conocidos por el autor de este trabajo de grado y se tomaran las debidas medidas de control,

mitigación y respuesta.

Page 145: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página161

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 35 Deface www.unresumen.com

Se realizo el proceso de securización de la plataforma , se identificaron otras posibles vulnerabilidades y

se fortaleció el modulo de seguridad.

ANEXO 6

Manual de uso

Page 146: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

1 Introducción

Este documento pretende definir los requerimientos mínimos para poder ejecutar los prototipos desarro-

llados de una forma óptima.

2 Requisitos

1. 2.1 Java

Descarga e instalar la última versión del java SE JDK disponible. Esto puede realizarse desde:

http://www.oracle.com/technetwork/java/javase/downloads/index.html

2. 2.2 Navegadores web que soportan AutoCM y SquidSearch

Navegador Motor CSS 1 CSS 2.1 CSS 3

Google Chrome

WebKit Completo desde la versión 85 del motor

Completo Todos los selectores, pseudo-clases y muchas propiedades

Internet Ex-plorer

Trident Completo desde la versión 7.0 del navegador

Completo

Todos los selectores, pseudo-clases y muchas propiedades a partir de la versión 10.0 del navegador

Firefox Gecko Completo desde la versión 1.0 del navegador

Completo Todos los selectores, pseudo-clases y muchas propiedades

Page 147: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página163

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Navegador Motor CSS 1 CSS 2.1 CSS 3

Safari WebKit Completo desde la versión 85 del motor

Completo Todos los selectores, pseudo-clases y muchas propiedades

Opera Presto Completo desde la versión 1.0 del navegador

Completo Todos los selectores, pseudo-clases y muchas propiedades

Tabla 24 Sacado de [1]

Page 148: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

3 Funcionamiento SquidSearch

Ilustración 36 Panel de servicios de SquidSearch

Entrando a la url http://unresumen.com/squid-search/ se puede ver el panel de SquidSearch gratuito, acá

hay 4 aplicaciones, el generador automático de resúmenes de búsquedas, el generador automático de

resúmenes de resultados de búsquedas, el generador automático de resúmenes de textos y el generador

automático de resúmenes abstractivos.

Page 149: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página165

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 37 Elegir el servicio de generar resúmenes de resultados de búsquedas

En el generador de resúmenes de búsquedas se escribe las palabras o la frase que se desea buscar y el

sistema generara un resumen de aproximadamente 10 páginas web.

Ilustración 38 Generador automático de resúmenes de resultados de búsquedas

Page 150: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 39 Se realiza una búsqueda

Ilustración 40 Resultado de búsqueda

En el caso en que la persona desee tener otra versión distinta de resúmenes puede hacer click en el nú-

mero 2, en total se pueden tener 8 versiones de resúmenes sobre una palabra o frase que se está buscan-

do.

Ilustración 41 Mas resultados de busqueda

Page 151: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página167

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 42 Selección del servicio de resúmenes de páginas web

El generador automático de resúmenes de búsquedas permite escoger sobre una lista de páginas que se

han obtenido en base al resultado de una frase o una palabra

Ilustración 43 Resumidor de páginas web

Page 152: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 44 Ingreso de frase que se desea buscar

Ilustración 45 Resultados de búsqueda

En la ilustración 11 se escogió la página www.ojocientifico .com para resumirla.

Ilustración 46 Se escoge la página de ojocientifico que se desea resumir

Page 153: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página169

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 47 Pagina resumida

Se puede ver en la ilustración 12 el resumen generador por SquidSearch y en la imagen 13 la página

original.

Page 154: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 48 Pagina original

Page 155: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página171

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 49 Se selecciona el servicio de generación de resúmenes de textos

En la ilustración 14 se puede ver el generador de resúmenes de textos donde se pega el texto que se

desea resumir, este resumen es extractivo.

Ilustración 50 Interfaz del generador de resúmenes de textos

Page 156: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 51 Se pega el texto que se desea resumir

Ilustración 52 Texto resumido

Page 157: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página173

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 53 Generador de resúmenes abstractos

Ilustración 54 Se pega el texto que se desea generar el resumen abstractivo

Page 158: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

En la ilustración 18 se puede ver el servicio de SquidSearch de resúmenes abstractivos donde se pega el

texto y se genera un resumen con un nuevo texto.

Ilustración 55 el resumen abstractivo generado

ANEXO 7

Glosario

3. DEFINICIONES Y ACRÓNIMOS

Definiciones:

Palabra Definición

Arquitectura client-stateless-server Cada petición del cliente contiene toda la

información necesaria para que el servidor

pueda procesar la solicitud .[]

Ciclo de Vida de Software Esto es la secuencia de actividades crea-

das para el desarrollo de un producto de

software.[]

Contingencia Es la posibilidad de que algo suceda o

Page 159: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página175

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

no.[]

Enrutador Su función es la de permitir el tráfico en-

tre dos redes o componentes de red .[]

Facilitador Es una persona que se desempeña como

orientador en una actividad.[]

Hincapié Insistir en mantener una afirmación sobre

algo.[]

Línea base Elemento de configuración que se ha revi-

sado formalmente y que se ha llegado a un

acuerdo. Sirve como base para desarrollos

posteriores y puede cambiarse solo a tra-

vés de los procedimientos de control de

cambios[]

Usuario Es la función que desempeña una persona

dentro de un grupo de trabajo.

Software “Conjunto de programas, instrucciones y

reglas informáticas para ejecutar ciertas

tareas en una computadora.”. []

Validación ¿Estamos construyendo el producto ade-

cuado?

Page 160: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Verificación ¿Estamos desarrollando de la forma espe-

cificada? ¿Estamos desarrollando de la

forma especificada?

Acrónimos:

Acrónimo Significado Descripción

ASD Agile Software Develop-

ment

Es una familia de métodos

ligeros muy recientes, entre

estos se puede encontrar

programación extrema,

scrum, método dinámico

de desarrollo de sistemas,

entre otros.[]

GUI Grafical User Interface Es el componente de un

sistema que mantiene el

entorno grafico.

IEEE Institute of Electrical and

Electronics Engineers

“Es la asociación más

grande del mundo profe-

sional dedicada al avance

de la innovación tecnológi-

ca y excelencia en benefi-

Page 161: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página177

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

cio de la humanidad.”[]

ISO International Organization

for Standardization

Es el mayor desarrollador a

nivel mundial de estánda-

res internacionales.[]

LAN Local Area Network Una red conformada por

computadores y periféri-

cos.

RAE Real Academia Española Institución española espe-

cializada en lexicográfica,

gramática, ortografía y

bases de datos lingüísti-

cas.[]

SDD Software Design Descrip-

tion

Es una representación de

un sistema de software que

se utiliza como un medio

para comunicar la informa-

ción de diseño de software

[].

SO Sistema Operativo Es un conjunto de progra-

mas que manejan la gestión

de los procesos básicos, y

permite la normal ejecu-

ción del resto de las opera-

Page 162: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

ciones.[]

SRS Software Requirements

Specification

Es una completa descrip-

ción del comportamiento

de un sistema, puede in-

cluir un conjunto de casos

de uso que describen las

interacciones de los usua-

rios tendrán con el software

y todos los requisitos nece-

sarios para el desarrollo del

proyecto. []

UML Unified Modeling Langua-

ge

Es un lenguaje gráfico para

visualizar, especificar,

construir y documentar los

artefactos de software. []

ANEXO 8

PostMorten

Objetivo

El objetivo de este documento es realizar una comparación de lo planteado en la propuesta de seminario

versus lo ejecutado en el trabajo de grado.

Page 163: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página179

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Fases metodológicas propuestas vs Fases metodológicas realizadas

Fase Descripción Planteado Ejecutado

Investiga-

ción Cualita-

tiva

Justificar la

oportunidad

de negocio

que brinda la

tecnología que

soportara la

prestación de

servicios

Es necesario determinar

el potencial del mercado

objetivo para asegurar

que la empresa tenga

éxito y permita tener un

retorno de inversión

significativo.

En esta primera fase se realizó

una búsqueda formal de bi-

bliografía que fuera la base só-

lida sobre el tema que se abor-

daba, además de obtener in-

formación necesaria del mer-

cado y de los conceptos y teo-

rías necesarias para entender la

evolución y desarrollo técnico

que se ha venido presentando

sobre la generación automática

de resúmenes. Luego de reali-

zar el levantamiento de la in-

formación se creó un blog

http://plnpuj.blogspot.com/

donde se iban publicando las

anotaciones y fragmentos de

papers relevantes para el pro-

yecto.

Investiga-

ción explora-

toria.

Formular los

supuestos

críticos de la

empresa.

En esta fase se realiza los

supuestos críticos[9] y el

análisis de riesgos de la

empresa con el fin de

plantear un escenario

Por medio de un análisis de

riesgos se construyó un esce-

nario que permitiera establecer

el grado de riesgo asociado al

proyecto para prever si era po-

Page 164: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

donde el producto tendrá

éxito

sible cumplir con todos los ob-

jetivos propuestos.

Investiga-

ción explica-

tiva.

Desarrollar un

Producto Mí-

nimo Viable

(PMV)

[10]para reali-

zar Realise

Early Realise

Often[11].

Muchas empresas fallan

porque crean un produc-

to que nadie quiere o que

nadie puede comprar.

Con el planteamiento de

la hipótesis de este do-

cumento, se pretende

crear un producto con

características mínimas

usando Rapid application

development[14], identi-

ficando las funcionalida-

des básicas y entregando

el producto por medio

de Realise Early Realise

Often[11] a los Early

Adopters[8] con el fin de

corroborar nuestra hipó-

tesis [15] y asegurar en

el escenario planteado el

éxito de nuestra empresa.

Se crearon productos con ca-

racterísticas mínimas usando

Rapid application development

[14], identificando las funcio-

nalidades básicas y entregando

los productos por medio de

Realise Early Realise Often

[11] a los Early Adopters [2]

con el fin de corroborar la hi-

pótesis y asegurar en el esce-

nario planteado el éxito de

nuestra empresa.

Investiga-

ción Cuanti-

Medir los

resultados y

verificar los

En esta fase se lanza un

prototipo (que será el

resultado de la prueba de

En esta fase se lanzaron los

prototipos (que serían el resul-

tado de la prueba de la hipóte-

Page 165: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página181

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

tativa

supuestos.

la hipótesis) a un grupo

de clientes reales (Early

Adapters[8]). Esto es

necesario debido a que

se deben escuchar las

criticas de los clientes

que realmente quieran

adquirir el producto.

Luego de esto, se reali-

zan pruebas y se miden

los resultados, validando

así los supuestos. Luego

el prototipo es lanzado

nuevamente de acuerdo a

las críticas que se reco-

gen de los clientes. Esto

permite obtener un pro-

ducto con un enfoque de

mercado seguro ya que

comprueba la hipótesis

de que el producto se

acomoda a las especifi-

caciones de los clientes y

no tenga riesgo de no ser

aceptado.

sis) a un grupo de clientes

reales (Early Adopters).Estas

personas realizaban comenta-

rios y estos eran tenidos en

cuenta para el Feedback. Lue-

go de esto, se realizan pruebas

y se miden los resultados, vali-

dando así los supuestos. Luego

los prototipos eran lanzados

nuevamente de acuerdo a las

críticas que se recogen de los

clientes. Esto permitió obtener

un producto con un enfoque de

mercado seguro ya que com-

prueba la hipótesis de que el

producto se acomoda a las es-

pecificaciones de los clientes y

no tenga riesgo de no ser acep-

tado.

Page 166: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Tiempo estimado vs tiempo utilizado

El tiempo propuesto versus el tiempo ejecutado se muestra a continuación.

Fase 1 Tiempo Ejecutado Duración

real

Realizar un análisis PESTEL (Político, Económico,

Social y Tecnológico) para la nueva empresa.

6 horas SI 10 horas

3. Realizar una investigación y análisis del merca-

do objetivo.

5 horas SI 5 horas

4. Realizar una investigación y análisis de la com-

petencia.

5 horas SI 5 horas

Realizar una segmentación de los clientes. 5 horas SI 5 horas

Realizar una estrategia de mercado. 4horas SI 5 horas

Elaborar un documento que recopile toda la infor-

mación relacionada con las actividades anteriores

5 horas SI 10 horas

Fase2

Realizar un análisis de riesgos de la empresa. 10 horas SI 10 horas

Realizar un análisis DOFA para la empresa 10 horas SI 10 horas

Definir la estrategia de desarrollo del prototipo 10 horas SI 10 horas

Page 167: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página183

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

usando Rapid application development

Definir la estrategia de distribución del producto. 5 horas SI 5 horas

Definir la estrategia de promoción en el mercado.

5 días SI 5 días

Definir la estrategia de comunicación con los

EarlyAdopters

10 horas SI 10 horas

Consolidar en un documento las actividades descri-

tas en esta sección de la empresa.

5 horas SI 5 horas

Fase3 SI

Determinar la estrategia de mercado 5 horas SI 6 horas

Calcular los costos y monto de inversión para la

empresa.

5 horas SI 5 horas

Realizar un análisis de riesgos al sector. 5 horas SI 8 horas

Definir los planes administrativos de la empresa. 5 horas SI 5 horas

Elaborar un resumen ejecutivo del plan de negocio. 10 horas SI 15 horas

Definir el plan de implementación. 10 horas SI 12 horas

Realizar un documento que consolide los planes y

actividades descritos en esta fase.

5 horas SI 6 horas

Page 168: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Fase4

Determinar la hipótesis de sistema de negocio. 5 horas SI 5 horas

Definir los indicadores para extraer la informa-

ción que ayude a comprobar la hipótesis (medir-

la).

5 horas SI 5 horas

Desarrollar un prototipo con Rapid application de-

velopment

3 días SI 9 días

Elaborar un documento con las características gene-

rales del prototipo.

6 horas SI 7 horas

Lanzar el prototipo funcional de manera online y

atraer clientes reales (Early Adopters ) con pruebas

gratuitas.

6 días SI 6 días

Fase 5

Analizar los indicadores del prototipo y relanzarlo

con las mejoras según las críticas hechas por los

Early Adapters

30dias SI 30dias

Documentar el proceso de Realise Early Realise

Often[11].

5 horas SI 6 horas

Page 169: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página185

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Elaborar un documento SRS del prototipo 5 horas SI 7 horas

Elaborar un documento SAD del prototipo 8horas SI 3 horas

Documentar los resultados y el procedimiento reali-

zado formalmente

5 horas SI 4 horas

Tabla 1 Comparación tiempo estimado vs tiempo utilizado

Como se muestra en la tabla 1, la diferencia de tiempo es de 6 días con 14 horas de trabajo extra , esto

se debe a que primero se disminuyó el plazo de entrega del proyecto 1 semana y segundo se establecie-

ron erróneamente el tiempo de desarrollo en 3 días solamente , se destinaron en total 9 días para el desa-

rrollo total de los productos.

ANEXO 9

Resultados y Pruebas

Objetivo

El objetivo de este documento es mostrar los resultados y el proceso técnico de la generación automática

de resúmenes combinada con técnicas de posicionamiento web para lograr generar resúmenes en tiempo

real sobre cualquier temática en fotos, videos y textos.

Resultados de la evaluación del generador automático de resúmenes

Para la evaluación de los resúmenes se empleó el paquete de evaluación de resúmenes de ROUGE.

Configuración de la evaluación del generador de resúmenes

Page 170: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Para evaluar un resumen automático se necesita tanto el resumen generado por el sistema y el resumen

escrito manualmente, es vital que para tener resultados satisfactorios los dos resúmenes cuenten con la

misma cantidad de frases.

Proceso: Métricas ROUGE

ROUGE significa Recall-Oriented Understudy for Gisting Evaluation ha sido desarrollado por el Infor-

mation Science Institute de la universidad del sur de california.

Definición: Es una técnica que realiza una comparación de un resumen generado por un sistema con

otros resúmenes, los resúmenes generados por humanos son llamados resúmenes de modelos humanos o

modelos generados por humanos. Las métricas de rouge son las siguientes:

ROUGE-N

ROUGE-L

ROUGE-W

ROUGE-SN

ROUGE-N: Contabiliza el número de secuencias de palabras, estas secuencias son llamadas Ngramas

que coinciden entre un resumen generado por el sistema y los modelos humanos.

ROUGE-L: Utiliza la longitud de las secuencias de caracteres más largas que coinciden en el resumen

generado por el sistema y los modelos humanos.

ROUGE-W: Esta métrica mide tanto la longitud de la secuencia de caracteres como la ausencia de dife-

renciación de los caracteres.

ROUGE-SN: Tiene en cuenta las secuencias que pueden aparecer en el texto generado por el compu-

tador y que presentan un máximo número de términos en ellos, estas secuencias son llamadas bi-gramas.

Resultados de la evaluación del generador de resúmenes Automáticos

A continuación se muestran 50 keywords, estas keywords representan 25 dominios en específico, 2

keywords por dominio en específico.

Page 171: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página187

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Numero Temática Google Desktop FileSeek

1 groovybooking

2 Bijection

3 Orchestration

4 Eloisa

5 Groovy

6 Classes

7 Seam

8 return

X

9 Context search priority

10 portal environment

11 LSA

12 Chumky

13 POS tagging

14 corpus

15 Web semantic

X

16 Reentrenamiento

X

17 Supervisado

X

18 No supervisado

X

19 Metodos basados en conocimiento

20 Metodos basados en corpus

21 Summarizer

Page 172: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

22 abstract

23 Ajax

24 perl

25 Summary

26 Summary lenght

27 Mono document

28 Multidocument

29 Maxima entropia

30 Regresion logistica

31 redundancia

32 deteccion de redundancia

33 Edmonds, 2000; Mihalcea, 2003

34 el CNA

35 Ng y Lee, 1996

36 EJB 3.0

X

37 Esquema de Reentrenamiento

38 LB-SDM

39 el umbral

40 Finalmente X X

41 senseval-2 X X

42 nuevos experimentos X X

43 NAACL

Page 173: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página189

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

44 Hinrich

45 garantias

46 Stateful session beans X

47 JSF action listener

48 Drogas y alcohol en niños

49 Virus pc

50 Mihalcea

A continuación se presenta la escala de comparación de 5 resúmenes generados por cada dominio en

específico para las 51 keywords.

1 No es coherente

2 los conectores gramaticales están mal puestos

3 Hay coherencia pero no hay cohesión

4 es coherente pero repite la idea principal del texto

5 es coherente y es igual al humano

Página de resulta-

dos

Resumen 1

extractivo

Resumen 2

extractivo

Resumen 3

extractivo

Resumen 4

abstractivo

Resumen 5

abstractivo

Porcentaje de nu-

mero de oraciones

1 1 2 1 3

Comparación de

titulo

4 4 1 2 2

Page 174: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Comparación de la

primera y última

frase

2 2 2 4 2

Comparación de la

frase centroide

1 1 2 3 4

Comparación de

revisión humana

1 3 2 1 3

Tabla 25 Resultados de los resumenes

El siguiente paso es aplicar la métrica de Rouge con recall :

Resumen

1 Extrac-

tivo

Resumen

2 Extrac-

tivo

Resumen

3

Extractivo

Resumen 4

Abstractivo

Resumen 5

Abstractivo

Rouge-N 1,8 2,2 1,8 2,2 2,8

Rouge-L 0,36 0,44 0,36 0,44 0,56

Rouge-W 0,072 0,088 0,072 0,088 0,112

Rouge-SL 0,0144 0,0176 0,0144 0,0176 0,0224

Tabla 26 Aplicación de la métrica de rouge a los resultados de los resúmenes .

En los resúmenes 2, 4 y 5 se obtienen los valores más elevados para las diferentes métricas ROUGE,

estos resúmenes tienen en común que el valor del parámetro de la frase centroide y la comparación

humana de posición respecto al contenido original es menor que el valor de la comparación con todos

Page 175: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página191

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

los contenidos originales o en el caso del resumen 4 no se tiene en cuenta la posición. Esto ocurre debi-

do a que no es tan importante la posición de la palabra o frase que ocupa en el resumen generado por el

computador, sino que lo realmente importante es que la frase centroide se encuentre en un gran porcen-

taje en cuanto a caracteres o sinónimos iguales en el resumen generado por el computador o sea, lo más

semejante con el texto original y con los resúmenes generados por el humano siempre será la frase cen-

troide que permite ubicar la idea principal del texto que la contiene. Por ejemplo, si por algún motivo en

algún resumen su contenido no se relaciona con el tema de los demás resúmenes, se da más valor a las

variables de la frase centroide y de la comparación del título, asegurando que en el resumen automático

sólo aparezcan oraciones relacionadas entre sí y que sean las más relevantes del texto original.

La coherencia de un resumen generado automáticamente está directamente ligada con el tamaño del

corpus y la capacidad de procesamiento del hardware. Para este proyecto también influye en el grado de

coherencia del resumen el SERP del motor de búsqueda de Google.

Para describir el procedimiento técnico se usa la letra Times New Rom 11

Proceso técnico inicial

El proceso inicia con la obtención de una frase o palabra sobre la que se desea generar el resumen, este

resumen puede ser texto, foto o un video.

Para buscar el texto más relevante sobre una frase o palabra se realizan los siguientes pasos:

1. Se utiliza la librería de google para obtener los resultados de búsqueda, exactamente se obtiene

un arreglo de 100 páginas web, la cantidad de páginas web está directamente relacionada con la

relevancia de búsqueda, estas páginas web están ordenadas de acuerdo al serp19

.Aquí es impor-

tante aclarar que no es lo mismo buscar una frase o palabra que tiene 50.000

19

SERP: Search engine results page , es la pagina de resultados que ofrece el buscador , el orden de las paginas esta relacionado

con el algoritmo de PageRank desarrollado por Google para estimar que contenido es el mas relevante de acuerdo a una bus-

queda.

Page 176: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Ilustración 56 Búsquedas globales mensuales para análisis semántico latente

Ilustración 57 Resultados de google para la frase análisis semántico latente

Como se puede ver en la ilustración 1 y 2, la cantidad de búsquedas globales para la frase análisis se-

mántico latente no es relevante, lo que se ve representado en la baja calidad de resultados.

Ilustración 58 resultados globales mensuales para comida para bebes

Page 177: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página193

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 59 Interés de búsqueda de comida para bebes

Como se puede apreciar en las ilustraciones 3 y 4 se puede ver que hay una mayor relevancia para esta

temática, viendo como respuesta que los resultados de búsqueda sean más coherentes con la temática

que se está buscando.

Las librerías de google utilizadas se pueden ver en la ilustración 5

Page 178: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …
Page 179: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página195

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ilustración 60 Librerias de Google utilizadas

Con estas librerías se puede obtener un arreglo de mínimo: 100 páginas web, 100 imágenes y 100 vi-

deos.

2. Para obtener las frases y palabras que el cliente está buscando se realiza con el siguiente algo-

ritmo :

public static int consultar_keywords(String c ,String b, int id)

{

String rr="";

Map <String,String> datosEnv=new HashMap<String,String>();

System.out.println("Obtendiendo keywords en tiempo real "+id);

datosEnv.put("respuesta",""+id);

Gson gson = new Gson();

String jsonOutput = gson.toJson(datosEnv);

try{

//Usamos URLencode para poder enviar la cadena

jsonOutput = URLEncoder.encode("key", "UTF-8") + "=" + URLEnco-

der.encode(jsonOutput, "UTF-8");

//Establecemos la conexion y enviamos los datos

URL url=new URL("http://unresumen.com/portal/consultar_etiquetas.php");

URLConnection con = (URLConnection) url.openConnection();

con.setDoOutput(true);

OutputStreamWriter wr = new OutputStreamWriter(con.getOutputStream());

wr.write(jsonOutput);

wr.flush();

//Recibimos los datos

BufferedReader recv = new BufferedReader(new In-

putStreamReader(con.getInputStream()));

//Los mostramos por pantalla

Page 180: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

String s=recv.readLine();

while(s!=null){

return Integer.parseInt(s);

}

3. Para las consultas en google se utiliza la siguiente función :

public Vector Busca_en_el_punto_G(String query) {

try

{

query = URLEncoder.encode(query, "UTF-8");// codificación UTF

URL url = new

URL("http://ajax.googleapis.com/ajax/services/search/web?start=0&hl=es&rsz=large&v=1.0&q="

+ query);// se realiza la consulta desde el servicio AJAX

URLConnection connection = url.openConnection();

connection.addRequestProperty("Referer", HTTP_REFERER);

// Obtener respuesta Json

String line;

StringBuilder builder = new StringBuilder();// se utiliza StringBuilder para soportar videos , fotos y

textos muy grandes.

BufferedReader reader = new BufferedReader(

new InputStreamReader(connection.getInputStream()));

Page 181: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página197

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

while((line = reader.readLine()) != null) {

builder.append(line);

}

String response = builder.toString();

JSONObject json = new JSONObject(response);// se utiliza el objeto JSON para capturar los resul-

tados del motor de busqueda de Google.

JSONArray ja = json.getJSONObject("responseData")

.getJSONArray("results");

JSONObject j = ja.getJSONObject(2);

Vector info = new Vector ();

JSONObject jqa = ja.getJSONObject(0);

//System.out.println(jqa.getString("content"));

for (int i = 0; i < ja.length(); i++) {

JSONObject jq = ja.getJSONObject(i);

String content =jq.getString("url");

if(content.contains("%3F")==true)

{

content= content.replace("%3F", "?");

}

if(content.contains("%3D")==true)

Page 182: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

{

content= content.replace("%3D", "=");

}

// si vienen con tildes en las vocales

if(content.contains("%25C3%25A1")==true)

{

content= content.replace("%25C3%25A1", "a");

}

if(content.contains("%25C3%25B3")==true)

{

content= content.replace("%25C3%25B3", "o");

}

if(content.contains("%25C3%25B1")==true)

{

content= content.replace("%25C3%25B1", "ñ");

}

if(content.contains("%25C3%25E1")==true)

{

content= content.replace("%25C3%25E1", "e");

Page 183: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página199

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

}

if(content.contains("%25C3%25A9")==true)

{

content= content.replace("%25C3%25A9", "e");

}

if(content.contains("%25C3%25AD")==true)

{

content= content.replace("%25C3%25AD", "i");

}

if(content.contains("%25C3%25I1")==true)

{

content= content.replace("%25C3%25I1", "i");

}

if(content.contains("%25C3%25O1")==true)

{

content= content.replace("%25C3%25O1", "o");

}

if(content.contains("%25C3%25U1")==true)

{

Page 184: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

content= content.replace("%25C3%25U1", "u");

}

content = remover_tildes(content);

jq.getString("content").replaceAll("\\<.*?>","").replaceAll("\\&.*?;", "");

if(esta_en_lista_negra(content)==false){

info.add(content+"\n");

}

}

return info ;

}

catch (Exception e) {

String[] args = null;

}

Vector info = new Vector ();

return info;

}

}

Los ifs identificados como if(content.contains("%25C3%25E1")==true) se utilizan para traducir el

resultado de la url de la página web que está en formato html , a un formato legible por UTF-8.

Page 185: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página201

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Con este tipo de resultados de búsqueda se omite el paso de la obtención de la key de uso de app google

engine.

4. Luego de tener los resultados se hace el proceso de obtención de los objetos , para obtener estos

objetos se realiza el proceso de stream a string:

public static String convertStreamToString(InputStream is)

throws IOException {

if (is != null) {

Writer writer = new StringWriter();

char[] buffer = new char[1024];

try

{

Reader reader = new BufferedReader(

new InputStreamReader(is, "UTF-8"));

int n;

while ((n = reader.read(buffer)) != -1)

{

writer.write(buffer, 0, n);

}

}

finally

{

is.close();

}

return writer.toString();

} else {

return "";

}

}

Page 186: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

5. Con el texto html en string se realiza el proceso de filtrado para obtener los tags htmls más im-

portantes de cada página web , para eso se realizó el siguiente algoritmo apoyado sobre la libre-

ría Jsoup:

public static String obtener_texto_de_urls (String texto ) throws IOException

{

try{

Document doc = Jsoup.connect(texto).get();

Elements body = doc.select("body p");

Element bodyStart = body.first();

Element bodyEnd = body.last();

Element p = bodyStart;

p = body.get(divCount);

String concatenar_resultados= p.text()+" ";

concatenar_resultados += body.get((divCount+1)).text();

divCount++;

return remover_tildes(concatenar_resultados);

}

catch(Exception e)

{

return "";

Page 187: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página203

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

}

}

6. Con los objetos convertidos a un formato String empieza el proceso de procesamiento de len-

guaje natural para el formato de textos con las diferentes técnicas que se mostraran a continua-

ción, para videos y fotos se enunciaran los algoritmos más adelante, en las secciones de abajo se

coloca el código de solo algunos algoritmos para evidenciar el proceso de generación de resú-

menes automático.

Distancia de Levenshtein

En base a las 100 páginas web se realizó el proceso de filtración sintáctica por medio del al-

goritmo de la distancia de Levenshtein:

private static int minimum(int a, int b, int c) {

if (a<=b && a<=c)

{

return a;

}

if (b<=a && b<=c)

{

return b;

}

return c;

}

Page 188: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

public static int computeLevenshteinDistance(String str1, String str2) {

return computeLevenshteinDistance(str1.toCharArray(),

str2.toCharArray());

}

private static int computeLevenshteinDistance(char [] str1, char [] str2) {

int [][]distance = new int[str1.length+1][str2.length+1];

for(int i=0;i<=str1.length;i++)

{

distance[i][0]=i;

}

for(int j=0;j<=str2.length;j++)

{

distance[0][j]=j;

}

for(int i=1;i<=str1.length;i++)

{

Page 189: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página205

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

for(int j=1;j<=str2.length;j++)

{

distance[i][j]= minimum(distance[i-1][j]+1,

distance[i][j-1]+1,

distance[i-1][j-1]+

((str1[i-1]==str2[j-1])?0:1));

}

}

return distance[str1.length][str2.length];

}

similitud del coseno modificada TF-IDF

Se utilizó la similitud del coseno modificada TF-IDF para realizar la aproximación semánti-

ca de las 100 páginas web , todo esto se realiza en tiempo real:

public class CalculadorSimilitudPorCoseno {

private Double similarity(,List<Pagina> paginas) {

Double num = Double.valueOf(0);

Double den1 = Double.valueOf(0);

Double den2 = Double.valueOf(0);

Map<Pagina, Double> tf_idfpagina1 = datospaginas.get(pagina1).getTf_idf();

Map<Pagina, Double> tf_idfpagina2 = datospaginas.get(pagina2).getTf_idf();

Page 190: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

for (Pagina term : paginas) {

num = num + (tf_idfpagina1.get(term) * tf_idfpagina2.get(term));

}

for (Pagina term : paginas) {

den1 = den1 + (tf_idfpagina1.get(term) * (tf_idfpagina1.get(term)));

}

den1 = Math.sqrt(den1);

for (Pagina term : paginas) {

den2 = den2 + (tf_idfpagina2.get(term) * (tf_idfpagina2.get(term)));

}

den2 = Math.sqrt(den2);

return (num / (den1 * den2));

}

public void calcular(Session session) {

System.out.println("Se comenzo con el caludo de simitud por coseno entre paginas");

Map<Pagina, Double> idf = new HashMap<Pagina, Double>();

// Acá ya tengo la frecuencia de las páginas de todos los paginas

//ahora calculo idf

Page 191: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página207

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

for (Pagina pagina : paginas) { // calculo de idf de cada pagina

idf.put(pagina, CalculadorIDF.getIDF(pagina, datos));

}

// Ahora calculo el tf_idf

for (pagina pagina : datos.keySet()) { // calculo tf_idf de cada documento

Datospagina datospagina = datos.get(pagina);

Map<Pagina, Double> tf_idf = CalculadorTF_IDF.getTF_IDF(

datospagina.getFrecuenciaTermino(), idf);

datospagina.setTf_idf(tf_idf);

}

// Ahora calculo la similitud por coseno

List<Similitud> similitudes = new ArrayList<Similitud>();

SimilitudDAO similitudDAO = new SimilitudDAO(session);

similitudDAO.deleteAll();

for (pagina pagina1 : paginas) {

for (pagina pagina2 : paginas) {

if ((!similitudYaCalculadaEntre(pagina1,pagina2,similitudDAO)) && (!pagi-

na1.equals(pagina2))){

Double valorSimilitud = similarity(pagina1, pagina2, datos, paginas);

Similitud similitud = new Similitud(pagina1, pagina2, valorSimilitud);

Page 192: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

similitudDAO.save(similitud);

similitudes.add(new Similitud(pagina1, pagina2, valorSimilitud));

}

}

}

System.out.println("Se finalizó con el caludo de simitud por dos páginas ");

printDocumentDatainfo(datos);

printIDF(idf);

printSimilarityMatrix(similitudes);

}

private static void printDocumentDatainfo(

Map<pagina, Datospagina> datospaginas) {

for (pagina pagina : datospaginas.keySet()) {

Datospagina datospagina = datospaginas.get(pagina);

System.out.println("pagina: " + pagina.getNick());

for (Pagina term : datospagina.getFrecuenciaTermino().keySet()) {

System.out.print(term + " = " + datospagina.getFrecuenciaTermino().get(term) +

" ");

}

Page 193: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página209

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

System.out.println();

System.out.println("TF_IDF Info:");

for (Pagina term : datospagina.getTf_idf().keySet()) {

System.out.print(term + " = " + datospagina.getTf_idf().get(term) + " ");

}

}

}

private static void printIDF(Map<Pagina, Double> idf) {

System.out.println("IDF Info:");

for (Pagina term : idf.keySet()) {

System.out.print(term + " = " + idf.get(term) + " ");

}

}

private static void printSimilarityMatrix(List<Similitud> simulitudes) {

for (Similitud similitud : simulitudes) {

final Double valor = similitud.getValor();

System.out.println("(" + similitud.getpagina1().getNick() + "," + simili-

tud.getpagina2().getNick() + ")= " + valor);

if (similitud.getValor()<0){

System.out.println("es menor que cero");

Page 194: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

}

}

}

private boolean similitudYaCalculadaEntre(pagina pagina1, pagina pagina2, Simili-

tudDAO similitudDAO) {

Similitud similitud = similitudDAO.obtenerSimilitudPorpaginas(pagina1, pagina2);

return similitud!=null;

}

}

Desambiguación del sentido de las palabras con porter –stemmer

Se utiliza el corpus recolectado para identificar el sentido de las palabras, en este ejemplo de código se

muestra la palabra llevada a su lema .

public static void wsd(String[] frases)

{

char[] w = new char[501];

Stemmer s = new Stemmer();

for (int i = 0; i < frases.length; i++)

try

{

Page 195: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página211

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

FileInputStream in = new FileInputStream(frases[i]);

try

{ while(true)

{ int ch = in.read();

if (Character.isLetter((char) ch))

{

int j = 0;

while(true)

{ ch = Character.toLowerCase((char) ch);

w[j] = (char) ch;

if (j < 500) j++;

ch = in.read();

if (!Character.isLetter((char) ch))

{

for (int c = 0; c < j; c++) s.add(w[c]);

s.stem();

{ String u;

u = s.toString();

Page 196: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

System.out.print(u);

}

break;

}

}

}

if (ch < 0) break;

System.out.print((char)ch);

}

}

catch (IOException e)

{ System.out.println("error reading " + frases[i]);

break;

}

}

catch (FileNotFoundException e)

{

break;

}

Page 197: SERVICIOS DE GENERACIÓN AUTOMÁTICA DE RESÚMENES …

Página213

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

}