ytw03044eses

20
Business Analytics IBM Software Administración pública Uso de los datos para la detección de amenazas internas y externas Resumen ejecutivo El análisis de la información es el cerebro que se esconde detrás de la seguridad nacional. El objetivo de las actividades de inteligencia y de contraterrorismo es el de descubrir las amenazas de seguridad en el momento adecuado para poder actuar frente a ellas. Pero los patrones que apuntan a estas amenazas muchas veces están ocultos bajo grandes volúmenes de datos. Para resolver este problema, una forma de análisis de la información, el análisis predictivo, es particularmente útil. Las soluciones de análisis predictivo aplican sofisticadas técnicas estadísticas, de explotación de datos y de aprendizaje de máquina en la información histórica para poder descubrir tendencias y patrones ocultos, incluso en grandes y complejos conjuntos de datos. Al contrario de los métodos de detección y análisis basados en reglas, el análisis predictivo puede identificar comportamientos relativamente poco frecuentes, incluso aquellos con diferencias sutiles que los demás métodos muchas veces no detectan. Las técnicas del análisis predictivo exploran y aprenden de todas las dimensiones de los datos, lo cual permite a los analistas combinar conocimiento humano, experiencia de primera mano e intuición para guiar la aplicación de las técnicas de análisis. Las soluciones de análisis predictivo más eficaces no sólo pueden analizar datos tabulados, sino también datos textuales. Gracias a la capacidad que tiene el análisis predictivo de combinar una amplia variedad de dimensiones, tipos y orígenes de datos de manera continua, es posible detectar con rapidez y fiabilidad firmas inadvertidas de piratas informáticos, criminales o terroristas que generan nuevas ciberconversaciones o que intentan nuevas tácticas para tener un acceso no adecuado a información sensible. Este documento técnico intentará definir varios retos de evaluación de riesgos de seguridad e inteligencia, que se pueden resolver total o parcialmente mediante el uso de técnicas de análisis predictivo. Incluirá ejemplos de detección de amenazas tanto internas como externas, y presentará métodos específicos de manipulación de datos y modelado de datos. Se ofrecerán ejemplos y gráficos a partir de datos imaginarios. Métodos de detección de amenazas internas El coste asociado a un ataque por parte de un “actor incorrecto” con información o acceso interno privilegiado muchas veces puede tener un impacto más grande o más prolongado en una organización que una amenaza externa. Los las amenazas internas han causado un impacto devastador, incluida la violación de la confidencialidad, la pérdida de la integridad de la inteligencia, influencia adversa en la política nacional, la revelación de fuentes y métodos, así como comprometer los agentes en campo. 1 Contenido: 1 Resumen ejecutivo 1 Métodos de detección de amenazas internas 8 Métodos de detección de amenazas externas 16 Operacionalizar la evaluación de riesgos internos y externos 17 Acerca de las soluciones de IBM SPSS para el análisis predictivo 19 Acerca de IBM Business Analytics

Upload: ricardo-shahid-ruiz-salvatierra

Post on 21-Dec-2015

215 views

Category:

Documents


0 download

DESCRIPTION

ibm

TRANSCRIPT

Business AnalyticsIBM Software Administración pública

Uso de los datos para la detección de amenazas internas y externas

Resumen ejecutivoEl análisis de la información es el cerebro que se esconde detrás de la seguridad nacional. El objetivo de las actividades de inteligencia y de contraterrorismo es el de descubrir las amenazas de seguridad en el momento adecuado para poder actuar frente a ellas. Pero los patrones que apuntan a estas amenazas muchas veces están ocultos bajo grandes volúmenes de datos. Para resolver este problema, una forma de análisis de la información, el análisis predictivo, es particularmente útil. Las soluciones de análisis predictivo aplican sofisticadas técnicas estadísticas, de explotación de datos y de aprendizaje de máquina en la información histórica para poder descubrir tendencias y patrones ocultos, incluso en grandes y complejos conjuntos de datos. Al contrario de los métodos de detección y análisis basados en reglas, el análisis predictivo puede identificar comportamientos relativamente poco frecuentes, incluso aquellos con diferencias sutiles que los demás métodos muchas veces no detectan.

Las técnicas del análisis predictivo exploran y aprenden de todas las dimensiones de los datos, lo cual permite a los analistas combinar conocimiento humano, experiencia de primera mano e intuición para guiar la aplicación de las técnicas de análisis. Las soluciones de análisis predictivo más eficaces no sólo pueden analizar datos tabulados, sino también datos textuales. Gracias a la capacidad que tiene el análisis predictivo de combinar una amplia variedad de dimensiones, tipos y orígenes de datos de manera continua, es posible detectar con rapidez y fiabilidad firmas inadvertidas de piratas informáticos, criminales o terroristas que generan nuevas ciberconversaciones o que intentan nuevas tácticas para tener un acceso no adecuado a información sensible.

Este documento técnico intentará definir varios retos de evaluación de riesgos de seguridad e inteligencia, que se pueden resolver total o parcialmente mediante el uso de técnicas de análisis predictivo. Incluirá ejemplos de detección de amenazas tanto internas como externas, y presentará métodos específicos de manipulación de datos y modelado de datos. Se ofrecerán ejemplos y gráficos a partir de datos imaginarios.

Métodos de detección de amenazas internasEl coste asociado a un ataque por parte de un “actor incorrecto” con información o acceso interno privilegiado muchas veces puede tener un impacto más grande o más prolongado en una organización que una amenaza externa. Los las amenazas internas han causado un impacto devastador, incluida la violación de la confidencialidad, la pérdida de la integridad de la inteligencia, influencia adversa en la política nacional, la revelación de fuentes y métodos, así como comprometer los agentes en campo.1

Contenido:

1 Resumen ejecutivo

1 Métodos de detección de amenazas internas

8 Métodos de detección de amenazas externas

16 Operacionalizar la evaluación de riesgos internos y externos

17 Acerca de las soluciones de IBM SPSS para el análisis predictivo

19 Acerca de IBM Business Analytics

Business AnalyticsIBM Software Administración pública

2

En una encuesta de crimen electrónico del 2004 realizada por la CSO Magazine con la cooperación del U.S. Secret Service y del CERT Coordination Center, el 59% de ejecutivos de seguridad y aplicación de la ley contestaron algún tipo de impacto negativo en sus organizaciones como consecuencia de intrusiones internas.2

Los crímenes electrónicos internos tienden a ser particularmente difíciles de detectar, ya que el causante muchas veces tiene un motivo lícito para el acceso, la modificación y la manipulación de datos críticos y/o sensibles. No obstante, a pesar de estos retos, muchas organizaciones tienen un volumen importante de datos que se pueden utilizar para caracterizar y potencialmente mitigar un ataque por parte de un empleado interno. Estos datos pueden incluir información como demografía, revisiones de rendimiento, asignaciones a proyectos actuales y en el pasado, comunicaciones electrónicas internas y externas, así como registros de uso de archivos.

Modelar el comportamiento pasado para predecir el comportamiento futuroUn método de detección de amenazas internas mediante el análisis de datos consiste en tomar casos conocidos de comportamiento ilícitos y caracterizar la diferencia entre éstos y los casos “normales” conocidos. Aunque este enfoque es ideal en el sentido de que los algoritmos minería de datos pueden aprender a reconocer rápida y fácilmente el comportamiento en el pasado, existen dificultades inherentes en el uso únicamente de este enfoque. Las amenazas internas son habitualmente un evento muy raro. Los datos históricos disponibles para modelar el comportamiento futuro generalmente carecen muchas veces de casos suficientes para predecir con precisión casos que sean similares pero no exactamente los mismos que los casos anteriores de amenazas conocidas.

Cuando se trata de una amenaza interna o de detección de fraudes, un “actor incorrecto” puede tener patrones o un comportamiento normal que sea dinámico y complejo. En estas situaciones, el crimen puede ser muy difícil de detectar, ya que el comportamiento de dicha persona puede seguir pareciendo lícito, con unos cambios sutiles en el tiempo. Como consecuencia, es importante no sólo determinar el comportamiento que muestra una persona, sino también quién ha cambiado recientemente del de su grupo.

Si una empresa o departamento está preocupado por el acceso interno a datos electrónicos sensibles, la empresa generalmente utilizará un conjunto de reglas codificadas de manera fija para identificar un comportamiento potencialmente anómalo. Por ejemplo, una persona que normalmente trabaja con registros de recursos humanos podría marcarse para su auditoría si realizara varios intentos para acceder a archivos con datos sensibles del departamento de ingeniería. No obstante, la actividad potencialmente maliciosa muchas veces es más sutil y difícil de detectar.

Clustering para identificar grupos significativosUna técnica que puede ser muy eficaz para identificar cambios en el comportamiento en el transcurso del tiempo consiste en guardar una instantánea de un cluster a intervalos regulares. Los modelos de clustering se centran en identificar grupos de registros similares y etiquetar los registros según el grupo al que pertenecen. Esto se lleva a cabo sin la ventaja de tener un conocimiento anterior de los grupos y de sus características. En realidad, es muy posible que ni siquiera sepa exactamente cuántos grupos hay que buscar.

Business AnalyticsIBM Software Administración pública

3

Esto es lo que distingue los modelos de clustering de otras técnicas de aprendizaje de máquina – no existe una salida predefinida o un campo objetivo para el modelo a predecir. Estos modelos a menudo se denominan modelos de aprendizaje no supervisado, ya que no existe ningún estándar externo mediante el cual poder juzgar el rendimiento de la clasificación efectuada por el modelo. No hay una respuesta correcta o errónea para estos modelos. Su valor viene determinado por su capacidad para capturar grupos de interés en los datos y para proporcionar descripciones útiles de estos grupos.

Siempre se esperan cambios de comportamiento, ya que los grupos de personas se asignan a proyectos y tareas distintos con el tiempo. No obstante, cuando los cambios de una persona no son similares a los de sus compañeros, puede indicar un problema potencial que merecería una investigación.

En la Figura 1, a continuación, una agencia que quiere analizar los cambios de comportamiento en el tiempo, primero puede agregar todas las variables de interés de un mes y año concretos. Estos totales o agregaciones probablemente incluirán variables tales como: número de archivos a los que se ha accedido, tipo de archivos accedidos, revisiones de rendimientos pasados, así como la ubicación y responsabilidades actuales de una persona que puedan afectar a su necesidad de acceder a registros determinados. A continuación, pueden procesarse todos los datos relevantes mediante un algoritmo de clustering para crear una instantánea del comportamiento de ese mes. El algoritmo asigna automáticamente cada persona a un cluster concreto.

Figura 1: Se puede utilizar un algoritmo de clustering en intervalos definidos (en este caso, mensuales) para asignar empleados a un grupo en base a su comportamiento en la red. La comparación de la pertenencia de grupo en los intervalos puede ayudar a identificar empleados cuyo comportamiento haya cambiado y/o sea distinto al de sus compañeros.

Business AnalyticsIBM Software Administración pública

4

El siguiente mes se recogen datos del mismo grupos de personas. Los datos del nuevo mes se agregan y se clasifican mediante el mismo algoritmo incorporado en el mes anterior. La pertenencia al cluster del mes inicial se compara con la pertenencia de cluster del segundo mes y se genera un informe de excepción de las personas cuyo comportamiento ha cambiado suficientemente como para salir de un cluster e incluirse en otro. Estas personas se pueden investigar posteriormente.

La ventaja del clustering con el tiempo es que, a diferencia del modelo de series temporales, cualquier variable, ya sea categórica o continua, puede ayudar a determinar la pertenencia a un cluster. En un modelo de series temporales, todos los campos deben ser numéricos. Los predictores potencialmente importantes, como el proyecto actual, la ubicación o el nivel de seguridad, no se pueden utilizar en un modelo de series temporales, pero sí se pueden incorporar en un modelo de clustering que realice un seguimiento de los cambios en el tiempo. Un modelo de clustering tampoco requiere que el investigador o analista se centre en una variable de salida específica, como por ejemplo “número de archivos a los que se ha accedido”, para poder identificar un comportamiento poco habitual.

Los resultados de pertenencia de cluster generados por un modelo de clustering se utilizan a menudo como entrada de modelos creados en análisis subsiguientes. Su utilidad en el análisis exploratorio los convierten en una parte importante de cualquier análisis en el que deban aislarse los eventos de alto riesgo a partir de un gran volumen de otros datos.

Detección de anomalías para descubrir casos no habitualesExisten varios métodos de clustering y detección de anomalías. El siguiente ejemplo destaca un método en el que primero un algoritmo agrupa en clusters los datos y después encuentra los que caen fuera de dichos clusters. Esto es particularmente útil para el trabajo de inteligencia, porque el proceso se puede automatizar, permitiendo a los analistas peinar millones de registros para encontrar elementos aislados o datos anómalos en subgrupos específicos de personas. En algunas herramientas de minería de datos están disponibles métodos automatizados de detección de anomalías, formando parte de la familia de algoritmos de clustering.

Mientras que los métodos tradicionales de identificación de anomalías generalmente sólo miran una o dos variables a la vez, un algoritmo automatizado de detección de anomalías puede examinar un gran número de campos para identificar clusters o grupos similares en los que se encuentran registros similares. Después, cada registro se puede comparar con los demás de su grupo para identificar posibles anomalías. Cuanto más se aleje un caso de su centro normal, más probabilidad tendrá de ser inhabitual. Por ejemplo, el algoritmo puede agrupar registros en tres clusters distintos y marcar los que caen lejos del centro de cualquiera de los clusters.

Business AnalyticsIBM Software Administración pública

5

En el ejemplo mostrado en la Figura 2, se han identificado cinco casos como anómalos en comparación con sus similares. Un índice de anomalía identifica la desviación de los campos del caso desde la norma del grupo de iguales de dicho caso. Además, se proporciona información de las variables que han causado un mayor impacto en el alejamiento de cada caso del centro de su grupo de similares.

Figura 2: En estos cinco casos anómalos, el índice de anomalía identifica la desviación de los campos del caso desde la norma del grupo de iguales de dicho caso. Los campos 1 y 2 describen las variables que han tenido la mayor repercusión en la determinación del comportamiento anómalo.

Otra forma de detección de anomalías puede llevarse a cabo utilizando la minería de texto en combinación con el análisis de correspondencia para realizar un análisis de redes sociales. Cuando sea importante determinar la distancia relativa entre las categorías de interés, se puede utilizar el análisis de correspondencia para proporcionar dicha información adicional de una red. Uno de los objetivos del análisis de correspondencia es describir las relaciones entre dos variables nominales de una tabla de correspondencia en un espacio de baja dimensión, mientras al mismo tiempo se describen las relaciones entre las categorías de cada variable.

Para cada variable, las distancias entre los puntos de categoría de un gráfico refleja el nivel de relación entre las categorías, donde las categorías más similares se dibujan más cerca entre sí.

Business AnalyticsIBM Software Administración pública

6

Para determinar la distancia entre las categorías, el análisis de correspondencia considera las frecuencias de celda así como una serie de otros factores. El cálculo de las frecuencias de las celdas es similar al análisis de tabla cruzada. El análisis de correspondencia también crea una serie de estadísticas intermedias que, entre otras cosas, miden la influencia, la varianza y la distancia de un objeto a otro.

El análisis de correspondencia ayuda a los analistas a saber las diferencias entre las categorías de una variable, así como las diferencias entre variables.

El gráfico mostrado en la Figura 3, más arriba, es el resultado del análisis de correspondencia efectuado en los empleados implicados en un proyecto concreto y las categorías de asuntos extraídas del análisis de texto. Los puntos de fila y columna más cercanos entre sí representan una correspondencia más estrecha o asociación que apunta a una mayor distancia. En este gráfico, el empleado SRiley está estrechamente asociado a los documentos relacionados con “Asia”, mi entras que el resto de sus compañeros parecen estar accediendo (están más estrechamente asociados a otros temas).

La ventaja de la minería de texto en este tipo de análisis es que permite a los analistas “leer” y examinar minuciosamente literalmente miles de documentos para correlacionar por asunto quién está accediendo a qué contenido en comparación con los otros miembros del grupo.

Figura 3: La correlación vectorial muestra visualmente el resultado del análisis de texto para conocer a qué áreas temáticas han accedido los empleados.

Business AnalyticsIBM Software Administración pública

7

Análisis de series de tiempo para visualizar el comportamiento futuroUna ventaja del análisis de amenazas internas frente a la externa es que para ciertos campos de datos, el total de información disponible es generalmente mucho más completa y que habitualmente se pueden atribuir los puntos de datos a una persona, hora y evento específicos. Esto es útil porque permite que el analista pueda utilizar el análisis de series de tiempo. A pesar de un malentendido habitual, el análisis de series de tiempo se puede utilizar no sólo para describir datos históricos, sino también con el objetivo de pronosticar puntos de datos futuros, teniendo en cuenta factores como la temporalidad, las apariciones únicas y las intervenciones o cambios en las expectativas. Para demostrarlo en el siguiente ejemplo, se ha registrado el uso de ancho de banda de red de cada empleado y se ha utilizado en un algoritmo de series de tiempo con el fin de analizar las tendencias de uso.

Figura 4: Los modelos ARIMA (media móvil integrada autoregresiva) se pueden utilizar no sólo para dibujar valores históricos proyectos frente a los reales, sino también para predecir valores futuros. Cuando el valor observado supera el valor previsto, se incrementa la puntuación de riesgo.

El resultado no solamente es un agregado de estadísticas de uso de red históricas, sino también un componente de mirada hacia delante. En este ejemplo, un modelo ARIMA (medias móviles integradas autoregresivas) representa varios factores, tales como los patrones de uso de temporada y los valores alejados, en la creación de una predicción del uso de ancho de banda para una serie especificada de períodos de tiempo futuros. Si los valores observados en los próximos períodos de tiempo superan los valores previstos, puede activarse un incremento en la puntuación de riesgo o puede notificarse este hecho a un auditor.

Resumen de métodos de análisis para la detección de amenazas internasA menudo, el mejor enfoque para la evaluación de riesgos internos combina métodos idealmente adaptados a los objetivos específicos del departamento, así como a los datos disponibles. Como sucede con cualquier tipo de aplicación adecuada para el análisis estadístico y la explotación de datos, es importante determinar primero los objetivos y los problemas potenciales del resultado del análisis. En la evaluación y mitigación de la amenaza potencial de un ataque interno, pueden incluirse los siguientes objetivos:

• Determinar una predicción, nivel de confianza y nivel de propensión del riesgo de un ataque interno.

• Calcular el coste o impacto previsto de la infracción de información.• Identificar la duración y alcance de un ataque en aquellos casos en que

la pérdida o el coste de la información sea incalculable.• Priorizar las auditorías de anomalías detectadas o amenazas en relación

con el nivel de riesgo y los recursos disponibles para llevar a cabo la investigación.

Business AnalyticsIBM Software Administración pública

8

Métodos de detección de amenazas externasLas mismas técnicas que se aplican al análisis de amenazas internas suelen ser útiles para el análisis de amenazas externas. La principal diferencia entre el análisis de amenazas internas y externas es la disponibilidad de datos. Los ataques que proceden de fuentes externas raramente proporcionan el tipo de datos demográficos disponibles en el análisis de amenazas internas. Los campos de datos tales como edad, afiliación de grupo, ubicación y patrones de comportamiento histórico que se pueden atribuir a una persona o grupo son mucho más difíciles de obtener cuando se analizan amenazas externas.

Análisis de redes sociales para cubrir los gaps de datosCuando las amenazas externas no proporcionan información suficiente sobre la persona o grupo responsable de un ataque real o potencial, el uso de técnicas Social Network Analysis (SNA) pueden ayudar a los investigadores a evaluar mejor el riesgo de una amenaza externa concreta, efectuando asociaciones con otras personas, grupos o intentos de ataques anteriores conocidos.

Una red social es una estructura social formada por nodos (generalmente personas u organizaciones) que se unen entre sí mediante uno o varios tipos específicos de interdependencia, como valores, visiones, ideas, intercambios financieros, amistad, parentesco, rechazo o conflicto.3

Las funciones de análisis de SNA pueden incluir teoría gráfica además de análisis de enlaces. Otros enfoques de SNA incluyen reglas de asociación, análisis de correspondencia y análisis de regresión y series de tiempo.

Mediante el uso de un entorno de trabajo de análisis predictivo generalizado, podemos realizar ciertos tipos de SNA mediante la combinación de algoritmos de clasificación y regresión, algoritmos de asociación y análisis de correspondencia. Los algoritmos de asociación, tales como los algoritmos apriori, son útiles para pronosticar varios resultados – por ejemplo, las personas con un conjunto específico de características probablemente se asociarán a una persona, ubicación u organización concretas.

Business AnalyticsIBM Software Administración pública

9

La ventaja de los algoritmos de reglas de asociación frente a los algoritmos de árbol de decisión más estándares es que las asociaciones pueden realizarse entre cualesquiera de los atributos. En otras palabras, un algoritmo de árbol de decisión creará reglas con una sola conclusión, mientras que los algoritmos de asociación intentan encontrar muchas reglas, y cada una de ellas puede tener una conclusión distinta. Además, a diferencia de los análisis sencillos de enlace, los algoritmos de asociación permiten realizar el análisis de enlaces uno a varios y varios a varios.

Figura 5: Utilizado con técnicas SNA, se puede emplear el análisis de texto para encontrar relaciones entre personas de interés, grupos y ubicaciones, para predecir asociaciones probables.

En la Figura 5, una agencia de inteligencia estaba interesada en identificar asociaciones entre personas y un conjunto específico de características y comportamientos. Observando los registros de un agregador de canales de noticias, se aplicaba un algoritmo apriori en todos los campos que un analista de la agencia consideraba interesantes.

El resultado destacado se puede interpretar de la siguiente forma: en los registros en los que la persona de interés está asociada a “Khalfan” y cuyo país de origen es “Sitia” y la ubicación actual es “Washington”, entonces probablemente también estará asociado a “Ali Atwa”. En este ejemplo, cuando todos los antecedentes estaban presentes, el “Ali Atwa” consecuente también estaba presente en el 100% de los casos. Por lo tanto, puede sacarse la conclusión de que si se sabe que una persona de interés coincide con todos los antecedentes de la regla del algoritmo, probablemente también estará asociada a la persona de la consecuencia.

Business AnalyticsIBM Software Administración pública

10

Otra dificultad inherente de SNA es la incapacidad para crear asociaciones eficaces a partir de un universo ilimitado de datos disponibles. Como sucede en muchas funciones de análisis de datos, la herramienta es más eficaz cuando la utiliza un experto en la materia que pueda centrar el análisis en un conjunto específico de datos o campos.

Por ejemplo, se dice que una de las observaciones más habituales de SNA es que las personas demográficamente similares tienen más probabilidad de formar vínculos sociales.4 Este tipo de observación puede ser evidente para un analista con cierta experiencia en SNA, y es el tipo de conocimiento que puede mejorar considerablemente la probabilidad de obtener resultados accionables de SNA en bases de datos complejas y grandes. Los algoritmos de asociación pueden aprovechar esta experiencia generando un conjunto más amplio de interacciones y medidas que el simple análisis de enlaces uno a uno.

Por ejemplo, en el análisis de personas demográficamente similares, un listado o gráfico de todas las personas vinculadas por una nacionalidad común puede abrumar rápidamente al analista con datos de ruido. Por el contrario, un algoritmo de asociación puede representar la nacionalidad, la afiliación de grupo social o profesional y la ciudad actual de residencia para proporcionar un conjunto conciso de características que históricamente han indicado una asociación entre un grupo de personas.

Al igual que el ejemplo citado anteriormente para el análisis de correspondencia de una amenaza interna, la Figura 6 representa la misma técnica aplicada a amenazas externas. Se recopilan documentos de texto de formato libre de los canales de noticias, blogs y foros de conversaciones Internet, que se pasan por un algoritmo de análisis de texto (procesamiento de lenguaje natural) con el fin de determinar el tema que se comenta en dichos documentos. A continuación se aplica un algoritmo de análisis de enlace de texto dedicado en los datos con el fin de conectar la mención de seguridad especifica con las ubicaciones de interés (ciudades, en este caso). Los puntos de datos resultantes se pasan a un algoritmo de análisis de correspondencia con el objeto de determinar los temas más estrechamente correlacionados con las ciudades específicas de interés.

Business AnalyticsIBM Software Administración pública

11

Puntuación de modelos para medir el impacto potencialUna vez se ha creado un modelo, el siguiente paso consiste en medir la probabilidad y el impacto potencial de un evento identificado o pronosticado por el modelo.

Cuando se modelan eventos de seguridad, las características de un caso raramente tienen suficiente claridad para poder emitir una afirmación absoluta sobre si el caso es positivo o negativo, o un evento frente a un no evento. Puesto que muchos casos se encuentran en una escala de grises en lugar de ocupar los extremos blanco o negro de una decisión, muchas veces resulta útil convertir un evento de sí o no a una escala de propensión del 0 al 1 por medio de las cifras de confianza proporcionadas por el algoritmo de predicción. Las puntuaciones de propensión indican la probabilidad de un resultado o una respuesta concretos. Esto puede proporcionar una medida de la certeza en lugar de una clasificación absoluta para un caso concreto. Las decisiones cercanas a los extremos (1,0 o 0,0) son claras y las que ocupan la parte central son más inciertas.

Figura 6: Se puede dibujar el análisis de correspondencia de canales de noticias, blogs, foros de debate Internet y otras fuentes de texto para mostrar áreas temáticas habitualmente enlazadas con ciudades de interés.

1.0 0.0

Business AnalyticsIBM Software Administración pública

12

En este ejemplo, una agencia que intentaba modelar un comportamiento normal/malicioso preparó una mielera – una trampa de red para detectar y contraatacar el acceso incorrecto a información sensible. Las mieleras, generalmente un sistema, un conjunto de datos o un sitio de red con información falsa de recursos que podrían ser de valor para los atacantes, normalmente no tienen valor real y, por lo tanto, no debe tener actividad o tráfico legal. Toda la información de tráfico que capture se puede presuponer como maliciosa o no autorizada. En el siguiente ejemplo, todos los datos recogidos de la mielera estaban marcados como maliciosos. A continuación se añadió a la mielera un conjunto de datos que contenía tráfico normal conocido con el fin de establecer la diferencia entre el acceso adecuado y no adecuado. Se utilizó un algoritmo de clasificación para crear perfiles de tráfico normal y de tráfico malicioso. Además, el algoritmo proporcionaba un nivel de confianza de cada predicción (clasificación).

Se deriva una puntuación de confianza de las cifras de confianza de tal modo que tenga las propiedades de una clasificación; es decir, casi 0 cuando el tráfico probablemente es normal y casi 1 cuando el tráfico probablemente es malicioso.

Figura 7: Las puntuaciones de propensión brutas, calculadas a partir de niveles de confianza, ayudan a determinar la probabilidad de un resultado o respuesta dados, pero no se puede confiar en ellas hasta que se prueben con datos adicionales y se ajusten en consecuencia.

Business AnalyticsIBM Software Administración pública

13

Las puntuaciones de propensión brutas proporcionadas una herramienta de análisis se basan puramente en las estimaciones dadas por el modelo – en otras palabras, solamente se basan en un conjunto de datos y, en consecuencia, pueden estar sobredimensionadas, lo que puede conducir a unas estimaciones imprecisas de la propensión. Las propensiones ajustadas intentan compensarlo mirando el rendimiento del modelo en las pruebas o particiones de validación, y ajustando las propensiones para que ofrezcan una mejor estimación en consecuencia.

Matrices de riesgo para clasificar la gravedad de las amenazasHasta el momento, nos hemos centrado en el análisis para la identificación de anomalías, la predicción de eventos y la identificación de asociaciones entre personas y grupos. Con la mayoría de estas técnicas generalmente hemos proporcionado una medida de la distancia de las anomalías, un nivel de confianza para las predicciones y las clasificaciones (como en el ejemplo anterior) y medidas de proximidad y fuerza de las relaciones para el análisis de asociaciones y redes.

Con el fin de determinar el nivel global de amenaza de un evento, podemos utilizar esas medidas para que nos ayuden a llenar una matriz de riesgo. En general, las matrices de riesgo permiten determinar la gravedad del riesgo de un evento que se esté produciendo. El riesgo de un peligro concreto se puede definir como su probabilidad multiplicada por su consecuencia (impacto).

En el siguiente gráfico se muestra un ejemplo de una matriz de riesgo 3x3. Si queremos distinguir más los niveles de riesgo, la matriz de riesgo se puede ampliar fácilmente a 4x4, 5x5 o a una matriz más grande.

Figura 8: Para obtener una puntuación global de la amenaza, se puede multiplicar el valor numérico de la probabilidad del evento por el valor numérico del impacto si se produce el evento. El trazo de este resultado en una matriz de riesgo con códigos de colores puede ayudar a demostrar visualmente la gravedad de una amenaza. 5

Matriz de riesgo 3 x 3

1.00

.50

.10

Pro

pen

sión

Consecuencia o repercusión

10 50 100

Business AnalyticsIBM Software Administración pública

14

Si queremos expresar numéricamente los valores de una matriz de riesgo, existe una serie de fórmulas matemáticas y calculadoras de evaluación de riesgos disponibles para aplicaciones y sectores específicos. Con el objeto de conservar la sencillez relativa de este ejemplo, utilizaremos una fórmula sencilla que mide los valores de impacto en una escala del 1 al 100 y los valores de propensión (probabilidad) en una escala del 0 al 1,00. Para obtener una puntuación global de la amenaza, podemos multiplicar el valor numérico de la probabilidad del evento por el valor numérico del impacto si se produce el evento.

Como ejemplo, el impacto de una fuga interna de información muy sensible de una agencia de inteligencia se puede considerar “alto” en una matriz 3x3. No obstante, la probabilidad de este evento puede considerarse como “baja”. En este caso, el nivel global de amenaza expresado numéricamente se calcula multiplicando 100 (impacto alto) por 0,10 (probabilidad baja), con lo que se obtiene un nivel global de la amenaza de 10.

El ejemplo de la Figura 9, que se muestra a continuación, muestra un modelo de árbol de clasificación y regresión que se utiliza para determinar la probabilidad de que una solicitud de red sea de una fuente segura (válida) o no. A continuación, se utiliza la puntuación de propensión para crear tres categorías correspondientes a bajo, medio y alto, basadas en una matriz de riesgo 3x3.

Figura 9: Basándose en una matriz de riesgo 3x3, se pueden clasificar los eventos (como un tráfico de red anómalo) como de riesgo bajo, medio o alto.

Business AnalyticsIBM Software Administración pública

15

Para este ejemplo, supondremos que el impacto global de una solicitud de red de una fuente desconocida o no confirmada plantea un riesgo “medio” en la seguridad de la red. Se creará un nuevo campo que clasifica el impacto global como “medio” en una matriz 3x3 o, expresado numéricamente, una puntuación de 50 del impacto.

Figura 10: Pueden configurarse algoritmos para calcular la puntuación global de la amenaza, sumando el tipo de evento, el nivel de gravedad y la probabilidad en una puntuación combinada.

Con el fin de calcular la amenaza global, creamos un campo que multiplica el “impacto” (50 en este modelo) por la “propensión”. El resultado es una puntuación global de la amenaza (Figura 10) que se puede poner en un entorno operacional junto con otros modelos que midan diferentes tipos de eventos de seguridad (posiblemente con niveles de impacto distintos). Cuando se combinan todos los modelos, podemos clasificar y ordenar todos los eventos entrantes según su puntuación global de amenaza. Este valor nos permite priorizar una respuesta al evento, sumando el tipo de evento, el nivel de gravedad y la probabilidad en una puntuación combinada.

Resumen de métodos de análisis para la detección de amenazas externasComo sucede en el análisis de amenazas internas, el mejor enfoque para la evaluación de riesgos externos es centrarse en un objetivo específico que pueda conseguirse, o al menos mejorarse, mediante el uso del análisis de datos. No siempre es una tarea fácil. En el análisis de amenazas externas, a veces existen más datos disponibles que los que se pueden analizar eficazmente. En otras ocasiones, en el análisis de eventos muy raros, como por ejemplo un ataque químico, existen pocos datos históricos y una correlación pobre o nula entre los eventos.

Business AnalyticsIBM Software Administración pública

16

En la evaluación y mitigación de la amenaza potencial de un ataque externo, los objetivos pueden ser los siguientes:

• Determinar si se puede construir con éxito un modelo utilizando datos históricos y si es más eficaz detectar cambios en el comportamiento actual

• Considerar el uso de un enfoque de estímulo/respuesta para el que no existen datos históricos: puede recoger datos proporcionando un estímulo para el evento de interés en un entorno controlado, por ejemplo, la creación de una mielera en un entorno de red

• Asegurarse de que esté disponible un experto en la materia para ayudar a determinar las entradas correctas para el análisis de datos. Las herramientas de minería de datos son muy potentes, pero en última instancia deben utilizarlas un experto en el dominio. Un modelo puede llegar fácilmente a una falsa conclusión si se utilizan demasiados, demasiado pocos o el conjunto erróneo de campos en el proceso de creación del modelo.

Operacionalizar la evaluación de riesgos internos y externosUn paso final en el proceso de disminución de la probabilidad y el impacto de un evento de seguridad es la operacionalización de los procesos de construcción del modelo, puntuación del modelo y evaluación del riesgo. Por más eficaz o preciso que sea un modelo, las personas dedicadas a evitar una medida de seguridad existente están adaptando constantemente sus comportamientos para anular la detección. Por este motivo, la automatización del proceso de creación del modelo para que tenga en cuenta las observaciones y los puntos de datos recientes es una parte crítica de la mitigación del riesgo de seguridad. Este paso puede ser tan sencillo como crear un proceso por lotes que puntúe nuevos registros cada noche o podría implicar facilitar el proceso de análisis de datos como un servicio web con el fin de incorporarlo en una arquitectura orientada a servicios (SOA).

Figura 11: Una vez se ha realizado el análisis, es posible desplegar campos como “amenaza global” para añadirlos en los correspondientes registros de las bases de datos de la agencia, lo que permite a los usuarios finales acceder a la información cuándo, dónde y en el formato con que deseen verla.

Business AnalyticsIBM Software Administración pública

17

Además de hacer más fácil de detectar la constante variación de los esquemas de los ataques, la operacionalización de estos procesos tiene la ventaja añadida de agilizar el despliegue de los resultados. A elaborar: cuando se despliega un modelo en los procesos de negocio de una agencia, no se ejecuta espontáneamente.

Al contrario, el entorno de trabajo del análisis predictivo está retirando y distribuyendo activamente información de forma bidireccional. En otras palabras, cuando se despliega un modelo en modalidad de tiempo real o de proceso por lotes, no sólo extrae automáticamente información de otras fuentes de datos (como sistemas de BI o ERP), sino que también puede devolver sus resultados a estos sistemas para actualizar registros con puntuaciones de propensión y/u otras variables de clasificación. Al añadir nuevas variables en los registros de otros conjuntos de datos, este despliegue de los resultados permite a los usuarios finales acceder a la información cuándo, dónde y en el formato con que desean verla.

Acerca de las soluciones de IBM SPSS para el análisis predictivo

Lograr un mejor conocimiento y una mejor predicciónEl análisis predictivo proporciona a las organizaciones una visión más nítida de las condiciones actuales y un mayor conocimiento de los eventos futuros. Con nuestro entorno de trabajo de análisis predictivo líder del mercado, IBM SPSS Modeler, su agencia puede llevar a cabo análisis que incorporen muchos tipos de datos, lo que se traduce en un conocimiento más detallado de todos los aspectos de sus operaciones – incluyendo un conocimiento más completo de sus datos de inteligencia.

IBM SPSS Modeler es una solución abierta basada en estándares. Se integra en los sistemas de información existentes en su organización, tanto cuando accede a los datos como cuando despliega los resultados. No es necesario mover los datos de un lugar a otro en un formato propietario. Esto le ayuda a conservar recursos, ofrecer resultados más rápidamente y reducir costes de infraestructura.

Adicionalmente, IBM SPSS Modeler es famoso en todo el mundo entre analistas y usuarios de negocio por igual, porque le permite:

• Acceder, preparar e integrar fácilmente datos estructurados y también datos de texto, web y encuestas.

• Construir y validar modelos rápidamente, utilizando las técnicas estadísticas y de aprendizaje por máquina más avanzadas disponibles.

• Desplegar eficazmente conocimiento y modelos de predicción de forma planificada o en tiempo real, a las personas que toman decisiones y elaboran recomendaciones, así como a los sistemas que les dan soporte.

Business AnalyticsIBM Software Administración pública

18

Aprovechar todos los datos para mejorar los modelosSolamente con IBM SPSS Modeler puede acceder directa y fácilmente a datos de texto, web y encuestas, e integrar estos tipos adicionales de datos en sus modelos de predicción. Los clientes de IBM SPSS han descubierto que el uso de tipos adicionales de datos incrementa el “estímulo” o precisión de los modelos predictivos, lo que se traduce en unas recomendaciones más útiles y unos mejores resultados. Con el producto IBM SPSS Text Analytics totalmente integrado, puede extraer conceptos y opiniones desde cualquier tipo de texto, ya sean informes internos, canales de noticias agregados, mensajes de correo electrónico, diálogos de salas de conversaciones, blogs, etc.

Automatizar procesos críticos de análisis de datosLas tareas asociadas al análisis y al desarrollo y despliegue de modelos predictivos suelen repetirse de forma regular. IBM SPSS Collaboration and Deployment Services le ayuda a aumentar la productividad, asegurar la coherencia y lograr una mayor precisión en estos procesos, proporcionando un potente entornos para la automatización de diversos pasos del proceso de análisis, tales como la preparación de datos, las transformaciones, la creación de modelos, la evaluación y la puntuación. Como resultado, el análisis puede centrarse más en la resolución de problemas de negocio y no tanto en crear y ejecutar manualmente los procesos de cada nuevo proyecto.

Adicionalmente, sus analistas generan un gran volumen de resultados valiosos en el curso de su trabajo – tales como puntuaciones, reglas, gráficos, diagramas, informes y otros tipos de materiales de análisis. Para obtener el máximo valor del análisis, es necesario suministrar o desplegar los resultados a los responsables de la toma de decisiones de la agencia de forma que les ayude a tomar mejores decisiones.

En este sentido, IBM SPSS Collaboration and Deployment Services le permite ofrecer:

• Puntuaciones de los registros de personas de interés, que pueden mostrar la probabilidad de que tengan vínculos con una organización terrorista conocida

• Conjuntos de reglas o criterios que definen un perfil de actividades normales para un segmento concreto de empleados

• Gráficos que comparan la precisión de una serie de modelos de riesgo• Informes que muestran la precisión de una predicción en comparación

con los resultados reales

** IBM SPSS Text Analytics e IBM SPSS Collaboration and Deployment Services anteriormente se llamaban PASW Text Analytics y PASW Collaboration and Deployment Services.

Business AnalyticsIBM Software Administración pública

19

Acerca de IBM Business Analytics El software IBM Business Analytics proporciona información completa, coherente y exacta en la cual los responsables de la toma de decisiones confían para mejorar el rendimiento empresarial. Un portafolio completo de business intelligence, análisis predictivo, aplicaciones de gestión del rendimiento financiero, analítica y de gestión de estrategia, proporciona un conocimiento claro, inmediato y ejecutable acerca del rendimiento actual y la capacidad de prever resultados futuros. Combinado con ricas soluciones verticales, prácticas comprobadas y servicios profesionales, las organizaciones de todos los tamaños pueden impulsar la mayor productividad, automatizar con total confianza decisiones y ofrecer mejores resultados.

Formando parte de este portafolio, el software de Análisis Predictivo de IBM SPSS ayuda a las organizaciones a pronosticar eventos futuros y a actuar proactivamente con ese conocimiento para generar mejores resultados de negocio. Clientes comerciales, gubernamentales y académicos de todo el mundo confían en la tecnología IBM SPSS como ventaja competitiva en la atracción, retención y aumento del número de clientes, disminuyendo el fraude y mitigando el riesgo. Con la incorporación del software IBM SPSS en sus operaciones diarias, las organizaciones se convierten en empresas predictivas – capaces de dirigir y automatizar decisiones para alcanzar los objetivos de negocio y conseguir una ventaja competitiva medible. Para obtener más información o contactar con un comercial, visite ibm.com/spss/es

Notas: 1. 2005 ARDA Challenge Workshop. “Insider Threat: Analysis and Detection of Malicious Insiders”.2. 2004 eCrime Watch Survey. Realizada por la revista CSO con la cooperación del U.S. Secret Service &

CERT® Coordination Center “Insider Threat Study: Computer System Sabotage in Critical Infrastructure Sectors”.

3. Peter Sheridan Dodds, Roby Muhamad, Duncan J. Watts. “An Experimental Study of Search in Global Social Networks”. (8 de agosto de 2003)

4. Aili E. Malm et al. “Social Network and Distance Correlation of Drug Production”.5. Wikipedia. “Risk Matrix”. http://en.wikipedia.org/wiki/Risk_Matrix

Business Analytics Business Analytics software YTW03044-ESES-02

IBM España, S.A.C/Santa Hortensia, 26-2828002 Madrid

La página de inicio de IBM se encuentra en:ibm.com/es

IBM, logotipo de IBM, ibm.com, WebSphere, InfoSphere y Cognos son marcas registradas de International Business Machines Corporation en Estados Unidos y/o en otros países. Si estos y otros términos con marca registrada de IBM están identificados en su primer ocurrencia en esta información con el símbolo correspondiente (® o ™), estos símbolos indican marcas registradas en EE.UU. o marcas registradas según el derecho constitudinario de propiedad de IBM en el momento que se publicó esta información. Esas marcas registradas también pueden ser marcas registradas o marcas registradas según el derecho constitudinario en otros países. Una lista actual de marcas registradas de IBM está disponible en la Web en “Copyright and trademark information” en

ibm.com/legal/copytrade.shtml

SPSS es una marca registrada de SPSS, Inc., una empresa de IBM registrada en numerosas jurisdicciones en todo el mundo.

Los nombres de otras empresas, productos o servicios pueden ser marcas comerciales o marcas de servicio de terceros.

Derechos Restringidos de Usuarios del Gobierno de EE.UU. - Uso y duplicación de divulgación restringidos por el Contrato de Planificación de ADP de GSA con IBM Corp.

© Copyright IBM Corporation 2010 Reservados todos los derechos.

Por favor, recicle