el fenómeno del primer dígito, o la ley de benford · knuth (1969) cálculos de la computadora...

25
El Fenómeno del Primer Dígito, o la Ley de Benford Ted Hill Professor Emeritus of Mathematics, Georgia Institute of Technology, Atlanta Internet base de datos http://www.benfordonline.net/ Internet libro de la teoría de Benford http://www.i-journals.org/ps/viewissue.php?id=11/ Vol 8, pp 1-126 XI Esc. Prob. & Estad. CIMAT 2012

Upload: tranthuy

Post on 12-Oct-2018

258 views

Category:

Documents


0 download

TRANSCRIPT

El Fenómeno del Primer Dígito, o la Ley de Benford

Ted HillProfessor Emeritus of Mathematics,

Georgia Institute of Technology, Atlanta

Internet base de datos

http://www.benfordonline.net/

Internet libro de la teoría de Benford

http://www.i-journals.org/ps/viewissue.php?id=11/ Vol 8, pp 1-126

XI Esc. Prob. & Estad. CIMAT 2012

Ejemplo 1 Cómo Sacar $ $ de Amigos

Juego de 2-Personas Dos Jugadores I y II, cada uno elige un entero

positivo.

Sea X = producto de los dos enteros.

Jugador I gana si X comienza con 1, 2, o 3

Jugador II gana si X comienza con 4, 5, 6, 7, 8, 9

Reclamo: El Jugador I puede ganar con una

probabilidad> 60%

Ejemplo 2

Comience con cualquier número positivo, y en

repetidas ocasiones se multiplican por 2.

Entonces, se empieza con 5,

5, 10, 20, 40, 80, 160, 320, 640, 1280, …

¿Qué proporción de la secuencia comienza con un 1?

R. Exactamente

La misma respuesta si se comienza con 7, o con 3 y

multiplicar repetidamente, etc por 5

10log 2 30.1%

Esquema de las Clases LB, CIMAT 2012

Clase 1 Introducción a la Ley de Benford (LB)

Definición de LB, la evidencia empírica

Caracterización, de aplicación a la detección de fraude

Clase 2 LB para variables aleatorias (VA)La evidencia más empírica, poderes y productos de la VA

Aplicación de pruebas de homogeneidad

Clase 3 LB para procesos determinísticosSecuencias clásicas, procesos exponenciales y super-

exponenciales, aplicaciones de pruebas de diagnóstico y

análisis de error de redondeo, Problemas Abiertos

Dígitos Significativos

1 1

2 3

2 2

1Sean

los de 0.

p. ej. (2,013) (0.02013)

( ), ( ), ( ), ...

digitos significativos

2

(

(dec

2,013) (0.02013) 0, etc.

enton

imale

c

s)

es

x

D D

D

x

D

D x D x D

1{1, 2,..., 9} {0, 1, 2,...,, y para tod9} os 2.

kD D k

LB para el primer dígito significativo

1

1

1

1

1

1

log 1

2 / 1

3 /

1 .301

2 .

Prob ( ) , 1,2, ,9

P( ( ) ) log( )

P( ( ) ) log( )

P( ( ) ) log( )

176

.125

.0 P( ( ) ) log( )

97

2

3 4 / 3

4 5

/ 4

D X d d

D X

D X

D

d

X

D X

1

1

1

1

1

P( ( ) ) log( )

P( ( ) ) log( )

P( ( ) ) log( )

P( ( ) ) log( )

P( ( ) )

5 6 / 5

6 7 / 6

7 8 / 7

8 9 / 8

.079

.067

.058

.051

9 .0log 0 9 461 /

D X

D X

D X

D X

D X

El Primer Dígito Significativo

Ley General de Benford

11 2

1

2

1

1

Un conjunto de datos si

P ( ), ( ), ..., ( )

para todos , {1,2,...,9}, y {0,1,2, ...,9}, 2 .

es Benford

, , ...,

lo

g

,

10

.

1

k k

kk j

j

j

j

D X D X D X

k d d j k

X

E

d d

d

j

d

1 2 3

1 ( , , ) ( ) lo3,1,4

31g 1 0.00138

4P D D D

Benford 1938

Datos Benford

Evidencia Empírica

Newcomb (1881) Tablas de logaritmos

Benford (1938) Colecciones de tablas

Knuth (1969) Cálculos de la computadora

Varian (1972) Previsiones económicas

Burke & Kincanon (1991) Constantes físicas

Buck, Merchant, Perez (1993) Alfa vida decaimiento medio

Nigrini (1995) Los datos fiscales, el censo

Ley (1996) Del mercado de valores

Tolle, Budzien, LaViolette (2000) Dinámicas moleculares

Plouffe (2006) .86525… = ? Calculadora simbólica inversa

Jolion, Abdallah et al (2007) Imágenes digitales

Mebane (2009) Elección de Irán

Sambridge et al) (2011) Detección de terremotos

Otra Formulación de LB General

La (decimal) , es

( ) 10 , donde es el único entero tal que 10 [1,10)

Ej., (20) 2, ( /

Def.

10) (10 ) ( ) .

: si

función mantisa : [1,10)

La Ley de Benford General y só o se s l

k k

S x x k x

S

X Benford

S S S S

1

i

para todos 1 10

Ej., ( ( ) 1) ( ( ) 2) log 2 0.

( ( ) ) log

301...

tP S X t

P X

t

P D X S

La distribución de LB de S(X)

Conceptos ImportantesPara , mod 1 es de , e.g.,

mod1 (3.1416...) 3 0.1416...

así mod1 [0,1) para todos .

Un conjunto de dat

la parte fraccionaria

uniforos es memente distribuido

x x x

x x

X

(u.d. mod 1) si mod1 es uniformemente distribuido en [0,1]

i.e.

módulo 1

dígitos significativos invariantes en e

, mod1 (0,1)

tiene si

scala

( ) = ( ) pP S c

X

X U

X

X t P S X t

1 1

ara todos 0.

Ej., ( ) ( ) para todos 0, {1, ...,9}

c

P D cX d P D X d c d

Teoremas de Caracterización

T. 1.

T. 2. La Ley de Benford es la única distribución de

dígitos significativos que es invariante en escala

T. 3. La Ley de Benford es la única distribución

continua de dígitos significativos que es invariante

en base

es Benford log es u.d. mod1X X

Demostración del Teorema 1

En primer lugar, suponemos que [1,10), entonces ( ) , y

es Benford ( ( ) ) log t para todos [1,10)

( ) (log log t) = log t para todos [1,10)

(log ) = s para todos

X S X X

X P S X t t

P X t P X t

P X s s

[0,1) log es u.d. mod 1.

Para general y positivo,el argumento es similar.

X

X

Ilustración de la Invariancia de Escala

Old British ₤ US $ (x 2)

10 20

15 30

20 40

25 50

30 60

35 70

40 80

45 90

50 100

55 110

60 120

65 130

70 140

75 150

80 160

85 170

90 180

95 190

U

N

I

F

O

R

M

B

E

N

F

O

R

D

Old British ₤ US $ (x2)

11 22

12 24

14 28

16 32

18 36

19 38

21 42

24 48

28 56

33 66

37 74

42 84

47 94

55 110

64 128

71 142

83 166

96 192

Dinámica de la Invariancia de Escala

$$$ Solución del Ejemplo 1 $$$

Jugadores I y II, cada uno elige un entero positivo.

Sea X = producto de los dos enteros,

J1 gana si X comienza con 1, 2, o 3.

Si el J1 escoge su número al azar siguiendo LB,

ya que LB es invariante en escala, el producto X

sigue LB, para cualquier número que elige J2

Entonces Prob (J1 gana) =

Prob (X comienza con 1,2 o 3) = log 4 = 0.6020 ...

Dinámica de la Invariancia de Base

Wall Street Journal 1995

Prueba LB para Detectar Datos Fraudulentos o Inventados

Las frecuencias de los primeros dígitos (%)1 2 3 4 5 6 7 8 9

Ley de Benford 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6

Datos

verdaderos

impuestos

30.5 17.8 12.6 9.6 7.8 6.6 5.6 5.0 4.5

Datos

fraudulentos

0 1.9 0 9.7 61.2 23.3 1.0 2.9 0

Aplicaciones para la Detección del Fraude

Ej. 1 Fraude fiscal (Nigrini, Durtschi et al)

Ej. 2 Fraude en datos de clínicos, pruebas (IIDD, Buyse et al)

Ej. 3 Fraude en datos de la encuesta

(Judge, Schechter y Grendar, Swanson et al)

Ej. 4 Fraude en imágenes digitales

(Abdallah, Heileman y Pérez González; Jolion)

Ej. 5 Fraude ambiental (Marchi & Hamilton, Brown)

Ej. 6 Fraude electoral (Mebane)

Ej. 7 Fraude de seguros de salud (Lu y Boritz)

Figs

http://www.benfordonline.net

Newcomb 1881