experimentación numérica
DESCRIPTION
Experimentación Numérica. Antiplagium. Integrantes. Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado. Agenda. Objetivo de la Experimentación Selección del Método Experimental Hipótesis Ejecución del Experimento Resultados Conclusiones. - PowerPoint PPT PresentationTRANSCRIPT
ANTIPLAGIUM
Experimentación Numérica
Integrantes
Piere CorderoPatricia NatividadGustavo BarrenecheaRenzo GómezKim Alvarado
Agenda
1. Objetivo de la Experimentación
2. Selección del Método Experimental
3. Hipótesis4. Ejecución del Experimento5. Resultados6. Conclusiones
Objetivo de la Experimentación
Objetivo
Encontrar el algoritmo más eficiente para la detección de plagio de documentos.
Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.
Algoritmos a Comparar
Secuencia de Maximales
Lenguaje Natural
Factores Experimentales
Los factores elegidos para el análisis son:
El número de comparaciones entre documentos.
El tamaño de los documentos
Variables de Respuesta
El porcentaje de plagio de un documento contra los documentos de la base de datos.
El tiempo de ejecución del algoritmo de detección de plagio.
Selección del Método Experimental
Método Experimental
Se utilizará el estadístico T-Student.
Análisis con la distribución Normal.
Análisis de las medias con desviación estándar conocidas
Criterios de evaluación
Media muestral µ
Varianza muestral δ2
T-student
Sirve para comparar medias de muestras independientes.
Su objetivo es demostrar por hipótesis una muestra es mejor que otra.
Trabaja con la media y la varianza.
Requiere saber si las varianzas son iguales o no.
T-student
Alpha: Grado de confianza o de certeza.
Utilizaremos 95% como grado de certeza.
C: Punto crítico que separa la región a rechazar y la región de aceptación.
T-student
Sean:
Si: Varianza muestral del algoritmo ig.l.: Grados de libertad (n1+n2-2)
y la fórmula para hallar el estadístico t:
Hipótesis
Hipótesis para el tiempo de ejecución
H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural“
H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales ”
Siendo:X1: Media de tiempo de ejecución de Lenguaje Natural.X2: Media de tiempo de ejecución de Secuencia Maximales.
Hipótesis para el porcentaje de plagio
H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural“
H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales ”
Siendo:X1: Media de porcentaje de Lenguaje Natural.X2: Media de porcentaje de plagio de Secuencia Maximales.
Ejecución del Experimento
Muestra de ejecución
Datos Utilizados.
Ejecución del algoritmo Secuencia Maximales.
Ejecución del algoritmo Lenguaje Natural.
Datos utilizados
50 documentos de extensión .txt que serán comparados cada uno contra la los 49 restantes.
Ejecución del Experimento
Para los tiempo de ejecución
Secuencia Maximales Lenguaje NaturalItem Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)
1 algoritmos.TXT 19262 6862 Arte evaluacion.txt 1592 1863 Articulo PLN V0.txt 44828 36174 Articulo PLN V1.txt 35136 15605 Articulo SRI internet.txt 82660 2656 Articulo SRI REVISTA.txt 7943 3667 Articulo SRI V1.txt 76794 38538 Articulo SRI V2.txt 92471 22319 Articulo SRI V3.txt 33925 2980
10 Articulo SRI.txt 52088 385311 Biometria wikipedia.txt 14351 29712 Biometria.TXT 14066 32813 CLEI 2007.txt 46217 285514 Compresion internet.txt 38987 60815 CompresionV0.txt 24530 46816 CompresionV1.txt 24048 92017 CompresionV2.txt 45116 96718 CompresionV3.txt 78221 227819 CompresionV4.txt 107678 337020 CompresionV5.txt 86935 255821 Cuadro de Mando Integral.TXT 6938 53122 Desenredadndo la madeja V1.txt 1829 26523 Desenredadndo la madeja V2.txt 4243 1716
24 Diagnostico tuberculosis Procesamiento.TXT 32074 92025 Espacio vectorial V0.txt 56375 1263
Para los tiempo de ejecución
Secuencia Maximales Lenguaje Natural
Item Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)
26 Espacio vectorial V1.txt 14266 968
27 Espacio vectorial V2.txt 31406 702
28 Espacio vectorial V3.txt 17531 171
29 Espacio vectorial V4.txt 14485 156
30 Espacio vectorial V6.txt 16015 702
31 Evaluacion VAN RIJSBERGEN.txt 12594 686
32 Formato articulos CLEI.txt 7125 94
33 Informe final SRI.txt 138969 2496
34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 24906 6162
35 Motor de B£squeda 1.TXT 50172 1872
36 Motores de busqueda 2.TXT 34891 749
37 Reconocimiento de voz 1.TXT 4187 796
38 Reconocimiento de voz 2.TXT 3219 1653
39 Reconocimiento de voz wikipedia.txt 31164 234
40 Reconocimiento de voz.TXT 16359 1295
41 Recuperacion de informacion.txt 24812 4290
42 SegmentacionV1.txt 58796 1295
43 SegmentacionV2.txt 52422 1326
44 SegmentacionV3.txt 42063 1202
45 SegmentacionV4.txt 56578 1358
46 SegmentacionV5.txt 62375 1606
47 SegmentacionV6.txt 78219 2777
48 SegmentacionV7.txt 94219 2667
49 SegmentacionV8.txt 97938 2621
50 Sistema Experto.TXT 45234 1497
Comparación de tiempo de ejecuciónD
ocum
ento
a c
ompa
rar
cont
ra la
BD
algo
ritm
os.T
XTAr
te e
valu
acio
n.tx
tAr
ticul
o PL
N V
0.tx
tAr
ticul
o PL
N V
1.tx
tAr
ticul
o SR
I int
erne
t.txt
Artic
ulo
SRI R
EVIS
TA.tx
tAr
ticul
o SR
I V1.
txt
Artic
ulo
SRI V
2.tx
tAr
ticul
o SR
I V3.
txt
Artic
ulo
SRI.t
xtB
iom
etri
a w
ikip
edia
.txt
Bio
met
ria.
TXT
CLE
I 200
7.tx
tC
ompr
esio
n in
tern
et.tx
tC
ompr
esio
nV0.
txt
Com
pres
ionV
1.tx
tC
ompr
esio
nV2.
txt
Com
pres
ionV
3.tx
tC
ompr
esio
nV4.
txt
Com
pres
ionV
5.tx
tC
uadr
o de
Man
do In
tegr
al.T
XTD
esen
reda
dndo
la m
adej
a V1
.txt
Des
enre
dadn
do la
mad
eja
V2.tx
tD
iagn
ostic
o tu
berc
ulos
is P
roce
-sa
mie
nto.
TXT
Espa
cio
vect
oria
l V0.
txt
Espa
cio
vect
oria
l V1.
txt
Espa
cio
vect
oria
l V2.
txt
Espa
cio
vect
oria
l V3.
txt
Espa
cio
vect
oria
l V4.
txt
Espa
cio
vect
oria
l V6.
txt
Eval
uaci
on V
AN R
IJSB
ERG
EN.tx
tFo
rmat
o ar
ticul
os C
LEI.t
xtIn
form
e fin
al S
RI.t
xtin
trod
ucci
¢n a
los
sist
emas
de
re-
cupe
raci
¢n d
e in
form
aci¢
n.tx
tM
otor
de
B£s
qued
a 1.
TXT
Mot
ores
de
busq
ueda
2.T
XTR
econ
ocim
ient
o de
voz
1.T
XTR
econ
ocim
ient
o de
voz
2.T
XTR
econ
ocim
ient
o de
voz
wik
iped
ia.tx
tR
econ
ocim
ient
o de
voz
.TXT
Rec
uper
acio
n de
info
rmac
ion.
txt
Segm
enta
cion
V1.tx
tSe
gmen
taci
onV2
.txt
Segm
enta
cion
V3.tx
tSe
gmen
taci
onV4
.txt
Segm
enta
cion
V5.tx
tSe
gmen
taci
onV6
.txt
Segm
enta
cion
V7.tx
tSe
gmen
taci
onV8
.txt
Sist
ema
Expe
rto.
TXT
Item
Nro.
1 2 3 4 5 6 7 8 9 10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
0
20000
40000
60000
80000
100000
120000
140000
160000
Secuencia MaximalesLenguaje Natural
Para el porcentaje de detección de plagio
Secuencia Maximales
Lenguaje Natural
Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)
Porcentaje de plagio (%)
1 algoritmos.TXT 41 52 Arte evaluacion.txt 71 913 Articulo PLN V0.txt 70 534 Articulo PLN V1.txt 100 975 Articulo SRI internet.txt 100 316 Articulo SRI REVISTA.txt 55 867 Articulo SRI V1.txt 98 928 Articulo SRI V2.txt 99 969 Articulo SRI V3.txt 100 97
10 Articulo SRI.txt 96 9711 Biometria wikipedia.txt 41 812 Biometria.TXT 39 613 CLEI 2007.txt 53 714 Compresion internet.txt 39 615 CompresionV0.txt 100 10016 CompresionV1.txt 100 10017 CompresionV2.txt 100 10018 CompresionV3.txt 100 9719 CompresionV4.txt 81 6620 CompresionV5.txt 98 8521 Cuadro de Mando Integral.TXT 34 022 Desenredadndo la madeja V1.txt 46 023 Desenredadndo la madeja V2.txt 34 8
24Diagnostico tuberculosis Procesamiento.TXT 31 5
25 Espacio vectorial V0.txt 56 4
Para el porcentaje de detección de plagio
Secuencia Maximales Lenguaje Natural
Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)
Porcentaje de plagio (%)
26 Espacio vectorial V1.txt 68 6527 Espacio vectorial V2.txt 68 2228 Espacio vectorial V3.txt 96 7229 Espacio vectorial V4.txt 75 3430 Espacio vectorial V6.txt 60 3331 Evaluacion VAN RIJSBERGEN.txt 13 032 Formato articulos CLEI.txt 23 033 Informe final SRI.txt 44 4
34introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 96 57
35 Motor de B£squeda 1.TXT 60 2236 Motores de busqueda 2.TXT 40 337 Reconocimiento de voz 1.TXT 69 8638 Reconocimiento de voz 2.TXT 90 1139 Reconocimiento de voz wikipedia.txt 56 040 Reconocimiento de voz.TXT 39 7141 Recuperacion de informacion.txt 98 7242 SegmentacionV1.txt 99 9143 SegmentacionV2.txt 96 9644 SegmentacionV3.txt 98 9745 SegmentacionV4.txt 98 9746 SegmentacionV5.txt 96 9447 SegmentacionV6.txt 99 9248 SegmentacionV7.txt 100 9649 SegmentacionV8.txt 99 9550 Sistema Experto.TXT 38 1
Comparación de porcentaje de detección de plagio
Doc
umen
to a
com
para
r co
ntra
la B
Dal
gori
tmos
.TXT
Arte
eva
luac
ion.
txt
Artic
ulo
PLN
V0.
txt
Artic
ulo
PLN
V1.
txt
Artic
ulo
SRI i
nter
net.t
xtAr
ticul
o SR
I REV
ISTA
.txt
Artic
ulo
SRI V
1.tx
tAr
ticul
o SR
I V2.
txt
Artic
ulo
SRI V
3.tx
tAr
ticul
o SR
I.txt
Bio
met
ria
wik
iped
ia.tx
tB
iom
etri
a.TX
TC
LEI 2
007.
txt
Com
pres
ion
inte
rnet
.txt
Com
pres
ionV
0.tx
tC
ompr
esio
nV1.
txt
Com
pres
ionV
2.tx
tC
ompr
esio
nV3.
txt
Com
pres
ionV
4.tx
tC
ompr
esio
nV5.
txt
Cua
dro
de M
ando
Inte
gral
.TXT
Des
enre
dadn
do la
mad
eja
V1.tx
tD
esen
reda
dndo
la m
adej
a V2
.txt
Dia
gnos
tico
tube
rcul
osis
Pro
cesa
mie
nto.
TXT
Espa
cio
vect
oria
l V0.
txt
Espa
cio
vect
oria
l V1.
txt
Espa
cio
vect
oria
l V2.
txt
Espa
cio
vect
oria
l V3.
txt
Espa
cio
vect
oria
l V4.
txt
Espa
cio
vect
oria
l V6.
txt
Eval
uaci
on V
AN R
IJSB
ERG
EN.tx
tFo
rmat
o ar
ticul
os C
LEI.t
xtIn
form
e fin
al S
RI.t
xtin
trod
ucci
¢n a
los
sist
emas
de
recu
pera
ci¢n
de
info
rmac
i¢n.
txt
Mot
or d
e B
£squ
eda
1.TX
TM
otor
es d
e bu
sque
da 2
.TXT
Rec
onoc
imie
nto
de v
oz 1
.TXT
Rec
onoc
imie
nto
de v
oz 2
.TXT
Rec
onoc
imie
nto
de v
oz w
ikip
edia
.txt
Rec
onoc
imie
nto
de v
oz.T
XTR
ecup
erac
ion
de in
form
acio
n.tx
tSe
gmen
taci
onV1
.txt
Segm
enta
cion
V2.tx
tSe
gmen
taci
onV3
.txt
Segm
enta
cion
V4.tx
tSe
gmen
taci
onV5
.txt
Segm
enta
cion
V6.tx
tSe
gmen
taci
onV7
.txt
Segm
enta
cion
V8.tx
tSi
stem
a Ex
pert
o.TX
T
Item
Nro.
1 2 3 4 5 6 7 8 9 10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
0
20
40
60
80
100
120
Secuencia MaximalesLenguaje Natural
Resultados
Resultados para el tiempo de ejecución
SECUENCIA MAXIMALES LENGUAJE NATURAL gl
n 50 50 98
Media 41165.04 1566.32
S 32052.89694 1310.19272
t = -8.7274 Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"
Resultados para porcentaje de plagio
SECUENCIA MAXIMALES LENGUAJE NATURAL gl
n 50 50 98
Media 72 52.96
S 27.34436479 40.8870819
t = -2.7371 Rechazo Ho Si t > 1.9845
"Como t = -2.731 < 1.9845 se acepta Ho"
Conclusiones
Conclusiones
Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural
Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.
Bibliografía
Bibliografía
Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)