experiencia del estudio geoestadístico de composición

50
Experiencia del estudio geoestadístico de composición química de suelos, de los indicadores de factores y de las condiciones geoquímicas Josep A. Martín-Fernández, Josep Daunis-i-Estadella, Yulian G. Tyutyunnik Report de investigación IMA

Upload: others

Post on 16-Oct-2021

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Experiencia del estudio geoestadístico de composición

Experiencia del estudio geoestadístico de composición química de suelos, de los indicadores de factores y de las

condiciones geoquímicas

Josep A. Martín-Fernández, Josep Daunis-i-Estadella,

Yulian G. Tyutyunnik

Report de investigación IMA

Page 2: Experiencia del estudio geoestadístico de composición

2

Page 3: Experiencia del estudio geoestadístico de composición

3

Report de investigación

Experiencia del estudio geoestadístico de composición química de suelos, de los indicadores de factores y de las

condiciones geoquímicas

Josep A. Martín-Fernández,

Josep Daunis-i-Estadella, Yu. G. Tyutyunnik

Septiembre 2004

Page 4: Experiencia del estudio geoestadístico de composición

4

Resumen

Los métodos de modelado matemático de datos geoquímicos de suelos dan la posibilidad de generalizar y elaborar extensos análisis, los cuales hasta hoy día están recogidos y acumulados en la ciencia de suelos, la agroquímica. A.I.Pérelman (1987), uno de los más famosos geoquímicos del siglo XX, ya señaló como una tarea de gran importancia metodológica, la necesidad de aplicar potentes métodos de modelado en la geoquímica para analizar los grandes bancos de datos. En este trabajo de investigación se recogen los resultados de una experiencia de colaboración entre la geoquímica y la matemática en el análisis de una base de datos geoquímicos usando técnicas estadísticas de reciente aparición. Más concretamente, el trabajo se ha centrado en el análisis estadístico de los datos correspondientes al contenido de unos elementos químicos en unas observaciones de suelos.

1. Materiales y métodos de investigación

1.1. Descripción de la región de investigación Las observaciones de suelo han sido tomadas en una zona situada a unos 20 km al oeste de Kiev en la zona del sur de Polessie de Kiev, donde se hallan múltiples instituciones como hospitales, casas de colonias, etc. La zona muestreada está urbanizada e industrializada moderadamente . En la zona encontramos una ciudad (Irpén, 20 km de Kiev) y cuatro pueblos (Vórzel, Búcha, Gostómel, Kotsiyubísnkoe). Hay dos fábricas dedicadas a la producción de vidrio, unas fábricas de materiales de construcción, de leña, de muebles y de productos alimentarios. Hay un aeropuerto bastante grande, una red ferroviaria bien desarrollada y una autopista con tráfico intenso. Todos estos elementos son importantes fuentes de contaminación del medioambiente. La actividad agrícola está moderadamente desarrollada.

Respecto a la naturaleza, la región de investigación es bastante típica de la zona de Polesse. En ella se encuentran ampliamente extendidas las rocas geológicas del tipo de morrena (arcillas, subarcillas y subarenas), las arenas fluvio-glaciales y las arenas aluviales. También existen importantes depósitos de turba en el valle del río del Irpén. Entre las rocas arenosas de la zona se ha detectado la presencia de torio (hasta 29 mg/kg), que es un indicador de la presencia en ellas de los minerales monacita y bastnaesita, otros dos minerales radiactivos. El relieve de la zona es suave, los puntos más elevados raramente superan los 15–20 m, los valles están ampliamente extendidos, y existen unas pequeñas áreas pantanosas. La vegetación también es la típica de la región de Polesse: bosques de coníferas (pinos) y de coníferas-mezcladas (pinos, robles, abedules), en los valles predominan los prados, frecuentemente usados para la agricultura.

1.2. Muestreo La toma de observaciones estuvo basada sobre dos criterios generales: el criterio paisajístico-geoquímico y el criterio genético. La posterior clasificación de las observaciones y la estructura de base de los datos se basaron también en estos dos criterios.

Page 5: Experiencia del estudio geoestadístico de composición

5

1.2.1 El criterio paisajístico-geoquímico Según el esquema clásico de B.B.Polínov (1952) que fue después perfeccionado por A.I.Pérelman (1966) y M.A.Glazóvskaiya (1988), todos los paisajes geoquímicos elementales pueden ser agrupados en unos cuantos tipos dependiendo de su posición en el relieve, de su relación con las aguas subterráneas, y de la manera de cómo reciben del exterior los compuestos químicos. En consecuencia, se consideran los siguientes paisajes: eluviales, transeluviales, eluvial-acumulativos, acumulativo -eluviales, transobreacuáticos, sobreacuáticos, subacuáticos y acuáticos. Los dos primeros grupos también reciben el calificativo de paisajes independientes o autónomos. Este nombre intenta reflejar el hecho que estos paisajes reciben los compuestos químicos, por lo general, directamente de las precipitaciones atmosféricas. El resto de los paisajes geoquímicos elementales se denominan paisajes dependientes porque reciben los componentes químicos a través de las precipitaciones, pero también de las corrientes laterales de agua que van por las vertientes de los paisajes autónomos y, en lugares bajos, de las aguas subterráneas.

Los puntos de muestreo están situados en diferentes paisajes geoquímicos elementales de tal modo que abarquen proporcionalmente todas las condiciones paisajístico-geoquímicas y también todas las formas de influencia tecnogénica. En cada lugar de muestreo lugar clave se excavó una fosa especial realizando el corte del suelo. En total se excavaron 36 cortes de suelo, los cuales se distribuyeron por los paisajes elementales del modo siguiente: 15 cortes eluviales; 4 transeluviales, es decir, un total de 19 cortes en paisajes autónomos; 6 cortes eluvial-acumulativos; 5 acumulativo-eluviales; 1 transsobreacuático; y 5 cortes en paisaje sobreacuático, es decir, un total de 17 cortes en paisajes dependientes. Hay que subrayar que distinguir los paisajes elementales entre condiciones de relieve monótono y relieve suave es una tarea bastante difícil. Al mismo tiempo, tal y como han mostrado nuestras investigaciones de las propiedades físicas y radiológicas de suelos basadas sobre muestreo paisajístico-geoquímico, tal muestreo es productivo (Tyutyúnnik y Shabatúra, 2003; Tyutyúnnik et al. ,2004). 1.2.2 El criterio genético Este criterio consiste en tomar observaciones del corte de suelo sin seguir un criterio regido exclusivamente en la profundidad, sino tomar observaciones de las partes centrales de las capas genéticas que se observan en el suelo. La concepción de las capas genéticas de suelo procede de las bases de la ciencia de suelo, como las había creado V.V.Dokucháev a finales del siglo XIX. Según la visión clásica de la ciencia de suelos en Rusia, y después en la URSS, cada especie de suelo puede ser determinada e identificada como una cierta combinación vertical de las capas genéticas de suelo en los límites del corte de suelo habitualmente y aproximadamente, hasta 1.5 m de profundidad. En su etapa de formación, y en su posterior evolución, el suelo se diferencia espontáneamente en capas. Desde el punto de vista estructural, el proceso del surgimiento y desarrollo del suelo es el proceso de la diferenciación de la roca inicial o roca parental y del cuerpo de suelo en ciertas capas genéticas. Las capas genéticas de suelo son capas específicas, en las cuales tienen lugar ciertos procesos de formación del suelo característicos solamente para esas capas y no para otras.

Page 6: Experiencia del estudio geoestadístico de composición

6

Claro que antes de recoger una muestra del centro de cierta capa genética, debe haberse determinado la especie de suelo e identificado la estructura de las capas. Cada capa genética se caracteriza por uno o dos raramente tres procesos principales de formación del suelo. Combinaciones de procesos de formación del suelo, de la intensidad de su manifestación, del ritmo de funcionamiento etc. pueden ser muy diversas, pero hay posibilidades de unirlos en ciertos tipos generales. Las capas genéticas del suelo se distinguen empíricamente en el transcurso de la investigación del corte de suelo según señales morfológicas. Esas señales morfológicas se eligen de tal modo que reflejen la especificidad de los procesos ocurridos en el suelo. Es decir, destacando una capa genética, al mismo tiempo estamos destacando uno u otro tipo principal de proceso de formación del suelo. Las capas genéticas generalizadas de los suelos de región de la investigación y los procesos más característicos que pasan en ellas, están dados en la Tabla 1.

Tabla 1. Las capas genéticas de los suelos de la región de investigación: nombres y procesos más característicos que pasan en ellas.

Nombre capa (símbolo)

Proceso más característico

capa de acumulación de restos orgánicos

(Hd)

Formación de una capa de residuos de bosques o prados (ramitas, hojas, agujas, piñas, musgos, hierbas, otros restos de plantas). Destrucción inicial de los restos orgánicos, inicio de la formación de humus

capa de humus (H)

Formación de humus y su acumulación (humificación).

capa eluvial (E)

Eluviación de sustancias químicas solubles y elementos químicos y también de partículas minúsculas de arcilla con corrientes verticales de la humedad de suelo. Enriquecimiento de suelo por las partículas minúsculas del SiO2 de resto.

capa iluvial (I)

Iluviación de sustancias químicas, elementos químicos y partículas arcillosas eluviados con las corrientes verticales de la humedad de las capas altas del suelo. Enriquecimiento de suelo por partículas arcillosas, óxidos, hidróxidos (especialmente del Fe) y otros compuestos químicos.

capa hléica (Gl)

Humectación constante, reducción del hierro, manganeso, sulfuro (Fe3+→ Fe2+; Mn3+→ Mn2+; S6+→ S2−) en condiciones exceso de humedad, déficit de O2 y desarrollo de procesos bioquímicos anaerobios.

capas relacionadas

directamente con la roca parental y

la propia roca parental (P)

La influencia de las propiedades mineralógicas y geoquímicas iniciales de la roca, sobre la cual se formó el suelo

Page 7: Experiencia del estudio geoestadístico de composición

7

1.3. Análisis químico y estructura de la base de datos Cada muestra de suelo es una mezcla física tomada de la parte central de una capa a una cierta profundidad. Las observaciones de rocas halladas a máxima profundidad, hasta la cual había sido excavado el corte, fueron tomadas con ayuda de un perforador manual. Las de observaciones del suelo se analizaron con ayuda del método analítico de la fluorescencia de roentgen. Fueron determinados los 12 elementos químicos siguientes: Mn, Fe, Cu, Zn, Ga, Rb, Ba, La, Ce, Nd, Sr, y Pb. Las concentraciones de estos elementos se expresaron en microgramos por gramo (µg/g).

La base de datos se presenta en una tabla de valores de las concentraciones de elementos químicos. Cada fila de las 184 existentes corresponde a una muestra. Cada una de las 12 columnas principales corresponde a un elemento químico. Además en la base de datos están definidas unas columnas donde se recogen el nombre de la capa genética de la muestra Hd, H, E, I, Gl, P; el nombre del paisaje geoquímico elemental; el nombre del grupo de paisaje paisaje autónomo o dependiente; y la profundidad de la toma de la muestra. La profundidad a la que fue recogida la muestra se agrupó según los 8 intervalos siguientes: 0–5 ?m; 5–10 ?m; 10–15 ?m; 15–20 ?m; 20–30 ?m; 30–50 ?m; 50–100 cm; y, más de 100 ?m.

2. Metodología estadística: análisis de datos composicionales

2.1. Los datos composicionales

Un dato composicional es un vector [ ]D1 x,...,x=x , cuyas componentes positivas

D1 x,...,x representan partes de un todo, y por tanto, es un vector que está sujeto a la restricción de que la suma de sus componentes sea la unidad, o en el caso general, una constante kx...x D1 =++ . El espacio muestral de los datos composicionales es el símplex definido por [ ]{ } .k=x+...+x );D,...,1=j(0>x:x,...,x= D1jD1

DS Para el caso tridimensional, D=3, el símplex S3 suele representarse mediante el diagrama ternario, triángulo equilátero de altura unidad (véase la Figura 1). Existe una correspondencia biunívoca entre los datos composiciones con 3 partes y los puntos del diagrama ternario. Un dato composicional [ ]321 x,x,x=x se corresponde con el punto que dista 321 x,x,x , respectivamente, de los lados opuestos a los vértices 1, 2 y 3.

Figura 1. Representación de un dato composicional [ ]321 x,x,x=x del símplex S3 en el

diagrama ternario.

Page 8: Experiencia del estudio geoestadístico de composición

8

Los datos composicionales aparecen en áreas muy diversas como, por ejemplo, en economía, arqueometría, sanidad o biología. En geología aparecen al estudiar problemas muy diversos. Por ejemplo, al expresar la composición geoquímica de una roca como el porcentaje en peso de los óxidos más abundantes se obtienen datos composiconales. Encontramos en la literatura geológica numerosos trabajos con diversos objetivos. Por ejemplo, Thomas y Aitchison (1998) estudian qué óxidos son más efectivos a la hora de discriminar entre dos tipos de calizas. Tolosana et al (2002) presentan un análisis discriminante de basaltos y rocas afines basándose en los elementos traza presentes en los mismos. Buccianti et al (2002) utilizan el porcentaje de los componentes químicos de los gases en fumarolas de volcanes para estudiar las constantes de equilibrio en diferentes reacciones químicas. Weltje (2001) construye regiones de confianza en el símplex para rocas detríticas. También es frecuente encontrar datos composicionales de naturaleza granulométrica provenientes de sedimentos marinos. En estos casos se separan las componentes arenosas de los sedimentos según el tamaño del grano y se mide el porcentaje en peso de cada tamaño de grano respecto del peso total de la muestra recogida. Martín-Fernández et al (1997) analizan la base de datos Darss Sill, que contiene observaciones de sedimentos en diferentes puntos geográficos del fondo del Mar Báltico, con el objetivo de realizar un mapa del fondo marino con diferentes zonas según el tipo de sedimento.

Antes de indicar la problemática específica que comporta el análisis estadístico de los datos composicionales, introducimos dos definiciones de gran importancia: el operador clausura y la noción de subcomposición. A partir de un vector cualquiera con componentes positivas siempre podemos obtener un dato composicional del símplex. Basta con dividir cada una de sus componentes por la suma de todas ellas. Esta operación se realiza mediante el operador clausura C. Este operador hace corresponder a cada vector [ ]D1 w,...,w=w de componentes positivas su dato composicional asociado:

.w

w,...,

w

w

j

D

j

1

∑∑k=w)C(

En algunos casos puede interesarnos analizar únicamente el valor de las magnitudes relativas de un subconjunto de partes subcomposición de unos datos composicionales. Si xS simboliza el subvector de x formado por S partes de la D, entonces C(xS) es la subcomposición correspondiente. Obsérvese que una subcomposición tiene como propiedad el que conserva la magnitud relativa entre las partes implicadas.

Una de las dificultades más relevantes en el análisis estadístico de los datos composicionales reside en la imposibilidad de interpretar correctamente las covarianzas y los coeficientes de correlación. La matriz de correlaciones habitual no puede analizarse en el estudio de datos composiconales porqué presenta necesariamente correlaciones negativas no nulas, determinadas precisamente por la restricción de suma constante. Estas correlaciones falsean la imagen de las relaciones de dependencia y pueden conducir a interpretaciones erróneas. En particular, si analizamos la matriz de covarianzas usual entre las partes de una composición, obtenemos que

cov(x1,xi)+cov(x2,xi)+...+cov(xD,xi)=0, a causa de la restricción kx...x D1 =++ . Al ser la varianza de una parte estrictamente positiva, excepto en la situación trivial que la parte sea una constante, necesariamente

Page 9: Experiencia del estudio geoestadístico de composición

9

debe haber una covarianza de signo negativo. Vemos pues que estas covarianzas no son libres de tomar cualquier valor. Esto invalida la interpretación habitual de las covarianzas y, por ende, de las correlaciones, pues a priori suponemos que deberían poder adquirir libremente valores nulos, positivos o negativos. Por el mismo motivo, el hecho que el coeficiente de correlación entre dos partes cualesquiera de una composición sea igual a 0 no puede interpretarse, como es habitual, como indicio de independencia entre ambas partes. Encontramos otra incoherencia en relación a las subcomposiciones. Intuitivamente esperaríamos encontrar una cierta relación entre la matriz de covarianzas de una subcomposición y la de la composición de procedencia. Sin embargo, no existe ninguna relación. Es posible (Aitchison, 1997) incluso que dos partes estén correlacionadas positivamente en el seno de una composición y en cambio pasen a tener correlación negativa al analizarlas como partes integrantes de una subcomposición. En otras palabras, el signo de la covarianza entre dos partes puede ir fluctuando cuando nos movemos de la composición inicial a subcomposiciones de dimensión cada vez más pequeña. El hecho que en la gran mayoría de métodos estadísticos multivariantes la matriz de covarianzas juega, en mayor o menor medida, un papel importante, ya nos hace intuir que el análisis de los datos composicionales no podrá ser realizado mediante la aplicación de las técnicas clásicas.

En general tampoco es correcto aplicar las operaciones clásicas del espacio real vectorial a los datos composicionales. Martín-Fernández et al (1998) muestran un ejemplo que pone en evidencia que la distancia euclidiana no es una medida de diferencia adecuada entre datos composicionales. Esto tiene consecuencias estadísticas importantes porque existen multitud de conceptos y técnicas estadísticas que se fundamentan de forma más o menos explícita en la distancia euclidiana.

Otra de las dificultades importantes es la falta de familias paramétricas

suficientemente flexibles para modelar los conjuntos de datos composicionales. Las distribuciones de Dirichlet y sus generalizaciones se obtienen mediante la clausura de vectores aleatorios con componentes independientes. Como consecuencia, sus partes son prácticamente independientes, puesto que su correlación está únicamente motivada por el hecho de haber dividido todas sus componentes por la suma de éstas. Esto impide su uso en la modelización de fenómenos con relaciones de dependencia no inducidas por la suma constante. Todas estas dificultades ponen de relieve la necesidad de replantear el análisis estadístico de los datos composicionales.

2.2. Metodología: geometría y transformaciones

La mayor aportación de la monografía de Aitchison (1986) consistió en establecer que un estudio apropiado de la variación relativa en un conjunto de datos composicionales debe basarse en logcocientes. Esta aportación, conocida como “logratio analysis”, ha sido el mayor avance reciente en el análisis de los datos composicionales. Aitchison argumenta que nuestra atención debe centrarse en la magnitud relativa de las componentes, es decir, en los cocientes xi/xj (i,j=1,2,...,D; i≠j). Por lo tanto, diremos que un problema es composicional cuando reconozcamos que el valor en términos absolutos de las componentes es irrelevante. Este planteamiento ha inspirado la definición las operaciones básicas perturbación ‘⊕’, potenciación ‘⊗’, y producto escalar ‘<,>’:

Page 10: Experiencia del estudio geoestadístico de composición

10

,,...,11

=⊕∑∑

jjj

DD

jjj yx

yxyx

yxyx

,,...,1

=⊗

∑∑j

j

D

jj x

xx

α

α

α

α x

∑<

=ji j

i

j

ia y

yxx

Dlnln

1,yx ,

donde x e y son datos composicionales, y α es un número real. En estas operaciones se ha considerado, sin pérdida de generalidad, que la constante de la restricción de la suma de componentes es igual a la unidad (k=1).

Estas tres operaciones dotan al símplex de una estructura de espacio vectorial euclidiano de dimensión D-1. Esta estructura se debe tener en cuenta cuando se analiza estadísticamente un conjunto de datos composicionales. En particular cuando sea necesario utilizar distribuciones de probabilidad y medidas de tendencia central, dispersión y distancia, si se desea que estos elementos sean compatibles con la tipología de los datos. Las características matemáticas del soporte de los datos composicionales, sus distribuciones de probabilidad y sus medidas adecuadas han sido analizadas en profundidad en muchos trabajos, entre los que destacamos Aitchison (1986, 2000), Martín-Fernández (2001), y Mateu-Figueras (2003).

La metodología de Aitchison se basa en la trasformación de los datos composicionales al espacio real multivariante. Trabajando con los cocientes desaparecen los problemas de las correlaciones espurias. Si tomamos los logaritmos de los cocientes, el espacio final es el espacio real y por lo tanto podemos aplicar cualquier técnica estadística clásica. Existen diversas posibilidades para transformar los datos, todas ellas están basadas en los logaritmos de cocientes entre las componentes de un dato composicional. La trasformación logcociente aditiva (alr)

,ln,...,lnalr( 11

D

D

D xx

xx

=x)

es una transformación biyectiva, pero no es simétrica en las partes ya que la componente del denominador adquiere un protagonismo especial respecto al resto. La transformación logcociente centrada (clr)

,)(

ln,...,)(

lnclr( 1

xx

=x)gx

gx D

donde el denominador g(x) es la media geométrica de las D partes de x. Esta trasformación es biyectiva y simétrica entre las partes. Su imagen es el hiperplano del espacio real D-dimensional que pasa por el origen y es ortogonal al vector de unidades, es decir, la suma de las componentes del vector trasformado es igual a cero. Nos encontramos pues ante una nueva dificultad ya que la matriz de covarianzas del vector clr-trasformado será singular. En Egozcue et al (2003) los autores introducen la transformación logcociente isométrica (ilr). Esta transformación tiene su fundamento en el hecho que las operaciones perturbación y potenciación dotan al símplex de estructura de espacio

Page 11: Experiencia del estudio geoestadístico de composición

11

vectorial euclidiano con dimensión D-1. En consecuencia, si denotamos como 11,..., −Dee a una base ortonormal del símplex, toda composición x está determinada de forma única por su vector de coordenadas [ ],,...,ilr( aa ><>< 1D-1 ex,ex,=x) Esta transformación permite identificar cada elemento del símplex con su vector de coordenadas.

La existencia de más de una transformación nos lleva a la situación de deber elegir entre una de ellas como paso previo a la aplicación de cualquier método estadístico multivariante. Ciertamente, las tres transformaciones están relacionadas mediante expresiones matriciales que permiten obtener cada una de ellas a partir de cualquiera de las otras. En este trabajo no se reproducen estas relaciones matriciales por motivos de brevedad, para más detalles consúltese Aitchison (1986) y Egozcue et al (2003). Naturalmente, será también nuestra misión investigar si los resultados obtenidos de la aplicación del método estadístico multivariante se ven o no afectados por la transformación elegida.

Tradicionalmente, en las aplicaciones que exigen simetría en el tratamiento de sus componentes, como por ejemplo una clasificación no paramétrica, se utiliza la trasformación clr. Para la modelización de conjuntos de datos composicionales con distribuciones multivariantes, se ha venido utilizando mayoritariamente la trasformación alr. De esta forma se evita trabajar con distribuciones degeneradas. Si se desea utilizar la transformación clr en trabajos que incluyan el modelo normal, Barceló-Vidal et al. (1999) demuestran que para salvar la dificultad de matrices de covarianzas degeneradas es suficiente con prescindir de una de las variables del conjunto de datos clr-transformados. Sin embargo, con cualquiera de las dos trasformaciones, se deberá analizar si los resultados del método aplicado son invariantes por permutaciones de las componentes. Esta metodología ha permitido ampliar las familias de distribuciones sobre el símplex. Destacamos el modelo normal logístico aditivo (Aitchison, 1986) o el modelo normal asimétrico logístico aditivo (Mateu-Figueras et al, 1998). En la actualidad se están desarrollando (Mateu-Figueras and Pawlowsky-Glahn, 2004) la definición de modelos paramétricos basados en la transformación ilr. Usando esta transformación únicamente queda la dificultad de constatar que los resultados no dependen de la base ortonormal escogida. Paralelamente se está trabajando en modelos definidos sin necesidad de recurrir a las transformaciones. En el trabajo Mateu-Figueras and Pawlowsky-Glahn (2004) los autores introducen el modelo normal en el símplex a partir de la función de densidad de su vector de coordenadas.

Aitchison (1992) concluye que la naturaleza de los datos composicionales impone que cualquier distancia entre datos composicionales de cumplir los siguientes requisitos: invariante por cambios de escala, invariante por perturbaciones, y subcomposicionalmente dominante. Se puede definir una distancia adecuada mediante la expresión )),clr(),clr((, yx= y)(x eua dd donde deu representa la distancia euclidiana.

Si [ ]{ }Nixx DiDii ,....,1:,...,== 1 =∈ SxX representa un conjunto de datos

composicionales, habitualmente la media aritmética X del conjunto de datos no es representativa del centro del conjunto, y además no es una medida compatible con la operación perturbación.

Page 12: Experiencia del estudio geoestadístico de composición

12

Aitchison (1997) propuso la media geométrica composicional )(Xξ como una medida más representativa del centro de un conjunto. Esta medida se define

,),...,()( 1 DggC=Xξ

donde g xj iji

N N=

=∏

1

1

es la media geométrica de la j-ésima parte. La Figura 2 muestra

el diagrama ternario de un conjunto de datos simulado (Aitchison, 1986) donde se aprecia que la media geométrica recoge mejor la tendencia central del conjunto y la media aritmética aparece muy alejada.

X1

X2 X3

GEOMÉTRICA ARITMÉTICA

Figura 2. Conjunto de datos en el diagrama ternario: ξ(X )=[0.61, 0.27, 0.12] y X = [0.54, 0.28, 0.18].

Es sencillo demostrar que )()( XpXp ξξ ⊕=⊗ para cualquier perturbación DSp ∈ , que

X)X clr())(clr( =ξ , y que ).)clr(),clr(()(, Xx= )X(x eua dd ξ La perturbación por el inverso del

elemento centro, )(1 X−ξ , nos centrará el conjunto de datos, es decir, los datos perturbados XXY ⊕ξ= − )(1 tendrán su nuevo centro en el baricentro

[ ]D/1...,,D/1,D/1=e del símplex (Martín-Fernández et al., 1999). A este procedimiento lo denominaremos centrado de un conjunto de datos.

Es natural asumir que cualquier medida de variabilidad de un conjunto de datos

debe ser invariante por perturbaciones. La medida definida por Aitchison (1992,1997) satisface esta condición. Esta medida está basada en la traza de la matriz de covarianzas del conjunto datos clr-transformados. De acuerdo con esta definición se puede definir una medida de variabilidad según la expresión

totvar( )Xx

=

==

∑∑ log( )

,x

gmij

ij

i

N

j

D

11

2

donde mN

x

gj Dj

ij

ii

=

=∑1

1log( )

( ,..., )x

. Es sencillo demostrar que

totvar( ) totvar( )p X Xo = y que ( ) ( ),)(,)(clr),(clr)totvar(1

2

1

2 ∑∑==

==N

iia

N

iieu dd XxXxX ξ

Page 13: Experiencia del estudio geoestadístico de composición

13

con lo que se demuestra que la medida es invariante por perturbaciones y es compatible con la distancia da.

2.3. Biplot y matriz de variación

En una primera fase descriptiva del análisis estadístico de un conjunto de datos se recomienda el estudio del biplot junto a la matriz de variación. El análisis conjunto de esta matriz y del biplot nos ayuda a mejorar la interpretación de las representaciones en el biplot y así se facilita la obtención de los patrones de relación entre partes. La segunda fase descriptiva consiste en detectar las diferentes configuraciones de las partes representadas en el biplot y el uso de éstas para el análisis más detallado mediante los diagramas ternarios de las subcomposiciones implicadas. El análisis no se centrará en las subcomposiciones de máxima variabilidad, donde se observará que habitualmente nos aportan poca o nula información; sino en las subcomposiciones ternarias con una configuración colineal en el biplot y en las subcomposiciones con partes ortogonales en el biplot. Finalmente se abordará una fase de análisis subcomposicional, mediante el uso de diagramas ternarios, para comprobar las relaciones obtenidas en el biplot entre las subcomposiciones. Se constatará cómo, mediante la técnica del centrado, se puede mejorar la visualización de algunas de estas relaciones y que es posible visualizar, por ejemplo, patrones lineales ocultos o la existencia de grupos (clusters) de observaciones en el conjunto de datos. La matriz de variación formada por las varianzas de los logratios entre partes Xi y Xj, donde el elemento ij-ésimo de la matriz viene definido por

XjX

lnvar i

Nótese que por definición será una matriz simétrica y de diagonal nula. Esta matriz nos dará una útil descripción sumaria de los patrones de variabilidad entre componentes. Una información muy interesante se obtiene de los valores más grandes de la matriz, es decir, podemos detectar partes con gran variabilidad entre ellas. Recíprocamente, cuando observemos en la matriz que las variaciones de los logratios entre dos partes son aproximadamente cero podemos pensar que se nos está indicando que estas dos partes son aproximadamente proporcionales.

Un biplot es una representación gráfica bidimensional de las filas y de las columnas de una matriz rectangular, donde las filas son frecuentemente individuos o unidades de muestreo y las columnas son variables o componentes. Por lo tanto, el biplot es una técnica gráfica de reducción de la dimensionalidad de un conjunto de datos multidimensionales. Para poder aplicar la técnica de Biplot es necesario transformar la matriz de datos composicionales X en una matriz Y, que será la que representaremos. Atendiendo a nuestra naturaleza composicional de los datos, nosotros utilizaremos bàsicamente la transformación logcociente centrada, llamada clr, donde se usan los logratios entre componentes y su media geométrica, Y=clr(X).

El biplot de Y es la representación de la factorización matricial Y=FGt. Las filas de F y las columnas de G nos proporcionan, respectivamente, las coordenadas de los N puntos para las filas y de los D puntos para las columnas. Para hallar la factorización nos basaremos en la descomposición en valores singulares (dvs) de la matriz Y.

Page 14: Experiencia del estudio geoestadístico de composición

14

Supongamos que la matriz transformada Y tiene rango r. La dvs de la matriz Y se define como Y=UΛVt que puede ser escrita en términos de sumatorio como

ii

r

1ii vuY ∑

=

λ=

Los escalares λi son los valores singulares en orden decreciente, (ui) es el conjunto de vectores propios por la izquierda y (vi) es el conjunto de vectores propios por la derecha. En ambos conjuntos los vectores son ortonormales, es decir, a pares están en ángulo recto y con longitud uno, y U y V son matrices que contienen, respectivamente, a estos vectores en sus columnas. Los vectores ui y v i se usaran para construir las coordenadas de los datos en una dimensión reducida y así obtener representaciones gráficas. Con el uso de los s primeros sumandos del sumatorio se obtendrá una aproximación de Y. Para obtener una medida de la calidad de esta aproximación calcularemos el cociente de la suma de los s primeros valores propios sobre la suma total de los valores propios, que es el invariante correspondiente a la traza de la matriz y nos informa de la variabilidad total del conjunto de datos.

El biplot consiste en una representación bidimensional aproximada, es decir consideramos s=2. Eckart and Young (1936) demuestran que la mejor aproximación bidimensional que minimiza la distancia euclidiana a la matriz Y es la matriz Y definida por 222111

ˆ vuvuY λλ += Usando esta descomposición, la aproximación bidimensional de Y sería: 2211

ˆ gfgfY += El biplot se obtendría representando cada fila como el punto de coordenadas (f1,f2) y cada columna como el punto de coordenadas (g1,g2), éstas representadas como vectores. La dvs nos proporciona una descomposición que será la natural para el biplot, restando únicamente la elección a qué factor asignamos el valor propio. La asignación del valor propio a los factores F nos lleva al llamado biplot de forma (fi=λiui y gi=vi), que favorece la representación de los individuos, mientras que la asignación del valor propio a los factores G nos lleva al llamado biplot de covarianza (fi=ui y gi=λiv i), que favorece la representación de las variables (Greenacre and Underhill, 1982). En el trabajo de Aitchison y Greenacre (2002) se desarrolla la aplicación de los biplots a los datos composicionales y las transformaciones necesarias de la matriz original de datos X de acuerdo con la naturaleza de los datos. Esto les lleva a ver la equivalencia del biplot de logratios y el biplot de logratios entre componentes y su media geométrica, resultado de la transformación logratio centrada clr. Éste último es de menor dimensión y, por lo tanto, es el que se usa habitualmente, llamándolo biplot de variación relativa o biplot composicional, puesto que los vectores que emanan del centro son la representación relativa de una componente en relación al centro geométrico, es decir, en relación al conjunto de las componentes y no la representación de la componente. Esta es una de las diferencias esenciales con los biplots habituales que se deberá tener en cuenta en el momento de la interpretación.

Para el análisis de los biplots será de especial importancia el concepto de luz o link entre dos vértices de dos vectores en el biplot, dimensión entre ellos, que corresponde a la combinación lineal de las variables correspondientes. Para profundizar en el

Page 15: Experiencia del estudio geoestadístico de composición

15

análisis del biplot, destacamos algunas propiedades de los biplots composicionales (Aitchison y Greenacre, 2002) que nos ayudarán a escoger las mejores representaciones para ser estudiadas mediante diagramas ternarios:

• Las distancias, luces, entre los vértices de las representaciones clr de las partes, son aproximaciones de las desviaciones estándar entre logratios. Es decir, representan las raíces cuadradas de los valores de la matriz de variación. De esta manera, luces pequeñas corresponderán aproximadamente a varianzas de logratios pequeñas, es decir, a partes proporcionales.

• Los cosenos de los ángulos entre luces en el biplot composicional son estimadores de las correlaciones entre logratios. Así pues, luces perpendiculares, indican que el primer conjunto de partes tiene una correlación próxima a cero con las partes del segundo conjunto. Mientras que luces alineadas indican que tienen correlaciones próximas a uno.

• En un biplot composicional, vértices alineados corresponden, por una parte logratios correlacionados, como ya se ha indicado, y, por otra, la proporcionalidad entre sus luces nos da una aproximación de su relación de proporcionalidad.

Estas propiedades llevarán a dos conclusiones que deberemos tener en cuenta cuando usemos diagramas ternarios para obtener información más detallada a partir de los biplots. Estas son: a) no es conveniente escoger subcomposiciones de máxima variabilidad y b) disposiciones de tres componentes alineadas pueden sugerirnos patrones lineales en el diagrama ternario de la subcomposición correspondiente.

2.4. El problema de los ceros

La mayor parte de las técnicas utilizadas en un análisis estadístico de datos composicionales se fundamenta en la transformación de los datos mediante las aplicaciones alr, clr e ilr. Lamentablemente estas transformaciones no son aplicables a observaciones que tengan nula alguna de sus componentes. En muchas situaciones prácticas podemos encontrar conjuntos de datos con observaciones cuyas componentes contengan valores nulos. Por ejemplo, en el estudio de datos referentes al reparto de las diferentes partidas del presupuesto familiar podemos encontrar familias en las que la componente correspondiente a la partida de tabaco y bebidas alcohólicas sea nula. Otro caso diferente de valor nulo puede aparecer en el estudio de la composición mineral de diferentes rocas en el que podemos encontrar componentes nulas debido a que un particular mineral no ha sido detectado.

En el análisis estadístico de datos composicionales se distinguen dos tipos de valores nulos o ceros: ceros esenciales y ceros por redondeo. El valor nulo que aparece en un estudio de los presupuestos de las familias es un cero de tipo esencial o absoluto. Este tipo de valor nulo aparecerá mayoritariamente en estudios cuyos datos composicionales puedan entenderse como realizaciones de variables aleatorias multinomiales. Por el contrario, el valor nulo que aparece en el estudio de la composición mineral es habitualmente considerado un cero por redondeo, es decir, es un valor nulo que indica que no se ha registrado la presencia del mineral en cuestión puesto que no se ha superado el umbral de detección inherente al proceso de medida. En la aplicación de una técnica multivariante a un conjunto de datos composicionales, el tratamiento de datos que contengan uno u otro tipo de cero es diferente.

Page 16: Experiencia del estudio geoestadístico de composición

16

En la mayor parte de los estudios de conjuntos de datos composicionales sería factible inducir la presencia de componentes con valores nulos simplemente aumentando el número de componentes a considerar en las observaciones. Por ejemplo, si en un estudio de la composición de los presupuestos de las familias, subdividimos la componente Vestido y Calzado en las componentes: Camisas, Pantalones, Faldas, Suéteres, Chaquetas, Abrigos, Ropa interior, Botas, Zapatos, y Calzado Deportivo, nos aparecerán componentes con valores nulos. En consecuencia, una primera cuestión que debemos resolver en un estudio de datos con ceros es si estos ceros son o no producto de una subdivisión excesiva de las componentes que estamos observando. En el caso que la respuesta sea afirmativa, es necesario realizar una amalgama (Aitchison, 1986) de algunas de las componentes de las observaciones. Recordemos que la operación amalgama consiste en aglutinar o sumar partes obteniéndose un conjunto de datos de menor dimensión por lo que refiere al número de partes. Observemos que uno de los efectos de la operación amalgama es eliminar la presencia de valores nulos en las componentes. En consecuencia, la amalgama debe considerarse como una fase previa a la aplicación de una técnica multivariante. Esta operación debe realizarse teniendo siempre muy presente la propia naturaleza de las componentes a aglutinar. En general, una vez se ha superado la fase de amalgama de los datos deberá decidirse si se asumen los valores nulos como ceros esenciales o como ceros por redondeo.

Por lo que se refiere a conjuntos de datos con ceros esenciales, la presencia de un cero esencial en una parte de una observación nos informa que, en relación a otra observación que en la misma componente contenga un valor no nulo, estas dos observaciones deben pertenecer a grupos diferentes. Esta idea se conoce como el Problema del Martini Perfecto, del inglés Perfect Martini Problem. Se considera que un Martini es una bebida consistente en una mezcla, en diferentes proporciones, de ginebra, de vermut seco, y de vermut dulce. La idea fundamental que aparece en este ejemplo es que una observación –bebida– que contenga un cero esencial en una componente –le falta un ingrediente– no es un Martini, sino una bebida diferente. En consecuencia, cuando se está interesado en aplicar una técnica estadística a un conjunto de datos con observaciones que contienen ceros esenciales, estos valores nulos juegan un papel de atributos que separan a las observaciones entre si, según el número y la disposición de sus ceros. De esta manera, dos observaciones inicialmente pertenecen al mismo grupo si son observaciones con ceros comunes, es decir con el mismo número y disposición de los valores nulos. A partir de esta preclasificación inicial, y dentro de cada grupo, aplicaremos la técnica estadística deseada. En la aplicación de la técnica, dentro de cada grupo, se utilizarán únicamente las partes no nulas. En Martín-Fernández (2001) se propone un algoritmo automático para crear los grupos de datos en función del número y disposición de los ceros. Si nos centramos en el problema de los ceros por redondeo, recordemos que estamos asumiendo que el valor nulo que aparece en una parte es un dato que se ha traducido por un cero debido a que corresponde a valores que no han sido registrados o detectados por ser valores extremadamente pequeños. Es decir, en una parte de la observación aparece un cero que proviene de un dato censurado por tener un valor inferior al umbral de detección de la variable en cuestión. Este umbral de detección se deriva de la precisión con la que se trabaja en el proceso de medida. Está ampliamente aceptado que la estrategia a seguir se inspira en el reemplazamiento de los ceros por redondeo por una cantidad relativamente pequeña. En Martín-Fernández (2001) y

Page 17: Experiencia del estudio geoestadístico de composición

17

Martín-Fernández et al (2003) se exponen en detalle las dificultades que presenta el reemplazamiento propuesto por Aitchison (1986) y el interés por buscar una substitución coherente con el carácter composicional de los datos. En aquellos trabajos se propone una nueva aproximación al problema basada en el reemplazamiento de los ceros por redondeo mediante una fórmula que tenga buenas propiedades respecto de las operaciones perturbación y formación de subcomposiciones. Consideremos δk el valor del reemplazamiento derivado del umbral de detección para la k-ésima componente. Sea x una observación que contenga ceros por redondeo. Entonces, construimos la observación r=(r1, r2,..., rD) substituyendo los ceros de x mediante la expresión siguiente:

>δ−=δ

= ∑=

0xsi)1(x0xsi

rk

0xlk

kk

k

l

Obsérvese que, con el objetivo de que se siga cumpliendo la restricción de suma constante, la modificación de las partes no nulas es una modificación de tipo multiplicativa. De esta manera, en Martín-Fernández (2001) se demuestra que si en este reemplazamiento se utiliza el verdadero valor perdido entonces, en r se obtiene el verdadero valor de la observación: en el mismo trabajo, el autor demuestra que este reemplazamiento tiene propiedades razonables respecto la operación de formación de subcomposiciones y la operación perturbación.

Una vez realizado el reemplazamiento de los ceros por redondeo aplicaremos la transformación deseada, alr, clr o ilr, y podremos aplicar el método estadístico que creamos conveniente a los datos transformados. Una vez obtenidos los resultados de la técnica estadística surgirá de manera natural la necesidad de realizar un análisis de sensibilidad. El problema que se nos plantea en el análisis de sensibilidad de los resultados es estudiar el grado de dependencia de los resultados obtenidos en el análisis estadístico con respecto de los valores δk utilizados en el reemplazamiento. Recordemos que los valores δk se derivan del valor del umbral de detección. En consecuencia, una estrategia adecuada para realizar un análisis de sensibilidad consiste en hacer variar el valor δk en un rango ligado al umbral de detección o al máximo error de redondeo. En particular, si denominamos δr al máximo error por redondeo, un rango adecuado (Aitchison, 1986) de variación de los valores δk consiste en

rkr 2

5δ≤δ≤

δ

Page 18: Experiencia del estudio geoestadístico de composición

18

3. Descripción estadística de la manifestación e importancia de la influencia de los factores geoquímicos

3.1. Tratamiento de los ceros presentes en el conjunto de datos Una primera toma de contacto con las observaciones del conjunto nos muestra la existencia de una gran cantidad de valores nulos. Debido a la naturaleza de nuestro estudio, asumimos como hipótesis de trabajo que los ceros presentes son ceros por redondeo. Es decir, son ceros que expresan que en el proceso de medida no se ha sido capaz de detectar la presencia de una cantidad muy pequeña en la parte analizada. En consecuencia, asumimos que en la muestra analizada existe una cantidad por debajo del umbral de detección del proceso de media.

En la Tabla 2 se muestra la cantidad de ceros que contiene cada parte y el umbral de detección asociado al proceso de medida. Obsérvese que las partes La, Ce y Nd llamadas tierras raras o lantanoides contienen una cantidad muy elevada de ceros, siempre superior al 75% de las observaciones. Les siguen en importancia las partes Mn, Ga y Cu, en las cuales ente un 30% y un 45% de las observaciones contienen el valor cero. Finalmente, las demás partes contienen una cantidad nula o despreciable de ceros, menos del 3,5% de las observaciones. Nótese que los datos originales expresan la cantidad presente de cada parte en ppm partes por millón y el umbral de detección que muestra la última columna de la Tabla 2 también se expresa en esas unidades.

Tabla 2. Recuento de ceros en las 184 observaciones para cada una de las 12 partes. Umbral de detección para cada parte.

N Ceros

Recuento Porcentaje Umbral detección

(en ppm)

Mn 101 83 45,1 < 100 Fe 184 0 ,0 --- Cu 130 54 29,3 < 5 Zn 181 3 1,6 < 1 Ga 129 55 29,9 < 4 Rb 184 0 ,0 --- Ba 184 0 ,0 --- La 35 149 81,0 < 10 Ce 43 141 76,6 < 10 Nd 40 144 78,3 < 10 Sr 184 0 ,0 --- Pb 178 6 3,3 < 1

En la Tabla 3 se muestra los patrones de la disposición y localización de los ceros. El patrón más frecuente es el de las observaciones que contienen cero en las tres tierras raras y cero en alguna de las partes: Mn, Cu, o Ga. Únicamente 9 observaciones de las 184 contienen el valor cero en las seis variables a la vez.

Tabla 3. Patrones tabulados de la presencia de cero en las 12 partes.

Page 19: Experiencia del estudio geoestadístico de composición

19

Cantidad observ. Patrones de la presencia de ceros Completo si...(a)

Mn Fe Cu Zn Ga Rb Ba La Ce Nd Sr Pb

9 9 2 0 11 1 0 0 18 6 0 15 1 0 0 19 3 0 12 4 0 13 3 0 0 18 1 0 0 0 24 2 0 0 16 1 0 10 1 0 0 12 1 0 10

42 0 0 0 61 10 0 0 0 0 76 1 0 0 0 17 2 0 0 14 1 0 0 0 0 21 1 0 0 0 0 0 36 1 0 0 0 0 28

14 0 0 0 0 0 125 20 0 0 0 0 90 1 0 0 0 27 1 0 0 20 1 0 0 0 25 1 0 0 0 20 1 0 0 0 0 29 1 0 0 0 0 23

12 0 0 0 0 0 126 18 0 0 0 0 83 1 0 0 0 0 0 100 9 0 0 0 0 0 0 176 1 0 0 0 0 0 33 1 0 0 0 0 26 1 0 0 0 0 34 1 0 0 0 0 0 35 1 0 0 0 0 0 0 0 178 1 0 0 0 0 0 0 22 1 0 0 0 0 0 0 39 1 0 0 0 0 0 30 1 0 0 0 0 0 93 1 0 0 0 0 23 1 0 0 14

(a) Número de casos sin ceros si las partes con cero en ese patrón (marcado con 0) no se consideran.

Page 20: Experiencia del estudio geoestadístico de composición

20

A la vista de la naturaleza de los ceros existentes, en nuestro estudio aplicaremos el reemplazamiento multiplicativo en función del umbral de cada parte (Martín-Fernández, 2003). La cantidad de ceros presente en las diferentes partes y los patrones observados nos sugieren desarrollar nuestro análisis estadístico contemplando diferentes subcomposiciones. Naturalmente, realizaremos el estudio incluyendo las 12 partes del conjunto de datos. A continuación, repetiremos el análisis considerando todas las partes menos las tres tierras raras, es decir, analizando la subcomposición de 9 partes que no incluya las tierras raras. Finalmente, el elevado número de ceros presentes nos aconseja repetir el estudio únicamente considerando las partes que contienen una cantidad nula o despreciable de ceros. En este caso analizaremos una subcomposición de 6 partes. 3.2. Principios iniciales de la interpretación geoquímica de los modelos

geoestadísticos. Nuestra etapa de análisis descriptivo se inicia representando el biplot en los tres hiperespacios correspondientes según la subcomposición que analicemos. Tenemos hiperespacios de tres tipos: 12-dimensional, 9-dimensional y 6-dimensional. En los biplots de las Figuras 3, 5 y 6, cada elemento químico o parte se identifica con un rayo del hiperespacio de los datos clr-transformados. Distancias pequeñas entre los vértices de los rayos sugieren un gran grado de semejanza entre la variación de las partes correspondientes. Las longitudes de los rayos muestran la magnitud de la variabilidad del parte correspondiente. Los valores asociados a las distancias entre los vértices de los rayos Var(ln(X i/Xj)) y asociados las longitudes de los rayos Var(clr(X i)) se muestran en la Tabla 4.

Tabla 4. Matriz de variabilidad relativa Var(ln(Xi/Xj)). La última columna muestra la variabilidad total asociada a cada componente Xi

Xj Var. total

Xi Mn Fe Cu Zn Ga Rb Ba La Ce Nd Sr Pb Xi Mn 0 0,606 0,923 0,934 0,807 0,786 0,529 0,807 0,849 0,804 0,725 1,022 0,366

Fe 0,606 0 0,416 0,651 0,292 0,325 0,173 0,259 0,303 0,274 0,209 0,986 0,187

Cu 0,923 0,415 0 0,744 0,694 0,663 0,581 0,576 0,607 0,613 0,603 1,082 0,313

Zn 0,934 0,651 0,744 0 0,925 0,928 0,852 1,041 1,088 0,984 0,736 1,282 0,424

Ga 0,807 0,292 0,694 0,925 0 0,305 0,230 0,295 0,356 0,348 0,284 1,389 0,247 Rb 0,786 0,325 0,663 0,928 0,305 0 0,208 0,339 0,365 0,436 0,139 1,013 0,229 Ba 0,529 0,173 0,581 0,852 0,230 0,208 0 0,204 0,227 0,252 0,177 0,960 0,183 La 0,807 0,259 0,576 1,041 0,295 0,339 0,204 0 0,079 0,126 0,345 1,139 0,217 Ce 0,849 0,303 0,607 1,088 0,356 0,365 0,227 0,079 0 0,166 0,371 1,100 0,230

Nd 0,804 0,274 0,613 0,984 0,348 0,436 0,252 0,126 0,166 0 0,392 1,120 0,230

Sr 0,725 0,209 0,603 0,737 0,284 0,139 0,177 0,346 0,372 0,392 0 1,110 0,212 Pb 1,022 0,986 1,081 1,282 1,389 1,0129 0,960 1,139 1,100 1,120 1,110 0 0,508

Page 21: Experiencia del estudio geoestadístico de composición

21

3.3. Biplot en el clr-hiperespacio de 12-dimensiones

3.3.1. Factores mineralógicos En la Figura 3 se muestra el biplot composicional que se obtiene utilizando las 12 partes del conjunto de datos. Este gráfico biplot está confeccionado en el espacio bidimensional de los dos primeros ejes asociados a la descomposición dvs. Estos dos primeros ejes recogen un 52% de la variabilidad total, sugiriendo que la representación biplot no tiene una calidad alta. En consecuencia, todas las características especiales asociadas al comportamiento de las partes y todas las relaciones entre ellas que sean sugeridas por este biplot deberán ser tenidas en consideración de una manera muy cuidadosa y, en ningún caso, de una manera concluyente.

clr(Mn)

clr(Fe)clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)

clr(La)

clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 3. Biplot de los datos clr-transformados con 12 variables (Proporción explicada de

la varianza: 52%).

Tal como se aprecia en esta Figura 3 y en la Tabla 4 los vértices asociados a las partes La y Ce están muy cercanos Var(ln(La/Ce))=0.079 y, por lo tanto, sugiere que son partes aproximadamente proporcionales. En la región de investigación las tierras raras no son contaminantes del medioambiente, no tienen origen tecnogénico, su presencia se puede ciertamente determinar cómo una causa mineralógica, es decir las propiedades geoquímicas de los suelos condicionan su composición mineralógica y nada más. Los minerales más conocidos, que contienen La y Ce, son la bastnaesita [(Ce, La)(CO3)F] y la monacita [(Ca, Ce, La, Th…)PO4]. En la presentación del este estudio se ha comentado la presencia de monacita en las rocas arenosas parentales de la región de investigación. El rayo de la tercera tierra rara, Nd, también aparece (Figura 3) muy cerca de los rayos de La y Ce. Las propiedades geoquímicas de este elemento son un poco distintas de las de Ce y La, en particular, su contenido en los minerales es esencialmente menor. Además el comportamiento en procesos geoquímicos de Ce y La, de un lado, y el Nd, del otro, es también bastante distinto. La variabilidad relativa entre el neodimio y la de los lantano y cerio (Tabla 4; 0.126 y

Page 22: Experiencia del estudio geoestadístico de composición

22

0.166) es ligeramente mayor, que la variabilidad entre La y Ce (Tabla 4; 0.079). Sin embargo, tal y como se aprecia en la Figura 3, el rayo asociado a Nd tiene una orientación muy similar a los rayos asociados a La y Ce, apareciendo el rayo de aquel más próximo al de La que al de Ce. Este hecho queda corroborado por la información que muestra la Tabla 5. En esta tabla se muestra que en los minerales olivino, ortopiroxeno, plagioclasa, y rubí sintético, el comportamiento de La y Ce es muy similar y se diferencia del comportamiento de Nd. Sin embargo, en otros minerales, como el clinopiroxeno, la mayor similitud en el comportamiento aparece entre La y Nd.

?abla 5. Coeficientes de la proporción “mineral ?�magma” de los elementos La, Ce y Nd en cinco

minerales (según White (2001)).

L o s m i n e r a l e s Elemento químico olivino ortopiro-xeno Clinopiro-

xeno plagioclasa rubí

sintético La 0,0000088 0,0056 0,052 0,082 0,01 Ce 0,000019 0,0058 0,108 0,072 0,065 Nd 0,007 0,277 0,045 0,363 0,273

En el biplot de la Figura 3 se aprecia la naturaleza y papel geoquímico semejante de las tierras raras. Este hecho también se aprecia en el diagrama ternario de la distribución de las observaciones respecto a las concentraciones de los lantanoides (Fig. 4). La agrupación de las observaciones en el centro del diagrama ternario sugieres que los elementos La, Ce, y Nd influyen en sus contenidos químicos aproximadamente con un peso casi igual en todas las observaciones.

La

Ce Nd

Figura 4. Diagrama ternario de la subcomposición La–Ce–Nd.

Podemos afirmar, pues, que entre los lantanoides existen unas diferencias muy pequeñas respecto a su influencia a las propiedades geoquímicas de los suelos. Al factor geoquímico marcado por los lantanoides lo denominaremos “factor mineralógico” (o “causas mineralógicas”).

Page 23: Experiencia del estudio geoestadístico de composición

23

3.3.2. Grupo de factores determinados por las propiedades geoquímicas individuales

(químicas) de los elementos y por sus compuestos químicos. Otro grupo de elementos que son parecidos geoquímicamente es el grupo formado por los elementos Rb, Sr y Ba. La diferencia entre ellos es esencialmente mayor que la diferencia entre los lantanoides y este hecho se podrá observar en nuestro análisis estadístico. Los valores de variabilidad relativa que aparecen en la Tabla 3 0.139, 0.208, y 0.177 y la posición de los respectivos rayos asociados en el biplot (Fig. 3) muestran que variabilidad relativa por este trío de elementos es mayor que el de las tierras raras. En consecuencia, las posibilidades de asociar estrechamente su actuación a los procesos geoquímicos de los suelos son menores. Estos tres elementos tienen un rasgo químico común: son elementos alcalinos (Rb) o alcalino -terrenales (Sr y Ba). Lo que significa que pueden marcar unas causas relacionadas (o condicionadas) con las propiedades alcalinas de suelos y, indirectamente, con las propiedades ácidas de ellos (porque estas propiedades habitualmente se consideran de manera unida: “propiedades ácidas – propiedades neutrales –propiedades alcalinas”). Lo más frecuente es asociar las propiedades ácidas–alcalinas de los suelos a los valores de pH. Pero esos valores manifiestan solamente la acidez actual de la disolución del suelo. En nuestro caso el trío Rb–Sr–Ba marca no solamente las condiciones de pH, sino también otras formas de acidez–alcalinidad de suelos, más complicadas, como, por ejemplo, la acidez hidrolítica.

La orientación del rayo del elemento manganeso en el biplot, puede ser interpretada como el dominio de la manifestación de un parámetro geoquímico muy importante cómo son las condiciones de reducción–oxidación. Este parámetro tiene una naturaleza electroquímica y, habitualmente, en geoquímica se indica mediante los valores Eh. Estos valores dependen de muchos factores hidrológicos, químicos y microbiológicos, y mediante estos valores se determinan muchas de las propiedades del suelo, más exactamente de las disoluciones de suelos. Recordemos que muchos elementos químicos cambian su grado de oxidación en función de los valores Eh. Estos elementos se denominan elementos polivalentes. El cambio del grado de oxidación de un elemento causa el cambio de la solubilidad de sus componentes y, por lo tanto, su capacidad de migrar o acumularse en el suelo. Uno de los elementos más importante en suelos es el manganeso. Este elemento es muy frecuente en suelos de nuestra región de estudio. Además, el manganeso es un elemento muy sensible respecto a los cambios de las condiciones de la reducción–oxidación en los suelos. Por eso denominaremos al comportamiento de Mn, el factor “condiciones de reducción–oxidación del suelo”.

3.3.3. Factores de origen tecnogénico. Ciertamente estos factores se relacionan con el plomo. De todas las partes recogidas en nuestro estudio, el plomo es el mejor indicador de los procesos químicos condicionados por la contaminación causada por la actividad industrial y el tráfico. Estos procesos se engloban bajo la denominación de tecnogénesis. Lo más característico del plomo es que es un componente obligatorio y constante en todos los procesos térmicos: fusión de metales, quema de cualquier tipo del combustible orgánico (energética térmica, tráfico), craqueo (cracking) térmico del petróleo, cocción de materiales de construcción –ladrillos, cemento–, etc. Todos estos procesos forman

Page 24: Experiencia del estudio geoestadístico de composición

24

una parte importante y separada de la tecnogénesis: los procesos de pirogénesis (Tyutyunnik, Górlitskii, 1998, 2000). De todos los procesos de la tecnogénesis, los procesos de pirogénesis, en la mayoría de ocasiones, son los responsables de la contaminación atmosférica del medioambiente. Y el elemento principal, que determina estos procesos, es el plomo.

3.3.4. Las causas del origen biogénico. Los procesos biogénicos, o procesos de biogénesis, o simplemente biogénesis, son procesos de síntesis de la materia orgánica, crecimiento de organismos vivos, su actividad bioquímica y biogeoquímica producción del oxigeno, aspiración, transformación sustancias inorgánicas etc., muerte, descomposición de masas orgánicas y sus transformaciones en materia orgánica del suelo humus, migración y acumulación en medios naturales de los compuestos orgánicos, etc. En los suelos de la región de investigación los más importantes son los procesos de acumulación de los residuos de bosques o prados (ramitas, hojas, agujas, piñas, musgos, hierbas, otros restos de plantas), su destrucción inicial, formación de humus y su aumento. Estos procesos pasan en las capas genéticas Hd y H. En las capas del grupo Gl son muy importantes los procesos microbiológicos anaeróbicos (Tabla 1).

De todos elementos químicos investigados, el más activo en los procesos

biogénicos, y al mismo tiempo menos dependiente de otros factores geoquímicos, es el zinc. También tiene importancia el papel del Cu. El hierro es también un marcador importante de los procesos biogénicos, pero su comportamiento en suelos depende al mismo tiempo de otras muchas causas. Por eso consideraremos a la zona del biplot próxima a los rayos asociados a Zn y Cu (Fig. 3) como la zona del dominio “Zn–Cu” o dominio de la actuación de los factores biogénicos. Siempre teniendo en cuenta que el marcador principal de ellos es el Zn y el marcador secundario es el Cu. 3.4. Biplot en el clr-hiperespacio de 9-dimensiones

El biplot de la Figura 5 recoge un 56% de la variabilidad total. La calidad de la

representación no es muy alta. El biplot está realizado en el clr-hiperespacio donde están ausentes los lantanoides. Es decir, trabajamos con la subcomposción resultante de extraer las partes correspondientes a las tierras raras. Estos elementos son los principales marcadores de la actuación del factor mineralógico. Al no incluir en el clr-hiperespacio unas partes aumentamos el peso de causalidad sobre el resto. Es decir, en la presencia de fuertes marcadores de las causas, el papel de uno u otro marcador más débil no se manifiesta; después de la expulsión de un buen marcador, su papel, se traspasa parcialmente a otro marcador más débil. Por eso, ahora, sus funciones, como marcadores mineralógicos, se han traspasado al galio, otro elemento raro aunque no lantanoide. Se conserva la configuración de los rayos en el dominio del hiperespacio marcado con el trío Rb–Sr–Ba, testimoniando la importancia y constancia de este factor geoquímico, la acidez–alcalinidad de suelos. Pero al mismo tiempo, el trío de los elementos Rb–Sr–Ba comienza a jugar el papel como el indicador de las causas mineralógicas, debido a la presencia del Ga, todavía es un papel pequeño, pero puede manifestarse. Las posiciones de los rayos asociados al resto de las partes se conservan.

Page 25: Experiencia del estudio geoestadístico de composición

25

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(Sr)

clr(Pb)

Figura 5. Biplot de los datos clr-transformados con 9 variables (Proporción explicada de

la varianza: 56%). 3.5. Biplot en el clr-hiperespacio de 6-dimensiones El biplot (Fig. 6) que se obtiene al considerar únicamente las 6 partes que contienen una cantidad nula o despreciable de ceros recoge un 85% de la variabilidad. La calidad de la representación es bastante alta. Ahora, expulsando el Ga, el trío Rb–Sr–Ba: recoge el papel de marcador de las causas mineralógicas, conservando el papel de marcadores de pH. La Figura 7 puede ilustrar esta substitución, pudiéndose apreciar que en este ternario las observaciones se agrupan aproximadamente igual respecto a los tres elementos La, Ga, Rb que pueden servir como marcadores de las causas mineralógicas: el elemento La es el marcador más fuerte, el Ga menos y el Rb aún más débil.

Page 26: Experiencia del estudio geoestadístico de composición

26

Lac

Gac Rbc

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)

clr(Pb)

Figura 6. Biplot de los datos clr-transformados con 6 variables (Proporción explicada de

la varianza: 83%).

(A)

(B)

Figura 7. Diagrama ternario “La–Ga–Rb”: (A) datos sin centrar; (B) datos centrados.

Otro fenómeno muy interesante se representa en el ternario Rb–Ba–Sr (Fig. 8). De todos los ternarios que hemos creados, la posición de las observaciones en el ternario

La

Ga Rb

Page 27: Experiencia del estudio geoestadístico de composición

27

Rbc

B ac Src

del este trío de partes es la más compacta y centrada. Se puede atribuir a su papel semejante como marcadores de los factores mineralógicos. Nótese que comparando la distribución de las observaciones en el ternario Rb–Sr–Ba (Fig. 8) con la en el ternario La–Ce–Nd (Fig. 4), no es difícil admitir, que si bien las dos nubes de puntos son uniformes, se puede apreciar que la difusión de las observaciones en el ternario La–Ce–Nd es un poco mayor que la recogida en el ternario Rb–Sr–Ba.

(A)

(B)

Figura 8. Diagrama ternario “Rb–Ba–Sr”: (A) datos sin centrar; (B) datos centrados.

En las tres configuraciones clr-hiperespacios de 12, 9 y 6 dimensiones es imposible dar una interpretación suficientemente verosímil para la orientación del rayo asociado a Fe. Pero en el espacio 6-dimensional, cuando el hierro recoge sobre si las funciones de aquellos marcadores que han sido expulsados, es posible más o menos destacar el conjunto de los factores que potencialmente podrían ser marcadas con el Fe. Por un lado, de todos los elementos investigados solamente el hierro es un macroelemento químico. El hierro es un elemento importante en la génesis de los minerales. Sus propiedades, como macroelemento, son completamente distintas de aquellas de los lantanoides, del Ga o del trío Rb–Sr–Ba. Por este motivo, si bien el hierro puede marcar el dominio de los factores mineralógicos, lo hará de manera separada. Obsérvese que en el biplot (Fig. 6) el rayo asociado al Fe aparece alejado de los rayos del trío Rb–Sr–Ba pero en la misma zona del diagrama, en la parte positiva del primer eje del biplot. Por otro lado, el Fe es un elemento biogénico importante, y puede marcar los factores biogénicos. También, el Fe es un componente muy importante de la tecnogénesis, pero su papel en élla se distingue esencialmente del papel del plomo. Finalmente , el Fe, como el Mn, es un elemento polivalente y un indicador sensible de las condiciones de la reducción–oxidación de los suelos.

Rb

Ba Sr

Page 28: Experiencia del estudio geoestadístico de composición

28

Fec

Rbc Lac

En los diagramas ternarios que muestran las Figuras 9–11 se representan las distribuciones de las observaciones de varias subcomposiciones en las que interviene el Fe. En presencia solamente de los marcadores mineralógicos, el hierro también se manifiesta como un buen marcador mineralógico (Fig. 9). En el ternario Fe–Mn–Zn (Fig. 10) el hierro puede jugar papel, como marcador de los procesos de biogénesis (marcados por el Zn) y por las condiciones de oxidación–reducción (marcador el Mn) . Puede jugar de manera análoga (Fig. 11) los papeles de los marcadores de tecnogénesis (respecto al Pb) y los de biogénesis (respecto al Zn).

(A)

(B)

Figura 9. Diagrama ternario “Fe–Rb–La”: (A) datos sin centrar; (B) datos centrados.

F e

Rb La

Page 29: Experiencia del estudio geoestadístico de composición

29

Mnc

Fec Znc

Fec

Pbc Znc

(A)

(B) Figura 10. Diagrama ternario “Mn–Fe–Zn”: (A) datos sin centrar; (B) datos centrados.

(A) (B)

Figura 11. Diagrama ternario “Fe–Pb –Zn”: (A) datos sin centrar; (B) datos centrados.

Según el grado de manifestación del marcador, es decir del peso de su actuación en el factor que él marca, los marcadores pueden ordenarse, de menor a mayor, según aparece en el Tabla 4.

M n

Fe Zn

F e

Pb Zn

Page 30: Experiencia del estudio geoestadístico de composición

30

Tabla 6. Grado de manifestación de los marcadores

TOTAL 0÷0,1 0,1÷0,2 0,2÷0,3 0,3÷0,4 0,4÷0,5 > 0,5

Hiperespacio

1 2 3 4 5 6 12 Fe, Ba Ga, Rb, La, Ce,

Sr Mn, Cu, Zn Pb

9 Fe, Ga, Ba, Rb, Sr

Mn, Cu, Zn, Pb

6 Fe, Sr Rb Zn, Pb

De la Tabla 6, obtenida de los totales de las matrices de variación para 6, 9 y 12 dimensiones, y teniendo en cuenta lo que ha sido expuesto con anterioridad en esta sección, podemos concluir que el factor más fuerte que determina las propiedades geoquímicas de los suelos de la región, es la tecnogénesis (Pb). El segundo lugar lo ocupa los factores geoquímicos relacionados con la biogénesis (Zn, Cu); el tercero, las condiciones de la oxidación–reducción (Mn), y el cuarto se reparte entre el factor mineralógico y las condiciones de acidez–alcalinidad de los suelos (La, Ce, Nd, Sr, Rb, Ga, y Fe).

4. La distribución de las observaciones en el clr-hiperespacio. Análisis de las

observaciones atípicas 4.1. Detección y análisis descriptivo de las observaciones atípicas. En las Figuras 12, 13 y 14 se muestran, respectivamente, la distribución de las observaciones en el biplot del clr-hiperespacio correspondiente. En estos gráficos se ha marcado con un círculo las observaciones que se consideran atípicas bajo el supuesto de distribución normal multivariante (Aitchison, 1986). Estas observaciones atípicas tienen una composición geoquímicas que estadísticamente se destacan de la composición general de las observaciones del conjunto de datos.

Page 31: Experiencia del estudio geoestadístico de composición

31

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(La)

clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 12. Biplot de los datos clr-transformados con 12 variables. Las observaciones atípicas

aparecen dentro de círculos.

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(Sr)

clr(Pb)

Figura 13. Biplot de los datos clr-transformados con 9 variables. Las observaciones atípicas

aparecen dentro de círculos.

Page 32: Experiencia del estudio geoestadístico de composición

32

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)

clr(Pb)

Figura 14. Biplot de los datos clr-transformados con 6 variables. Las observaciones atípicas

aparecen dentro de círculos.

El hecho que una observación sea declarada como atípica puede suceder en sólo un hiperespacio, en dos de ellos o en los tres. En la Tabla 7 se muestra la lista de observaciones atípicas según el hiperespacio que se considere. Para cada observación, que se identifica con su número de fila que ocupa en el conjunto de datos, se muestra su índice de atipicidad. Para nuestro estudio se ha considerado que una observación es atípica si su índice supera el valor 0.95. Además, para cada observación, se incluye una explicación de sus atipicidad, exceptuando los casos, cuando la atipicidad se manifiesta solamente en un hiperespacio. Esta explicación se acompaña de la profundidad y la capa genética donde fue tomada la muestra, y de las partes de la observación que se considera tienen un contenido atípico.

??bla 7.Observaciones atípicas: número de observación, índice de atipicidad, profundidad y capa, partes

con contenido anómalo, y explicación. Hiperespacio de causas

(número de dimensiones)

12 9 6 Numero de obs. Índice-atipicidad

Profundidad de la toma (?m), capa

genética

Contenido atípico («–»: atípico

bajo)

Explicación de las causas de la atipicidad

15 0,998

15 0.973

66-68 PGl Fe\Rb\ Sr Fuertes procesos de formación de hléi (procesos hléicos)

33 0,999

33 0,999

33 0,999

0-2 ? d Ba Intensa contaminación con unos restos sólidos comunales e industriales

50 0,994

50 0,992

50 0,991

15-18 Pgl Fe\TR\Ga Procesos hléicos + influencia de la base mineral

51 51 51 70 Pgl Fe\ Procesos hléicos + influencia de

Page 33: Experiencia del estudio geoestadístico de composición

33

0,999 0,999 0,991 la base mineral 84

0,957 84

0,960 84

0,987 15-17 ?2? Sr Fuerte contaminación

tecnogénica del orígen mezclado

103 0,999

103 0,999

103 0,996

18-20 ? ? Mn\Fe\Cu\ Sr

Recultivación, artificiales capas del suelo con varias mezclas sólidas

148 0,997

148 0,984

1-4 ? d Mn\Fe\ZnPb Intensa acumulación biogénica de los elementos químicos

150 0,979

150 0,959

11-19 P(h) –Zn \–Pb Anomalía negativa. Pobreza de las arenas fluvioglaciales respecto a los elementos químicos

155 0,964

155 0,991

155 0,999

8-10 ? ? –Zn Anomalía negativa. Fuerte proceso eluvial.

159 0,994

159 0,993

159 0,999

250-260 ? – Zn Anomalía negativa. Pobreza de las arenas fluvioglaciales respecto a los elementos químicos

161 0,999

161 0,969

161 0,962

0-4 ? d Zn /TR Acumulación biogénica + influencia de la base mineral

167 0,969

167 0,951

23-25 Phi Mn Fuerte proceso iluvial

169 0,999

169 0,998

150-160 ? Cu\TR Influencia de la base mineral

171 0,999

171 0,999

171 0,999

0-4 ? 1 Rb\Ba\Sr\Pb Fuerte contaminación con los desechos comunales y restos de las materiales de construcción

174 0,968

174 0,971

185-190 Ihgl2 Fe\Ba\Sr Contaminación con los desechos comunales + fuerte proceso iluvial

180 0,996

180 9,999

180 0,999

125-130 ? 1 –Cu\–Zn

182 0,998

182 0,985

182 0,995

215-220 ? 3 (*)

Anomalía negativa. Pobreza de las arenas fluvioglaciales respecto a los elementos químicos

183 0,998

183 0,985

183 0,966

250-255 ? 4 Ru\Ba\La\ Ce

Influencia de la base mineral, arena que contiene muchos minerales con hierro

188 0,999

188 0,999

188 0,999

115–120 PGl (*) Proceso hléico

(*) Sin explicación de contenido geológico coherente

4.2. Distribución de las observaciones agrupadas según su pertenencia a los

paisajes geoquímicos elementales. En las Figuras 15, 16, y 17 se muestra, respectivamente, la distribución de las observaciones en los biplot. Se han distinguido las observaciones según su pertenencia a un de los paisajes geoquímicos elementales generales: autónomos o dependientes. En estas figuras se puede apreciar que las observaciones “dependientes” tienen una ligera tendencia a concentrarse en el dominio de los rayos asociados a Zn y Cu. Por el contrario, los “autónomos” tienen una ligera tendencia a concentrarse en el dominio de Pb. Además en el clr-hiperespacio de 12-dimensiones

Page 34: Experiencia del estudio geoestadístico de composición

34

su concentración pasa también al dominio de las tierras raras, en el clr-hiperespacio de 9-dimensiones al dominio de Ga, y en el 6-dimensional hacia el trío Rb-Sr-Ba. Estas ligeras tendencias son lógicas desde el punto de vista geoquímico. Es sabido que los paisajes autónomos están sobre formas altas del relieve y reciben, en mayor grado, el “golpe” de las masas de aire contaminado. Los aerosoles que contienen los metales pesados del origen tecnogénico (Pb) se precipitan más intensivamente. En los paisajes autónomos también es de esperar influencia mineralógica más intensa (tierras raras y Ga). Aquí están más desarrollados los procesos de erosión, las capas de las rocas parentales están más cercanas a la superficie. Además, los paisajes autónomos, generalmente, tienen menos sustancias orgánicas en los suelos, es decir, las capas organogénicas de suelos, en las cuales se transforman minerales primarios, son más finas. De ahí procede que la influencia de la base mineralógica sobre los suelos de los paisajes autónomos se manifestará más. En los paisajes dependientes, por lo contrario, se observa más intensamente la acumulación de las substancias orgánicas; los procesos de biogénesis están más desarrollados (en particular, en la región de nuestra investigación existen potentes turbas). Aquí también se concentra más la actividad agrícola, y en consecuencia, en los suelos se pueden aportar fertilizantes que contienen zinc. Por tanto, la ligera tendencia a la concentración de las observaciones de los paisajes dependientes en el dominio del marcador de biogénesis Zn (y Zn–Cu) es lógica.

Se puede también admitir que en los paisajes autónomos las observaciones tienen una tendencia débil de agruparse en el dominio del trío Rb–Sr–Ba. Este hecho puede significar tanto la influencia de las causas mineralógicas, como la actuación de las condiciones de acidez–alcalinidad de los suelos. En los paisajes autónomos de la región de nuestra investigación, la variedad de condiciones de acidez–alcalinidad de los suelos es mayor. Aquí, su papel se manifiesta con más diversidad, que en el caso de los paisajes dependientes, donde estas condiciones de acidez-alcalinidad son más monótonas, preferentemente ácidas.

Hay que subrayar otra vez, que la región de nuestra investigación es bastante monótona según sus propiedades naturales, geomorfológicas y geológicas. Diferenciar los paisajes elementales geoquímicos en el sur de Polesse de Kiev no es una tarea simple. Habitualmente, es muy difícil distinguir paisajes autónomos y dependientes. Sin embargo, incluso en tales condiciones empíricamente inciertas, el análisis estadístico descriptivo basado en los gráficos biplot nos ha dado la posibilidad de distinguirlos con una verosimilitud suficiente. En conclusión, podemos afirmar que para la zona de tecnogénesis moderada, como es la zona de nuestra investigación, estadísticamente se puede mostrar la tendencia de la manifestación de tecnogénesis en los paisajes autónomos y la de biogénesis en paisajes dependientes, cómo los principales factores de la migración y acumulación de los elementos químicos en los suelos.

Page 35: Experiencia del estudio geoestadístico de composición

35

clr(Mn)

clr(Fe)clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(La)

clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 15. Biplot de los datos clr-transformados con 12 variables. Los símbolos de las

observaciones corresponden según su paisaje geoquímico elemental general (punto: paisaje autónomo; círculo: paisaje dependiente).

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)

clr(Sr)

clr(Pb)

Figura 16. Biplot de los datos clr-transformados con 9 variables. Los símbolos de las

observaciones corresponden según su paisaje geoquímico elemental general (punto: paisaje autónomo; círculo: paisaje dependiente).

Page 36: Experiencia del estudio geoestadístico de composición

36

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)clr(Pb)

Figura 17. Biplot de los datos clr-transformados con 6 variables. Los símbolos de las

observaciones corresponden según su paisaje geoquímico elemental general (punto: paisaje autónomo; círculo: paisaje dependiente).

A continuación, se muestran (Fig. 18, 19 y 20) los biplot en los tres clr-hiperespacios donde las observaciones se han distinguido según su pertenencia a uno de los paisajes geoquímicos elementales específicos. La descripción de estas distribuciones no ha aportado la posibilidad de obtener unas conclusiones más verosímiles sobre el comportamiento de los elementos químicos en tipos concretos de paisajes. Es probable, que la causa de este hecho sea la escasez de las bases de datos parciales, su insuficiencia para llegar a nivel de verosimilitud deseable. Pero hay muchos motivos para creer que si se aumentase suficientemente la base de datos correspondiente, el método de análisis descriptivo geostadístico aportaría la posibilidad de caracterizar cada tipo concreto de los paisajes elementales geoquímicos.

Page 37: Experiencia del estudio geoestadístico de composición

37

clr(Mn)

clr(Fe)clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)

clr(La)clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 18. Biplot de los datos clr-transformados con 12 variables. Los símbolos de las observaciones

corresponden según su paisaje geoquímico elemental específico (punto: Eluvial; círculo: Trasneluvial; Asterisco: Eluvial-acumulativo; Signo más: Acumulativo-eluvial; Cuadrado: Transobreacuático; Cruz: Sobreacuático).

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)

clr(Sr)

clr(Pb)

Figura 19. Biplot de los datos clr-transformados con 9 variables. Los símbolos de las observaciones

corresponden según su paisaje geoquímico elemental específico (punto: Eluvial; círculo: Trasneluvial; Asterisco: Eluvial-acumulativo; Signo más: Acumulativo-eluvial; Cuadrado: Transobreacuático; Cruz: Sobreacuático).

Page 38: Experiencia del estudio geoestadístico de composición

38

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)clr(Pb)

Figura 20. Biplot de los datos clr-transformados con 6 variables. Los símbolos de las observaciones

corresponden según su paisaje geoquímico elemental específico (punto: Eluvial; círculo: Trasneluvial; Asterisco: Eluvial-acumulativo; Signo más: Acumulativo-eluvial; Cuadrado: Transobreacuático; Cruz: Sobreacuático).

4.3. Distribución de las observaciones agrupadas según la pertenencia a las capas

genéticas del suelo.

En los tres hiperespacios (12-, 9- y 6-dimensiónales; Fig. 21–23) las observaciones del grupo de la capa genética ? d se concentran bastante claramente cerca de los dominios marcados por los rayos asociados al zinc y el plomo. Esta tendencia es lógica. En primer lugar, los procesos de biogénesis se dan con más intensidad en las capas de acumulación de restos orgánicos: lo refleja el marcador Zn. Por otra parte, justamente en la capa superficial, capa genética ? d, se recibe el primer “golpe” de la contaminación atmosférica de los suelos. Al mismo tiempo, los casi destruidos restos orgánicos, y las complejas y grandes moléculas de humus de la capa ?d absorben y retienen, muy fuertemente, los metales pesados–contaminadores atmosféricos. Todas estas características se reflejan en el marcador Pb.

Page 39: Experiencia del estudio geoestadístico de composición

39

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(La)clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 21. Biplot de los datos clr-transformados con 12 variables. Los símbolos de las

observaciones corresponden según capa genética del suelo (punto: Hd; círculo: H; Asterisco: E; Signo más: I; Cuadrado: GI; Cruz: P).

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)clr(Sr)

clr(Pb)

Figura 22. Biplot de los datos clr-transformados con 9 variables. Los símbolos de las

observaciones corresponden según capa genética del suelo (punto: Hd; círculo: H; Asterisco: E; Signo más: I; Cuadrado: GI; Cruz: P).

Page 40: Experiencia del estudio geoestadístico de composición

40

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)clr(Pb)

Figura 23. Biplot de los datos clr-transformados con 6 variables. Los símbolos de las

observaciones corresponden según capa genética del suelo (punto: Hd; círculo: H; Asterisco: E; Signo más: I; Cuadrado: GI; Cruz: P).

Otra tendencia, que se manifiesta bastante claramente, es la concentración de las observaciones del grupo de la capa genética ? (capas de las rocas parentales) cerca del dominio de los factores mineralógicos. En la Figura 21, este hecho se aprecia por la concentración de las observaciones en el dominio marcado con las tierras raras (principal marcador de las causas mineralógicas), y en los dominios marcados con el Ga y el Fe (segundo y tercer marcador del factor mineralógico). En el hiperespacio de 9 dimensiones (Fig. 22), donde los marcadores tierras raras están excluidos, el papel principal, traspasa al Ga y al Fe como marcadores de los factores mineralógicos. Las observaciones del grupo P se concentran en los dominios marcados por esos elementos químicos. Cuando desaparece el marcador Ga (Fig. 23, hiperespacio de 6-dimensional), las observaciones del grupo P se concentran en el dominio del hierro, aumentando parcialmente, al mismo tiempo, cerca el dominio del trío Rb–Sr–Ba. El último hecho testimonia que en las condiciones del déficit de los buenos marcadores mineralógicos, sus papeles se traspasan al trío Rb–Sr–Ba.

Las posiciones y las distribuciones de las observaciones del resto otros grupos genéticos se interpretan peor. Las observaciones del grupo I (capas genéticas iluviales) prácticamente no están relacionadas con los factores biogénicos. Las observaciones de estas capas escapan del dominio marcado por el Zn. El proceso iluvial (Tabla 1) es un proceso bastante complejo y diverso: iluviación de sustancias químicas, elementos químicos y partículas arcillosas eluviados con las corrientes verticales de la humedad de las capas altas del suelo; enriquecimiento al suelo por partículas arcillosas, óxidos, hidróxidos y otros compuestos químicos; cambio paulatino de las condiciones de la oxidación–redicción al lado de reducción, etc. Pero los procesos biogénicos

Page 41: Experiencia del estudio geoestadístico de composición

41

prácticamente no toman parte en el proceso iluvial. Por eso las observaciones del grupo I, en lo general, escapan el dominio marcado con el Zn. Al mismo tiempo, las observaciones del grupo I pueden ser relacionadas con el resto de los dominios del hiperespacio de factores geoquímicos. La dispersión de las observaciones de las capas iluviales es bastante grande. Sin embargo, comparando sus localizaciones al cambiar del hiperespacio de las 12-dimensiones (Fig. 21) a las 6-dimensiones (Fig. 23) se puede admitir que las localizaciones se acercan al dominio marcado con el hierro. La formación y acumulación de los óxidos y hidróxidos del hierro juegan uno de los papeles más importantes en el proceso iluvial.

Para las observaciones del grupo Gl (capas hléicas, procesos hléicos – Tabla 1) lo más importante es la acumulación de ciertos elementos químicos en condiciones anaeróbicas, de ácido y de reducción. Indirectamente las condiciones ácidas se reflejan por el trío Rb–Sr–Ba (como “no ácidos”). Tal vez, también en cierta parte por el hierro. El Mn sirve como indicador de las condiciones de oxidación–reducción. Cuando este marcador desaparece (en el hiperespacio de las 6-dimensiones), se puede observar una tendencia a la concentración de las observaciones del grupo Gl en los dominios marcados con el hierro, con el trío Rb–Sr–Ba y con el plomo. Este hecho se puede interpretar cómo la acumulación los elementos químicos, en primer lugar, los productos de la tecnogénesis (que migran abajo por el perfil del suelo) en las capas hléicas.

La interpretación de las localizaciones de las observaciones de los grupos H

(capas de humus – Tabla 1) y los ? (capas eluviales – Tabla 1) es aún más difícil e inverosímil. A diferencia de las capas altas (Hd), las capas H y E no reciben un “golpe” recto e intensísimo de las precipitaciones de los contaminadores atmosféricos. Además, en estas capas los procesos de biogénesis están menos desarrollados. A diferencia de las capas bajas (I, Gl, P), las capas H y E en la región de nuestra investigación son más transformadas por otros factores tecnogénicos (excavación, contaminación con unos restos artificiales sólidos, etc.). Como consecuencia, no hay posibilidad de identificar de una manera verosímil ni la influencia externa (contaminación atmosférica), ni los procesos geoquímicos internos (acumulación de sustancias orgánicas y humificación en las observaciones del grupo H; proceso eluvial en las capas del grupo E). Este hecho se testimonia observando la dispersión de las observaciones (Fig. 21–23). Sobre las observaciones del grupo ? se puede decir solamente que no manifiestan tendencia a agruparse en el dominio biogénico marcado con el zinc. Pero tienen una débil tendencia a agruparse en los dominios mineralógicos debido a que las capas eluviales están caracterizadas por una transformación mineralógica causada por su enriquecimiento en cuarzo. También en las capas eluviales se dan procesos de la disolución ácida, llamados fulvo-ácidos. Por eso estas observaciones manifiestan también una débil tendencia a concentrarse en el dominio de marcadores de las condiciones de acidez–alcalinidad de suelos. La dispersión de las observaciones del grupo H es la más alta. Aquí podemos extraer solamente una conclusión: el grado de influencia sobre estas capas genéticas de la actividad tecnogénica, su diversidad y, al mismo tiempo, la diversidad de unas propias propiedades geoquímicas de las capas H son tan importantes, que no dan posibilidad de manifestarse estadísticamente .

Page 42: Experiencia del estudio geoestadístico de composición

42

4.4. Distribución de las observaciones agrupadas por profundidades de las tomas

Las Figuras 24, 25 y 26 muestran, respectivamente, la distribución de las observaciones en los biplot en los clr-hiperespacios de 12, 9 y 6 dimensiones. Las observaciones se distinguen por los intervalos de profundidad de la toma de la muestra. La tipología de tal agrupación es puramente formal. Esta manera de distinguir la toma de la muestra es interesante porque la mayoría de los investigadores de suelos se guían únicamente por las profundidades de las tomas no prestando la atención a la estructura morfológica del perfil de suelo (es decir, a la estructura de las capas genéticas).

Los gráficos (Fig. 24, 25 y 26) obtenidos usando esta información son poco informativos. Las pruebas de los grupos 1 y 2 manifiestan tendencia a agruparse en los dominios marcados por el Zn y el Pb. Esta característica es lógica atendiendo al hecho que justamente en estas profundidades se observan, por una parte, los procesos de biogénesis más intensivos, y por otra, las cargas más grandes de contaminación atmosférica. Se puede ver ciertamente también que la concentración de las observaciones del grupo 1 es más que las del grupo 2 (respecto al zinc y al plomo). La capa 0–5?m, como regla, coincide de la capa genética Hd (o un poco más gruesa que ella), en la cual, como lo hemos visto antes, la influencia de pirogénesis y biogénesis se manifiesta con mayor claridad. Con la profundidad esta claridad diminuye bruscamente , y a partir de los 10 cm no se manifiesta ninguna regla, ley o tendencia. Solamente desde las profundidades de más de 50cm de nuevo comienzan a manifestarse ciertas tendencias. En estas profundidades (y más profundo) se manifiestan aquellas leyes que nosotros hemos señalado antes para las observaciones del grupo P. Esta característica también tiene una explicación lógica, porque desde estas profundidades en la mayoría de ocasiones en las condiciones geológicas de Polesse de Kiev, comienzan a manifestarse las propiedades mineralógicas de las rocas parentales, y a influir el suelo del grado primario. Por este motivo, el sistema de regirse únicamente por las profundidades puede dar resultados lógicos solamente hasta 10cm de la profundidad y después de 50cm de profundidad de suelo. En intervalos internos a estas profundidades la estructura del perfil de suelo es más compleja y el criterio no funciona adecuadamente. Es necesario tener en cuenta la estructura morfológica del suelo, y orden vertical de las capas genéticas.

Page 43: Experiencia del estudio geoestadístico de composición

43

clr(Mn)

clr(Fe)clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)clr(Ba)

clr(La)

clr(Ce)

clr(Nd)

clr(Sr)

clr(Pb)

Figura 24. Biplot de los datos clr-transformados con 12 variables. Los símbolos de las

observaciones corresponden según la profundidad del muestreo (Punto: 0–5?m ; Círculo: 5–10?m; Asterisco: 10–15?m; Signo más: 15–20?m; Cuadrado: 20–30?m; Cruz: 30–50?m; Diamante: 50–100cm; Estrella: más de 100?m).

clr(Mn)

clr(Fe)

clr(Cu)

clr(Zn)

clr(Ga)

clr(Rb)

clr(Ba)

clr(Sr)

clr(Pb)

Figura 25. Biplot de los datos clr-transformados con 9 variables. Los símbolos de las

observaciones corresponden según la profundidad del muestreo (Punto: 0–5?m; Círculo: 5–10?m; Asterisco: 10–15?m; Signo más: 15–20?m; Cuadrado: 20–30?m; Cruz: 30–50?m; Diamante: 50–100cm; Estrella: más de 100?m).

Page 44: Experiencia del estudio geoestadístico de composición

44

clr(Fe)

clr(Zn)

clr(Rb)

clr(Ba)

clr(Sr)clr(Pb)

Figura 26. Biplot de los datos clr-transformados con 6 variables. Los símbolos de las

observaciones corresponden según la profundidad del muestreo (Punto: 0–5?m; Círculo: 5–10?m; Asterisco: 10–15?m; Signo más: 15–20?m; Cuadrado: 20–30?m; Cruz: 30–50?m; Diamante: 50–100cm; Estrella: más de 100?m).

5. Análisis de las diferencias por grupos de paisajes

Autónomos/Dependentes A la vista de los resultados anteriores concentramos nuestro estudio en analizar más profundamente si los paisajes autónomos se pueden diferenciar estadísticamente de los paisajes dependientes. Para ello analizaremos la diferencia entre las medias composicionales de los dos grupos. 5.1. Medias geométricas composicionales Consideramos las 12 partes Mn, Fe, Cu, Zn, Ga, Rb, Ba, La, Ce, Nd, Sr, y Pb. Calculamos, por un lado, la media geométrica del grupo de las observaciones correspondientes a los paisajes autónomos y, por otro lado, la media geométrica composicional del grupo de observaciones del grupo de paisajes dependientes: • Centro del grupo de los paisajes autónomos:

G1=[2.19, 93.32, 0 .1, 0.2, 0.07,0.68, 2.66, 0.11, 0.12, 0.11, 0.32, 0.10] • Centro del grupo de los paisajes dependientes:

G2=[1.59, 94.37, 0.11, 0.29, 0.07, 0.62, 2.23, 0.10, 0.10, 0.10, 0.34, 0.09]. Nótese que estos centros los hemos expresado en tanto por ciento. Para caracterizar la diferencia entre estos dos centros calculamos el vector perturbación diferencia entre los dos centros:

G2oG1-1=[6.33, 8.80, 9.34, 12.33, 8.48, 7.88, 7.29, 7.48, 7.13, 7.63, 9.15, 8.16]

Page 45: Experiencia del estudio geoestadístico de composición

45

Recordemos que el vector elemento neutro por la operación perturbación en el símplex de 12 partes es e=[1/12, 1/12,...,1/12]. Si los centros de los dos grupos están muy cercanos, entonces el vector perturbación diferencia G2oG1-1 se asemejará al vector e. Recíprocamente, si observamos un vector G2oG1-1 muy diferente del vector e, entonces podemos pensar que los centros están alejados y que hay diferencias entre los dos grupos. En la Figura 27 se muestra un diagrama de barras donde se representa el vector de la perturbación diferencia entre los grupos. En el eje vertical se ha señalado en tanto por uno una línea discontinua horizontal al nivel 1/12. Se observa que, en término medio, las observaciones del grupo de los paisajes autónomos tienen mayor contenido en Mn, Rb, Ba, La, Ce, y Nd; tienen menor contenido en Fe, Cu, Zn, y Sr. Respecto las partes Ga y Pb; y las diferencias entre los centros son menores. De las 12 partes consideradas es en el Zn donde las diferencias aparecen más acusadas. La Figura 28 representa el diagrama ternario centrado de la subcomposición Zn-Rb-Ba en el que se han diferenciado las observaciones según el paisaje al que pertenecen. Se puede observar como las observaciones de lo paisajes dependientes, representadas por un círculo, muestran una ligera tendencia a acercarse al vértice de Zn.

Mn Fe Cu Zn Ga Rb Ba La Ce Nd Sr Pb0

0.01

0.02

0.04

0.06

0.0833

0.1

0.12

0.14

1/D

g2og1-1=(6.33, 8.80, 9.34, 12.33, 8.48, 7.88, 7.29, 7.48, 7.13, 7.63, 9.15, 8.16)

Figura 27. Diagrama de barras representando el vector perturbación diferencia entre los centros de

los grupos de paisajes autónomos y dependientes. La línea discontinua horizontal representa el valor 1/D=1/12.

Page 46: Experiencia del estudio geoestadístico de composición

46

Znc

Rbc Bac

Figura 28. Diagrama ternario Zn -Rb-Ba con datos centrados. Los símbolos de las observaciones

corresponden según su paisaje geoquímico elemental general (punto: paisaje autónomo; círculo: paisaje dependiente).

5.2. Análisis confirmatorio de la diferencia entre paisajes geoquímicos elementales

generales Con el objetivo de confirmar las diferencias observadas entre los dos grupos de paisajes realizamos un análisis confirmatorio utilizando dos técnicas: Manova y Análisis Discriminante. Para realizar la técnica Manova transformamos los datos mediante la transformación clr. A continuación aplicamos el contraste Manova a todas la variables menos 1 del conjunto de datos clr-transfromados (Barceló-Vidal et al, 1999). Este contraste, que presupone hipótesis de normalidad multivariante, lo aplicamos al conjunto de datos con las 12 partes, con 9 partes, y con 6 partes, tal y como hemos trabajado en las secciones anteriores. La realización práctica del contraste se obtiene utilizando el paquete estadístico Minitab (vs. 14). A continuación mostramos el listado de resultados de Minitab:

• Considerando las 12 partes: MANOVA for paisage(Aut/Dep) s = 1 m = 4,5 n = 85,0 Test DF Criterion Statistic F Num Denom P Wilks' 0,83226 3,151 11 172 0,001 Lawley-Hotelling 0,20155 3,151 11 172 0,001 Pillai's 0,16774 3,151 11 172 0,001 Roy's 0,20155

Page 47: Experiencia del estudio geoestadístico de composición

47

• Considerando 9 partes:

MANOVA for paisage(Aut/Dep) s = 1 m = 3,0 n = 86,5 Test DF Criterion Statistic F Num Denom P Wilks' 0,84189 4,108 8 175 0,000 Lawley-Hotelling 0,18780 4,108 8 175 0,000 Pillai's 0,15811 4,108 8 175 0,000 Roy's 0,18780

• Considerando 6 partes:

MANOVA for paisage(Aut/Dep) s = 1 m = 1,5 n = 88,0 Test DF Criterion Statistic F Num Denom P Wilks' 0,88138 4,791 5 178 0,000 Lawley-Hotelling 0,13458 4,791 5 178 0,000 Pillai's 0,11862 4,791 5 178 0,000 Roy's 0,13458

A la vista de los resultados, destacamos que el P-valor es inferior o igual a 0.001 en todos los casos. Podemos concluir, pues, que, hay diferencias significativas entre la composición media de los suelos de los dos paisajes. Es importante remarcar que este contraste también se realizó utilizando la transformación ilr y que se obtuvieron exactamente los mismos resultados.

Con el objetivo de analizar el grado de separación entre las observaciones de los dos grupos de paisajes realizamos un análisis discriminante (lineal y cuadrático, con y sin validación cruzada (para los tres casos de subcomposición. No reproducimos los resultados detallados en este informe porque todos los análisis realizados nos proporcionaron una proporción de clasificación correcta siempre inferior al 76%, abundando los porcentajes alrededor del 65%. Consideramos, pues, que los dos grupos de paisajes no están bien discriminados en ninguna dimensión del hiperespacio.

Conclusiones

1. El método del análisis estadístico de los gráficos biplot es un método efectivo para las generalización, elaboración e investigación de unas bases de datos sobre el contenido de elementos químicos en suelos.

2. Usando el método biplot se ha descrito que en las condiciones de tecnogénesis

moderado en la parte del sur del Polesse de Kiev, según el grado de su influencia sobre propiedades y particularidades de los suelos, los factores geoquímicos se adecuan al orden siguiente: pirogénesis (quema de combustible y elaboración térmica a sustancia) > biogénesis (formación de biomasa, su destrucción y formación de humus, actividad microbiológica anaeróbica) > influencia de las condiciones de la oxidación–reducción > influencia de las

Page 48: Experiencia del estudio geoestadístico de composición

48

condiciones de de acidez–alcalinidad de suelos (influencia de la base mineralógica inicial de las parentales (en las cuales se forman suelos).

3. Los suelos de los paisajes geoquímicos elementales autónomos se distinguen

estadísticamente de los suelos de paisajes geoquímicos elementales dependientes según la influencia sobre ellos de la pirogenesis, la base mineralógica y la biogénesis. En los paisajes autónomos es mayor la influencia de los dos primeros factores, en los dependientes, el tercero.

4. Según sus parámetros geoquímicos, estadísticamente se distinguen bien las

capas genéticas de suelos de acumulación de restos orgánicos y las traspasadas a las rocas parentales incluso las rocas parentales mismas. En las primeras, se manifiesta más claramente la influencia de pirogénesis y el papel de biogénesis, en las segundas, la influencia de la base mineralógica. Las capas iluviales y hléicas se distinguen peor. En las iluviales prácticamente no se manifiestan los procesos de biogénesis, pero es muy importante el balance de los óxidos e hidróxidos del hierro. En las capas hléicas las condiciones de oxidación–reducción y acidez–alcalinidad tienen más importancia. La determinación geoquímica de las capas eluviales y de humus usando elementos químicos investigados, como marcadores, es poco verosímil.

5. La toma de observaciones de suelos en la zona de Polesse investigando sus

propiedades geoquímicas debe basarse sobre el acceso genético. Las observaciones deben ser tomadas no de las profundidades concretas, sino de las partes centrales de las capas genéticas. La toma de las observaciones guiándose solamente con las profundidades fijas de la toma puede representar una información geoquímica más o menos verosímil solamente hasta 10cm y después de 50cm de la profundidad.

Referencias

• Aitchison, J., 1986, The statistical analysis of compositional data: Chapman and Hall, London, 416 p. Reprinted in 2003 by The Blackburn Press, Caldwell, NJ.

• Aitchison, J., 1992, On Criteria for Measures of Compositional Difference: Math. Geol., v. 24, no. 4, p. 365-379

• Aitchison, J., 1997, The one-hour course in compositional data analysis or compositional data analysis is simple in Proceedings of IAMG’97, Barcelona (E), Vol 1, 3-35.

• Aitchison, J., Barceló-Vidal, C, Martín-Fernández, J. A.. and Pawlowsky-Glahn, V., 2000, Logratio analysis and compositional distance: Math. Geol., v. 32, no. 3, p. 271-275.

• Aitchison, J., and Greenacre, M., 2002, Biplots of compositional data: Applied Statistics, v. 51, p. 375-392.

• Barceló-Vidal, C. and Martín-Fernández, J. A. and Pawlowsky-Glahn, V., 1999, Comment on “Singularity and nonnormality in the classification of compositional data”: Math. Geol., vol. 31(5), 581–585.

• Buccianti, A., Montegrossi, G., Tassi, F. and Vaselli, O., 2002, Log-contrast analysis of volcanic fluid composition: a way to check equilibrium conditions?: Terra Nostra, special issue: IAMG’02, vol 3, 405–410.

Page 49: Experiencia del estudio geoestadístico de composición

49

• Daunis-i-Estadella, J.; Pawlowsky-Glahn, V.; Egozcue,J.J., 2002, Least square regression in the simplex: Terra Nostra, Schriften der Alfred-Wegener-Stiftung, Núm. 03/2002, v. 1, p. 411-416 Berlin. ISSN: 0946-8978.

• Eckart, C.y Young, G., 1936, The approximation of one matrix by another of lower rank: Psychometrika, v. 1, p. 211–218.

• Egozcue, J. J., Pawlowsky-Glahn, V., Mateu-Figueras, G. and Barceló -Vidal, C., 2003, Isometric logratio transformations for compositional data analysis: Math. Geol., v. 35, no 3, p. 279-300.

• Glazóvskaiya M.A. Geogímiya priródnix i tejnogénnij landsháftóv SSSR. Ed. Escuela Superior. Moscú, 1988. 328 p. (ruso)

• Greenacre, M.J. and Underhill, L.G., 1982, Scaling a data matrix in low-dimensional Euclidean space in Hawkins, D.M. (ed.), Topics in Applied Multivariate Analysis. Cambridge University Press, U.K., p.183-268.

• Kabata-Pendias, A., Pendias, H. Trace Elements in Soils and Plants. CRC Press, Inc. Boca Raton, Florida.

• Martín-Fernández, J. A., Barceló-Vidal, C. and Pawlowsky-Glahn, V., 1997, Different classifications of the Darss Sill data set based on mixture models for compositional data in Proceedings of IAMG’97, vol 1, 151-158.

• Martín-Fernández, J. A., Barceló-Vidal, C. and Pawlowsky-Glahn, V., 1998, Measures of difference for compositional data and hierarchical clustering methods in Proceedings of IAMG’98, vol 2, 526-531.

• Martín-Fernández, J. A., Bren, M., Barceló-Vidal, C. and Pawlowsky-Glahn, V., 1999, A measure of difference for compositional data based on measures of divergence in Proceedings of the Fith Annual Conference of the International Association for Mathematical Geology (IAMG-1999), pp. 211-216, Trondheim (Norway).

• Martín-Fernández, J. A., Olea-Meneses, R. A. and Pawlowsky-Glahn, V., 2001, Criteria to compare estimation methods of regionalized compositions: Math. Geol., v. 33, no. 8, p. 889-909.

• Martín-Fernández, J. A., 2001 Medidas de diferencia y técnicas de clasificación no paramétrica para datos composicionales: Tesis doctoral (ISSBN: 84-699-5369-9) publicada en formato electrónico en www.tdcat.cesca.es/TDCat-0516101-135345/.

• Martín-Fernández, J.A., Barceló-Vidal, C., and Pawlowsky-Glahn, V., 2003, Dealing with Zeros and Missing Values in Compositional Data Sets: Math. Geol., v. 35, no. 3, p. 253-278.

• Mateu-Figueras, G., Barceló-Vidal, C. and Pawlowsky-Glahn, V., 1998, Modeling compositional data with multivariate skew-normal distributions. in Proceedings of the Fourth Annual Conference of the International Association for Math. Geol., Ed. A. Buccianti, G. Nard, and R. Potenza. Nápoles (I), Part 2, p. 532-537.

• Mateu-Figueras, Glòria, 2003, Models de distribució sobre el símplex: Tesis doctoral (ISSBN: 84-688-6734-9) publicada en formato electrónico en www.tdx.cesca.es/TDX-0427104-170301/, 202 p.

• Mateu-Figueras, G. and Pawlowsky-Glahn, V., 2004, La distribución normal en SD vs la distribución normal logística, in Proceedings of the 28th Congreso Nacional de Estadística e Investigación Operativa, Cádiz (E).

• Pérelman A.I. Geogímia landsháfta. Ed. Escuela Superior. Moscú 1966. 392 p. (ruso)

Page 50: Experiencia del estudio geoestadístico de composición

50

• Pérelman A.I. Izucháiya geogímiyu... (O metodológuii naúki). – Ed. Naúka, 1987. 152 p. (ruso)

• Polínov B.B. Geojimícheskie landshafti/ Polínov B.B. Geografícheskie rabóti. Editorial Estatal de Literatura Geográfica. Moscú, 1952. P. 381–393. (ruso)

• Thomas, C. W. and Aitchison, J., 1998, The use of log-ratios in subcompositional analysis and geochemical discrimination of metamorphosed limestones from the northeast and central scottish highlands in Proceedings of IAMG’98, v. 2, p. 549-554.

• Tyutyunnik, Yu. G.; Gorlitskii, B.A. (1998). The Factor Analysis of Geochemical Peculiarites of Urban Soils in Ukraine. En: Eurasian Soil Science. Vol. 31, No 1. P. 92–100.

• Tyutyunnik Yu. G., Górlitskii B.A. (2000) Tejnoguénne zabrúdnenniya miskíx gruntív Ukraíni (fenomenolguíchnii analis). En: Informes de la Academia de Ciencias de Ucrania, num.6, pp. 208 –211.(ucraniano)

• Tyutyunnik, Yu. G.; Shabatúra, O.V. (2003). Matematíchne modelyuvánniya migrátsii 40? ? 137? s v gruntáx Irpín-Búcha-Vórzelskói rekreatsiinoi zoni// Monitoring nebezpéchnij geologuíchnij protsésiv ta ekologuíchnogo stánu seredóvischa: Tézi dópovidei IV Mizhnaródnoi konferéntsii, 9 – 11 zhóvtniya, Kíev (Ucrania), 9–11 de octubre de 2003, p. 101–102. (ucraniano)

• Tyutyunnik, Yu. G.; Shabatúra, O.V.; Onischúk, I.I. (2004). Udélnoe elektrícheskoe soprotovlénie guenetícheskix gorizóntov póchv. Pochvovédenie. 2004, num. 2, p. 209–213. (ruso)

• Tolosana-Delgado, R., Palomera-Roman, R. Gimeno-Torrente, D. Pawlowsky-Glahn, V. and Thió-Henestrosa, S., 2002, A first approach to classification of basalts using trace elements: Terra Nostra, special issue: IAMG’02,vol 3, 435–440.

• Weltje, G.J., 2002, Quantitative analysis of detrical modes: statistically rigorius confidence regions in ternary diagrams and their use in sedimentary petrology: Earth-Science Reviews, v. 57, p. 211-253

• White, W.M., Geochemistry. Washington: Mineral. Soc. Am., 2001. – 700 p.