bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos parte...

39
BASES PARA UNA TEORÍA SOBRE CLASIFICACIONES DE USO ESTADÍSTICO Y EN REGISTROS ADMINISTRATIVOS (CUERA) Conceptos, definiciones y operaciones Parte II (en revisión) Escrito en : abril 2008 Autor: Mara Silvia Riestra Lugar: Gral. Hornos, Partido de Gral. Las Heras Buenos Aires - República Argentina Serie: Mejora Continua en la Producción Estadística (MeCoPE) Tema: Clasificaciones MECOPE CLAS Nº 00-0-PI Ediciones Mimeo de EcoDinamia (EME) Ediciones para compartir pensamientos, ideas y datos EME-MECOPE-CLAS-00-0-PI-4/2008-msr

Upload: mara-riestra

Post on 29-Mar-2016

215 views

Category:

Documents


0 download

DESCRIPTION

Contiene conceptos y definición tomados de disciplinas que impulsaron el desarrollo de la teoría de las clasificaciones que se adaptaron para establecer un marco teórico para el ámbito de la producción estadística y de registros administrativos.

TRANSCRIPT

Page 1: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

BASES PARA UNA TEORÍA SOBRE CLASIFICACIONES DE USO ESTADÍSTICO Y EN REGISTROS ADMINISTRATIVOS (CUERA)

Conceptos, definiciones y operaciones

Parte II (en revisión)

Escrito en : abril 2008 Autor: Mara Silvia Riestra Lugar: Gral. Hornos, Partido de Gral. Las Heras Buenos Aires - República Argentina

Serie:

Mejora Continua en la Producción Estadística (MeCoPE)

Tema: Clasificaciones

MECOPE CLAS Nº 00-0-PI

Ediciones Mimeo de EcoDinamia (EME)

Ediciones para compartir pensamientos, ideas y datos EME-MECOPE-CLAS-00-0-PI-4/2008-msr

Page 2: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

2

Bases para una teoría sobre Clasificaciones de Uso Estadístico y en Registros Administrativos

Los escritos de EME tienen por finalidad dar forma, espacio y movimiento a ideas y pensamientos que ayuden a las personas y a sus organizaciones a encontrar su manera de abordar la realidad en forma satisfactoria.

reúne los documentos y artículos relacionados con la “Elaboración de estadísticas e indicadores”. La base filosófica es la mejora continua o Kaizen y el objetivo es provocar un cambio de actitud hacia aquella en la cual día a día se va construyendo la calidad; no hay fórmulas ni milagros. Requiere conocer las

Fortalezas y Debilidades que provienen del interior del propio proceso y las Oportunidades y Amenazas que surgen del contexto. El interior y el exterior está formado por personas. Éstas son un factor productivo y, a la vez, las responsables de conformar las instituciones y de gestionar, operar y/o programar las máquinas y los restantes recursos usados en la producción. Es común que en actividades tan complejas, como la producción estadística, se establezcan inercias que con el tiempo disuelven o enquistan la fluidez del proceso. Trabajar bien no es un hecho fortuito ni es producto de la conservación, es la elección de hacer las cosas a conciencia: saber quiénes nos dan los recursos, cómo usarlos y para qué. Por ello, detrás de la organización de esta Serie existe la Visión de aportar leves provocaciones al fascinante proceso de retratar y animar con datos la naturaleza y las actividades del hombre El ser humano es el denominador común.

LA

SERIE

Ediciones Mimeo de EcoDinamia

Page 3: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

3

Bases para una teoría sobre Clasificaciones de Uso Estadístico y en Registros Administrativos

las clasificaciones tienen la función de reunir datos de manera organizada; cada nivel nos permite disponer de arquetipos mesoestadísticos que funcionan como unidades de análisis, de predicción y de conocimiento. Son instrumentos que sirven para comparar datos provenientes de distintas áreas geográficas y de múltiples fuentes; son

el lenguaje común que da lugar a la síntesis y a la comprensión. También son normas, a veces algo arbitrarias, porque encierran contenidos que están en el inconsciente colectivo, en la experiencia de cada uno, y que son difíciles de explicitar pero no de ejecutar.

contiene conceptos y definiciones tomados de disciplinas que impulsaron el desarrollo de la teoría de las clasificaciones, como la botánica, la zoología, la biblioteconomía y la teoría de la información; y que se adaptaron para establecer un marco teórico para el ámbito de la producción estadística y de registros

administrativos. Se incluyen diversos tipos de operaciones, que permiten elaborar las adaptaciones nacionales y regionales de las clasificaciones internacionales como así también desarrollar sistemas de codificación informatizados. A lo largo de del texto, se incluyen ejemplos didácticos para facilitar la identificación e internalización de los conceptos.

ÍNDICE

Introducción 4

Marco conceptual 6

Convenciones utilizadas 7

Siglas 8 - 9

Tabla conceptual 1: conceptos básicos Parte I

Tabla conceptual 2: conceptos lexicales y gramaticales 10-26

Tabla conceptual 3: operaciones y procesos 27-36

Fuentes documentales 37-39

EL

TEMA

ESTE

DOCUMENTO

Page 4: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

4

INTRODUCCIÓN

Me gustaría que este escrito sirva de base para:

el desarrollo de un manual teórico sobre la metodología de las clasificaciones, el diseño de un manual de buenas prácticas en el diseño, implementación y difusión de las clasificaciones de uso habitual

en las oficinas donde se producen estadísticas y en las instituciones que confeccionan registros administrativos, establecer programas integrales de capacitación de todas las personas que intervienen en el proceso de producción,

explotación y uso de las estadísticas, partiendo desde la formación conceptual hacia la aplicación analítica para la cual cada clasificación fue diseñada, adoptada o adaptada.

Por estas razones, en este primer escrito abordé las clasificaciones desde el punto de vista teórico. Detrás de cada sistema de clasificación hay un modelo descriptivo basado en el estado del conocimiento en el momento en que se formuló, y en la visión e ideología de los analistas que colaboraron en el armado de su estructura. La permanencia en el tiempo de ese modelo permite estructurar un orden, una utilidad, una didáctica y la comparabilidad temporal. Sin embargo, es preciso plantear alternativas complementarias y realizar evaluaciones periódicas para monitorear que estas herramientas no provoquen distorsiones de la realidad o hagan que el proceso de producir estadísticas y elaborar registros administrativos pierda su valor agregado. En síntesis, el objetivo formal de este escrito es colaborar y promover la comprensión de los sistemas de clasificación aportando una mejora a la gestión y difusión del conocimiento económico, social, demográfico y ambiental. Gran parte de los conceptos, definiciones y cuestiones metodológicas relacionadas con el diseño y aplicación de clasificaciones fueron tomados de otras disciplinas pioneras en su desarrollo, como las tradicionales ciencias biológicas y la biblioteconomía, y las modernas teorías de la información y la gestión del conocimiento. Pero dado que el porvenir de las CUERA está ligado a temas de Inteligencia Artificial (IA) tales como la captación de datos por lectoras ópticas y procesadores de voz y su codificación informatizada, he introducido algunas cuestiones relacionadas con el léxico. A mi entender, para llegar a una eficiente codificación será preciso enseñarle a la computadora aquello que precisa para aumentar la tasa de aciertos. El vocabulario, los procesos y las categorías clasificatorias tienen atributos como jerarquía, función y delimitación; el ingreso indiscriminado de datos en las bases sobre las que operan los motores informáticos podría provocar el colapso de las redes neuronales y generar conexiones espurias con la consiguiente tasa de errores. Delegar la clasificación y posterior codificación a la computadora implica hacer de forma consciente los procesos intelectuales ya mecanizados en la mayoría de los analistas, codificadores y técnicos de campo para luego racionalizar el diseño del sistema y la entrada de información. Toda la cadena de producción debería implicarse. Analistas temáticos, metodólogos y codificadores deberían comprender cada vez más las clasificaciones, explicitar detalles procedurales de su tarea, identificar los componentes de valor de la cadena input-output de codificación, revisarlos, simplificarlos, estandarizarlos y sistematizarlos, y conocer la repercusión de su intervención en la mejora de los datos. Deberían ser ellos quienes preparen el material para alimentar las secuencias automáticas y repetitivas que deberá realizar la computadora. Los informáticos, dada su formación y práctica, deberían conocer las características de cada una de las CUERA y cada uno de los pasos que permiten arribar a un código correcto para involucrarse con la tarea de mejorar la lógica y secuencia de los procesos. Esto redundará en una eficiente elección de las herramientas informáticas y en una programación que cumpla con los requerimientos de codificación.

Page 5: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

5

En cuanto a los entrevistadores, encuestadores y aquellas personas que atienden las centrales de dudas, sería ideal capacitarlos y entrenarlos para que guíen al informante en cómo realizar descripciones de actividades, productos, ocupaciones, etc. de manera completa y útil. Caso contrario, no será posible la codificación, manual o automática, pues las entradas al proceso serán de mala calidad. Las imputaciones y la programación no podrán suplir la materia prima faltante a menos que tenga un diseño complejo y costoso…pero ¿es eficiente y rentable disponer una metodología de esa naturaleza para compensar deficiencias en la formación e intervención de las personas? Los diseños metodológicos y las tecnologías de IA deberían ir de la mano con el conocimiento humano y formar una sinergia que permita una codificación de excelencia. RECUERDE, la intención de los escritos de EME es compartir datos, pensamientos y experiencias. Agradezco envíe sus opiniones, comentarios y sugerencias a: [email protected].

Page 6: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

6

Marco Conceptual

Notas para comprender la dinámica de las tablas expuestas a continuación Para elaborar este escrito comencé con un concepto foco: clasificación y a partir de su definición desarrollé el texto mediante una dinámica asociativa de conceptos y temas concurrentes, como por ejemplo las patologías habituales que alteran la aplicación y funcionalidad de las clasificaciones o el proceso de codificación. Además se incluyen comentarios de interés y ejemplos. Por cuestiones didácticas y en un intento de simplificar la exposición, organicé el contenido en las siguientes tablas:

contiene términos de uso habitual que muchas veces los usamos por fuerza de la costumbre pero sin ser conscientes de su alcance, como es el caso de “clasificación”, “clase”, “taxonomía”, “nomenclatura”, “canónico” ... También incluye palabras utilizadas en el marco de las familias de clasificaciones elaboradas

por las Naciones Unidas. Esta tabla se incluye en la Parte I de este documento. muchos conceptos y figuras retóricas de la lengua española fueron útiles para avanzar en el diseño de una metodología de trabajo que permite reducir la cantidad de material a codificar y mejorar la calidad de la codificación. En esta tabla, se retoman estos conceptos y se redefinen desde la perspectiva de las CUERA. Por ejemplo, el término “sinónimo” se redefine o se reinterpreta, diciendo que la sinonimia entre

términos se verifica cuando los mismos desembocan en un mismo código de la clasificación. contiene notas relacionadas con las operaciones que son posibles de activar para adaptar las clasificaciones a necesidades particulares.

TABLA 1:

Conceptos básicos

TABLA 2:

Conceptos lexicales,

gramaticales y

semánticos

TABLA 3:

Operaciones

y procesos

Page 7: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

7

Convenciones utilizadas

Columna amarilla

resalta los conceptos a los que se refieren las notas.

Letras rojas llamado de atención.

Recuadros verdes

ejemplos didácticos, por lo tanto puede ocurrir que las descripciones y códigos no sean exactamente iguales a los de los clasificadores que se referencian.

el concepto que lo precede está definido a lo largo del documento. Si se ha adicionado un número, éste corresponde al número de tabla en el que se trata; si no hay número, el término se explica en la misma tabla en la que se encuentra.

= similitud, equivalencia, pero no necesariamente es una identidad.

“o” tanto el término que lo antecede como el que lo procede representan sinónimos. Sólo para simplificar, en las notas se utiliza la primera de las palabras. Así, cuando se menciona “atributo o propiedad o característica o criterio” todas esas palabras son sinónimos, al menos en este dominio.

… indican que hay muchos más ejemplos. Entre párrafos lo utilizo cuando quiero cambiar de tema o continuar uno que se dejó párrafos arriba.

El término “elementos”

hace referencia a cada una de las partes que conforman un todo denominado conjunto; pueden ser cosas, seres, acontecimientos, etc. En el ámbito de las OERA, se van a tratar de descripciones de actividades, de productos, de ocupaciones y de todo tipo variables que caractericen las mencionadas, como por ejemplo unidades de magnitud, tipo de envases, tamaño de empresas, tarea, nivel de ingresos, sexo, género, ... .

Page 8: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

8

Siglas

Page 9: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

9

Page 10: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

10

Tabla 2: conceptos lexicales y gramaticales

Concepto NOTAS RELATIVAS AL CONCEPTO

La relevancia de los conceptos gramaticales y lexicales Lenguaje documental (LD)

En la Tabla 1 se explicaron conceptos que hacen al marco conceptual y cognitivo de las CUERA. En esta segunda se

incorporan conceptos que se han tomado de la órbita del idioma español y de los lenguajes documentales con la

finalidad de explicitar los elementos con los cuales se desarrollan los vocabularios controlados , base para mejorar los procesos de codificación manuales y el diseño de sistemas de Inteligencia Artificial (en adelante IA) aplicados a la codificación.

La tarea de codificar consiste en leer frases que describen las variables de interés. Dichas frases están compuestas por palabras que tienen distintos métodos de composición.

Las clasificaciones, una vez estructuradas, se mantienen durante un tiempo considerable; la tarea diaria respecto a ellas es el mantenimiento y la actualización. Las fuentes de datos que permiten el enriquecimiento paulatino, son las descripciones que vienen de campo, en particular las consultas de las centrales de dudas y los operativos estadísticos continuos.

Por consiguiente, la labor crítica y permanente en este ámbito es la codificación que debe realizarse en forma rápida para tener el tiempo necesario para los controles de calidad y la resolución de casos complicados.

Los Diccionarios de Frases Únicas (DIFU) son el resultado de la reducción del material a codificar correspondiente a cada variable. Su utilidad es lo suficientemente alta como para que el proceso sea incluido en la cadena de valor del proceso de codificación, aún cuando no exista un sistema automático. En mi experiencia, este proceso reduce el 100% de la masa crìtica a no más de un 10%, Esto en un censo con 10.000.000 de respuestas a codificar, al obtener las frases ùnicas, la lista queda reducida a no más de 1.000.000 de registros (sobre estos procesos se sugiere ver el documento Sistema Informatizado de Normalización y Codificación (SiNC) que publicaré proximamente).

Para elaborar los DIFU es preciso traducir los Diccionarios de Frases Originales (DIFO) a lo que

denomino Lenguaje Controlado de las Clasificaciones (LCC) , por analogía de los Lenguajes

Documentales (LD) . Es importante resaltar que cada clasificador, por su naturaleza, involucra dominios delimitados por su objeto de descripción; por lo tanto, existirán diferentes LCC según la clasificación

nuclear de que se trate. Como es de imaginar, los más relevantes son:

o LCC asociado a las Actividades Económicas (LCCAE)

o LCC asociado a las Ocupaciones (LCCO)

o LCC asociado a los Productos (LCCP)

o LCC asociado a los títulos educativos (LCCTE)

Page 11: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

11

Tipologías de Lenguaje documental Lenguaje libre Lenguaje o vocabulario controlado

LCCAE y LCCP si bien están relacionados no pueden conformar un léxico común debido a que la especificación de los productos en el LCCP es mayor. El LCCO y el LCCAE tampoco pueden hacerlo puesto que sus palabras comparten la misma raíz pero no las mismas

derivaciones . LCCO y LCCTE a veces coinciden pero, tampoco es recomendable su unión. Es conveniente mantener todo como

Tesauros independientes.

Resta aclarar que no todas las clasificaciones tienen asociado un lenguaje controlado . Es el caso de las

clasificaciones geográficas y muchas de caracterización , ya que de existir redundancia se puede tratar

por tablas simples de sinónimos sin llegar a conformar un LCC.

… Rescatando conceptos de la Biblioteconomía y de la Teoría de la información entre otras ciencias, se puede decir que en el ámbito de las CUERA, los documentos son los elementos que componen cada clasificación y su nomenclatura: notas, diccionarios, tesauros,… Cada uno de ellos está escrito con un lenguaje acorde a su finalidad denominado Lenguaje Documental (LD). El LD admite algunas tipologías de interés:

de control, de coordinación, estructural.

LD de control: está en relación a la existencia o no de límites en el vocabulario que se aplica al documento. Se

tienen así dos tipologías:

Lenguaje Libre se compone de un vocabulario no pautado, ilimitado y de alta especificidad.

Los diccionarios de palabras y frases originales, las notas explicativas, las fichas,… son elaborados con lenguaje libre. La limitación que existe no es impuesta sino que depende de la naturaleza sectorial y/o la región de la que provenga la descripción.

Lenguaje Controlado (LC) fabricado “a medida” con palabras del lenguaje natural a las que se les da

un valor semántico normalizado y representativo del contenido de la realidad que se codifica y a las que se les aplica reglas morfológicas y sintácticas.

Las palabras articuladas en frases se las simbolizan mediante una notación que las representa en virtud a una tabla de correspondencia analógica que conforma la clasificación en cuestión. En otras palabras, una clasificación es un vocabulario controlado.

Page 12: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

12

Lenguaje pre coordinado Lenguaje post coordinado Lenguaje jerárquico Lenguaje asociativo

Desde el punto de vista de la aplicación concreta, se trata de un lenguaje intermediario entre el contenido original de las descripciones y las necesidades de los usuarios (codificadores, analistas y usuarios de los datos), facilitando el proceso de recuperación de información útil para codificar o identificar categorías de la clasificación en cuestión. Por ejemplo, el concepto de Comercio al por mayor y comercio al por menor, plantea una situación dónde el uso por parte del público en general no coincide con la acepciòn incluida en la terminologìa de la producción estadística.

Los costos de contar con sistemas con LC se generan antes de su aplicación, amortizándose rápidamente durante su

uso. Es decir, los diccionarios de sinónimos , de palabras anuladas , de palabras espurias , etc. y el

armado de los campos semánticos o abuelos requieren una inversión importante de tiempo, pero es tiempo fuera del proceso de codificación y previo a la aplicación del sistema de codificación informatizado; durante el proceso los tiempos se reducen drásticamente pues el material a codificar se reduce al menos un 90%, la notación se torna mucho más homogénea y el nivel de errores puede reducirse por debajo del 7%. El lenguaje libre centra sus costos en el ingreso de los datos y sus beneficios en los controles de calidad de la codificación. Capitalizar el lenguaje libre implica ingresar todas las frases que vienen de campo de manera “original” sin corregir ni modificar. Los diccionarios que se obtienen son materia prima básica para mejorar los diccionarios mencionados y para realizar los controles de calidad de las codificaciones automáticas. Por ello, ambos lenguajes – controlados y libres - son complementarios, su uso combinado permite contar con sistemas de clasificación y codificación robustos y flexibles. LD de coordinación:

Lenguaje precoordinado la sistematización del lenguaje del documento está predefinido antes de

iniciar la clasificación y codificación de los elementos

La CIIU se realiza con lenguaje controlado y precoordinado. En las notas explicativas el vocabulario es libre pero está preestablecido y jerarquizado, aunque puede actualizarse.

Lenguaje postcoordinado se va desarrollando con el material codificado o documentado.

Los tesauros y los índices listados post coordinados, con lenguaje controlado. Los diccionarios de frases originales listados post coordinados, con lenguaje libre.

Nota: ya se habló de este tema cuando se definieron los tipos de clasificaciones 1

Lenguaje Documental según estructura: por su configuración pueden ser:

Lenguajes jerárquicos, arbolados o sistemáticos clasificaciones jerárquicas , Lenguajes asociativos índices, tesauros, diccionarios,… Lenguajes sintácticos descripción de actividades, productos y ocupaciones ya que deben cumplir

Page 13: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

13

Lenguaje sintáctico Principios básicos de los LD Redundancia Entropía Ambigüedad conceptual

con una sintaxis que garantice la representatividad del concepto y la relación entre los atributos que hacen que la descripción sea codificable.

Nota: ya se habló de este tema cuando se definieron los tipos de clasificaciones

Los LD, en particular los LC deberían cumplir ciertos principios básicos que en la práctica no se materializan en forma estricta. Sin embargo, es importante tenerlos en cuenta como una forma de establecer un objetivo a mediano plazo que permita contar con sistemas de codificación productivos. Los principios son:

Organización sencilla

No redundancia ,

Principio de entropía

Unívoco

Delimitado

Por redundancia se entiende la repetición de términos. Eliminarla es importante para mejorar la productividad del sistema de codificación.

Las palabras que difieren en género, número o declinación verbal conforman redundancia. Lo mismo ocurre con las palabras

sinónimas

El Principio de entropía refiere a la concentración de información en un solo término.

Los “padres” en los campos semánticos son un medio para que el LCC cumpla con el principio de entropía.

Con el término unívoco se señala la necesidad evitar patologías que pueden generar ambigüedad documental y

ruido documental o parásitos .

La ambigüedad conceptual es un problema que se presenta ante la existencia de palabras y frases que inducen a una mala clasificación y codificación debido a la pluralidad de significados o a la falta de delimitación de categorías. Esto puede subsanarse de diferentes maneras:

notas explicativas de atención . elaborar procedimientos condicionales preestablecidos, que pueden llevar a una codificación

automática que se sustenten en datos concomitantes, caso contrario redireccionando el proceso hacia la codificación manual.

Exigir descripciones que cumplan con los requisitos gramaticales1. El ruido documental o parásitos, se produce cuando al tratar de recuperar una información, ésta resulta no

1 Ver Riestra, Mara (2007) “La gramática…

Page 14: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

14

Ruido documental o parásitos Delimitación Funciones de los lenguajes documentales o Controlados de las clasificaciones Lenguaje, léxico o jerga sectorial

ser pertinente para la aplicación. En otras palabras, en la búsqueda de datos para colocar un código o en la codificación automática, se recuperan o asignan códigos que no corresponden. La asignación de falsos padres puede provocar parásitos como el ejemplo de asignar como padre de banco la palabra “entidadfinanciera”, ya que en una búsqueda o codificación automática traerá asociados códigos relacionados con muebles, herramientas metalúrgicas, etc. debido a la polivalencia de la palabra banco. En estos casos es preferible

dejar la palabra como huérfana . Tablas de correspondencias erróneas también pueden provocar parásitos de manera sistemática incluso, si se trata de tablas de correspondencia múltiple, difundiendo los parásitos de uno a otro clasificador.

En cuanto a la delimitación, implica restringir la cantidad de términos; acorde al documento ya que puede darse una delimitación sectorial, temática, etc.

Codificar actividad usando diccionarios que provengan de declaraciones de actividades; idem para las demás variables. Ello no quita que existan palabras que estén en varios diccionarios conformando intersecciones como es el caso de una gran cantidad de productos que aparecen en los de actividades, productos y ocupaciones.

Por todo lo mencionado es que se hace necesario trabajar los sinónimos , la polisemia , la homonimia ,

los accidentes gramaticales y palabras espurias , entre otras.

En cuanto a las funciones prioritarias de los LD y los LCC, se pueden mencionar: reducir las ambigüedades semánticas, mejorar la consistencia en la representación del dominio al que refiere (las clasificaciones y sus

nomenclaturas) facilitar la realización de búsquedas amplias.

Las clasificaciones, los tesauros y los diccionarios de frases únicas utilizan lenguaje controlado.

… Es importante mencionar léxicos especializados que operan dentro de las CUERA y los defectos y cuidados que hay que tener en torno a ellos: El lenguaje sectorial es el subconjunto especializado del lenguaje natural, que es peculiar a un ámbito sectorial y/o gremial; si bien se puede asociar al concepto de jerga, este último es más coloquial o común. Sus elementos aparecen en las declaraciones de actividades, ocupaciones, profesiones y productos de operativos estadísticos. Como los sectores están asociados a determinadas clases de las distintas clasificaciones, dicho lenguaje también

afecta a los términos relacionados a cada categoría o a cada cadena y, por consiguiente, afectan a diccionarios ,

índices , tesauros ,… En las declaraciones de registro administrativos del tipo tributario es poco probable que se use la jerga sectorial. En los mismos predomina la formalidad y quienes confeccionan los formularios no son necesariamente técnicos del sector

Page 15: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

15

Patología Normativa de Registro Dialecto regional Vocabulario o Diccionario de precaución Palabras espurias

sino profesionales contables y/o jurídicos. Muchas veces, las descripciones que consignan son de tipo estatutario o contractual produciendo la Patología Normativa de Registro. Veamos por qué se genera:

Cuando se establece una sociedad, su estatuto o contrato de formación obliga a que se defina un objetivo, esto es, la actividad económica que le da origen y razón de ser. A los efectos de evitar cambios permanentes de estatuto ante cambios del objeto, se declaran actividades tan abarcativas que en la jerga se denominan “actividades paraguas”. Algo parecido ocurre en los registros administrativos donde las unidades productivas que se inscriben lo hacen antes de comenzar a producir. Debido a que no se sabe si la actividad va a tener éxito, se procede de la misma manera. Una vez funcionando, la rectificación o ratificación de la inscripción no necesariamente se produce, quedando como registro una actividad mixta, poco real, muchas veces coincidente con el contenido del estatuto y muy difícil de codificar en forma unívoca provocando la patología mencionada.

El dialecto regional es similar al lenguaje sectorial pero su dominio comprende el vocabulario de uso habitual en países y/o regiones.

En Argentina, el utilitario provisto por los supermercados para hacer las compras se le denomina carro o changuito; también se llama carro al acoplado tirado por caballos, bicicleta o automóvil. No es habitual denominar carro a un automóvil, lo que sí ocurre en algunos países de América Latina. Asimismo, dentro del país se utilizan diferentes términos como sorbete, pajita o bombilla, al elemento que uno coloca en una botella para beber su contenido. Los tipos de pan o cortes de carne adoptan diversos nombres según la región.

Cuando se arman los índices, diccionarios, tesauros, vocabulario controlado,… aparecen términos que provocan ambigüedades de codificación, cambian los sentidos de las frases, incluso algunas abreviaturas pueden tener varios significados,…. Por lo tanto, a los efectos de reforzar los instrumentos de codificación informatizada, es recomendable

establecer una lista de vocabulario de precaución que, si bien puede aplicársele las operaciones lexicales , requieren procesos especiales para que no alteren el sentido de los descriptores.

La palabra “banco” puede ser un mueble, una herramienta de carpintería, una institución financiera. “Art” puede ser la abreviatura

de artículo o el acrónimo de Aseguradora del Riesgo del Trabajo. “Usina” es un término utilizado para designar una planta de generación de electricidad o de recepción y manipulación dentro de la producción de lácteos. Este aspecto es preciso evaluarlo a la luz del dialecto regional y sectorial, ya que las listas de precaución pueden variar mucho de un país a otro.

Por lo visto, el lenguaje es un factor importante en el ámbito de las clasificaciones y afecta a todos los componentes de la nomenclatura y a los sistemas de codificación manual e informatizada. Dentro del vocabulario usado en las descripciones reales de las variables de actividad, producto, ocupaciones, … hay

dos tipos de palabras que es preciso identificar y eliminar de los DIFU :

Las palabras espurias, conjunto de términos completos que no tiene ningún tipo de utilidad ni para la codificación ni para mantener las frases completas y en forma coherente.

Por ejemplo, las palabras intensificadoras y algunas calificadoras de color, tamaño, etc. De todas formas hay que ser prudente pues si una descripción es: “Fabricación de productos de línea blanca” el calificador “blanca”

Page 16: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

16

Palabras anuladas Léxico

está reemplazando al concepto de electrodomésticos (al menos en Argentina). En cambio en pintura blanca, la palabra blanca es espúria. Como regla, una palabra que segùn el ámbito es espurea o clave, debe mantenerse y no eliminarlas.

Las palabras anuladas son aquellas que integran descripciones originales pero están incompletas o no son identificadas o carecen de sentido. Se producen por errores en la transcripción a los formularios, faltas de ortografía que hacen incomprensible la palabra, errores de tipeo, etc.

El advenimiento de los sistemas de captación visual y auditiva refuerza la necesidad de abordar el estudio del lenguaje de las clasificaciones. Estos sistemas focalizan la atención en las palabras que integran las frases originales

que describen a las actividades, las ocupaciones, los productos,…y conforman el léxico asociado a cada clasificación. Existe un diccionario por cada variable ya que los criterios taxonómicos y requerimientos gramaticales son diferentes puesto que las palabras, si bien en raíz pueden coincidir, difieren en su morfología. También puede cambiar el grado de especificidad.

Las descripciones de ocupaciones están formadas por diferentes partes: el nombre de la ocupación, la tarea que en ella se realiza y la tecnología aplicada (tanto blanda como dura); como la unidad de referencia es el individuo, las respuestas suelen estar en primera persona: preparo comidas, limpio oficinas, lavo y plancho ropa, vendo libros. En actividad el verbo está conjugado de manera más genérica e impersonal: preparación de comidas; limpieza de oficinas; lavado y planchado ropa; venta de libros. En cuanto a la intersección del conjunto de palabras usadas en las descripciones de productos, actividades y ocupaciones, sólo aparecen términos genéricos como comidas, libros y ropa. El uso de denominaciones específicas de un bien se presenta de manera excepcional cuando una planta o una ocupación son altamente especializadas.

¿Para qué son útiles los diccionarios de palabras en la captación de las descripciones? Dicho de manera simplificada, esos sistemas captan imágenes y/o sonidos según el caso. Mediante un programa intermediario, cada imagen y cada sonido se transforma en palabras y fonemas asociados a ellas, siempre y cuando

figuren en los diccionarios de lectura que alimentan a esos sistemas. Cuantas más palabras haya que contrastar,

más lento se hace el sistema de ingreso y más posibilidades habrá de que exista homografía y de que se elijan palabras erróneas. Durante la lectura óptica del censo de población de Argentina, al traducir imágenes a palabras, se asociaba Panadería a Ganadería. Esto se producía por desperfectos en la presión del lápiz o defectos en la caligrafía (las letras G y P eran similares) y dado que el diccionario de lectura estaba ordenado alfabéticamente, Ganadería era la primera similitud encontrada2. Es decir el escaneo funcionó bien, pero hubo este tipo de problemas debido a las

palabras homográficas como las mencionadas. Por ello es recomendable colocarlas dentro del vocabulario o

2 Excluyendo la inicial Ganadería y Panadería son iguales, por lo tanto, al no existir otro criterio, elige la primera que encuentra). (excluyendo la inicial ambas elige la primera que encuentra).

Page 17: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

17

Morfología Sintaxis Semántica Semasiología Onomasiología Etimología

diccionario de precaución . Asimismo, debe excluirse de los diccionarios de lectura las palabras redundantes

, espurias , etc. y aquellas con índices de asiduidad = 0 y que llevan a la ambivalencia y/o al entorpecimiento de la preparación del material para codificar.

Por ello, y por la tecnología a la que acceden los organismos de estadística en la mayoría de los países, es que los diccionarios deben tener un dominio delimitado y los ingresos deben realizarse con formularios que contengan letras delineadas en base a modelos prototípicos o, en caso de uso de la voz, con una dicción clara y nítida (salvo que medie un teclado como en las encuestas telefónicas automáticas).

… Observamos que estudiar las cuestiones lexicales y gramaticales es la base para poder operar con las descripciones de las variables a codificar y permite:

disponer de diccionarios que alimenten los sistemas de captación mediante sensores normalizar, simplificar y reducir las listas de frases originales, de modo tal de facilitar y agilizar las

tareas de clasificación y codificación. sentar las bases físicas necesarias para aplicar IA a los procesos de codificación.

A continuación se abordan temas relacionados con el estudio de las palabras útiles a la hora de diseñar sistemas de codificación y/o diccionarios de codificación asistida. Dichos temas están relacionados con dimensiones del lenguaje a saber:

Morfología cómo se arman las palabras: componentes, interrelaciones y características que derivan de la articulación; cuáles son raíces, cuáles son afijos…

Sintaxis cómo se combinan para formar grupos: palabras compuestas, frases, textos,… Léxico- semántico significado de las palabras.

Semasiología estudio de los diferentes significados de un mismo significante (forma que adquiere un signo)

Así como el código (significante) “O” significa oxígeno; en CIIU 3, el código “15200” significa Elaboración de productos lácteos

Onomasiología estudio de los diversos nombres y denominaciones que expresan una misma noción

o concepto o categoría clasificatoria.

Etimología origen e historia de las palabras

Page 18: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

18

Sobre las palabras Fonemas Monemas, Lexemas y Morfemas y sus tipologías

Es importante destacar que a lo largo de esta tabla, las explicaciones que se abordan tienen por finalidad establecer

definiciones de los elementos sobre los cuales se montan las operaciones lexicales y de codificación que se

exponen en la Tabla 3. Las operaciones lógicas y de adaptación están relacionados con conceptos de la Tabla 1 y que hacen a la teoría de las clasificaciones más que a las técnicas de codificación.

En sentido estricto, las operaciones lexicales son operaciones externas que permiten el ingreso de datos en forma automática y preparar la materia prima para ser consumida durante la codificación pero no conforman tareas internas de codificación propiamente dichas.

Las palabras simples o primitivas están formadas por fonemas que sólo tienen significado en forma conjunta. Su descomposición fonológica podría llegar a ser útil en el caso de utilizar sensores auditivos de captación. “de” es una palabra simple, cuyos fonemas son “d” y “e”

Un fonema es una representación aproximada de rasgos fonéticos; es una abstracción de los sonidos del habla. No debe confundirse con el concepto de fono que es la realización acústica de los fonemas. El fonema es un concepto del área de lengua, el de fono del área del habla.

Gran parte de las palabras están formadas por fonemas que forman subconjuntos denominados monemas . Éstos son unidades básicas del lenguaje, dependientes y con significado. Encontramos dos tipos:

Lexemas o palabras primitivas y según los casos pueden llegar a ser equivalentes a los conceptos de raíz, radical, tema o término de base y,

Morfemas.

En comer, com es el lexema cuyo tema es la comida er es el morfema que funciona como terminación verbal

/c/ /o/ /m/ /e/ /r/ son los fonemas

Los lexemas son monemas con valor lexical o semántico ; tienen autonomía morfológica, fonológica y sintáctica. En general conforma el tema o raíz de la palabra, por lo tanto, es lo que le da a la palabra el significado de base

Los morfemas son monemas con valor gramatical . Pueden ser de dos tipos:

Independientes o clíticos, se ligan a lexemas de distintas palabras sin completar el significado de ninguna en particular

Las preposiciones, las conjunciones, los determinantes, verbos auxiliares

Page 19: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

19

Creación de palabras por derivación

Dependientes o ligados, se unen a otros monemas modificando la fonética, la acentuación y/o el significado. Se dividen en:

o Flexivos son aquellos que no modifican el valor semántico básico.

Género, número, modo verbal, tiempo gramatical, persona de conjugación,… son morfemas flexivos

Una aplicación concreta es el armado de la familia de palabras , el conjunto de palabras originales y construidas en base a los morfemas dependientes flexivos de género, número y, si corresponde, declinación verbal. Estas familias son parte de los elementos de síntesis que

participan en el armado de los Diccionarios de Frases Únicas (DIFU) . o Derivativos o afijos son aquellos elementos no autónomos que modifican el valor semántico

básico y se ubican al inicio, medio o final del lexema y en base a ello pueden ser respectivamente: prefijos, infijos y sufijos.

Com + afijo “dor” comedor lugar donde se puede comer Com + afijo “estible” que se puede comer Afijo “in” + com + Afijo “ible” que no se puede comer

Con los elementos descriptos se tienen gran parte de los ingredientes necesarios para crear palabras. Las formas más habituales son:

Creación por derivación Creación por composición

Creación de palabras por derivación: añadiendo afijos al lexema.

a. prefijo + raíz = palabra derivada no modifican la categoría gramatical b. raíz + sufijo = palabra derivada modifican la categoría gramatical c. raíz+infijo+sufijo = palabra derivada Los afijos tienen significado propio, por lo tanto le aportan una idea o sentido adicional al de la raíz o tema. Por ejemplo:

Sufijo Sentido Ejemplo aje acción estibaje, anclaje, embalaje, … ción acción construcción, producción, fabricación,… ista oficio clarkista, periodista, modista, … tor ejecuta la acción pintor, cantor, actor,… ería tienda o local / cualidad panadería, verdulería, zapatería,…

Page 20: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

20

Creación de palabras por composición Intensificadores Calificadores o modificadores Acrónimo

coquetería, galantería,… Prefijo Sentido Ejemplo a negación acéfalo, ateo,… pre anterioridad preparto, predicción, prevención,… super encima supermercado, superintendencia,…

Creación de palabras por composición: se crean con palabras ya existentes:

a . por prefijación: prefijo + palabra: subdirector, vicepresidente,...

b . por yuxtaposición: palabra + palabra a. cochecama las dos palabras están completas b. pelirrojo la primer palabra tiene una leve modificación c. paraguas última letra de la primer palabra se yuxtapone con la primera de la segunda

palabra c . guión: palabra - palabra: insumo-producto

Para completar el esquema relacionado con las palabras útiles en las operaciones lexicales existen una serie de tipos de palabras que es importante tener en cuenta y delimitar sus alcance al dominio de los sistemas de IA:: Los intensificadores modifican el potencial de una expresión. No aportan información útil para la codificación; en tal

sentido conforman palabras espurias y deben eliminarse. Simple, mucho, poco, muy, demasiado…

Los calificadores cumplen el rol de modificador, delimitando el alcance de un descriptor, representando un concepto singular factible de ser ubicado en categorías diferentes. Permiten eliminar ambigüedades y polisemias y evita el armado de relaciones espurias entre términos y códigos de categorías.

En la descripción: El calificador es: En educación primaria primaria En dulce de leche leche En minerales no metálicos no metálico En chofer de auto de auto

El acrónimo es una forma de abreviación de conceptos compuestos por varias palabras; se forma con las iniciales o primeras letras, se escribe en mayúscula y cada inicial se separa con puntos3. Con el tiempo y el uso habitual puede

llegar a lexicalizarse y aceptarse como palabra, escribiéndose por consiguiente en minúscula. La operación por la cual se obtiene unidades léxicas que funcionan como palabras independientes se denomina

3 Hoy esto último se recomienda no aplicar al menos en las bases de registros administrativos y en las bases que componen los sistemas de gestión de las clasificaciones y en los de codificación informatizada

Page 21: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

21

Lexicalización Sigla Sinónimos Cohipónimos Hiperónimos o padre Hipónimos o hijos

lexicalización.

Acrónimo Significado Lexicalizado

N.C.P. no clasificado en otra parte o no comprendido en otra parte ncp R.R.H.H. recursos humanos rrhh F.F.C.C. ferrocarril ffcc

La sigla es un caso particular de acrónimo referido a denominaciones:

Instituciones FFAA = Fuerzas Armadas Tipos jurídicos SA = Sociedad Anónima Nombres de clasificaciones = CIIU, CPC, SA Nombres de organizaciones = ONU, CEPAL, FMI

Los acrónimos-sigla CIIU, CPC, son utilizadas cada vez más como palabras del léxico de las clasificaciones, es decir, se han lexicalizado.

El uso de sinónimo, es de lo más relevante en el armado de los DIFU : representa la operación nuclear en el proceso de preparación del material a codificar ya que unifica y reduce drásticamente su volumen. Establecer la tabla de sinónimos consiste en identificar todas las palabras que permanecen juntas en las mismas categorías taxonómicas de un mismo nivel. Tienen asociadas el mismo conjunto de códigos de un clasificador en particular. Dichas tablas se establecen para clasificador y nivel; es decir, las tablas de sinónimos a 5 dígitos de una clasificación de actividad no son exactamente iguales al de las tablas de sinónimos a 2 dígitos del mismo clasificador. Los sinónimos se clasifican en tres niveles: o Cohipónimos: unidades lexicales que pertenecen a una misma categoría y se codifican con el mismo código.

Caramelos, chicles, pastillas, golosinas, alfajores, gomitas, turrones, … en la clasificación a 4 dígitos de la CIIU son

cohipónimos, pues en todos los eslabones productivos (fabricación y venta intermediaria, mayorista o minoristas) se incluyen en las mismas categorías taxonómicas.

o Hiperónimo: posee una jerarquía terminológica más genérica que otros, aún cuando puedan mantenerse en la

misma categoría clasificatoria. En las operaciones lexicales descritas en la Tabla 3, este concepto permite el

armado de la figura relacional y de síntesis denominado “padre” .

Golosinas es el más genérico de los términos del ejemplo anterior.

Muebles es más genérico que mesa, silla o placard.

o Hipónimos: términos con mayor grado de especificidad dentro de una escala jerárquica. En las operaciones lexicales que se describen en la Tabla 3, este concepto representa a las figuras relacionales denominadas

Page 22: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

22

Falsos padres Falsos hijos Homofonía Homografía Homonimia Parónimos

“hijos” .

Mesa y silla son hipónimos del hiperónimo mueble.

Se denomina falsos padres a la patología que surge al armar campos semánticos donde los padres modifican el sentido de la frase original. Para garantizar la calidad de la codificación es preciso tenerlos totalmente controlados.

Mueble es un falso padre para mesa de entradas

A veces es preciso eliminar hijos denominándose falsos hijos.

Banco y bancos no pueden formar parte de los hijos del campo semántico: Entidadfinanciera, sino permanecer aislados formando una pequeña familia de palabras.

No debe confundirse la sinonimia con los conceptos de homofonía , homografía , homonimia y parónimos

pues ello puede provocar patologías como la de falsos padres e hijos , parásitos , ambieguedades con consecuencias sobre la productividad y calidad del proceso. La homofonía refiere a palabras con igual sonido pero distinta escritura y significado. Es importante tenerlas en

cuenta y colocarlas en el vocabulario de precaución , en especial en la medida que se comience a trabajar con captación de encuestas mediante voz.

Casa - caza

La homografía se aplica a palabras o conceptos que mantienen una forma escrita similar pero cuyo significado se modifica con el contexto. En el ámbito de la codificación automática deberían ser tratados con las restricciones del caso.

Libro de quejas, libro contable, libro de texto…; Mesa, mesa de entradas, mesa de pool…

La homonimia implica igual forma gráfica y/o fónica pero diferente significado.

Banco puede ser una institución financiera, un mueble, un equipo para taller,…

Los parónimos son palabras con forma y sonido similar pero diferente significado. En las descripciones utilizadas en la esfera estadística se da con frecuencia en especial cuando la captación de los datos se realiza por escaneo o voz, provocando problemas de pertinencia, ambigüedades y otras patologías. Deberían incluirse en el vocabulario de

precaución .

Page 23: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

23

Metonimia Sinécdoque Paráfrasis

Panadería y ganadería ; dirigencia y diligencia; casa y cosa; panal y pañal; …

La metonimia es una figura retórica que designa una cosa con el nombre de otra. Los términos están ligados por correspondencia de significado en el marco de la clasificación en cuestión, previa validación que esa relación se mantenga a lo largo de todos los nodos que conforman los eslabonamientos horizontales de los términos involucrados,

sin provocar inclusiones erróneas. Esta figura se utiliza cuando en un conjunto de cohipónimos (como el ejemplo

de las golosinas antes expuesto), se elige uno como hiperónimo (la palabra “golosinas”) que reemplaza a los

restantes (“caramelos”, “chicles”, “pastillas”) que ahora pasan a ser hipónimos estableciéndose una relación padrehijo.

La metonimia es la base de las operaciones lexicales: familiarizado (padres) y campos semánticos (abuelos) 3.

La sinécdoque es un caso de metonimia en el cual una parte designa al todo. El padre elegido no es un término genérico como el caso de golosinas, sino uno específico. De todas formas al definirlo como padre, mantiene el status de tal independientemente del grado de especificación del término en la realidad. Lo importante es que no modifique la codificación.

Para evitar ambigüedades en el conjunto de palabras relacionadas con muebles y no perder la palabra “mesa”, útil en varias categorías taxonómicas, esta puede usarse como padre. Evidentemente es menos genérica que mueble pero representa un elemento que forma parte del conjunto de muebles.

Todas estas figuras conforman artificios tendientes a llevar las bases de codificación a la menor cantidad posible, asignar un código y luego retornar al texto original. Por lo tanto, los textos modificados quedan dentro del ámbito del proceso informático y de codificación. El control de calidad se realiza con las frases originales y jamás con las modificadas. Si se deja de lado las palabras y abordamos las frases, se suma otra figura gramatical útil: la paráfrasis. Consiste en una traducción simple y didáctica. Por traducción debe entenderse como la reescritura del texto original y no un cambio de idioma. Conforma una sinonimia pero referida a oraciones o textos. En el ámbito de las clasificaciones, paráfrasis son frases equivalentes en sentido y categoría.

Supongamos que tenemos el siguiente clasificador: 1 Elaboración de alimentos 11 Elaboración de lácteos 111 Elaboración de leche 112 Elaboración de quesos 113 Elaboración de postres y helados lácteos

Si se está realizando una codificación a 2 dígitos, una modo de reducir la cantidad de material a codificar es aplicando el

Page 24: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

24

Tipos de paráfrasis Palabras Huérfanas

normalizado , el familiarizado . Pero estos procesos dependen del nivel de codificación ya que lácteos es sinónimo de quesos y leche si se codifica a 2 dígitos, pero no lo es si se realiza una codificación a 3 dígitos. Así, en la codificación a 2 dígitos “elaboración de lácteos” y “elaboración de leche” son paráfrasis.

Hay dos tipos de paráfrasis de particular interés: Paráfrasis mecánica: consiste en sustituir alguna palabra por sinónimos o frases alternas con cambios

sintácticos mínimos.

Fabricación de sillas Fabricación de muebles Fabricación de mesas Fabricación de placards

Paráfrasis constructiva: se reelabora el enunciado dando origen a otro con características muy distintas pero

conservando el significado.

Elaboración de caramelos, chicles y turrones Fabrica de pastillas y caramelos Fabricación de golosinas Fabricación de turrones

La paráfrasis es la figura que se utiliza para el armado de los DIFU . Las palabras huérfanas son aquellas que no se han asociado a ninguna otra para evitar la formación de patologías de clasificación; otra razón puede ser por tratarse de palabras que no se han procesado debido a su baja asiduidad

o porque aún no se ha realizado su estudio y por lo tanto tratarlas como tales es una solución conservadora que evita posibles errores. Por ello, no forman parte de la tabla de sinónimos. En general, todas las palabras deberían conformar familias aunque sea con aquellas de igual raíz y distinto género, número y/o declinación verbal. Esta gradación tan amplia de tipos de palabras y figuras gramaticales nos dan un importante servicio para mejorar la performance de los sistemas de inteligencia artificial de codificación. Es de imaginar que un diccionario de sinónimos para una codificación a 4 dígitos será menos extenso que aquel para una codificación a 2 dígitos. En el primer

diccionario prevalecerán los hipónimos mientras que en el segundo el vocabulario se simplifica mediante los

hiperónimos ,

El Lenguaje controlado de las Clasificaciones (LCC) se forma con las Palabras Huérfanas (PH) y

Padres (P) que adoptan el rol de descriptores y reemplazan a las palabras Hijos (H) pues conforman no-

descriptores , como una forma de restringir su uso y facilitar así el armado de frases prototípicas, simplificadas y reducidas.

LCC = PH + P - H

Page 25: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

25

Nota de atención Neología de codificación

Por el contrario, los diccionarios para alimentar a las lectoras ópticas y los sensores de voz deben estar armados por

los descriptores y no-descriptores correctamente escritos. Las palabras deben provenir de declaraciones pasadas y nunca utilizar los diccionarios usuales la lengua española ya que no cumple ninguno de los principios

básicos de los lenguajes documentales y son excesivamente grandes provocando la demora de proceso. En mi

experiencia tanto los diccionarios de palabras originales corregidas de actividades como de ocupacionesrondan entre las 8000 y 10000 palabras.

Nota: los conceptos de descriptor y no-descriptor adoptan diferentes formas según el elemento de la nomenclatura que se trate:

En la clasificación es el título que acompaña al código. En un tesauro el descriptor es la palabra clave, la que resume una búsqueda, mientras que los no-descriptores son las

palabras que están contenidas en la palabra clave.Se recomienda no utilizar; de aquí que a los no-descriptores se le asocie la expresión “úsese …(poner la palabra clave)”.

En un diccionario de frases únicas, los descriptores son frases modificadas por la aplicación de operaciones lexicales y de las cuales se obtiene una que sólo se utiliza en el proceso de codificación, nunca llega a analistas ni al público.

En un diccionario de frases originales, los descriptores son las denominaciones que se recogen en los formularios. En este caso no existen no descriptores

Un campo semántico es el conjunto de todos los conceptos asociados a las categorías de cada clasificador

elaborados en el vocabulario controlado . Para su armado se realizan varias operaciones lexicales que se detallan en la Tabla 3. Su composición está dada por los padres de los campos semánticos, los padres de las familias de palabras y las palabras huérfanas.

En el armado del vocabulario controlado también participan palabras pre existentes pero a las que se les amplia el sentido conceptual y palabras nuevas que denomino neologismos de codificación, que no tiene existencia en la lengua habitual o natural, que solo se usan para el proceso de codificación. Entidad bancaria= entidad financiera= financiera= banco de la nación entidadfinanciera = neologismo de codificación.

Page 26: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

26

Polisemia artificial Anacronismo

ALGUNAS PRECAUCIONES

Al armar campos semánticos se debe evitar provocar polisemia artificial, es decir, que las palabras sean convertidas a descriptores que generen una falsa pertinencia múltiple. Para evadir estas situaciones se aplica el vocabulario de

precaución . El anacronismo es una patología frecuente que consiste en el uso de conceptos y/o criterios perimidos. Ello ocurre por falta de actualización, aplicación de creencias sin el debido sustento y/o por no aplicar los criterios clasificatorios por estar en desacuerdo. Esta situación podría darse si a un analista “no le gusta” que la producción del producto “x” se incluya dentro de la categoría “XXX”. y modifica las inclusiones sin presentar una moción de cambio al área que se encarga de clasificaciones pero tampoco t iene el respaldo documental ni consensual para hacerlo. La situación termina que algunos codificadores pondrán el producto “x” en XXX y otros donde dice el analista en disidencia. Luego los datos no son ni compatibles ni comparables. Siempre hay casos que están en el borde o que el tiempo ha modificado sus características o donde hay serias diferencias de opinión todas válidas pero siempre hay que elegir una y atenerse a la misma (o realizar las gestiones correspondientes para su modificación y puesta en conocimiento de los usuarios). Por lo tanto es importante comprender que no se trata de tener razón sino de aplicar criterios homogéneos aunque no siempre conforme a todos los puntos de vista. Otro ejemplo de anacronismo se da cuando una institución acepta seguir un clasificador determinado, supongamos la CIIU, pero luego aplica definiciones de otras fuentes que no son concordantes con ella aunque resultan ser más convenientes para expresar los resultados buscados. En tales casos es preferible adoptar un clasificador similar al de referencia, aplicarle criterios propios y eliminar el concepto “se sigue la CIIU”. Ya no estamos hablando de una adaptación sino de adoptar un cuerpo de atributos o criterios diferentes en un esquema que a simple vista puede ser similar. Estas patologías provocan una asincronía de la red de clasificaciones y por consiguiente de los datos ordenados con la misma.

Page 27: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

27

Tabla 3: operaciones y procesos

Para la lectura de esta tabla es preciso tener en claro los conceptos contenidos en las Tablas 1 y 2. El material de esta tabla está en proceso de revisión y actualización

Operación NOTAS RELATIVAS A LA OPERACIÓN Álgebra booleana Operación

Es un marco conceptual que se basa en el análisis y síntesis de conjuntos. Las clasificaciones incluyen esas dos acciones dando por resultado una estructura de conjuntos que admite dentro de las mismas relaciones lógicas entre elementos que representan conceptos-palabras y/o frases. El término operaciones clasificatorias comprende procedimientos, técnicas, estrategias, estudios y otras acciones que permiten:

armar nuevas clasificaciones, adaptar clasificaciones pre existentes a usos específicos establecer estructuras alternativas o complementarias manipular las mismas o sus contenidos y sus estructuras de manera tal de establecer instrumentos

que puedan ser utilizados en los procesos de clasificación y codificación en forma y tiempo, etc Muchas operaciones ya se mencionaron en las tablas anteriores; aquí se formularán aquellas relacionadas más directamente con la adaptación de las clasificaciones a usos particulares y con las vinculadas a facilitar el armado de sistemas de codificación mediante inteligencia artificial o la codificación asistida:

a. Operaciones lexicales y/o gramaticales b. Operaciones lógicas c. Operaciones de adaptación y flexibilidad d. Operaciones básicas de codificación e. Operaciones especiales de codificación

a. Operaciones lexicales y/o gramaticales: es la manipulación de las frases y las palabras tanto originales provenientes de los registros administrativos y los relevamientos como de las clasificaciones, con dos finalidades básicas:

Armar instrumentos de codificación: tesauros, diccionarios, índices, etc. Simplificar, homogeneizar y reducir el conjunto de descripciones a codificar.

Las operaciones que componen este grupo son:

normalización corrección abreviación

Page 28: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

28

Normalización

partición intersección campos semánticos género número metonimia sinécdoque neología de codificación familiarizado paráfrasis reversión /no reversión truncamiento

físico virtual

Permutación Anulación Espurias frecuencia asiduidad

Existen reglas básicas de normalización como por ejemplo:

1. los diccionarios de palabras y frases deben estar en letras mayúsculas o minúsculas, pero no una combinación de ellas.

2. Eliminar o reemplazar los caracteres según la tabla de normalización (previa prueba de que no altera significado de la palabra o la frase). Según las variables a codificar algunos de los caracteres de la tabla deben dejarse sin alterar. Por ejemplo en las variables geográficas los números no deben eliminarse si existen nombres de unidades jurisdiccionales que los usen.

25 de mayo; 9 de julio; 3 de febrero, son nombres de localidades que utilizan números, por lo tanto en el normalizado de los instrumentos de codificación de los clasificadores geográficos, los números deben mantenerse.

3. Eliminar los errores de ortografía y, 4. Eliminar las abreviaturas que no han sido estandarizadas o que representan excepciones.

no reemplazar artículo por ART (en Argentina ART es Aseguradora de Riesgo de Trabajo

Page 29: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

29

Una tabla de normalización puede ser por ejemplo:

El caracter se reemplaza con El caracter se reemplaza con El caracter se reemplaza con

"." "" "´" " " "á" "A" "=" " " "`" " " "é" "E"

";" " " "ñ" "Ñ" "í" "I" " , " " " "À" "A" "ó" "O" "(" " " "È" "E" "ú" "U" ")" " " "Ì" "I" "Ü" "U" "'" "" "Ò" "O" "ü" "U" '"' " " "Ù" "U" "0" "" "[" " " "Á" "A" "1" "" "]" " " "É" "E" "2" ""

":" " " "Í" "I" "3" "" "-" " " "Ó" "O" "4" "" "_" " " "Ú" "U" "5" "" "*" " " "à" "A" "6" "" "/" " " "è" "E" "7" "" "\" " " "ì" "I" "8" "" "%" " " "ò" "O" "9" "" "'" " " "ù" "U"

Operaciones lógicas

diferencia atracción intersección graficación o representación gráfica o diagramación conceptual

Operaciones de adaptación y flexibilidad

intrapolación o apertura interna extrapolación o apertura externa cierre o degradación síntesis inversión integración vista

Operaciones de codificación imputación reducción o degradación microprocesos

Page 30: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

30

Abreviación Campo semánticos o familias de conceptos Familia de palabras

Operaciones para la codificación asistida o automática pre coordinación indización asociativa pos coordinación La abreviación es un procedimiento por la cual una palabra o un conjunto de palabras que conforman un concepto son representadas por letras y/o caracteres. La abreviación se puede realizar:

contracción: usándose letras de distintas partes de la palabra Pte: presidente Cte: corriente Abrvcn: abreviación (sacar vocales excepto la primera)

simbolización: usándose caracteres que representen la palabra. Este tipo de abreviaturas es uso nulo o al menos poco frecuente en clasificaciones, por los problemas que trae aparejado en el procesamiento informático y la codificación automática

acronimia: es el proceso por el cual se elaboran los acrónimos. En el ámbito de las clasificaciones de uso estadístico es una actividad habitual, dada la cantidad de sistemas de clasificaciones que se utilizan.

El resultado de la operación de abreviación es la abreviatura. Un campo semántico es el conjunto de conceptos que conforman la totalidad o parte de la enumeración de una o varias categorías de un mismo eslabonamiento. Dentro del conjunto se designa a uno de los elementos con el rol de padre y a todos los demás como hijos.

Para el armado de los campos semánticos es importante realizar un estudio onomasiológico y por complemento

de semasiología referido al clasificador en cuestión. En general, la onomasiología de un clasificador, como el de producto o de actividad, no es válido para el clasificador de ocupaciones. Las denominaciones las sinonimias son función del alcance de cada categoría y los criterios de inclusión difieren de un clasificador a otro.

En un censo de población cuando la persona de referencia realiza actividades de niñera o de servicio doméstico pueden considerarse elementos sinónimos en términos de la clasificación de actividades y en el proceso de codificación automática, pues ambas conforman la actividad de los hogares que contratan servicio doméstico, llevan el mismo código. No ocurre lo mismo en el clasificador de ocupaciones donde las actividades ocupacionales mencionadas se incluyen en categorías diferentes .

Se denomina familia de palabras mostrar como se arman como operacion

Silla silla – sillas Mesa mesa – mesas Muebles mueble-muebles Banco banco--bancos …

Page 31: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

31

Padres y abuelos

Los padres o hiperónimos son elegidos entre todo el conjunto de familias que pueden ser consideradas sinónimos y se busca aquél término más genérico y que no lleve a errores en su aplicación. La función del padre es representar a todos sus hijos en un proceso de simplificación del material a codificar, reduciendo drásticamente la cantidad de material a procesar al permitir armar frases únicas estándares. Este tema se detallará en un escrito relacionado con la codificación informatizada. Dado que los niveles de codificaciòn pueden variar, por ejemplo una encuesta de hogares codifica a 3 ó 4 dìgitos o una agregaciòn de ellos (tal es el caso de la CAES), mientras que la encuesta económica codifica a 5 y un registro tributario puede llegar a 6 dìgitos. En tal sentido, al primer nivel de agregación le llamo “Padre” y al “Padre” de los Padres” le llamo “Abuelo” como forma de llamar la atenciòn al respecto. Sin embargo, todos cumplen el mismo rol. Los padres y/o abuelos y/o descriptor padre y/o descriptor abuelo, representa a todas las palabras que reemplaza, denominados descriptores hijos, no altera el sentido de las frases en las cuales se incluyen y no provoca errores de codificación ni ambigüedades. Los padres generalmente mantienen la misma raiz de las palabras hijos o representan conceptos similares;los abuelos agrupan a padres y palabras huérfanas por lo tanto las raices de las palabras pueden o no ser similares. Sea el caso de CIIU 3.1

Fuente: Cereal es un buen descriptor abuelo de padres como arroz, trigo, maiz, sorgo, soja, girasol, tabaco, caña de azúcar, y cualquier otro producto incluido en el Grupo 011 de la CIIU -3, incluso frutas . Cualquier frase tal como cultivo de arroz, cultivo de trigo, cultivo de tabaco, cultivo de frutas,…puede ser sinplificada a Cultivo de cereal ya que al codificar se colocaría el código 011. Esto es lo mismo que decir, Cultivo de cereal lleva el mismo código que Cutlivo de frutas, cultivo de tabaco, etc….En otras palabras, el código 011 “atrae” a todas esas decripciones hacia el mismo código. Sin embargo, si aumenta el nivel de detalle de codificación, Cereal solo es buen abuelo de: maíz, girasol, sorjo, soja, y cualquier otro producto de 0111 pero no de los productos incluidos en 0112 y 0113 ATENCIÓN: esto es un artificio a nivel informático para aumentar la codificaciòn – BAJO NINGUN concepto se modifican las descripciones originales de la base. Además los controles de calidad del código asignado se realiza validando el código asignado con la descripción original. Para un detalle de esto es preciso leer el Manual del SINC (Sistema Informatizado de Normalización y Codificación) que publicaré proximamente.

Page 32: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

32

Hijos Familiarizado Normalización

El requisito que debe cumplir el padre es que no altere el sentido de la frase y más aún que no alteren el código de la categoría de pertenencia. Los padres en campos semánticos de verbos pueden ser tomados de la lista de verbos en infinitivos. En campos semánticos donde coincide familia y campo es recomendable fijar reglas como por ejemplo que sea el masculino singular, en su defecto el femenino singular, en su defecto neutro singular, etc. Por consiguiente, los hijos o hipónimos son aquellas palabras que no han sido elegidas como padres y que en el proceso de familiarizado desaparecen. El familiarizado es la operación informática por la cual, las palabras padres ocupan el lugar de las palabras hijos en las descripciones de los diccionarios utilizados para codificar y en los archivos de las frases a codificar. En el caso anterior parece ideal elegir la palabra mueble como padre quedando el campo semántico armado de la siguiente forma: PADRE MUEBLE HIJOS silla, sillas, mesa, mesas, muebles, banco, bancos Pero dado que banco puede ser un banco de trabajo o un banco, como entidad financiera, la familia de palabras de banco no se incorpora y queda sola, formando un campo semántico que coincide con la familia…solo que se asigna un padre. Padre banco Hijos bancos También se podría dudar de la palabra mueble pues si alguien contesta que el establecimiento es la mesa de entradas de un hospital (por más que se trate de una unidad auxiliar, muchas veces hay que codificar la actividad dependiendo del criterio que se adopte para la codificación de las mismas). Si se reemplaza mesa por mueble, la descripción quedará “mueble de entradas de un hospital”…si bien es sobreentendido, dependerá del criterio del analista. El armado de los campos semánticos es un tema complejo pero no imposible, de hecho para una persona con pleno conocimiento de los clasificadores, mucha experiencia de codificación y una exquisita pericia lógica los campos semánticos se arman en una o dos semanas siempre y cuando cuente con un informático que lo acompañe. Este es un tema que se tratará en otro escrito.

La normalización comprende un conjunto de acciones tendientes a uniformar y simplificar los descriptores que provienen de encuestas y formularios de los registros administrativos y aquellos que componen los archivos de los

Page 33: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

33

Partición Permutación Diferencia Atracción Intersección

sistemas de codificación informática. Cuando un descriptor está formado por más de un término, para elaborar búsquedas, índices, diccionarios, tesauros, etc. es conveniente tener la posibilidad de entrar por cualquiera de los componentes. Para ello es preciso realizar la partición del concepto que consiste en descomponerlo en sus términos componentes. Si la partición opera sobre los diccionarios de frases originales provenientes de campo, se obtienen los índices y diccionarios de palabras, tan útil a la hora alimentar a las lectoras ópticas y a los sistemas de codificación informatizada. La partición es conveniente combinarla con la permutación, que consiste en rearmar tantos descriptores alternativos como palabras relevantes tenga el descriptor original o corregido. Cada alternativa dará lugar a comenzar con cada uno de los términos obtenidos de la partición seguidos de una coma a partir de la cual se colocarán los restantes términos. Solo el descriptor que siga la sintaxis correcta irá sin coma. Esta operación tiene, en las clasificaciones, significado conceptual, lógico y lexical. Se refiere a la diferencia de atributos entre una categoría y otra. En los sistemas jerárquicos, las categorías superiores, más inclusivas contienen los atributos de las categorías menos inclusivas. Desde el punto de vista lexical, la diferencia permite establecer lexicones de valencias verbales más amplios en categorías superiores que se vuelven más específicos en las inferiores, e incluso desaparecen. En un clasificador de actividades, como la CIIU, si se quiere establecer un valencia verbal, todas las palabras que representan alimentos lácteos pueden llevarse a un mismo vocablo: lácteos, conformando un campo semántico; por ejemplo leche, queso, yogur, manteca, etc. Sin embargo, por debajo de ese nivel, la composición del campo semántico es mucho más acotada.

Desde el punto de vista lógico, la diferencia establece relaciones de pertenencia y no pertenencia y relaciones de tipo condicional que pueden expresarse de manera simbólica utilizando los operadores pertinentes. Es un procedimiento analítico por el cual a descripciones que conforman una base de datos a codificar, se les asigna un código que permite reunir a componentes de una misma categoría que estaban dispersas en la base. Desde el punto de vista de la producción estadística, este procedimiento es el que permite reunir a todos los datos relacionados con arquetipos de unidades de análisis similares. La operación de Atracción requiere que se haya cumplido el proceso de codificación. Es una relación conceptual y lógica que establece la pertenencia de un elemento a al menos dos categorías de diferente cadena. En las clasificaciones jerárquicas, debido a que los objetos deben clasificarse dentro de una sola cadena, se utilizan las notas de alcance o reglas para realizar las exclusiones e inclusiones que garanticen el cumplimiento del principio de “mutuamente excluyente” y por consiguiente se elimina la intersección. En las clasificaciones facetadas, este principio no necesariamente se cumple, por lo tanto queda consignada como

Page 34: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

34

Dispersión o desagregación Dispersión física Relacionados dispersos Operaciones de adaptación,

relación de intersección entre facetas y/o categorías. En general los sistemas de clasificación van de lo general a lo particular o lo que es lo mismo, los niveles mas altos agrupan los elementos que los niveles más desagregados dispersan. Cuando este proceso de dispersión se realiza sin una lógica que permita el armado de cadenas coherentes, la dispersión puede transformarse en una patología. Pero también se denomina dispersión física al conjunto de descripciones aún no clasificadas y codificadas que permanecen en cuestionarios y/o bases de datos sin un orden lógico. Por lo tanto, la dispersión es el estado en que se encuentran los datos antes de que se produzca la atracción que opera a través de los procesos de clasificación y codificación. Finalmente, existe otro concepto interesante vinculado al concepto de dispersión que es el de relacionados dispersos. En general se da en el ámbito de las relaciones de conceptos a lo largo de las categorías que conforman un mismo nivel pero diferentes agrupaciones, como ocurre con los eslabonamientos productivos. Este concepto es de fundamental aplicación cuando se diseñana clasificaciones con las que luego se quieren armar matrices sectoriales, ya que es una guía para realizar aperturas en cada estadío de proceso. Si se quiere armar el eslabonamiento productivo de aves para carne, es preciso que tanto en la producción agropecuaria, la manufactura, el comercio en todos sus niveles, en casas de comidas preparadas, etc. se establezcan, si corresponde, aperturas acordes siguiendo el criterio de relacionados dispersos: Producción de aves para eviscerado Eviscerado y procesamiento de carne avícola Comercio intermediario de aves vivas Comercio intermediario de aves faenadas Comercio al por mayor de aves Comercio al por menor de aves y productos de granja Restaurantes especializados en preparación de comidas a base de aves (parripollos, Kentucky, etc.) Nota: con este ejemplo no estoy señalando que estas aperturas deberían existir, es solo a los efectos didácticos para mostrar el armado de un clasificador que permita el armado del eslabonamiento productivo.

Las operaciones de adaptación y/o flexibilidad son operaciones que se aplican a la clasificación y/o su nomenclatura para permitir su aplicación a diferentes usos, costumbres y realidades. Esa capacidad se puede desarrollar a través de las hileras como de las cadenas o niveles y su movimiento puede ser:

Page 35: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

35

flexibilidad o expansibilidad u hospitalidad Principio de octava Intrapolación o Apertura interna En que nivel es preciso ubicar una apertura

Retracción: cierre o degradación, expansión : intra y extrapolación; artificio de octava reordenación: vista, inversión potenciación: mediante el uso de categorías vacantes

Paralelamente la estructura de cada sistema de clasificación de base, actúa como limitante para evitar modificaciones tales que impidan dar continuidad y universalidad comparativa entre quiénes la adoptan y adaptan. La flexibilidad concierne tanto a la hilera como a la cadena. La flexibilidad de cadena esta relacionada con la expansibilidad Cuando hay insuficiencia de filas o hileras o no se sabe a ciencia cierta las necesidades de apertura o por el contrario las aperturas pueden variar de una a otra aplicación, es habitual aplicar una versión modificada del artificio o principio de octava creado originalmente por Ranganathan. Consiste en realizar 8 aperturas relativamente homogéneas y dejar una 9º apertura para un resto, cuyo descriptor puede comenzar con”otras actividades……” o pude finalizar con “ncp =no clasificado o no comprendido en otra parte” o “nep = no especificado en otra parte”. A su vez el “9” puede adicionarse otro dígito y permitir aperturas desde 91 a 99 ó 901 a 999 si se agregan dos dígitos y así sucesivamente. La Apertura interna es una operación de intrapolación que permite la expansión de la clasificación tomada de base a los efectos de adaptarla, ampliarla y/o complementarla. El clasificador no cambia de orden y sus criterios de inclusión y exclusión permanecen vigentes. El clasificador que ha sido intrapolado se denomina Clasificador derivado y posee un grado de desarrollo mayor y las cadenas lógicas son más largas. Hay varias formas y lugares donde realizar la apertura, y no hay una regla universal ya que depende, entre otros factores, del tipo de clasificador, del objeto, de la aplicación y de si existen referentes internacionales que brinden un antecedente de usos y costumbres.

Entre las situaciones más habituales (pero no exhaustiva), se encuentran los siguientes casos * Caso 1: si la notación de una categoría de termina en “cero”, ello permite (pero no obliga) realizar

aperturas intermedias utilizando los dígitos que el cero da lugar. * Caso 2: si un concepto que es importante para un país, está contenido dentro de una categoría

bolsa o en una categoría que abarca más de un concepto, , es recomendable (no es una regla) realizar aperturas evaluando cuál es el nivel más conveniente

* Caso 3: cuando dentro de una agrupación de categorías, se necesitan sub niveles, se pueden realizar aperturas de sub agrupaciones.

Nota: dado que es un tema algo extenso en relación a este trabajo, lo trato en otro artículo de manera específica. Cuando un clasificador se quiere ampliar, complementar o caracterizar, se puede adicionar a la notación del mismo

Page 36: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

36

Extrapolación o apertura auxiliar Método deductivo o descendente o top down Método inductivo o ascendente Patologías o disfunciones de las clasificaciones Artificios Integración Degradación o reducción

una notación proveniente de otro sistema clasificatorio como por ejemplo una clasificación auxiliar o una clasificación de caracterización. Para dejar indicado donde termina un sistema y comienza otro se puede colocar un carácter de enlace denominado extrapolador. Este procedimiento de expansión de denomina extrapolación, debido a que lo

adicional proviene de afuera del sistema en cuestión, a diferencia de la intrapolación donde la expansión queda incorporada a la clasificación modificada. Cuando la forma de organizar la clasificación se realiza mediante operaciones lógicas que subdividen el conjunto de objetos a ordenar, en facetas o categorías jeráquicas, se denomina método deductivo o top down. Por el contrario la organización inductiva o ascendente es la que se realiza en sentido inverso, es decir mediante la búsqueda y agrupación de los objetos de acuerdo a su semejanza y sirve para realizar inferencias de carácter general. Esto guarda estrecha relación a la función predictiva de las clasificaciones ya comentada en la tabla 1; es utilizada en el armado del vocabulario controlado y en particular, en el armado de índices de codificación informatizada. Se denomina patología a la vulnerabilidad y arbitrariedad que hereda un sistema de clasificaciones debido a las disfunciones o incoherencias que presentan en alguno de los elementos de su estructura. Cuando se identifican y por diferentes razones no pueden corregirse, es preciso que se haga una nota explicativa que exponga las razones de la misma y la forma en que debe ser abordado el tema durante el proceso de análisis y codificación. Artificios: son recursos procedurales que permiten normaliza, combinar, simplificar las clasificaciones, su nomenclatura y sus vinculaciones, como así también los procesos de clasificación y codificación.

* Artificios de agregación códigos de caracterización; carácter de verificación, * Artificios de síntesis: campos semánticos * Artificios de atribución: atracciones, combinaciones, integraciones * Artificios de identificación

Para reformular y actualizar un esquema de clasificación, se puede recurrir a la Integración, que consiste en incorporar una nueva categoría o faceta, ocupando una notación vacante o procediendo a crear un código auxiliar que lo represente. El procedimiento requiere tres etapas básicas:

o Análisis integral armado de la nomenclatura o Ingreso provisorio o experimental para la prueba o Incorporación definitiva

La degradación o reducción, es una operación de codificación por la cuál se decide codificar a un nivel de agregación mayor al preestablecido por la clasificación. Generalmente ocurre por la falta de datos relevantes para la asignación del código completo.

Page 37: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

37

Inversión

Una declaración de actividad que consigne “Actividad agrícola” no permite al codificador llegar mas allá de los 2 digitos de la CIIU. Sin embargo, es sabido que en los operativos, como las encuestas a hogares o censos de población, cómo es preciso llegar a “3 ó 4” dígitos, aún cuando el codificador no tenga más datos posibles en otra variable concomitante, se le instruye colocar esa cantidad de dígitos con lo cual está incurriendo en una “imputación subjetiva”. Lo correcto serìa codificar a 2 dìgitos y luego a travès de un mètodo estadístico objetivo realizar las imputaciones en forma metódica. En grupos de trabajo como los de MERCOSUR, concientes de este problema, se resolvió crear la CAES. Esta conforma un degradación de la CIIU a nivel 4 dígitos, que en términos menos técnicos implicó elaborar una clasificación sintética.

La inversión es una operación de reorganización de una clasificación (clasificador de origen) acorde a otra clasificación auxiliar y/o de caracterización o en base a una clasificación con la cual se ha establecido correspondencia (clasificador de destino). El grado de detalle es un condicionante para establecer los niveles de inversión. Es importante resaltar que para que la inversión se realice en forma completa, las relaciones de correspondencias entre clasificador de origen y el clasificador de destino deben ser 1 a 1 ó muchos a 1, caso contrario se requerirán particiones que solo se pueden salvar con imputaciones o recodificaciones. El clasificador de origen es aquel que se ha utilizado para codificar los datos que se quieren reordenar. En general, esta operación se realiza como una forma alternativa de presentar los datos. También es útil en un periodo de transición entre un clasificador y su nueva versión.

Una tabla de correspondencia entre CPC y CIIU puede permitir reordenar la CPC a 5 dígitos acorde a la CIIU pero no necesariamente viceversa.

Cuando se está codificando es muy habitual usar la inversión cuando se realiza el análisis multidimensional explicado en tabla 1.

ADVERTENCIA Para comprender en forma más acabada todo lo que se ha incluido en este documento se requiere haber comprendido el contenido de las tablas 1 y 2 y fundamentalmente haber tenido experiencias de codificación. Caso contrario es probable que el grado de abstracción del texto de idea de un tema complejo.

El material de esta tabla está en proceso de revisión y actualización.

Page 38: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

38

FUENTES DOCUMENTALES DICCIONARIOS Y SIMILARES

Barité, Mario (2000), ”Diccionario de organización y representación del conocimiento. Clasificación, indización y terminología. Versión preliminar”. Se tomó de http://eubca1.eubca.edu.uy/diccionario en diciembre de 2007.

Benot, Eduardo (1941), “Diccionario de ideas y afines” Editorial Sopena SRL, Buenos Aires, 12/1941. Miranda Bruce-Mitford (2000), “El libro ilustrado de Signos y Símbolos”, Editorial El Ateneo, Buenos Aires. ISBN 950 02 6349 1 Encyclopedia Britannica Publishers, Inc (1994/5) “Enciclopedia Hispánica”, ISBN 1 56409 007 8 Hijos de J Espasa Editores ( sin datos ) “Enciclopedia Universal Ilustrada Europea Americana”. Tomo XIII. Hijos de J Espasa

Editores, Barcelona. Cuando se accedió a este material , no disponía de tapas. Hasta el momento no he podido identificar el año. Real Academia Española (2001) “Diccionario de la lengua española”, Grupo Editorial Planeta, Buenos Aires. ISBN 950 852 149 x.

BIBLIOGRAFÍA TEMÁTICA

Curtis, Helena; Barnes, N Sue (2001) “Biología”, Editorial Médica Panamericana, ISBN 950 06 0423 x Bernabé, Richard (1999) “ Making de Preamble Operacional” presentado en la reunión del Grupo de Expertos en Clasificaciones

Económicas y Sociales, Nueva Cork 15-17 de noviembre de 1999. ESA/STAT/AC.75/5 Hofmann, Eivind (2001) Implementing and up dating the Internacional Standard Classifications of Occupations: Issues, experiences and

posibilities” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones Internacionales Económicas y Sociales realizada en Nueva York entre el 18 y 20 de junio de 2001. ESA/STAT/AC.78/8 6 june 2001.

INDEC (1994) “Clasificador Nacional de Ocupaciones. Antecedentes, Características y perspectivas” INDEC, Serie Metodologías Nº 7 Ministerio Do Trabalho, Secretaria de Políticas de Emprego e Salário (1994), “Clasificaçao Brasileira de Ocupaçoes CBO 94” C614C

2da. Edición, Brasilia Montero, Yusef Hassan; Fernández, Francisco J Martín (2004) “Sistemas de Clasificación de Información”, No Solo Usabilidad Journal,

nº 3, 14/2/2004, ISSN 1886 8592. Naciones Unidas, Departamento de Asuntos Económicos y Sociales, División de Estadística (1989). “Clasificación por Grandes

Categorías Económicas definidas con referencia a la CUCI, rev. 3”Informes estadísticos, Serie M Nº 53, rev. 3 Nueva York 1989. ST/ ESA/STAT/Ser.M/Rev.3,

Naciones Unidas, Departamento de Asuntos Económicos y Sociales, División de Estadística (1999). “Clasificación Central de Productos (CPC) Versión1.0” Informes estadísticos Serie M Nº 7, Ver. 1.0, Nueva York, 2001. ST/ESA/STAT/ser.M/77/ver.1.0

Naciones Unidas, Departamento de Asuntos Económicos y Sociales, División de Estadística (2001). “Clasificaciones de Gastos por Finalidades. Clasificación de las funciones del Gobierno (CFG); Clasificación del consumo individual por finalidades (CCIF); Clasificación de las finalidades de las instituciones sin fines de lucro que sirven a los hogares (CFISFL); Clasificación de los gastod de los productores por finalidades (CGPF)”. Informes estadísticos, Serie M Nº 84, Nueva York, 2001. ST/ESA/STAT/ser.M/84

Naciones Unidas, Departamento de Asuntos Económicos y Sociales, División de Estadística (2001). “Classification of Environmental Protection Activities and Expenditure (CEPA 2000) with explanatoru notes”” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones Internacionales Económicas y Sociales realizada en Nueva York entre el 18 y 20 de junio de 2001. ESA/STAT/AC.78/5/129 mayo 2001

Page 39: Bases para una teoría sobre clasificacionesde uso estadístico y en registros administrativos Parte 2

39

Naciones Unidas, Departamento de Asuntos Económicos y Sociales, División de Estadística (2005). “Preliminary review of the UNSPSC, its relationship to internacional statistical classifications and its suitability for statistical purposes” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones Internacionales Económicas y Sociales realizada en Nueva York entre el 20 y 24 de junio de 2005. ESA/STAT/AC.103/15 Junio 2005

OIT (1991) “Clasificación Internacional Uniforme de Ocupaciones: CIUO 88” OIT, Ginebra, 1991 OIT (2005) “Updating ISCO 88. Discussion report” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones

Internacionales Económicas y Sociales realizada en Nueva York entre el 20 al 24 de junio de 2005. ESA/STAT/AC.103/10, 19 mayo 2005

OIT (2005) “Draft Proposed Structure of ISCO” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones Internacionales Económicas y Sociales realizada en Nueva York entre el 20 al 24 de junio de 2005. ESA/STAT/AC.103/11, 19 mayo 2005

OIT (2005) “Review of country replies to the First Exploratory Questionnaire to update the Internacional Standard Classiffication of Occupations (ISCO-98)” Documentos de trabajo para la Reunión del Grupo de Expertos en Clasificaciones Internacionales Económicas y Sociales realizada en Nueva York entre el 20 al 24 de junio de 2005. ESA/STAT/AC.103/12, 19 mayo 2005

PCNO, INDEC (1993) “La información estadística de las ocupaciones. Una línea de investigación en la construcción de datos primarios. Acerca de la crítica al Clasificador Nacional de Ocupaciones del INDEC” Estudios del Trabajo Nº 5, Primer semestre 1993

Riestra, Mara Silvia; Cárdenas María Jimena (1998) “Hacia la normativa del SiNN”, documento interno mimeo, INDEC, 14/5/1998 SiNN ProMAEO (2001) Manual de codificación de ocupaciones, versión 2001). Mimeo 2001 Slavic, Aida (2000) “Definición de tesauro y clasificación como herramientas de indización”,

http://dublincore.org/documents/2000/11/28/tesauri-definition/ Torrado, Susana (1993) “El nuevo Clasificador Nacional de Ocupaciones del INDEC: una fractura irreparable en el sistema estadístico

Nacional” Estudios del Trabajo Nº 5, Primer semestre 1993 Torrado, Susana (1993) “El Clasificador Nacional de Ocupaciones (CNO-91) Crítica a la razón autoritaria” Estudios del Trabajo Nº 6,

Segundo semestre 1993 Venegas Morales, José (1997) “ Los clasificadores como base de tratamiento homogéneo de la información básica de Cuentas

Nacionales”, documento presentado en el Seminario Latinoamericano de Cuentas Nacionales, CEMLA, Buenos Aires, octubre 1997 UNESCO (1997). “Revisión de la Clasificación Internacional Normalizada de la Educación (CINE)” Conferencia General 29º reunión,

París 1997. 29 C/20 8 de agosto 1997. Traducción. WEB

http://unstats.un.org/unsd/class/intercop/training/eclac07/eclac07-2.asp www. Wikipedia.org.es http://eubca1.eubca.edu.uy/diccionario/ http://www3.unileon.es