Como tengo experiencia en contenido editorial, siempre he valorado las taxonomías para hacer que el contenido se pueda encontrar, pero más recientemente he llegado a apreciar cómo las taxonomías también pueden desempeñar un papel en hacer que los datos sean accesibles y útiles.
Las taxonomías han ayudado con éxito a las personas a encontrar y recuperar el contenido deseado desde la década de 1990 e incluso décadas antes, si consideramos los tesauros dentro del alcance de las taxonomías. Sin embargo, el foco siempre ha estado en el contenido: originalmente contenido impreso como artículos de periódicos, páginas web, páginas de intranet o CMS y documentos adjuntos, etc., y luego contenido multimedia, como imágenes, animaciones o videoclips, archivos de audio. Cada elemento de contenido se etiqueta con términos de taxonomía de diferentes tipos para lo que trata y el tipo de contenido que es. Las taxonomías se han vuelto cada vez más importantes a medida que aumentan el volumen y los tipos de contenido, especialmente a medida que más personas en diversos roles crean contenido.
Sin embargo, estas herramientas y tecnologías para datos no reemplazan las taxonomías y otros vocabularios controlados, que aún tienen un papel importante que desempeñar para conectar a las personas con los datos y la información deseados y, en última instancia, con el conocimiento. Veo dos formas en que las taxonomías están vinculadas a los datos:
1. Gestionar y comprender los datos de forma estandarizada con mejores metadatos, que depende de vocabularios controlados.
2. Conectar los datos con bases de datos de gráficos, gráficos de conocimiento, ontologías y, en última instancia, taxonomías.
Taxonomías y metadatos
Los metadatos se refieren a los tipos de datos, propiedades, campos o elementos estandarizados y los valores individuales específicos que completan esos tipos o propiedades. Desde la perspectiva del contenido, consideramos que los metadatos sirven para la gestión y recuperación de contenido, como el tipo de formato del contenido, el título, la fuente, el creador, la fecha, el idioma, los temas, la categoría, la audiencia, etc. Pero los metadatos también existen en las bases de datos y las hojas de cálculo. , donde los encabezados de columna son las propiedades de los metadatos. Por ejemplo, los metadatos del contacto incluirían nombre, número de teléfono, dirección de correo electrónico, ciudad/estado, país, tipo de contacto, fecha de contacto inicial, propietario del contacto, etc. Los metadatos del producto incluirían el número de SKU, el nombre del producto, el tipo/categoría del producto, el precio, color, características, fuente de suministro, disponibilidad minorista, etc. Los metadatos transaccionales incluirían el nombre del producto comprado, el comprador, la fecha de compra,
Los datos pueden administrarse y analizarse mejor si las propiedades y los valores de los metadatos están estandarizados y controlados. Los vocabularios controlados deben usarse para estandarizar los metadatos para muchas de las propiedades: formato, tipo, fuente, temas, categoría, propósito, país, tipo de contacto, nombre del producto, categoría del producto, color, características, disponibilidad, etc. Las taxonomías jerárquicas sirven para algo de esto. metadatos, como categorías de productos.
Como ejemplo, planeo asistir a una conferencia en Austin, TX, y quería buscar contactos en el área de Austin en mi sistema CRM (administración de relaciones con los clientes). Filtrando resultados por ciudad, encontré algunos con la ciudad de Austin, pero otros tenían la ciudad de Round Rock. Filtrando en Austin, me los habría perdido, si no hubiera sabido que Round Rock era un suburbio de Austin. Lo que se necesitaba era una propiedad de metadatos para "área metropolitana", en lugar de "Ciudad", una lista controlada de áreas metropolitanas, y Round Rock como una etiqueta alternativa para el área de Austin en ese vocabulario controlado.
Taxonomías y ontologías
Las taxonomías, los vocabularios controlados y los metadatos por sí solos son buenos para filtrar o realizar consultas para encontrar contenido que cumpla con un conjunto de criterios (basados en propiedades de metadatos o selecciones de taxonomía facetadas). Pero, ¿qué sucede si desea descubrir y explorar las relaciones entre los datos? En lugar de simplemente buscar todos los contactos en el área de Austin que tienen el estado de cliente o cliente potencial calificado para ventas y tienen un propietario de contacto, quiero limitarlo aún más a los contactos cuyos empleadores a su vez cumplan con ciertos criterios, como pertenecer a industrias o cumplir con un mínimo de ingresos anuales. Otro ejemplo de consulta sería encontrar las ubicaciones en los últimos 10 años de eventos de la industria en los que ha participado una organización específica. Estas conexiones entre diferentes tipos de metadatos, vocabularios o categorías se realizan con una ontología.
Una ontología tiene, además de las relaciones jerárquicas características de una taxonomía, relaciones semánticas adicionales que conectan tipos o clases de entidades. Las clases pueden ser para el área metropolitana, el nombre de la empresa, el nombre de la persona, el nombre del evento de la industria, etc. Las relaciones semánticas entre estas clases pueden incluir es-empleado-por-empresa/emplea-empleado, patrocinadores-evento/tiene-patrocinador, está-ubicado- en/es-ubicación-de. Los atributos son metadatos adicionales para las entidades de cada clase, como la dirección. “Ontología” generalmente se refiere solo al modelo de conocimiento de clases, relaciones y tipos de atributos. Pero para volverse útil en la recuperación de información y el análisis de datos, una ontología se conecta a una taxonomía u otro vocabulario controlado para extender esas relaciones semánticas y atributos a todos los conceptos/términos.
Taxonomías y grafos de conocimiento
Un uso creciente de ontologías es en grafos de conocimiento. Los gráficos de conocimiento amplían aún más el sistema de organización del conocimiento de ontología + taxonomía al integrar datos de instancia que son demasiado grandes para caber en vocabularios controlados y tienden a residir en bases de datos o celdas de hojas de cálculo. Esto podría ser los 10,000 de contactos en un CRM o productos y partes de productos en un sistema PIM (gestión de información de productos). El gráfico de conocimiento trae, real o virtualmente, los datos de estos diferentes sistemas a una base de datos de gráficos. Una base de datos de gráficos está estructurada por nodos y bordes (conexiones entre nodos), en lugar de tablas de filas y columnas características de una base de datos relacional. Las entidades de datos están en los nodos y las conexiones de relaciones o tipos de propiedades se designan a lo largo de los bordes de conexión.
¿Por qué gráficos de conocimiento? Las taxonomías, los vocabularios controlados y los metadatos por sí solos son buenos para encontrar información en un solo repositorio de contenido/datos, base de datos o sistema de administración de contenido. Pero a menudo la misma información, similar o relacionada existe en múltiples fuentes o sistemas diferentes, como datos o como "silos" de contenido, como la información del producto que reside en el PIM, la plataforma de comercio electrónico web, el sistema de gestión de contenido de marketing y las ventas. sistema de gestión. Al extraer los datos de estas diferentes fuentes y almacenarlos en una única base de datos de gráficos, se pueden realizar las conexiones entre los datos de todas las fuentes.
Los gráficos de conocimiento vinculan datos que se encuentran en diferentes repositorios y sistemas, tanto datos estructurados como no estructurados y, como tales, brindan una vista unificada de los datos. Además, con taxonomías etiquetadas adicionalmente al contenido, datos relevantes y contenido y estar vinculados entre sí.
Oportunidades para taxonomías y datos juntos
En conclusión, las taxonomías por sí solas están enfocadas al contenido, pero si combinas taxonomías con ontologías y/o metadatos diversos, extiendes el uso de las taxonomías a los datos. También estoy viendo las conexiones de taxonomías y datos en más lugares.
El título de mi trabajo actual es Ingeniero de datos y conocimiento, que refleja la combinación de los ámbitos de la gestión del conocimiento y la ciencia de datos. En realidad, no soy ingeniero de datos en absoluto, pero mi departamento en Semantic Web Company ha estandarizado los títulos de los puestos, ya que los ingenieros de conocimiento y los ingenieros de datos trabajamos muy de cerca en los mismos equipos. Esto es para proporcionar servicios y soluciones combinadas a nuestros clientes.
En otras formas, los datos y la taxonomía se combinan en trabajos. El año pasado tuve un trabajo de taxonomía por contrato que estaba muy relacionado con los datos (gestionados en hojas de cálculo). En la otra dirección, las publicaciones de trabajo relacionadas con datos tienen taxonomías en sus descripciones de trabajo. Una búsqueda hoy sobre "taxonomía" en las descripciones de los trabajos de LinkedIn arrojó Data Governance Consultant, Data Analyst II - Taxonomy, Taxonomy Data Architect, Data Custodian, Data Governance Lead en los 25 resultados principales, y en Indeed arrojó Data Analyst, Junior Analista de datos, Anotador de datos y Especialista en ingreso de datos entre los 15 primeros resultados.
He notado con mayor atención esta combinación de taxonomías y datos al participar recientemente en más conferencias relacionadas con datos. En 2021, entre otras conferencias, he hablado sobre taxonomías en Data-Centric Architecture Forum en febrero, European Data Conference on Reference Data and Semantics (ENDORSE) en marzo, Knowledge Graph Conference en mayo y Data Con LA en septiembre. Otros incluyen mi clase magistral " Fundamentos para un gráfico de conocimiento: mejores prácticas de diseño de taxonomías " en la conferencia virtual Connected Data World el 2 de diciembre, y un tutorial " Introducción a las taxonomías para científicos de datos " y la presentación " El futuro de las taxonomías: vincular los datos con el conocimiento". ambos en Data Day Texas en Austin, TX, a fines de la primavera de 2022 (pospuesto desde el 22 de enero de 2022).