Amazon SageMaker Feature Store es una solución de gestión de características especializada que ayuda a los científicos de datos y ingenieros de ML a almacenar, descubrir y compartir datos curados utilizados en flujos de trabajo de entrenamiento y predicción. Ahora, SageMaker Feature Store admite a Apache Iceberg como formato de tabla para almacenar características, lo que acelera el desarrollo de modelos al permitir un rendimiento de consulta más rápido al extraer conjuntos de datos de entrenamiento de ML.
¿Qué es Amazon SageMaker Feature Store?
Amazon SageMaker Feature Store es una solución de gestión de características especializada que ayuda a los científicos de datos y ingenieros de ML a almacenar, descubrir y compartir datos curados utilizados en flujos de trabajo de entrenamiento y predicción. Esta solución permite a los usuarios administrar, compartir y reutilizar características entre equipos de ML, lo que acelera el desarrollo de modelos de ML.
¿Qué es Apache Iceberg?
Apache Iceberg es un formato de tabla open source para conjuntos de datos analíticos muy grandes que permite el manejo de colecciones grandes de archivos como tablas y admite operaciones modernas de data lake analíticas como consultas de inserción, actualización, eliminación y viaje en el tiempo a nivel de registro. Está diseñado para permitir que los usuarios obtengan una visión completa de los datos sin tener que realizar una gran cantidad de trabajo de preparación de datos.
¿Cómo se relacionan SageMaker Feature Store y Apache Iceberg?
SageMaker Feature Store ahora admite a Apache Iceberg como formato de tabla para almacenar características. Esto acelera el desarrollo de modelos al permitir un rendimiento de consulta más rápido al extraer conjuntos de datos de entrenamiento de ML, aprovechando la compactación de tablas de Iceberg. Según el diseño de tus grupos de características y su escala, puedes experimentar mejoras del rendimiento de consulta de entrenamiento de 10x a 100x al usar esta nueva capacidad.
Además, SageMaker Feature Store se integra con AWS Glue Data Catalog, que se puede utilizar como metastore para tablas de Iceberg y que admite consultas de lectura, viaje en el tiempo, escritura y DDL para tablas de Apache Iceberg que utilizan el formato de datos Apache Parquet y el catálogo de AWS Glue como su metastore. Athena también admite consultas de lectura, viaje en el tiempo, escritura y DDL para tablas de Apache Iceberg que utilizan el formato de datos Apache Parquet y el catálogo de AWS Glue como su metastore.
Por último, SageMaker Feature Store se integra con Spark para permitir el acceso a datos del almacenamiento offline de SageMaker Feature Store y la ejecución de procedimientos de gestión de tablas de Iceberg. Esta integración permite a los usuarios aprovechar el rendimiento de Spark para extraer datos de SageMaker Feature Store y procesarlos con Spark.
La integración de Amazon SageMaker Feature Store con Apache Iceberg permite a los usuarios aprovechar la compactación de tablas de Iceberg para acelerar el desarrollo de modelos de ML. Esta integración también se extiende a AWS Glue Data Catalog, Athena y Spark, lo que permite a los usuarios obtener una visión completa de los datos y aprovechar el rendimiento de Spark para extraer datos de SageMaker Feature Store y procesarlos con Spark.
Más información: https://aws.amazon.com/es/blogs/machine-learning/speed-ml-development-using-sagemaker-feature-store-and-apache-iceberg-offline-store-compaction/