LINWARE | Blog | ¿Cual es la diferencia? Niveles de datos elásticos y niveles de Amazon OpenSearch Service

BLOG

¿Cual es la diferencia? Niveles de datos elásticos y niveles de Amazon OpenSearch Service

Publicada el 29/01/2024

En el ámbito de la gestión de datos, términos como Caliente , Tibio y Frío se utilizan con frecuencia cuando se habla de cómo los datos deben estar disponibles y/o retenerse dados los diferentes requisitos de rendimiento.

Al comparar los niveles de datos de Elastic® con los niveles de Amazon OpenSearch Service, existe otro desafío: los mismos términos no significan lo mismo. A través de esta explicación, buscamos aclarar cualquier idea errónea sobre la terminología de niveles de datos similar entre Elastic y Amazon OpenSearch Service. Con la información proporcionada aquí, estará en una posición privilegiada para administrar estratégicamente sus datos, maximizando el rendimiento y minimizando los costos.

¿Qué son los niveles de datos? En un nivel fundamental, los niveles de datos son niveles de almacenamiento distintos que clasifican los datos según criterios como la frecuencia de acceso, la rentabilidad y las necesidades de rendimiento. Permiten una organización optimizada de los datos y pueden ayudar a reducir los costos al alinear los gastos de almacenamiento con el valor de la información a lo largo del tiempo.

Qué diferencia hace un nivel

El concepto de niveles de datos está presente en la mayoría de las plataformas de datos, especialmente en aquellas que tratan con herramientas de observabilidad y/o seguridad. El volumen de datos recopilados por estas herramientas suele ser muy alto, con miles o millones de eventos por segundo que se procesan y se ponen a disposición para búsquedas, paneles de control y alertas. La observabilidad y la seguridad también tienen una característica compartida: los datos más recientes también son los más valiosos , ya que los equipos que administran estas herramientas dependen de las señales que se recopilan para tomar medidas inmediatas en caso de problemas.

Por lo tanto, tiene sentido que los datos se ingieran y almacenen con el hardware más rápido posible y se trasladen a hardware más barato y menos potente a medida que pasa el tiempo.

Viaje de datos en Elastic

Elastic tiene cinco niveles, que se pueden utilizar de forma independiente o colectiva según su caso de uso específico:

Caliente: sus datos siempre llegan aquí primero, están altamente disponibles en tiempo real, son escalables y ofrecen el mejor rendimiento posible (suponiendo que se cumplan las mejores prácticas). Aquí es donde guarda los datos a los que necesita acceder y manipular con frecuencia.
Cálido: este nivel permite una utilización del hardware más rentable, donde pueden residir datos que no tienen una demanda inmediata (pero que aún son relativamente importantes). Puede mover datos a este nivel y optimizarlos (forzando la fusión de los segmentos, por ejemplo), para que las búsquedas sean lo más rápidas posible. Los datos en este nivel aún son escalables con réplicas, al igual que en el nivel Hot, para satisfacer las demandas de búsqueda si es necesario.
Frío: aquí garantiza que al menos una copia de los datos siempre se asignará al nodo y se podrá buscar en cualquier momento dado. El nivel frío utiliza un almacén de depósitos para ayudar en la restauración de datos en caso de que se produzca una falla o sea necesario alterar la topología del clúster.
Congelado: en este nivel, se accede a los datos con menos frecuencia y permite ahorrar costos, ya que aprovecha el almacenamiento de menor costo y reduce los recursos informáticos. Se pueden realizar búsquedas en los datos, pero se deben restaurar a un estado con capacidad de búsqueda, lo cual se realiza de forma automática y transparente con las instantáneas con capacidad de búsqueda de Elasticsearch® .
Instantáneas: las instantáneas son esencialmente copias de seguridad de datos: copias de un momento dado de sus índices. Estos se pueden utilizar para diversos fines, como la recuperación de datos en caso de pérdida, la creación de clones de índices para entornos de prueba o preparación, o para migrar datos entre clústeres. Las instantáneas se almacenan en un repositorio, que podría estar en diferentes sistemas de almacenamiento, como un sistema de archivos local o un almacén de depósitos (por ejemplo, GCS, S3) y deben restaurarse manualmente para que se puedan realizar búsquedas en los datos.

Espera, ¿qué es un "fragmento"?

En Elasticsearch (y por lo tanto también en OpenSearch), un "fragmento" es esencialmente un índice autónomo que contiene una parte de sus datos, lo que permite la distribución de grandes conjuntos de datos en múltiples nodos (servidores) para mejorar el rendimiento y la escalabilidad.

Hay dos tipos de fragmentos: fragmentos primarios y fragmentos de réplica. Los fragmentos primarios son los contenedores principales donde se almacenan los datos por primera vez; cada registro se almacena en un solo fragmento principal. Los fragmentos de réplica son copias de los fragmentos primarios que brindan redundancia en caso de falla y también permiten que el sistema maneje más solicitudes de lectura al equilibrar la carga de las consultas de búsqueda entre las réplicas. Para un recién llegado, puede pensar en los fragmentos como capítulos individuales de un libro; Si bien cada capítulo (fragmento) contiene una sección diferente de la historia (datos), varias copias impresas (réplicas) garantizan que, incluso si una se pierde, la historia aún se puede leer en su totalidad.

Viaje de datos en Amazon OpenSearch Service

Amazon OpenSearch Service tiene cuatro niveles:

Caliente: Sus datos siempre llegan aquí primero, están altamente disponibles en tiempo real, son escalables y ofrecen el mejor rendimiento posible, suponiendo que se cumplan las mejores prácticas.
OR1: los datos se pueden leer y escribir, ya que OR1 tiene potencia de cálculo conectada permanentemente, pero no hay réplicas. Los datos se restauran desde un almacén de depósitos en caso de falla.
UltraWarm: este nivel está diseñado para un almacenamiento rentable y para consultar grandes volúmenes de datos a los que se accede con menos frecuencia. Los nodos UltraWarm de Amazon OpenSearch Service proporcionan un nivel de almacenamiento secundario que mantiene los datos consultables.
Frío: los datos en el nivel Frío de OpenSearch generalmente generan costos de almacenamiento más bajos, pero no se pueden buscar directamente. El acceso a datos fríos generalmente implica restaurar manualmente los datos a un nivel más cálido, que luego se puede buscar.

Comparación lado a lado

Ahora podemos comparar los niveles en términos de capacidades de acceso a datos : ¿se pueden leer y escribir los datos o son de solo lectura? ¿Es necesario restaurarlo manualmente o el proceso de “descongelación” es automático? Esto es lo que representa cada “banda”:

Leer + Escribir

Esta banda considera Hot tanto en Elastic como en OpenSearch como su nivel más rápido. Como se supone que son equivalentes, comparamos su desempeño en este blog .

El siguiente nivel, Warm en Elastic y OR1 en Amazon OpenSearch Service, permiten que los datos se actualicen pero tienen diferencias en términos de escalabilidad; mientras que Warm de Elastic permite réplicas y le permite escalar para satisfacer las demandas de búsqueda, OR1 no, ya que solo el primario Se permite el uso de fragmentos.

Solo lectura

Esta banda no permite que se actualicen (escriban) datos; solo permite migrar datos desde otros niveles. Todos los niveles de este grupo tienen copia de seguridad del almacén de depósitos y no tienen réplicas.

Tanto el nivel Frozen en Elastic como el UltraWarm en Amazon OpenSearch Service almacenan los datos en un almacén de depósitos como instantáneas y recuperan estos datos si se realiza una búsqueda en cualquiera de los índices involucrados. Sólo entonces los datos están disponibles y luego se almacenan en caché para búsquedas posteriores. Sin embargo, los nodos UltraWarm actualmente solo vienen en dos configuraciones : una que puede manejar 1,5 TB de datos de instantáneas u otra que puede manejar 20 TB de datos de instantáneas. Esto significa que si quisiéramos almacenar 100 TB de datos, necesitaríamos 5 nodos UltraWarm en Amazon OpenSearch Service pero solo 2 nodos Frozen en Elastic, que tiene diferentes perfiles de hardware con diferentes combinaciones de vCPU, RAM y almacenamiento NVMe.

Además, en Elastic, tanto Cold como Frozen dependen de la función de instantáneas con capacidad de búsqueda , que permite buscar instantáneas tan antiguas como 5.0 (¡lanzadas en 2016!) sin la necesidad de restaurarlas en un clúster activo ; esto es muy útil para la gobernanza. y cumplimiento, investigaciones de seguridad y retrospectivas históricas, independientemente de la versión de Elasticsearch que tenga.

Archivo

Las instantáneas se almacenan en un repositorio, que podría estar en diferentes sistemas de almacenamiento, como un sistema de archivos local o un almacén de depósitos (por ejemplo, GCS, S3) y deben restaurarse manualmente para que se puedan realizar búsquedas en los datos.

Perfiles de hardware

Otro aspecto importante a considerar son los tipos de instancias utilizados en cada nivel. También es importante tener en cuenta que Elastic Cloud admite tres principales proveedores de nube (AWS, Google Cloud y Microsoft Azure) con diferentes perfiles de hardware en cada uno. El enfoque de Amazon OpenSearch Service designa instancias específicas (como OR1 e Im4gn) para su servicio con requisitos de versión de software particulares y restricciones en el soporte de volumen de EBS.

Tanto Amazon OpenSearch Service como Elastic Cloud en AWS utilizan instancias basadas en Graviton2, lo que indica una preferencia compartida por las ganancias de rendimiento y la eficiencia de costos de los conjuntos de chips basados en ARM de AWS. Elastic Cloud en AWS es menos prescriptivo sobre los casos de uso exactos de sus instancias, y ofrece una selección que incluye alta computación con almacenamiento rápido (instancias Graviton2) y una variedad de opciones más tradicionales (como C5d, M5d, etc.).

¿Por qué esto importa?

Las convenciones de nomenclatura pueden ser engañosas y provocar una confusión comprensible al intentar alinear las necesidades empresariales con las opciones de almacenamiento de datos entre los proveedores. Conocer las capacidades reales de estos niveles puede ayudarle a tomar decisiones más informadas y rentables con respecto a la gestión de datos.

Este desglose tiene como objetivo disipar los conceptos erróneos generados por la superposición de nombres en los niveles de datos entre Elastic y Amazon OpenSearch Service . Con esta descripción de niveles de datos, estará mejor posicionado para organizar sus datos estratégicamente para obtener beneficios de rendimiento y costos. Es fundamental ir más allá de los nombres y comprender la mecánica subyacente de cada nivel para garantizar que su estrategia de datos sea sólida y eficiente.

Consulte también los siguientes estudios: Elasticsearch supera a OpenSearch en rentabilidad y cómo Elasticsearch supera a OpenSearch utilizando menos recursos .

Ir al Blog