发布网友 发布时间:2022-04-23 17:27
共1个回答
热心网友 时间:2023-10-10 23:05
在分布式存储技术中,每一种存储技术都有各自的特点和应用场景。分布式文件系统(HDFS)主要用于大数据的存储场景,是Hadoop大数据架构中的存储组件。HDFS在开始设计的时候,就已经明确的它的应用场景,就是为大数据服务。
对一个分布式文件系统而言,有一些特性是必须要满足的,否则就缺乏市场竞争力。主要如下:
应该符合 POSIX 的文件接口标准,使该系统易于使用,同时对于用户的遗留系统也无需改造;
对用户透明,能够像使用本地文件系统那样直接使用;
持久化,保证数据不会丢失;
具有伸缩性,当数据压力逐渐增长时能顺利扩容;
具有可靠的安全机制,保证数据安全;
数据一致性,只要文件内容不发生变化,什么时候去读,得到的内容应该都是一样的。
除此之外,还有些特性是分布式加分项,具体如下:
支持的空间越大越好;
支持的并发访问请求越多越好;
性能越快越好;
硬件资源的利用率越高越合理,就越好。
但是,优秀的分布式存储系统,除了可以针对带宽型、IOPS密集型、数据局部性要求、元数据密集型等各类不同场景提供结构性性能优化和深度适配外,如果没有合适的方法和人工干预,存储只能根据当前的IO特性,以确定的缓存策略和数据一致性策略,甚至数据的摆放位置来为应用提供服务,无法根据应用的特点实现对存储特性的精确动态调优。
这就需要在数据处理过程中控制计算任务的调度执行,让计算在开始执行之前给存储发送提示性信息,协助存储系统预判此次任务的IO模式,以做出策略选择和定向优化。这就是应用感知,这一概念的引入可以使存储系统变得可控、可视、可变,为存储赋予了自我调节性能、感知应用、主动适配上层业务场景的能力。