分布式与大数据的设计与实现[1]：大数据之路坑很多，熟练掌握shell很有必要

home

栏目:分布式与大数据作者:admin 日期:2018-10-31 评论:0 点击: 663 次

选择大数据之路，前面的坑很多。有四大坑，如下所示：其中运维方面独占一坑，所以必须熟练掌握Linux和shell，请注意，我说的是：必须，熟练，掌握。关于shell部分的掌握，请移步shell模块。

（1）非常陡峭的学习曲线。刚接触这个领域的人经常会被各种框架，各种技术，各种概念搞的晕头转向。不像经过几十年发展的数据库，一个系统可以解决大部分数据处理需求，Hadoop 等大数据生态里的一个系统往往在一些数据处理场景上比较擅长，另一些场景凑合能用，还有一些场景完全无法满足需求。结果就是需要好几个系统来处理不同的场景。

上图是一个典型的 lambda 架构，只是包含了批处理和流处理两种场景，就已经牵涉到至少四五种技术了，还不算每种技术的可替代选择。再加上实时查询、交互式分析、机器学习等场景，每个场景都有几种技术可以选择，每个技术涵盖的领域还有不同方式的重叠。结果就是一个业务经常需要使用四五种以上的技术才能支持好一个完整的数据处理流程。加上调研选型，需要了解的数目还要多得多。
（2）开发和运行效率低下。因为牵涉到多种系统，每种系统有自己的开发语言和工具，开发效率可想而知。又因为采用了多套系统，数据需要在各个系统之间传输，也造成了额外的开发和运行代价，数据的一致也难以保证。在很多机构，实际上一半以上的开发精力花在了数据在各个系统之间的传输上。
（3）复杂的运维。多个系统，每个需要自己的运维，带来更高的运维代价的同时也提高了系统出问题的可能。
（4）数据质量难以保证。数据出了问题难以跟踪解决。