数据库管理员在雪花中的角色:优化、成本控制等
当今的数字环境呈现出大量的数据处理平台和流程, 需要不同的专业知识. 很明显,理解角色的划分是至关重要的, 特别是数据工程师和数据库管理员之间的区别.
数据工程师是数据处理方面的专家, 善于将数据清理和转换为高效灵活的分析系统. In contrast, dba是特定数据产品方面的专家, 专注于提高与数据交互的性能和效率.
我参与了许多关于dba在云世界中的角色的讨论, 特别是像雪花这样的分析系统. 一些对话相当令人担忧, 比如与Databricks解决方案架构师的对话,他承认在构建分析系统时没有考虑性能.
在不断发展的数据环境中, 期望一个角色成为所有领域的专家——从存储, 事务数据库(SQL), NoSQL), 分析系统(仓库), lakes, lakehouses), streaming, ETL/ELT/Transformation, Integration, 可视化-是一个艰巨的任务.
The image below, although not exhaustive, 介绍当今数据世界的复杂性和多样性. 如果在浏览器中打开超过20个选项卡的想法会让你感到不安, 最好还是忽略它.
在雪花的背景下, DBA角色更倾向于与成本控制和管理职责直接相关的优化任务. 这些可能包括令人耳目一新的环境, handling security, 确保数据保留策略符合sla.
在Snowflake这样的分析系统中管理成本可能是一个挑战, 如果没有适当的优化, these expenses can surge. 在执行mg官方游戏中心的优化建议后,mg官方游戏中心的客户在Snowflake上节省30-60%的支出并不罕见. 要深入了解此类活动,请参阅我的 blog post from May 16.
在我与数据工程师的讨论中,一个反复出现的主题是关于在Snowflake中调优查询. 有一个常见的误解是“你不需要调整雪花,它自己调整”。. 是的,Snowflake的速度非常快,以至于它可以给人一种自我调整的错觉. 但事实是,SQL仍然是SQL. 写得不好的SQL查询仍然会消耗更多的时间,从而增加成本. 这不仅仅是我的观点,也是雪花培训课程和雪花领导层在财报电话会议上反复强调的事实.
To illustrate, consider these two queries, 两者都旨在返回相同的数据集-这些表中的所有数据都是2022年6月的数据. However, 而另一个则使用日期范围搜索, 另一个应用函数搜索2022年6月以来的数据.
In summary, 而雪花的速度和性能是不可否认的, 适当的优化和有效的查询编写对于管理成本和确保效率仍然至关重要. 雪花中的DBA角色, thus, 远没有过时——这个角色的核心是对系统进行微调,以达到最佳性能和成本效益.
Contact Moser Consulting 以了解更多关于DBA和Snowflake的信息.