大规模集群管理和运维自动化
本文围绕大规模集群运维自动化,讨论自动发现故障、自动修复与安全性等核心问题。
按时间倒序浏览全部文章。
13 文章数
本文围绕大规模集群运维自动化,讨论自动发现故障、自动修复与安全性等核心问题。
本文概述微软 Autopilot 集群管理系统的设计目标,以及机器生命周期、应用部署和自动化运维机制。
本文从 CAP 理论与 ACID 性质出发,讨论分布式存储系统中一致性、可用性与事务设计的取舍。
本文总结哈希表在冲突、扩容等方面的常见问题,并讨论完美哈希等高级主题。
本文总结系统编程场景下常用的 C++ 功能子集,包括 RAII、智能指针、移动语义等实践建议。
本文介绍 Anna 键值存储如何用 actor 模型与基于 lattice 的冲突解决机制实现高性能与可调一致性。
本文以 lower_bound 为例说明如何用安全性与活性分析、数学归纳法来推导并验证二分搜索实现。
本文从数据与索引布局、哈希表和树结构等角度总结单机存储引擎的常见设计方法。
本文概述 Facebook F4 面向温数据对象存储的架构设计,以及纠删码和跨机房容错方案。
本文总结 Facebook Haystack 针对图片热存储场景的单机对象存储引擎设计与优化思路。
本文介绍 Raft 的选主与日志复制机制,并对其与 Paxos 在理解和实现上的差异做了讨论。
本文概述 Paxos 的核心 safety 性质、提议流程,以及单条法案共识问题的基本推导。
梳理 Amazon Dynamo 论文中的一致性、复制、冲突处理与路由设计,并总结其为高可用 Key-Value 存储做出的关键工程取舍。
1 文章数
本文梳理 C++ 中 const 的三种常见用法,分析其语义混淆与局限,并讨论 constexpr 等替代思路。
4 文章数
在老赵的博客上看到这样一道题,觉得非常有意思,难度适中,非常适合作面试题。试着用自己的方法解释清楚这道题的解法。
很多人都不明白,不同的编程语言具有不同的表述能力,这就是我们为什么有了汇编之后还需要更高级的编程语言。在软件规模愈发庞大的现在,C 和 C++ 语言表述能力的不足越发的明显了。我们应该尽可能的选用高级的编程语言完成我们的任务,在需要性能的地方,使用 Profiling,而不是在…
实际使用中会有需要提前检测出是否会发生算数溢出,C# 语言中提供了 checked 关键字来解决这一问题,C/C++ 语言又该怎样做呢?本文从汇编语句的层面,对几种检查加法溢出的方法进行了比较和分析。受实验环境和个人知识所限,本文的应用范围仅限于 X86-64 体系结构。