Git版本管理基本原理

发表于 2024/06/30

作者 OneCoder

次浏览 12 分钟阅读

上文已经研究分析了SVN增量式版本管理的基本原理，今天再进一步研究分析下Git快照式存储的基本原理：

一、快照存储基本原理

Git 的快照式数据存储模型是其高效、可靠的核心所在。这个模型与传统的差异存储模型（如 SVN）有显著不同。以下是对 Git 快照式数据存储模型的详细解释：

基本概念

提交（Commit）：
- 每次提交在 Git 中都是一个独立的快照，记录了项目当前状态。
- 提交对象（commit object）包含提交信息（如提交者、时间、提交消息）以及一个指向树对象（tree object）的指针。
树（Tree）：
- 树对象记录了一个目录的结构，包括文件名、文件类型和指向 blob 对象或子树对象的指针。
- 树对象可以看作是目录的快照。
Blob：
- Blob（Binary Large Object）对象用于存储文件的内容，是 Git 中数据存储的基本单位。
- Blob 对象只存储文件的内容，不包含文件名和权限信息。

快照存储模型

Git 的快照存储模型可以通过以下步骤和示例来理解：

提交快照的创建

初始提交：
- 当你第一次提交代码时，Git 会为每个文件创建一个 blob 对象，记录文件的内容。
- Git 还会为包含文件的目录创建树对象，树对象指向这些 blob 对象。
- 最后，Git 创建一个提交对象，指向根目录的树对象。
例如，假设项目初始状态有以下文件结构：
1 2 3 4 project/ ├── file1.txt └── dir/ └── file2.txt
Git 创建的对象结构如下：
1 2 3 4 5 Commit (commit hash) └── Tree (root tree) ├── Blob (file1.txt content) └── Tree (dir) └── Blob (file2.txt content)
后续提交：
- 当你修改文件并进行新的提交时，Git 只为修改的文件创建新的 blob 对象，未修改的文件复用之前的 blob 对象。
- Git 创建新的树对象，指向新的和复用的 blob 对象，并创建新的提交对象，指向新的树对象。
例如，假设你修改了 file1.txt 并进行新的提交：
1 2 3 4 5 Commit (new commit hash) └── Tree (new root tree) ├── Blob (new file1.txt content) └── Tree (dir) └── Blob (file2.txt content, unchanged)

数据存储和复用

Git 的快照模型通过复用未修改的对象和高效的压缩机制，实现了高效的数据存储：

对象唯一性：
- Git 中的每个对象（提交、树、blob）都有一个唯一的 SHA-1 哈希值，确保内容的唯一性和完整性。
- 不同提交间未修改的文件内容会复用相同的 blob 对象，避免重复存储。
高效压缩：
- Git 使用了 zlib 压缩算法来压缩对象数据，减少存储空间。
- Git 还使用了 pack 文件将多个对象打包在一起，进一步优化存储和传输效率。

快照存储模型的优势

高效性：
- 快照模型通过复用未修改的对象和压缩机制，使得 Git 的存储和传输效率非常高。
- 提交、切换分支等操作非常快速，因为只需移动指针或创建新的快照。
完整性和安全性：
- 每个对象都有唯一的 SHA-1 哈希值，确保内容的完整性和防止篡改。
- Git 的数据存储模型使得每个提交都是独立的快照，可以确保数据的完整性和可追溯性。
灵活性：
- Git 的快照模型支持轻量级分支和高效的合并操作，使得分支管理更加灵活和高效。
- 开发者可以轻松创建和删除分支，不会对性能产生明显影响。

快照存储模型的工作示例

以下是一个简单的工作示例：

初始提交：

  
 git init
 echo "Hello World" > file1.txt
 echo "Hello Git" > dir/file2.txt
 git add .
 git commit -m "Initial commit"

生成的对象结构：

 Commit (hash1)
 └── Tree (hash2)
     ├── Blob (hash3: "Hello World")
     └── Tree (hash4)
         └── Blob (hash5: "Hello Git")

修改并提交：

  
 echo "Hello World v2" > file1.txt
 git add file1.txt
 git commit -m "Update file1.txt"

新的对象结构：

 Commit (hash6)
 └── Tree (hash7)
     ├── Blob (hash8: "Hello World v2")
     └── Tree (hash4)  # 复用之前的 Tree 和 Blob
         └── Blob (hash5: "Hello Git")

通过这种快照存储模型，Git 可以高效地管理项目的版本历史，并提供快速的分支和合并操作，极大地提高了开发效率和灵活性。

在此基础上，为了节约存储空间，提升数据传输效率，Git在快照存储的基础上，Git内部还提供了压缩和增量存储的机制，简介如下：

二、Git内部压缩、增量存储基本原理

Git确实有针对文件内容的增量存储机制，特别是在其压缩和打包（pack）阶段。虽然每次提交记录的是整个文件的快照，但为了优化存储空间，Git 在内部使用了 delta 压缩技术。下面详细解释 Git 的增量存储原理。

Delta 压缩（增量存储）原理

Git 在初次提交时，会为每个文件创建一个 Blob 对象，存储该文件的完整内容。然而，为了减少存储空间和提高效率，Git 会在后台使用 delta 压缩技术，将相似文件内容存储为增量。

Pack 文件

Pack 文件是 Git 用来优化存储和传输的主要机制。Pack 文件中包含了多种对象（Blob、Tree、Commit）的压缩版本。对于相似的文件版本，Git 使用 delta 压缩技术存储它们之间的差异，而不是完整内容。

工作原理

初始提交：
- Git 为每个文件创建 Blob 对象，并存储文件的完整内容。
- 每个 Blob 对象都有一个唯一的 SHA-1 哈希值。
后续修改：
- 当文件内容修改后，Git 为修改后的文件创建新的 Blob 对象。
- Git 定期运行 git gc（垃圾回收）命令，将松散的对象打包成 Pack 文件。
Delta 压缩：
- 在创建 Pack 文件时，Git 使用 delta 压缩算法，计算相似文件版本之间的差异。
- 这些差异（delta）以增量的形式存储在 Pack 文件中。

示例

假设我们有一个文件 file.txt，内容如下：

初始提交

file.txt:
line 1: Hello World
line 2: This is a test.
line 3: Another line.

初始提交时，Git 创建 Blob 对象存储文件的完整内容：

Blob (hash1) -> content: "line 1: Hello World\nline 2: This is a test.\nline 3: Another line."

第一次修改

file.txt:
line 1: Hello World
line 2: This is a modified test.
line 3: Another line.

修改并提交后，Git 创建新的 Blob 对象：

Blob (hash2) -> content: "line 1: Hello World\nline 2: This is a modified test.\nline 3: Another line."

第二次修改

file.txt:
line 1: Hello World
line 2: This is a modified test.
line 3: Yet another modified line.

再次修改并提交后，Git 创建新的 Blob 对象：

Blob (hash3) -> content: "line 1: Hello World\nline 2: This is a modified test.\nline 3: Yet another modified line."

运行垃圾回收并创建 Pack 文件

当 Git 运行 git gc 时，它会将这些 Blob 对象打包成一个 Pack 文件，并使用 delta 压缩算法存储相似版本之间的差异：

Pack file:
- Delta (hash1 -> hash2): "diff: line 2: modified"
- Delta (hash2 -> hash3): "diff: line 3: modified"

恢复过程

当需要恢复某个版本时，Git 会从 Pack 文件中读取基础版本，然后应用 delta 压缩存储的差异，重建文件的完整内容。

总结

Git 的增量存储通过以下步骤实现：

Blob 对象：初次提交时为每个文件创建 Blob 对象，存储文件的完整内容。
Pack 文件：通过 git gc 将松散对象打包成 Pack 文件。
Delta 压缩：在 Pack 文件中使用 delta 压缩算法存储相似文件版本之间的差异。因此，Git 的增量存储机制在于其 Pack 文件的创建和 delta 压缩技术，通过存储文件版本之间的差异来优化存储空间，同时保证了版本恢复的高效性。

所有代码已上传至Github：https://github.com/lihongzheshuai/yummy-code
GESP 学习专题站：GESP WIKI
"luogu-"系列题目可在洛谷题库进行在线评测。
"bcqm-"系列题目可在编程启蒙题库进行在线评测。

欢迎加入：Java、C++、Python技术交流QQ群(982860385)，大佬免费带队，有问必答
欢迎加入：C++ GESP/CSP认证学习QQ频道，考试资源总结汇总
欢迎加入：C++ GESP/CSP学习交流QQ群(688906745)，考试认证学员交流，互帮互助

GESP/CSP 认证学习微信公众号

知识扩展

SVN Git

本文由作者按照 CC BY-NC-SA 4.0 进行授权