JS `IPFS` / `Libp2p` `DHT` (Distributed Hash Table) 路由与内容寻址 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，晚上好！今天咱们来聊聊 IPFS 和 Libp2p 里头那个神秘又重要的家伙：DHT（分布式哈希表）。这玩意儿听起来高大上，其实就是个“寻宝图”，能帮我们在茫茫数据海洋里找到我们想要的宝贝。

开场白：寻宝之旅的向导

想象一下，你手里有一张藏宝图，上面写着“在北纬34度，东经118度的地方埋着金子”。如果没有这张藏宝图，你可能得把整个地球都挖一遍才能找到金子。DHT 在 IPFS 和 Libp2p 里扮演的就是这个“藏宝图”的角色，它能告诉你某个文件（或者其他数据）存在哪里，大大提升了我们寻找内容的速度。

第一章：DHT 的基本概念：大杂烩的哈希表

DHT，全称 Distributed Hash Table，分布式哈希表。关键就在于“分布式”和“哈希表”。

哈希表 (Hash Table)：这玩意儿大家应该不陌生。简单来说，它就是一个 key-value 存储结构。你给它一个 key，它就能快速找到对应的 value。比如 map['apple'] = '红色的水果'。
分布式 (Distributed)：重点来了！DHT 不是把所有 key-value 都存在一台机器上，而是把它们分散到很多台机器上。这样，即使有一两台机器挂了，整个系统也能正常工作。

为什么我们需要 DHT？

因为在 IPFS 和 Libp2p 这种 P2P 网络里，没有一个中心服务器来管理所有的数据。所以我们需要一种分布式的、去中心化的方式来找到我们想要的内容。DHT 就是解决这个问题的关键。

DHT 的核心思想：一致性哈希

要把 key-value 分散到不同的机器上，我们需要一种方法来决定哪个 key 应该存在哪台机器上。最常用的方法就是“一致性哈希”。

一致性哈希的原理：

环状空间： 想象一个圆环，圆环上的每一个点都代表一个哈希值。
节点映射： 把网络中的每个节点（也就是参与 DHT 的机器）都通过哈希函数映射到这个圆环上。
Key 映射： 把每个 key 也通过同一个哈希函数映射到圆环上。
顺时针查找： 从 key 在圆环上的位置开始，顺时针查找，找到的第一个节点就是负责存储这个 key 的节点。

举个例子：

假设我们有 4 个节点：NodeA、NodeB、NodeC、NodeD，它们的哈希值分别是 10、50、100、150。现在我们要存储一个 key，它的哈希值是 60。

Key 60 位于 NodeB (50) 和 NodeC (100) 之间。
按照顺时针查找的原则，Key 60 应该存储在 NodeC 上。

一致性哈希的优点：

高可用性： 即使有节点加入或离开网络，只会影响一小部分 key 的存储位置，不会导致整个系统瘫痪。
负载均衡： 通过哈希函数，可以把 key 均匀地分布到不同的节点上，避免出现热点问题。
可扩展性： 可以很容易地增加或减少节点，而不需要重新分配所有的 key。

第二章：DHT 的具体实现：Kademlia 算法

Kademlia 是一种非常流行的 DHT 算法，被广泛应用于 IPFS 和 Libp2p 中。

Kademlia 的核心概念：

节点 ID： 每个节点都有一个唯一的 ID，通常是一个 160 位的随机数。
距离： 两个节点之间的距离定义为它们的 ID 的异或 (XOR) 值。距离越小，表示两个节点越“接近”。
K-桶 (K-bucket)： 每个节点维护一个 K-桶列表。每个 K-桶对应一个距离范围，存储着距离该节点在这个范围内的其他节点的联系方式（IP 地址、端口号等）。K-桶的大小通常是固定的，比如 K=20。

Kademlia 的工作原理：

路由表维护： 每个节点都会不断地探测周围的节点，更新自己的 K-桶。这样，每个节点都能知道一些距离自己比较近的节点的信息。
查找 (Lookup)： 当一个节点要查找某个 key 时，它会先在自己的 K-桶里找到距离目标 key 最近的 K 个节点，然后向这 K 个节点发起查询请求。
迭代查询： 收到查询请求的节点会返回距离目标 key 最近的 K 个节点的信息。查询节点会不断地迭代这个过程，直到找到目标 key 或者达到最大迭代次数。

Kademlia 的优点：

高效的查找： Kademlia 的查找时间复杂度是 O(logN)，其中 N 是网络中节点的数量。
鲁棒性： Kademlia 对恶意节点有较强的抵抗能力。即使有一些节点返回错误的信息，也不会影响整个系统的正常工作。
自组织： Kademlia 可以自动地适应网络的变化，不需要人工干预。

Kademlia 的代码示例 (伪代码)：

# 节点类
class Node:
    def __init__(self, id, address):
        self.id = id
        self.address = address
        self.k_buckets = [[] for _ in range(160)] # 160个k桶

    # 计算两个节点之间的距离
    def distance(self, other_id):
        return self.id ^ other_id

    # 将节点添加到k桶
    def add_node_to_k_bucket(self, node):
        distance = self.distance(node.id)
        bucket_index = distance.bit_length() - 1
        if len(self.k_buckets[bucket_index]) < K: # K是k桶的大小
            self.k_buckets[bucket_index].append(node)
        else:
            # TODO: 如果k桶满了，可以ping最久没联系的节点，如果没响应就替换掉
            pass

    # 查找距离目标id最近的k个节点
    def find_closest_nodes(self, target_id, k):
        closest_nodes = []
        for bucket in self.k_buckets:
            for node in bucket:
                closest_nodes.append(node)
        closest_nodes.sort(key=lambda node: self.distance(node.id))
        return closest_nodes[:k]

# 查找key的函数
def lookup(node, key, k):
    closest_nodes = node.find_closest_nodes(key, k)
    visited_nodes = set()

    while True:
        next_nodes = []
        for closest_node in closest_nodes:
            if closest_node.id not in visited_nodes:
                visited_nodes.add(closest_node.id)
                # 向closest_node发起查询请求，获取更近的节点
                more_nodes = closest_node.find_closest_nodes(key,k)
                next_nodes.extend(more_nodes)

        # 去重并排序
        next_nodes = list(set(next_nodes))
        next_nodes.sort(key=lambda node: node.distance(key))

        # 如果没有找到更近的节点，或者已经查询了所有节点，就停止迭代
        if not next_nodes or all(n.id in visited_nodes for n in next_nodes):
            break

        closest_nodes = next_nodes[:k]

    # 返回距离key最近的k个节点
    return closest_nodes

# 示例
K = 20 # k桶大小
# 创建一些节点
node1 = Node(1, "192.168.1.1")
node2 = Node(2, "192.168.1.2")
node3 = Node(3, "192.168.1.3")
node4 = Node(4, "192.168.1.4")

# 节点互相添加
node1.add_node_to_k_bucket(node2)
node1.add_node_to_k_bucket(node3)
node2.add_node_to_k_bucket(node1)
node3.add_node_to_k_bucket(node1)

# 查找距离key=5最近的节点
closest_nodes = lookup(node1, 5, K)

print("距离key=5最近的节点:")
for node in closest_nodes:
    print(f"Node ID: {node.id}, Address: {node.address}")

代码解释:

Node 类代表一个 DHT 节点，包含节点 ID、地址和 K-桶。
distance 函数计算两个节点之间的距离（XOR 值）。
add_node_to_k_bucket 函数将一个节点添加到对应的 K-桶中。
find_closest_nodes 函数查找距离目标 ID 最近的 K 个节点。
lookup 函数是查找 key 的核心逻辑，它通过迭代查询，不断地找到距离目标 key 更近的节点。

第三章：IPFS 中的 DHT 应用：寻找文件

在 IPFS 中，DHT 主要用于内容寻址。每个文件都有一个唯一的 Content Identifier (CID)，这个 CID 就是文件的哈希值。当我们想要下载某个文件时，我们首先需要知道这个文件存储在哪里。这时候，DHT 就派上用场了。

IPFS DHT 的工作流程：

发布 (Publish)： 当一个节点想要发布一个文件时，它会把文件的 CID 存储到 DHT 中。具体来说，它会向 DHT 中距离 CID 最近的 K 个节点发送一条 PUT 消息，告诉这些节点：“这个 CID 对应的文件存储在我这里”。
查找 (Find)： 当一个节点想要下载一个文件时，它会向 DHT 发起一个查询请求，询问：“谁存储了这个 CID 对应的文件？” DHT 会通过 Kademlia 算法，找到距离 CID 最近的 K 个节点，并从这些节点获取存储文件的节点信息。

IPFS DHT 的优化：

Provider Records： IPFS 使用 Provider Records 来记录哪些节点存储了某个 CID 对应的数据。这样，当一个节点想要下载某个文件时，它可以直接从 Provider Records 中找到存储文件的节点，而不需要每次都进行完整的 DHT 查询。
Bitswap： IPFS 使用 Bitswap 协议来进行文件传输。Bitswap 是一种基于信用和需求的 P2P 文件共享协议，它可以让节点之间互相交换数据，从而提高下载速度。

第四章：Libp2p 中的 DHT 应用：服务发现

在 Libp2p 中，DHT 不仅仅用于内容寻址，还可以用于服务发现。

Libp2p DHT 的工作流程：

发布服务： 当一个节点想要发布一个服务时，它会把服务的 ID 存储到 DHT 中。这个服务的 ID 可以是任何字符串，比如 "chat-service"、"video-streaming" 等。
查找服务： 当一个节点想要使用某个服务时，它会向 DHT 发起一个查询请求，询问：“谁提供了这个服务？” DHT 会通过 Kademlia 算法，找到提供该服务的节点的信息。

Libp2p DHT 的优点：

动态性： Libp2p DHT 可以动态地发现服务，即使服务的提供者发生了变化，也可以及时地更新服务信息。
可扩展性： Libp2p DHT 可以很容易地扩展到大规模的网络，支持大量的节点和服务。
灵活性： Libp2p DHT 可以用于各种不同的应用场景，比如内容寻址、服务发现、身份验证等。

第五章：代码实战：使用 js-ipfs-dht

现在让我们来看一些实际的代码，使用 js-ipfs-dht 来创建一个简单的 DHT 网络。

安装 js-ipfs-dht：

npm install ipfs-dht

代码示例：

const DHT = require('ipfs-dht')
const Libp2p = require('libp2p')
const TCP = require('libp2p-tcp')
const Mplex = require('libp2p-mplex')
const SECIO = require('libp2p-secio')
const PeerId = require('peer-id')
const { multiaddr } = require('multiaddr')

async function createNode(port, dhtOptions = {}) {
  const peerId = await PeerId.create()
  const listenAddress = `/ip4/127.0.0.1/tcp/${port}`

  const node = await Libp2p.create({
    peerId,
    addresses: {
      listen: [listenAddress]
    },
    modules: {
      transport: [TCP],
      streamMuxer: [Mplex],
      connEncryption: [SECIO],
      dht: DHT
    },
    config: {
      dht: dhtOptions
    }
  })

  await node.start()
  console.log(`Node started at ${listenAddress} with PeerId: ${peerId.toB58String()}`)
  return node
}

async function main() {
  // 创建两个 DHT 节点
  const node1 = await createNode(9090, { kBucketSize: 20, clientMode: false }) // 充当服务器
  const node2 = await createNode(9091, { kBucketSize: 20, clientMode: true })  // 充当客户端

  // 连接两个节点
  await node2.dial(node1.multiaddrs[0])
  console.log('Node 2 dialed Node 1')

  // 等待连接建立
  await new Promise(resolve => setTimeout(resolve, 1000))

  const key = 'hello'
  const value = 'world'

  // Node 1 发布 key-value
  console.log('Putting value...')
  await node1.contentRouting.put(key, Buffer.from(value))
  console.log('Value put!')

  // 等待数据传播
  await new Promise(resolve => setTimeout(resolve, 2000))

  // Node 2 查找 key
  console.log('Getting value...')
  const result = await node2.contentRouting.get(key)
  console.log('Value get!')

  if (result) {
    console.log(`Found value: ${result.toString()}`)
  } else {
    console.log('Value not found')
  }

  // 关闭节点
  await node1.stop()
  await node2.stop()
}

main().catch(err => {
  console.error(err)
  process.exit(1)
})

代码解释：

导入模块： 导入 ipfs-dht、libp2p 等必要的模块。
创建节点： 使用 Libp2p.create 创建两个节点。其中 node1 充当服务器，node2 充当客户端。
配置 DHT： 通过 config.dht 选项配置 DHT。kBucketSize 指定 K-桶的大小，clientMode 指定节点是否为客户端模式。客户端模式的节点不会存储 DHT 数据，只负责查询。
连接节点： 使用 node2.dial 连接两个节点。
发布数据： 使用 node1.contentRouting.put 将 key-value 存储到 DHT 中。
查找数据： 使用 node2.contentRouting.get 从 DHT 中查找 key 对应的 value。
关闭节点： 使用 node1.stop 和 node2.stop 关闭节点。

运行结果：

你会看到 node2 成功地从 DHT 中找到了 node1 发布的 key-value。

第六章：DHT 的挑战与未来

DHT 虽然强大，但也面临着一些挑战：

安全性： DHT 容易受到女巫攻击 (Sybil attack) 和日蚀攻击 (Eclipse attack) 等恶意攻击。
可扩展性： 当网络规模非常大时，DHT 的性能可能会下降。
数据一致性： 在动态的网络环境中，如何保证数据的一致性是一个难题。

未来，DHT 的发展方向可能包括：

更强的安全性： 研究更有效的防御机制，抵抗恶意攻击。
更高的可扩展性： 优化 DHT 算法，提高在大规模网络中的性能。
更好的数据一致性： 使用更先进的数据同步技术，保证数据的一致性。
与其他技术的融合： 将 DHT 与区块链、边缘计算等技术相结合，创造更多的应用场景。

总结：

今天我们一起深入探讨了 IPFS 和 Libp2p 中的 DHT 技术。我们了解了 DHT 的基本概念、核心思想、具体实现、应用场景以及面临的挑战和未来的发展方向。希望通过今天的讲解，大家对 DHT 有了更深入的理解，能够在实际的项目中灵活运用 DHT 技术。

Q & A 环节

现在是提问环节，大家有什么问题都可以提出来，我会尽力解答。

（等待观众提问并解答）

结束语：

感谢大家今天的光临！希望下次有机会再和大家一起探讨其他的技术话题。再见！

发表回复 取消回复

发表回复取消回复