自定义 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年7月9日

PyTorch/TensorFlow 自定义 `autograd`：实现复杂梯度的自动求导

好，各位老铁，今天咱们来聊聊PyTorch和TensorFlow里自定义 autograd 这事儿，说白了就是教机器咋算一些复杂的梯度。这东西听起来玄乎，其实就是让咱们能更灵活地控制模型训练，搞一些奇奇怪怪的骚操作。开场白：为啥要自定义 autograd？话说回来，PyTorch和TensorFlow自带的自动求导已经够用了，为啥还要自己动手呢？原因嘛，很简单，就是内置的梯度计算搞不定的时候。比如：梯度不可导: 某些操作在数学上根本就不可导，比如ReLU在0点。虽然框架会默认处理，但有时候你想搞点更精细的控制。效率问题: 某些自定义操作，如果用框架自带的算子拼凑，计算梯度可能效率很低。自己实现一遍，说不定能快上几倍。研究需要: 搞学术的，总想搞点新花样，自定义 autograd 是必须的。想装逼: 承认吧，有时候就是想秀一下自己的编程技巧。总之，自定义 autograd 就是为了更大的自由度和控制力。 PyTorch自定义 autograd：从零开始 PyTorch里自定义 autograd，主要涉及两个部分：定义一个继承自 torch.autograd.Functio …

继续阅读“PyTorch/TensorFlow 自定义 `autograd`：实现复杂梯度的自动求导”

2025年7月9日

Python AST `ast` 模块：编写自定义代码转换器

好的，咱们今天来聊聊Python AST ast 模块，以及如何用它来编写自定义代码转换器。这玩意儿听起来很高大上，但其实就像玩乐高积木一样，只要掌握了规则，就能拼出各种奇形怪状的东西。准备好了吗？咱们开始！开场白：代码的“CT”扫描仪各位观众，有没有想过，我们写的Python代码，在被Python解释器执行之前，到底经历了什么？它可不是直接就被“duang”的一下运行起来的。实际上，它会被“解剖”成一种叫做抽象语法树（Abstract Syntax Tree，简称AST）的结构。你可以把AST想象成代码的“CT”扫描仪。它能把代码的每个细节都看得清清楚楚，比如有哪些变量、哪些函数、哪些循环等等。而ast模块，就是Python提供给我们的一个工具，让我们能够访问和操作这个“CT”扫描结果。第一部分：AST是个什么玩意儿？ 1.1 抽象语法树的本质简单来说，AST是一种树状结构，用来表示代码的语法结构。每个节点代表代码中的一个语法元素，比如变量、运算符、函数调用等等。举个例子，假设我们有这样一行简单的Python代码： x = 1 + 2 这行代码对应的AST大概是这个样子（ …

继续阅读“Python AST `ast` 模块：编写自定义代码转换器”

2025年7月9日

Python `missing`：处理字典键不存在的自定义行为

好的，各位观众，各位朋友，欢迎来到今天的“Python 冷门知识大讲堂”。今天我们要聊的是一个字典的小秘密，但是威力却很大的东西：__missing__ 方法。开场白：字典的“寻物启事” 想象一下，你是一个图书管理员，每天的工作就是根据读者的需求，在书架上找到对应的书。大部分时候，读者要的书你都有，直接拿给他们就行。但总有那么一些时候，读者要的书你压根就没听说过，书架上根本没有！这时候你怎么办？是直接耸耸肩说“没有”？还是发挥你的聪明才智，找到一些替代方案，比如推荐类似的书，或者告诉读者哪里可能有这本书？ Python 的字典也面临着类似的问题。当我们用 my_dict[‘key’] 这样的方式访问字典时，如果 key 存在，一切都好说。但如果 key 不存在呢？默认情况下，Python 会毫不留情地抛出一个 KeyError 异常，就像图书管理员直接说“没有！”一样。但是，如果我们想让字典在找不到 key 的时候，做一些更聪明的事情，而不是直接报错呢？这就是 __missing__ 方法的用武之地了！ __missing__ 方法：字典的“智能客服” __missing__ 方 …

继续阅读“Python `__missing__`：处理字典键不存在的自定义行为”

2025年7月9日

Python `__set_name__`：自定义类属性在定义时的行为

好的，没问题。让我们开始这场关于Python __set_name__ 的“相声”讲座！ Python __set_name__：我的属性，我做主！大家好！我是今天的讲师，人称“代码界的段子手”。今天咱们不聊风花雪月，就来聊聊Python里一个可能被你忽略，但绝对值得了解的“幕后英雄”：__set_name__。你有没有想过，当你定义一个类属性时，谁在背后默默地把属性名和类关联起来？难道是Python解释器里的“小精灵”吗？虽然听起来有点玄乎，但实际上，__set_name__ 就是那个负责“牵线搭桥”的关键人物。什么是 __set_name__？别慌，咱先来个例子热热身先别急着查字典，咱们从一个简单的例子入手： class MyDescriptor: def __set_name__(self, owner, name): print(f”MyDescriptor.__set_name__ called: owner={owner}, name={name}”) self.public_name = name self.private_name = ‘_’ + name d …

继续阅读“Python `__set_name__`：自定义类属性在定义时的行为”

2025年7月9日

Python 自定义哈希函数：`hash` 与字典性能优化

好的，咱们今天就来聊聊Python里自定义哈希函数这回事儿，也就是 __hash__ 这个魔法方法，以及它跟字典性能优化之间那些不得不说的故事。开场白：哈希是个啥？字典为啥这么快？各位观众，咱们先来热热身，搞清楚一个最基本的问题：哈希是啥玩意儿？简单来说，哈希就是把一个东西（在Python里，这“东西”就是对象）变成一个数字。这个数字叫做哈希值。重点是，同样的“东西”，无论什么时候算，算出来的哈希值都得一样。那字典为啥这么快？想象一下，你有一本电话簿，你想找“张三”的电话号码，如果电话簿是按姓名首字母排序的，你是不是就能很快找到？字典其实也差不多，它就是靠哈希值来快速定位的。字典内部维护着一个哈希表，把键（key）的哈希值作为索引，直接指向对应的值（value）的内存地址。这样，查找、插入、删除操作的时间复杂度基本上就是 O(1) 了，非常高效。 __hash__：掌控哈希值的钥匙在Python里，每个对象都有一个哈希值，可以通过 hash() 函数来获取。默认情况下，Python会根据对象的内存地址来生成哈希值。但是，对于自定义的类，如果你想让它的实例能够 …

继续阅读“Python 自定义哈希函数：`__hash__` 与字典性能优化”

2025年7月9日

Python Awaitable 对象与 `await`：自定义异步行为

好的，各位观众，欢迎来到今天的异步编程小剧场！今天我们要聊聊Python里的一个有点神秘，但又非常强大的家伙——Awaitable对象，以及它背后的魔法 __await__ 方法。第一幕：什么是Awaitable？（别怕，不难）在异步编程的世界里，我们经常需要等待某个操作完成，比如从网络上下载一个文件，或者从数据库里读取一些数据。这些操作通常需要一段时间，如果我们一直傻傻地等着，那我们的程序就会卡在那里，啥也干不了。 Awaitable对象就是用来解决这个问题的。简单来说，它代表一个可以“等待”的东西，你可以用 await 关键字来等待它完成。你可以把Awaitable对象想象成一个“承诺”，它承诺在未来的某个时刻会给你一个结果。你用 await 来“兑现”这个承诺，一旦承诺兑现了，你就可以拿到结果继续往下执行。第二幕：__await__ 方法：Awaitable对象的灵魂那么，一个对象怎么才能成为Awaitable对象呢？答案就是实现 __await__ 方法。 __await__ 方法是Awaitable对象的灵魂，它定义了当使用 await 关键字等待这个对象时，会发生 …

继续阅读“Python Awaitable 对象与 `__await__`：自定义异步行为”

2025年7月9日

Python `import` 机制：自定义模块加载器与钩子

Python import 机制：自定义模块加载器与钩子 (专家讲座版) 大家好！我是今天的演讲者，一个在代码海洋里泡了多年的老水手。今天咱们聊聊 Python 里一个既神秘又强大的家伙：import 机制。别害怕，听起来高大上，其实只要掌握了诀窍，你也能玩转它，甚至打造属于自己的“模块传送门”。 1. import 的世界观：我们从哪里来？要到哪里去？ import，顾名思义，就是“导入”。它负责把我们需要的模块（可以理解为代码仓库）拉到当前程序里来使用。但这个过程可不像你想象的那么简单粗暴，不是直接把代码复制粘贴过来就完事儿了。背后有一套精密的流程，包含查找、加载、和初始化模块。 1.1 基本流程：三步走 Python 的 import 机制大致遵循以下三个步骤：查找 (Finding): 确定要导入的模块的位置。Python 会在一系列地方寻找，比如内置模块、已安装的第三方库，以及你指定的目录。加载 (Loading): 一旦找到模块，Python 会创建对应的模块对象，并将模块的代码读取到内存中。初始化 (Initializing): 加载之后，Python 会执行模 …

继续阅读“Python `import` 机制：自定义模块加载器与钩子”

2025年7月9日

Python 自定义 `new` 方法：控制对象的创建过程

好的，各位观众，欢迎来到今天的“Python冷知识热炒”讲座！今天我们要聊的是一个听起来高深莫测，但实际上非常有用的小技巧：Python 中的 __new__ 方法。 __new__：对象的“出生证明”签发员我们都知道，在 Python 中创建一个对象，一般都是用类名() 这样的方式。比如： class Dog: def __init__(self, name): self.name = name my_dog = Dog(“旺财”) print(my_dog.name) # 输出：旺财这里，Dog(“旺财”) 这行代码实际上做了两件事：创建对象：在内存中开辟一块空间，用来存放 Dog 对象的各种属性。初始化对象：调用 __init__ 方法，给对象设置初始值，比如这里的 name 属性。但问题来了，谁负责创建对象呢？__init__ 只是负责给对象“装修”而已，真正负责“盖房子”的是谁？答案就是：__new__。可以把 __new__ 想象成一个“出生证明”签发员。只有它签发了“出生证明”，对象才能被创建出来。而 __init__ 只是在对象“出生”之后，给它穿衣服 …

继续阅读“Python 自定义 `__new__` 方法：控制对象的创建过程”

2025年7月8日

SpaCy 自定义组件与管道：构建高效、可扩展的 NLP 应用

各位观众，大家好！我是你们今天的NLP段子手兼技术指导，咱们今天的主题是SpaCy自定义组件与管道，目标是让大家学会如何像搭乐高一样，用SpaCy构建自己的NLP流水线。开场白：NLP流水线的“管道梦” 想象一下，你是个大厨，要做一道复杂的菜。你会怎么做？肯定不是一股脑儿把所有食材扔进锅里乱炖。你需要一个流程，比如先洗菜、切菜，再腌制，最后烹饪。 NLP也一样。处理文本数据，需要一系列步骤，比如分词、词性标注、命名实体识别等等。这些步骤就像厨房里的各个工序，需要有序进行，才能最终做出美味的“NLP大餐”。 SpaCy的管道（pipeline）就是这个“厨房”，而自定义组件就是你添加的“新厨具”或者“秘制酱料”。通过自定义组件，你可以让SpaCy管道更好地适应你的特定任务，提高效率，实现各种奇思妙想。第一部分：SpaCy管道的“前世今生” SpaCy管道就像一条传送带，文本数据在上面经过不同的组件，每个组件都负责处理一部分任务。默认的SpaCy管道通常包含以下组件：组件名称功能描述 tokenizer 分词，将文本分解成token序列 tagger 词性标注，识别每个token的 …

继续阅读“SpaCy 自定义组件与管道：构建高效、可扩展的 NLP 应用”

2025年7月8日

TVM/MLIR：深度学习编译器的后端优化与自定义硬件集成

好的，咱们今天就来聊聊深度学习编译器后端优化和自定义硬件集成，主角是TVM和MLIR这两位大神。保证让你听得懂，学得会，还能乐出声！讲座标题：TVM/MLIR：深度学习编译器的“变形金刚”与“乐高积木” 引言：深度学习的“后浪”时代各位朋友们，现在AI有多火，就不用我多说了吧？但是，就像“前浪”总要被“后浪”拍在沙滩上一样，咱们的深度学习模型也面临着效率和灵活性的挑战。想想看，模型越来越大，计算越来越复杂，如果还是靠着TensorFlow、PyTorch等框架“一把梭”，那硬件迟早要被榨干！这时候，深度学习编译器就闪亮登场了！它们就像是深度学习的“变形金刚”，能把模型变成各种各样高效的代码，让它们在不同的硬件上飞起来。而TVM和MLIR，就是编译器界的两位“扛把子”。第一部分：TVM：深度学习的“变形金刚” TVM，全称是“Tensor Virtual Machine”，但你完全可以把它理解成一个“深度学习变形金刚”。它能把你的模型“变形”成各种各样高效的代码，适应不同的硬件环境。 1. TVM的“变形”原理：计算图与调度 TVM的“变形”能力，主要来自于它的两个核心概念：计算 …

继续阅读“TVM/MLIR：深度学习编译器的后端优化与自定义硬件集成”