机器学习 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年3月9日

梯度提升决策树(GBDT)在回归问题中的应用探讨

梯度提升决策树(GBDT)在回归问题中的应用探讨开场白：从“懒人”到“学霸”的进化之路大家好，欢迎来到今天的讲座！今天我们来聊聊一个非常有趣的机器学习算法——梯度提升决策树（Gradient Boosting Decision Tree, GBDT），尤其是它在回归问题中的应用。如果你曾经觉得线性回归太简单、神经网络太复杂，那么GBDT可能就是你一直在寻找的“甜点区”。它既不像线性模型那样过于简单，也不像深度学习那样需要大量的计算资源和调参技巧。想象一下，你是一个“懒人”，平时写代码总是想用最少的力气得到最好的结果。GBDT就像是一个帮你从“懒人”进化成“学霸”的工具。它通过不断地“反思”自己的错误，逐步改进模型的表现，最终达到非常高的精度。听起来是不是很酷？那我们就开始吧！ 1. 什么是梯度提升决策树？ 1.1 决策树的基础首先，让我们回顾一下决策树的基本概念。决策树是一种基于树结构的模型，它通过一系列的条件判断（即节点）来对数据进行分类或预测。每个节点会根据某个特征的值进行分裂，最终到达叶子节点时给出预测结果。对于回归问题，叶子节点通常会输出训练集中该叶子节点内的样本均值。 …

继续阅读“梯度提升决策树(GBDT)在回归问题中的应用探讨”

2025年3月9日

随机森林算法详解：提升预测准确性的集成方法

随机森林算法详解：提升预测准确性的集成方法你好，随机森林！大家好！欢迎来到今天的讲座，今天我们来聊聊一个非常有趣的机器学习算法——随机森林。如果你已经对决策树有所了解，那么随机森林对你来说就像是“升级版”的决策树。它不仅继承了决策树的优点，还通过集成多个决策树的方式，大大提升了模型的预测准确性。什么是随机森林？简单来说，随机森林（Random Forest）是一种基于集成学习的算法，它的核心思想是“众人拾柴火焰高”。通过构建多个决策树，并将它们的预测结果进行综合，随机森林能够有效减少单个决策树的过拟合问题，从而提高模型的泛化能力。随机森林的工作流程可以分为以下几个步骤：数据抽样：从原始数据集中随机抽取多个子集，每个子集用于训练一棵决策树。特征选择：在每个节点分裂时，随机选择一部分特征进行分裂，而不是使用所有特征。构建决策树：基于每个子集和随机选择的特征，构建多棵决策树。投票或平均：对于分类任务，随机森林会通过多数投票的方式确定最终的预测结果；对于回归任务，则通过取所有树的预测结果的平均值来得出最终结果。为什么随机森林这么牛？随机森林之所以强大，主要有以下几个原因： …

继续阅读“随机森林算法详解：提升预测准确性的集成方法”

2025年3月9日

深度解析支持向量机(SVM)：理论基础与实际应用

深度解析支持向量机(SVM)：理论基础与实际应用引言大家好，欢迎来到今天的讲座！今天我们要一起探讨的是机器学习领域中非常经典且强大的算法——支持向量机（SVM）。SVM 是一种监督学习算法，广泛应用于分类和回归问题。它不仅在理论上有着深厚的数学基础，而且在实际应用中也表现出了卓越的性能。通过今天的讲座，我们将从零开始，逐步揭开 SVM 的神秘面纱，帮助大家理解其背后的原理，并通过代码实现一些实际的应用。为什么选择 SVM？在众多的机器学习算法中，SVM 之所以脱颖而出，主要有以下几个原因：泛化能力强：SVM 通过最大化分类间隔来避免过拟合，因此在处理小样本数据时表现尤为出色。适用于高维空间：SVM 可以通过核函数将数据映射到高维空间，从而解决非线性分类问题。鲁棒性强：SVM 对噪声数据具有较好的容忍度，能够在不完美的数据集上保持较高的准确性。接下来，我们将会分几个部分来详细介绍 SVM 的理论基础、实际应用以及如何用 Python 实现 SVM。 Part 1: SVM 的理论基础 1.1 线性可分情况下的 SVM 假设我们有一个二分类问题，数据点可以用二维平面上的点表 …

继续阅读“深度解析支持向量机(SVM)：理论基础与实际应用”

2025年3月9日

监督学习与非监督学习：核心概念及其应用场景比较

监督学习与非监督学习：核心概念及其应用场景比较你好，机器学习的世界！大家好！欢迎来到今天的讲座。今天我们要聊一聊机器学习中的两大“门派”——监督学习和非监督学习。这两者虽然都属于机器学习的范畴，但它们的“武功招式”却大不相同。我们将会从核心概念、应用场景以及代码实现等多个角度来对比这两者，帮助你更好地理解它们的区别和适用场景。 1. 监督学习：有老师教的学生什么是监督学习？想象一下你在学校里上课，老师给你出了一堆题目，并且每道题都有标准答案。你的任务就是通过这些题目和答案，学会如何解题。这就是监督学习的核心思想。在监督学习中，我们有一组带标签的数据（即输入和对应的输出），模型通过学习这些数据来预测新的未知数据的输出。核心概念训练集：带有标签的数据集，用于训练模型。测试集：未见过的带标签数据，用于评估模型的性能。特征：输入数据的属性或特征。标签：目标变量，即我们希望模型预测的结果。常见算法线性回归：用于预测连续值，比如房价预测。逻辑回归：用于分类问题，比如垃圾邮件检测。支持向量机（SVM）：用于分类和回归，适用于高维数据。决策树：通过一系列规则进行分类或回归。 …

继续阅读“监督学习与非监督学习：核心概念及其应用场景比较”

2025年3月9日

机器学习入门指南：从零开始构建你的第一个模型

机器学习入门指南：从零开始构建你的第一个模型欢迎来到机器学习的奇妙世界！大家好，欢迎来到今天的讲座！我是你们的讲师 Qwen。今天我们将一起踏上一段有趣的旅程，从零开始构建你人生中的第一个机器学习模型。别担心，我们会用轻松诙谐的语言，尽量让这个过程变得简单易懂。如果你是完全的新手，那么这正是为你量身定制的内容！什么是机器学习？在我们动手之前，先来简单了解一下什么是机器学习。想象一下，你有一个非常聪明的朋友，他可以通过观察大量的数据，从中找到规律，并根据这些规律做出预测或决策。机器学习就是让计算机扮演这个“聪明朋友”的角色。通过给它提供大量数据，计算机可以自动学习并改进自己的表现，而不需要我们手动编写每一条规则。为什么选择 Python？ Python 是当今最流行的编程语言之一，尤其是在机器学习领域。它的语法简洁明了，社区活跃，拥有丰富的库和工具。因此，我们将使用 Python 来构建我们的第一个模型。如果你还没有安装 Python，建议你先去下载一个 Anaconda 发行版，它包含了 Python 和许多常用的机器学习库。准备工作在我们开始之前，确保你已经安装了以下工 …

继续阅读“机器学习入门指南：从零开始构建你的第一个模型”