台大机器学习作业二：错误分类与概率分析

需积分: 0 66 浏览量更新于2024-07-01 收藏 865KB PDF 举报

"这篇内容是关于台湾大学机器学习课程作业的解析，主要涵盖了Coursera上的相关问题。作业涉及到的概念和问题是Learning from Data这本书中的Exercise 1.13和2.12，以及2.20（包括Variant VC bound）。讨论了错误分类的两种类型——“去真”和“取伪”，并涉及概率计算和不等式的求解。" 在机器学习中，错误分类是衡量模型性能的重要指标。在这个作业中，提到了两种类型的错误：“去真”（False Negative）和“取伪”（False Positive）。去真是指模型将正样本预测为负样本，而取伪则是指模型将负样本预测为正样本。理解这两种错误类型对于构建和优化分类器至关重要，因为它们直接影响到准确率、召回率和F1分数等评估指标。 Exercise 1.13中讨论的是犯错的概率。在分类问题中，模型可能会犯去真或取伪的错误，因此总犯错概率是这两种错误概率的和。要计算这个概率，通常需要知道先验概率和条件概率，然后应用贝叶斯定理或其他概率论方法。接着，Exercise 2.12涉及一个不等式的求解问题，这通常出现在统计学习理论中，特别是在讨论VC维（Vapnik-Chervonenkis dimension）和模型的泛化能力时。VC维是用来度量模型复杂性的概念，高VC维可能意味着模型过度拟合，低VC维则可能导致欠拟合。解决这类问题可能需要对概率论和凸优化有深入理解。在Problem 2.20中，讨论了Variant VC bound，这是关于估计模型在未知数据上的表现的一个上界。解决这个问题通常需要处理复杂的数学表达式，可能涉及到不等式的变换、平方项以及对数函数。在这个例子中，通过设定变量并进行一系列代数操作，最终找到了满足不等式的最小样本数量。通过这样的练习，学生能够深化对机器学习基本概念的理解，掌握概率计算和理论分析技能，这对于后续的学习和实际项目开发都是极其重要的。在实际工作中，这些理论知识可以帮助我们选择合适的模型，调整参数，并对模型的性能进行合理预期。

plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

dvc = 50

delta = 0.05

#计算ln(m(N))

def lm(n):

 return dvc * np.log(n)

#Original VC-bound

def f1(n):

 result = (8 / n) * (np.log(4 / delta) + lm(2 * n))

 result = result ** 0.5

 return result

#Variant VC bound

def f2(n):

 result = (16 / n) * (np.log(2 / (delta ** 0.5)) + lm(n))

 result = result ** 0.5

 return result

#Rademacher Penalty Bound

def f3(n):

 k1 = 2 * (np.log(2 * n) + lm(n)) / n

 k2 = (2 / n) * np.log(1 / delta)

 k3 = 1 / n

 result = k1 ** 0.5 + k2 ** 0.5 + k3

 return result

#Parrondo and Van den Broek

def f4(n):

 k1 = 1 / n

 k2 = 1 / (n ** 2) + (1 / n) * (np.log(6 / delta) + lm(2 * n))

 k2 = k2 ** 0.5

 result = k1 + k2

 return result

#Devroye

def f5(n):

 k1 = 1 / (n - 2)

 k2 = (np.log(4 / delta) + lm(n * n)) / (2 * (n - 2)) + 1 / ((n - 2) ** 2)

 k2 = k2 ** 0.5

 result = k1 + k2

 return result

#### Problem 4

#产生点集

x = np.arange(100, 2000)

y1 = [f1(i) for i in x]

y2 = [f2(i) for i in x]

y3 = [f3(i) for i in x]

y4 = [f4(i) for i in x]

剩余17页未读，继续阅读

叫我叔叔就行

粉丝: 33
资源: 323

台大机器学习作业二：错误分类与概率分析

台大机器学习作业一1

台大机器学习作业二1

台大机器学习课程作业详解

线性回归预测PM2.5----台大李宏毅机器学习作业1(HW1)

因果推断与机器学习 pdf

如何利用李宏毅教授的《机器学习》课程笔记深入掌握监督学习中的决策树算法？

如何利用李宏毅教授的《机器学习》课程笔记更好地理解监督学习中的决策树算法？

如何理解机器学习中的数据计算对模式识别的影响？并且在推荐系统中有哪些具体的应用？

在推荐系统中，如何应用机器学习算法以提高个性化推荐的准确度？

在李宏毅教授的《机器学习》课程中，如何通过学习笔记中的决策树算法内容，系统掌握其在监督学习中的应用和优化技巧？

最新资源