机器学习中的置信区间与置信度

admin 2024-02-13 阅读:40 评论:0
  看到一篇机器学习中的置信区间与置信度很好的文章链接:https://www.techug.com/post/a-very-friendly-introduction-to-confidence-intervals.html...

  看到一篇机器学习中的置信区间与置信度很好的文章链接:https://www.techug.com/post/a-very-friendly-introduction-to-confidence-intervals.html

  本文讨论了统计学中的一个基本术语 :置信区间。我们仅以一种非常友好的方式讨论一般概念,没有太多花哨的统计术语,同时还会使用 Python 完成简单的实现!尽管这个术语是非常基础的,但我们有时很难完全理解置信区间到底是什么,为什么我们需要它。

  假设你想知道美国有多少人热爱足球。为了得到 100% 正确的答案,你可以做的唯一一件事是向美国的每一位公民询问他们是否热爱足球。根据维基百科,美国有超过 3.25 亿的人口。与 3.25 亿人谈话并不现实,因此我们必须通过问更少的人来得到答案。

  我们可以通过在美国随机抽取一些人(与更少人交谈)并获得热爱足球的人的百分比来做到这一点,但是我们不能 100% 确信这个数字是正确的,或者这个数字离真正的答案有多远大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。所以,我们试图实现的是获得一个区间,例如,对这个问题的一个可能的答案是:「我 95% 相信在美国足球爱好者的比例是 58% 至 62%」。这就是置信区间名字的来源,我们有一个区间,并且我们对它此一定的信心。

  非常重要的是我们的样本是随机的,我们不能只从我们居住的城市中选择 1000 人,因为这样就不能很好地代表整个美国。另一个不好的例子是,我们不能给这 1000 个随机用户发 Facebook 消息,这样我们就会得到美国 Facebook 用户的喜爱趋势,因为并不是所有的美国公民都使用 Facebook。

  因此,假设我们随机抽取了 1000 个美国人的样本,我们发现,在 1000 人中有 63% 的人喜欢足球,我们能假设(推断)出整个美国人口的情况吗?

  为了回答这个问题,我希望我们以一个不同的方式来看待它。假设我们知道(理论上)美国人的确切比例,假设它是 65%,那么随机挑选 1000 人只有 63% 的人喜欢足球的机会是多少?让我们用 Python 来探索这个问题!

  在这段代码中,我创建了一个表示 3.25 亿人的 NumPy 数组,对于每个人,如果他/她喜欢足球,那么我会存储 1,否则就是零。我们可以通过计算它的平均值来得到数组中的百分比,实际上它是 65%。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  现在,让我们取几组容量为 1000 个样本的试验,看看得到的百分比是多少:

  对于每组样本,我们获得了不同的值,但直觉(和统计理论)表示,大量样本的平均值应该非常接近真实百分比。让我们这样试试!我们取很多样本,然后看看会发生什么:`

  我们创建了 10K 个样本,检查了每个样本中热爱足球的人的百分比,然后取平均值,我们得到了 64.98%,这非常接近于实际值 65%。让我们画出我们得到的所有值:

  在这里插入图片描述

  这里你看到的是我们得到的所有样本值的直方图,这个直方图的一个很好的性质是它和正态分布非常相似。正如我所说的,我不想在这里使用太多的统计术语,但假设如果我们这样做了很多次(无限次),我们将得到一个非常接近正态分布的直方图,我们可以知道该分布的参数。用更简单的话来说,我们会知道这个直方图的形状,所以我们可以精确地知道在任意数值范围内有多少个样本。

  下面是一个例子,我们会多次运行这个模拟(试图达到无穷大):

  在这里插入图片描述

  首先,我们可以看到直方图的中心(平均值)接近 65%,正如我们所预期的,但我们可以通过查看直方图来得到更多信息,例如,我们可以说,一半样本都大于 65%,或者我们可以说大约 25% 的样本大于 67%,甚至可以说(大致)只有 2.5% 的样本大于 68%。

  在这一点上,很多人可能会问两个重要的问题:我怎样才能取得无数的样本?和它对我有什么帮助?。

  让我们回到我们的例子,我们抽取了 1000 人的样本,得到了 63%,我们想知道,随机抽样的 1000 人中有 63% 的足球爱好者的概率是多少。使用这个直方图,我们可以说有(大概)25%的概率,我们会得到一个小于或等于 63% 的值。该理论告诉我们,我们实际上并不需要得到无限的样本,如果我们随机选择 1000 人,只有 63% 的人喜欢足球是可能发生的。

  实际上,为了找到不同数值范围或区间的概率,我们需要知道或至少估计总体分布的标准差。因为我们想把事情变得简单一点,因此现在先不讨论它。

  让我们回到现实和真正的问题,我不知道美国足球爱好者的实际比例,我只抽取了一个样本,得到了 63%,这对我有什么帮助?

  所以,我们不知道在美国热爱足球的人的实际比例。我们所知道的是,如果我们从总体分布取无数个样本,它将如下所示:在这里插入图片描述

  这里 μ 是总体分布的平均值(我们例子中足球爱好者的实际百分比),σ 是总体分布的标准差。

  如果我们知道这一点(并且我们知道标准差),我们可以说约 64% 的样本会落在红色区域,或者 95% 以上的样品会落在图中的绿色区域之外:

  在这里插入图片描述

  如果我们在之前假设的实际百分比 65% 上使用该图,那么 95% 以上的样本将在 62% 和 68% 之间(+ – 3)。

  在这里插入图片描述大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  当然,距离是对称的,所以如果样本有 95% 落在在实际百分比 -3 和 +3 之间,那么真实百分比落在样本百分比 -3 和 +3 之间的概率为 95%。

  如果我们抽取一个样本,得到了 63%,那么我们可以说我们 95% 确信实际比例在 60%(63-3)和 66%(63 + 3)之间。

  这就是置信区间,区间为 63 + -3,置信度为 95%。

  我希望大家现在对置信区间有更好的理解,但这个介绍忽略了一些重要的技术性的部分。有很多文章包含了这些部分,因此读者可继续阅读相关的材料加强理解。

  本文为机器之心编译

机器学习中的置信区间与置信度

机器学习中的置信区间与置信度

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 马里奥巴洛特利 意大利足球明星 (巴洛特利代表法国队球员)

    马里奥巴洛特利 意大利足球明星 (巴洛特利代表法国队球员)
      马里奥·巴洛特利(Mario Balotelli),1990年8月12日出生于意大利巴勒莫,意大利足球运动员,场上司职前锋,现效力于法甲的尼斯足球俱乐部。      当今足坛的年轻球星里,姆巴佩的未来会最成功。因为姆巴佩他出生于足球世家,有上代人的培育,而且又有自身的努力,姆巴佩可以算得上是天生的足球运动员了,所以他的未来会是新一代足球运动员中最成功的大佬们都在玩{ 精选官网网址: www.vip333.Co }值得信任的品牌平台!。   第二:梅西 梅...
  • 比利时甲级联赛在哪看(比利时甲级联赛在哪看直播)

    比利时甲级联赛在哪看(比利时甲级联赛在哪看直播)
      1、2022比利时甲级联赛马安特卫普客场2:0击败色格拉布鲁日,该场比赛有... 2、比利时甲级联赛赛程比分 3、介绍一下比利时足球甲级联赛大佬们都在玩{ 精选官网网址: www.vip333.Co }值得信任的品牌平台!? 4、竞  足球500  票今天的赛事 5、比甲联赛是什么   1、年比利时甲级联赛马安特卫普客场2:0击败色格拉布鲁日的比赛,马安特卫普在比赛中表现出色,他们在上半场就打入了两个进球,  终以2-0获胜。...
  • 英格兰队vs克罗地亚电视,英格兰vs克罗地亚进球视频

    英格兰队vs克罗地亚电视,英格兰vs克罗地亚进球视频
      1、英格兰克罗地亚(欧洲杯半决赛) 2、英格兰对克罗地亚直播 3、直播英格兰vs克罗地亚(欧洲杯小组赛决战) 4、英格兰vs克罗地亚直播 5、克罗地亚英格兰(欧洲杯半决赛) 6、英格兰克罗地亚(欧洲杯小组赛)   1、上半场 比赛开始后,双方都非常积极地进攻,争夺着进球的机会。英格兰队在比赛的第12分钟就取得了领先,凯恩头球攻门得分。克罗地亚队在后面的时间里也不断进攻,但都没有取得进球。   2、在本届欧洲杯中,英格兰足球队表现十分出色,他...
  • 腾讯体育视频直播app

    腾讯体育视频直播app
      腾讯体育视频直播app是由腾讯官方出品的一款为用户提供最强体育赛事的直播软件,覆盖了全面的体育赛事直播资源,包括中超、亚冠、英超、西甲、意甲、德甲、法甲、欧冠、欧洲杯、美洲杯、奥运、网球等等,24小时经典比赛、超清1080P蓝光清晰度、原汁原味英文原音解说随时随地让你High起来。用户观看比赛直播,还有机会获取球星签名球衣、限量球鞋、NBA门票以及丰富的周边商品等大量奖品,具备赛前提醒、实时赛况、赛后回放精彩集锦、获知赛果等功能,还拥有世界顶级的转播技术和团队,为你独家呈...
  • 《浪老师:科技时代电子竞技的新星》

    《浪老师:科技时代电子竞技的新星》
      电子竞技,一个充满激情与活力的行业,吸引了无数年轻人的目光。在这个领域里,有一位备受瞩目的人物——浪老师,他以其独特的工程技术背景和温而散的理念,为电子竞技行业带来了新的发展机遇。      一、引言   浪老师,原名李华,是一名电子竞技教练。他拥有丰富的工程技术教育背景和专业素养,曾担任过多支电子竞技队伍的教练,取得了优异成绩。他对电子竞技行业的发展趋势有着深刻的理解,并将工程技术与训练模式相结合,创新了一套独特的电竞训练方法。本文将阐述浪老师的事迹和...