[第1课] 均值 中位数 众数

主题:均值也就是算术平均值,即数据集中所有数据之和除以数据个数。中位数是数据集排序后,处在中间的数。众数是数据集中出现次数最多的数。

[第2课] 极差 中程数

主题:极差是数据集中最大数减去最小数的统计量。中程数是最大数和最小数的均值。

[第3课] 象形统计图

主题:象形统计图是用象形图像表示统计数据的图像,这一节讲象形统计图及例子。

[第4课] 条形图

主题:条形图又称柱形图,是一种重要的分类汇总工具,这一节讲条形图及例子。

[第5课] 线形图

主题:线形图,是将数据点描出来,然后连线形成的图像。用来表示趋势,这一节讲线形图及例子。

[第6课] 饼图

主题:饼图,看起来像一块切开的饼,用于表示占比。这一节讲饼图及例子。

[第7课] 误导人的线形图

主题:当线形图画成什么样子时会产生误导了,这一讲将讲到这一问题。

[第8课] 茎叶图

主题:茎叶图是将数组中的数按位数进行比较,分别做出茎和叶,以此统计数据。这一讲讲茎叶图及例子。

[第9课] 箱线图

主题:盒须图是用四个四分位点分开数据集的图,能有效给出数据散布状况。这一讲讲盒须图及例子。

[第10课] 箱线图2

主题:这一讲讲盒须图的另外一个例子,强化盒须图这一重要统计图表的概念。

[第11课] 统计:集中趋势

主题:集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

[第12课] 统计:样本和总体

主题:研究中实际观测或调查的一部分个体称为样本,研究对象的全部称为总体。这一讲区分了这两个概念,并给出了样本均值和总体均值的求法。

[第13课] 统计:总体方差

主题:方差用来表述数据和均值之间的偏离程度,总体方差的计算公式是σ2=Σ(Xi-μ)2/N,其中求和的i从1到N。

[第14课] 统计:样本方差

主题:方差用来表述数据和均值之间的偏离程度,样本方差不同于总体方差,计算公式为S2=Σ(Xi-X̄)2/(n-1),其中求和的i从1到n,这里方差用的是n-1而不是n。

[第15课] 统计:标准差

主题:标准差σ是表述数据和均值之间的偏离程度的另一个重要标志。它等于方差的平方根。

[第16课] 统计:诸方差公式

主题:方差的公式除了σ2=Σ(Xi-μ)2/N以外,还有σ2=Σ(Xi)2/N-μ2,这一节讲授这些公式之间的推导。

[第17课] 随机变量介绍

主题:随机变量是表示随机现象各种结果的变量。萨尔曼认为随机变量并不是传统意义上的变量,而是一种由随机过程映射到数值的函数。

[第18课] 概率密度函数

主题:这一节讲到连续随机变量,以及概率密度函数的概念。求概率也就是对概率密度函数进行积分。

[第19课] 二项分布1

主题:二项分布即重复n次的伯努利试验,在每次试验中只有两种可能的结果。这一节讨论五次抛硬币中,表示正面出现次数的随机变量X,当X=n时的概率。

[第20课] 二项分布2

主题:这一节接着前一节讲二项分布,首先作出其概率分布图。然后说明,二项分布的极限情况是正态分布。

[第21课] 二项分布3

主题:这一节接着前一节讲二项分布,以投篮为例,讲了投中和不中概率不相等时的二项分布情况。

[第22课] 二项分布4

主题:这一节接着前一节讲二项分布,继续以投篮为例,讲授如何运用Excel计算并绘图。

[第23课] 期望值E(X)

主题:这一节讲随机变量X的期望值,强调期望值的本质就是总体无穷时的总体均值。

[第24课] 二项分布的期望值

主题:二项分布的期望值E(X)=np,其中n为随机试验次数,p为某一次的成功概率。这一节证明了这个公式。

[第25课] 泊松过程1

主题:泊松过程是一种累计随机事件发生次数的最基本的独立增量过程。这一节关键在于论证,它其实就是二项分布的极限情况。

[第26课] 泊松过程2

主题:泊松过程是一种累计随机事件发生次数的最基本的独立增量过程。这一节最终通过求极限,推导出了泊松过程的公式。并进行了应用举例。

[第27课] 大数定律

主题:大数定律的概念其实很简单,也就是样本数量足够多的时候,样本均值趋近于总体均值,或者说随机变量的期望值。

[第28课] 正态分布Excel练习

主题:正态分布又称为高斯分布,其概率密度函数是著名的钟形曲线,它是概率论中最重要的一种分布,也是自然界最常见的一种分布。这一节通过Excel,讲解了正态分布同二项分布之间的关系。

[第29课] 正态分布介绍

主题:正态分布是概率论中最重要的一种分布,也是自然界最常见的一种分布。这一节仔细讲解了正态分布的概率密度函数和累积分布函数,并给出了相应的直观理解和记忆方式。

[第30课] 正态分布问题:哪些是正态分布

主题:正态分布是概率论中最重要的一种分布,也是自然界最常见的一种分布。这一节给出了几个例子,讲解这些例子是否能用正态分布来描述。

[第31课] 正态分布问题:z分数

主题:z分数在正态分布中,也就是,某值x离均值有多少个标准差远,即(x-μ)/σ,其中μ为期望值,σ为标准差。

[第32课] 正态分布问题:经验法则

主题:这一节讲到正态分布概率的经验法则,即68-95-99.7法则。也就是说正态分布均值左右一个标准差内的概率是68%,两个标准差内概率为95%,三个标准差内概率为99.7%。

[第33课] 练习:标准正态分布和经验法则

主题:这一节通过标准正态分布(也就是期望值μ为0,标准差σ为1的正态分布),继续讲解68-95-99.7法则在正态分布中的应用。

[第34课] 经验法则和z分数进一步练习

主题:这样一节是对经验法则和z分数的进一步练习,z分数并不一定只适用于正态分布,任何分布中都可以计算z分数。

[第35课] 中心极限定理

主题:中心极限定理:设从均值为μ、方差为σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

[第36课] 样本均值的抽样分布

主题:样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。这一节通过一个模拟程序进行了图形化解释。

[第37课] 样本均值的抽样分布2

主题:样本均值的抽样分布是所有的样本均值形成的分布,根据中心极限定理,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。即随着样本容量n变大,抽样分布标准差越小,越收拢。

[第38课] 均值标准误差

主题:均值标准误差也就是样本均值抽样分布的标准差,它等于σ/根号n,其中σ是原总体分布的标准差,n为样本容量。这一节详细介绍了这个公式。

[第39课]抽样分布例题

[第40课] 置信区间

主题:置信区间是指由样本统计量所构造的总体参数的估计区间。这一节通过一个例题引出了置信区间这一概念。

[第41课] 伯努利分布均值和方差的例子

主题:伯努利分布是一个离散概率分布。伯努利试验失败,随机变量为0,成功则为1。这一节给出了一个例子,其成功机率为60%,然后计算了相应的统计量。

[第42课] 伯努利分布均值和方差公式

主题:努利分布是一个离散概率分布。伯努利试验失败,随机变量为0,成功则为1。其成功机率为p,失败机率为1-p,均值为p,方差为p(1-p)。这一节推导了这些公式。

[第43课] 误差范围1

主题:误差范围表达了统计结果中的随机波动的大小。这一节通过一个伯努利分布的例子来讲解这一问题,伯努利试验成功概率p的置信区间如果是33%到53%(43%±10%),那么误差范围也就是10%。

[第44课] 误差范围2

主题:误差范围表达了统计结果中的随机波动的大小。这一节通过一个伯努利分布的例子来讲解这一问题,伯努利试验成功概率p的置信区间如果是33%到53%(43%±10%),那么误差范围也就是10%。这一节继续上一节讲完这个问题。

[第45课] 置信区间例题

主题:置信区间,比如99%置信区间,也就是"相信"99%几率,某统计量所落在的区间。这里之所以用"置信"donfident,是因为一般总体标准差是由样本标准差估计,并不是准确值造成的。这一节通过一个例题,更明确地讲解了置信区间的概念。

[第46课] 小样本容量置信区间

主题:当样本容量很小时,样本均值抽样分布不应该采用正态分布,而应采用t分布。t分布用于对呈正态分布的总体的均值进行估计,在样本容量小时非常有用。

[第47课] 假设检验和p值

主题:假设检验是统计在人文科学、自然科学中应用最广泛的方法之一。通常设定两个假设:零假设和备择假设,然后通过拒绝零假设,来接受备择假设,从而完成检验。p值中p表示概率,指的是零假设若成立,得到测量样本情况的概率。这一节通过例题讲解了假设检验和p值。

[第48课] 单侧检验和双侧检验

主题:这一节继续上一节的内容,讲解假设检验的内容。单侧检验也就是只看抽样分布一侧的情况,这一节主要讲这种情况。这一节的例子中,备择假设同上一节中双侧检验的情况不一样。

[第49课] z统计量 vs t统计量

主题:当样本容量很小时,样本均值抽样分布不应该采用正态分布,而应采用t分布。z统计量服从正态分布,而t统计量服从t分布,这一节给出了样本容量30的界限,经验上告诉你如何在z统计量和t统计量之间进行取舍。

[第50课] 第一型错误

主题:若零假设事实上成立,但统计检验的结果不支持零假设(拒绝零假设),这种错误称为第一型错误。若零假设事实上不成立,但统计检验的结果支持零假设(接受零假设),这种错误称为第二型错误。

[第51课] 小样本假设检验

主题:小样本值的假设检验使用t分布,而不使用正态分布。这一节以一个例子讲解了小样本情况假设检验的步骤。

[第52课] t统计量置信区间

主题:这一节接着上一讲的例子,讲解了小样本值时,使用t统计量如何确定总体均值的置信区间。

[第53课] 大样本占比假设检验

主题:这一节仍然是假设检验的例子。这次的总体是伯努利分布,伯努利分布的均值μ也就是占比p。这一节讲解了如何对此进行假设检验。

[第54课] 随机变量之差的方差

主题:相互独立的随机变量X、Y,令随机变量Z为两者之差,即Z=X-Y,那么Z的方差就等于X和Y的方差之和,即Var(Z)=Var(X)+Var(Y)。这一节重点讲解了这一性质。

[第55课] 样本均值之差的分布

主题:一个随机变量X和一个随机变量Y,分别抽取样本计算均值得到X̄和Ȳ,令Z=X̄-Ȳ,于是可以得到统计量Z的抽样分布,当样本量足够大时,根据中心极限定理,Z的抽样分布也近似是正态分布。

[第56课] 均值之差的置信区间

主题:这一节紧接着上一节,一个随机变量X和一个随机变量Y,其均值分别为μX和μY,那么μX-μY也可以求出一个置信区间。

[第57课] 均值之差置信区间的澄清

主题:由于上一节讲得比较含糊,这一节是对上一节末尾含糊出的澄清。

[第58课] 均值之差的假设检验

主题:对于某减肥新方法的实验组,分别求其样本均值和方差,另外对普通减肥方法的对照组求样本均值和方差,如何通过假设检验知道这种新方法是否有效呢?这一节讲解这一问题。

[第59课] 总体占比的比较1

主题:选举时,一部分男性中有p1人投给某候选人,其它人没投给此候选人,女性中有p2人投给此候选人,其它人没投给此候选人。那么如何使用抽样的方法得知男性和女性投给此候选人的占比p1和p2之间有没有差值呢?这就是这一节所处理的实际问题。这一节列出了式子。

[第60课] 总体占比的比较2

主题:选举时,一部分男性中有p1人投给某候选人,其它人没投给此候选人,女性中有p2人投给此候选人,其它人没投给此候选人。那么如何使用抽样的方法得知男性和女性投给此候选人的占比p1和p2之间有没有差值呢?这就是这一节所处理的实际问题。这一节紧接着上一节解出了置信区间。

[第61课] 总体占比比较的假设检验

主题:选举时,一部分男性中有p1人投给某候选人,其它人没投给此候选人,女性中有p2人投给此候选人,其它人没投给此候选人。那么如何使用抽样的方法得知男性和女性投给此候选人的占比p1和p2之间有没有差值呢?之前两节计算了置信区间,这一节将直接从假设检验角度审视这一问题。

[第62课] 线性回归中的平方误差

主题:线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。这一节介绍了平方误差的概念,并解释了直线拟合中最基本的原理。

[第63课] 线性回归公式的推导1

主题:线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。这一节开始推导线性回归的公式,最佳拟合曲线为y=mx+b,其中m=(x均值·y均值-xy均值)/[(x均值)2-x2均值],b=ȳ-mx̄。由于推导过程较长,所以分成了四个部分,这是第一部分,进行最初步的代数运算。

[第64课] 线性回归公式的推导2

主题:线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。这一节开始推导线性回归的公式,最佳拟合曲线为y=mx+b,其中m=(x均值·y均值-xy均值)/[(x均值)2-x2均值],b=ȳ-mx̄。由于推导过程较长,所以分成了四个部分,这是第二部分,进行第二步代数运算,并将式子同三维空间的二次曲面联系起来。

[第65课] 线性回归公式的推导3

主题:线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。这一节开始推导线性回归的公式,最佳拟合曲线为y=mx+b,其中m=(x均值·y均值-xy均值)/[(x均值)2-x2均值],b=ȳ-mx̄。由于推导过程较长,所以分成了四个部分,这是第三部分,利用微积分中的基本偏导知识进行推导,并列出方程。

[第66课] 线性回归公式的推导4

主题:线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。这一节开始推导线性回归的公式,最佳拟合曲线为y=mx+b,其中m=(x均值·y均值-xy均值)/[(x均值)2-x2均值],b=ȳ-mx̄。由于推导过程较长,所以分成了四个部分,这是第四部分,解出方程,并给出最后结果。

[第67课] 线性回归例题

主题:(1,2)、(2,1)、(4,3)三点如何进行线性回归,这一节利用公式求出了与这三点拟合最好的直线。

[第68课] 决定系数R2

主题:决定系数R2,是指y的总波动情况中,可以以直线关系说明的部分所占的比率。R2越大,表示直线拟合得越好。这一节详细讲解了这一概念,并推导出R2的计算公式。

[第69课] 线性回归例题2

主题:这一节计算了(-2,-3)、(-1,-1)、(1,2)、(4,3)四点的回归方程。是对线性回归计算的进一步强化。

[第70课] 计算R2

主题:这一节计算了(-2,-3)、(-1,-1)、(1,2)、(4,3)四点的回归方程的R2值,结果是0.88,表示曲线拟合程度很好。

[第71课] 协方差和回归线

主题:协方差的定义是Cov(X,Y)=E[(X-E[X])·(Y-E[Y])],这一节通过对该定义公式的推导,最后将协方差同线性回归良好地结合了起来。推导出,回归线的斜率m=Cov(X,Y)/Var(X)。

[第72课] χ2分布介绍

主题:χ2分布是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布常用于假设检验和置信区间的计算。若来自正态总体的k个随机变量、……、相互独立,且数学期望为0、方差为1(即服从标准正态分布),则随机变量X=∑Zi2,被称为服从自由度为k的χ2分布,记作X~χ2(k)。

[第73课] 皮尔逊χ2检验

主题:这一节以一个简单的餐厅一周每日顾客量预计和观测值的例子,使用χ2检验进行了假设检验。χ2检验由皮尔逊重新发现,运用很广泛。

[第74课] 列联表χ2检验

主题:列联表是以列表方式表示两个或多个变量或属性共同出现的频率。这一节使用一个列联表的例子,再一次练习了χ2检验。

[第75课] 方差分析1:计算总平方和

主题:方差分析(ANOVA),是用于两个及两个以上样本均数差别的显著性检验。这一节从计算总平方和SST,总平方和可以理解为计算方差时,不除以n的那部分。

[第76课] 方差分析2:组内和组间平方和

主题:方差分析中,由于各种因素的影响,研究所得的数据呈现波动状,这种波动可以分为组间波动和组内波动两种情况。这一节讲解了两者的差异和联系。

[第77课] 方差分析3:F统计量假设检验

主题:F检验,是指一种统计学意义上服从F-分布的零假设的检验。这一节继续前两节的内容,对特定例子进行了F检验。

[第78课] 相关性和因果性

主题:相关性是指两个或多个事物同时发生,具有关联,而因果性是指因为A所以B,两者具有明显的差异。这一节通过实际例子讲解这一问题。

[第79课] 演绎推理1

主题:演绎推理是从一些数据或事实出发,演绎得到其它正确的事实。这一节讲解了它和归纳推理的区别,并用一个问题解释了这种区别。

[第80课] 演绎推理2

主题:演绎推理是从一些数据或事实出发,演绎得到其它正确的事实。这一解通过一个解方程的例子,进一步解释了演绎推理的概念。

[第81课] 演绎推理3

主题:演绎推理是从一些数据或事实出发,演绎得到其它正确的事实。这一节通过一个分配率证明公式的例子,进一步解释了演绎推理的概念。

[第82课] 归纳推理1

主题:归纳推理是寻找规律或趋势,然后推广。这一节通过一个数组的例子,解释了归纳推理的概念。

[第83课] 归纳推理2

主题:归纳推理是寻找规律或趋势,然后推广。这一节通过另一个数组的例子,进一步解释了归纳推理的概念。

[第84课] 归纳推理3

主题:归纳推理是寻找规律或趋势,然后推广。这一节通过一个反例,进一步解释了归纳推理同演绎推理的区别。

[第85课] 归纳规律

主题:归纳推理是寻找规律或趋势,然后推广。这一节通过一个图形序列的例子,讲解了如何在归纳推理中寻找规律。

可汗学院公开课:统计学

学校: 可汗学院

讲师: Salman Khan

集数: 85

授课语言: 英文

类型: 可汗学院 数学

课程简介: 这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。
视频由可汗学院免费提供)