2025南软统计模型期末复习

本文为2024统计模型期末试卷回忆版，既作为课程复习笔记，也希望通过系统梳理，加深对算法思想与应用场景的认识。

简答题

K-means 聚类算法计算

给定如下样本点：
A(1,1)，B(2,1)，C(5,4)，D(6,5)
初始聚类中心为 μ₁(1,1)，μ₂(5,4)。

请完成 第一次 K-means 迭代：
① 样本分配
② 计算新的聚类中心
正态分布极大似然估计

给定样本 x1,x2,…,xn来自正态分布 N(μ,σ2)

① 写出似然函数hexo clean
② 写出对数似然函数
③ 对参数求偏导，给出 μ 和 σ2 的极大似然估计值
朴素贝叶斯分类计算

已知某分类问题中先验概率和条件概率如下：

P(C1)=0.6, P(C2)=0.4
P(x∣C1)=0.2, P(x∣C2)=0.5

使用全概率公式计算后验概率 P(C1∣x) 与 P(C2∣x) ，并给出分类结果。
Bigram 语言模型计算

语料为：
I love machine learning

① 写出该句子的 Bigram 表示
② 计算句子概率
词袋模型计算

给定语料库：
文档1：I love NLP
文档2：I love machine learning

① 构建词汇表
② 构造对应的词项–文档矩阵