Incorporating Rich Features into Deep Knowledge Tracing

摘要(Abstract)

  1. 通过学生当前练习表现对接下来做题情况进行预测的模式被多个模型采纳,其中包括 BKT、PFA 和最近流行起来的 DKT.DKT 在在该领域取得了优异的成绩,但是它忽略了很多在计算机学习环境下存在的特征.
  2. 本研究想在问题层面(problem-level)将更多特征和 DKT 进行整合,从而提高 DKT 的精度.
  3. 本研究在提供更高维输入的同时也为原始版本的 DKT 提供了相匹配的输入,为此我们在原始 DKT 中增加了自编码器(auto-encoder)层用于将输入转换为低维度数据,实验证明,我们对 DKT 模型的改进确实提升了模型的精度

简介(Introduction)

  1. 对学生学习过程进行追踪的模型常常将学生的知识掌握程度作为隐变量,当学生面对新的问题时,这些模型就基于回答正确率对参数进行更新,也就是说学生在前项中的表现可以对后项表现产生影响.
  2. BKT 和 PFA 都采用了这样的思想,BKT 使用贝叶斯网络对每个知识点学习四个参数,而 PFA 则使用逻辑回归对总体表现和每个知识点的表现进行评估.
  3. 深度学习在多个领域都表现出了优异的性能,我们认为要是加入更多的特征就能提高模型预测的准确性,另外我们还探索了其他的深度学习架构,看它们能否帮助将高维度输入降维成低维度

教育中的深度学习(DEEP LEARNING IN EDUCATION)

  1. 和 BKT 类似,DKT 在知识点层面(skill level)观测任务中包含了哪些知识点以及在问题层面(problem level)观测每个问题的正确率.DKT 模型的输入层是一个学生的“练习-表现组”(exercise-performance pair).换句话说,在给出知识点的情况下,每个项目的知识点和正确率被用来预测下个项目的正确率.
  2. 我们认为 DKT 的结构还有优化的空间,比如输入只是考虑了知识点和正确率,但其实对于模型来说能认出更多特征,所以我们这个研究就是为 DKT 增加更多特征,并且还利用自编码器完成数据从高维向低维的转换

利用更多特征改进 DKT(IMPROVING DKT WITH MORE FEATURES)

  1. ITS 系统收集了大量有关学生学习的数据,其中包括信息对问题的匹配程度、教学方式以及学生在每个题目上所花费的时间等信息.比如学生的反应时间、要求提示和题目尝试的次数等都有助于建立更合理的学生模型.在我们的研究中采纳了学生反应时间(students response time)、尝试次数(attempt number)以及第一反应(first action)作为新加入的参数,因为这些参数在绝大部分学习平台中都有记录,所有的输入数据都会被转换成固定长度的输入向量.

特征过程(Feature process)

  1. 特征工程在对特征进行有效表征过程中会起到关键作用,它的目的是在对数据进行简化的同时不丢失太多信息.在此我们对本研究中用到的特征进行简要介绍:
  • 练习标签(Exercise tag)这个参数在不同的数据集中要么用数字表示,要么用知识点名称表示
  • 正确率(Correctness)这个参数要么是 1 代表正确,要么是 0 代表错误
  • 初次反应时间(First Response Time)这个参数是将知识点和该知识点相关的正确率进行 z-score 标准化之后的值(z 分数(z-score),也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。)
    QOPZjK.png
  • 尝试次数(Attempt count)这个参数代表了每个项目回答正确所尝试的次数,它在 ASSISTments 数据集中被离散化的表示为[0,1,其他],在 Open Learning Initiative 数据集中表示为[==1,1<and<=5,>5,其他]
  • 第一反应(first action)这个参数代表了学生面对题目时第一反应是尝试解题还是寻求系统帮助
  1. 在将原始数据转化为结构化数据后,特征都被独热编码表示为了一个稀疏矩阵
    QOiXLT.png
  2. 这些数据被整合起来后导致维度急剧增加,所以我们使用自编码器进行降维.

模型(Model)

  1. 这个模型的输入是将独立的特征经过独热编码连接后形成的,vt代表了每个学生练习的结果输入向量,et代表了当 ct正确时的练习标签,tt代表时间
    QOkPAg.png
  2. C()是一个交叉特征,O()采用了独热编码的格式,︵代表了连接.在方程 1 中,加上的 1 是表示没有被包含的练习.vt代表了通过方程 3 经过自编码器提取出的特征向量
    QOZBeP.png
  3. 上面的灰色箭头代表了两层之间的权重为常量,这意味着编码器权重是提前分别进行训练的.当 yt代表输出层时,ht代表了 LSTM 隐结点.我们使用了二元交叉熵作为损失函数,dropout 概率设为 0.4,同时采用了 200 个隐结点的 LSTM 层

数据集(DATASETS)

QOeahF.png

  1. 我们采用了 ASSISTments09-10 以及 Open Learning Initiative(OLI)作为数据集,因为它们记录了学习过程中的练习和结果
  2. 由于 ASSISTments09-10 数据集中存在的一些问题,我们采用了更新的版本
  3. OLI Statics F2011 是 OLI 数据集中有关大学工学的课程.练习标签来源于文本描述中数字化的知识点
  4. 由于这是时间序列算法,所以记录中少于两个时间步的数据就不在考虑范围内了

结果(RESULTS)

QOmdVP.png

  1. 我们使用了 5 折交叉检验,并且结果经过了 AUC 和皮尔森平方关联系数的检验.
  2. 自编码器在进行多特征融合过程中发挥了重要作用,否则维度会过多

讨论(DISCUSSION)

  1. 这个领域未来可以将教室水平(class-level)和学校水平(school-level)的特征加入模型当中,并且定义不同的行为;同时也可以考虑加入不同的降维方法,比如主成分分析(PCA)以及局部线性嵌入算法(LLE),还可以考虑使用不同的自编码器,比如加入噪声,或者为初始权重使用受限玻尔兹曼机(RBM)

Incorporating Rich Features into Deep Knowledge Tracing

论文链接:http://delivery.acm.org/10.1145/3060000/3053976/p169-zhang.pdf

这篇文章主要是对原 DKT 进行改进,加入了很多新的特征对 DKT 的预测精度进行提升,并且引入了自编码器的形式对增加特征后的输入数据进行降维,保证了数据的可靠性的同时提高了计算效率.