0%

陈群教授论文笔记

持续更新中~

陈群教授个人主页:https://chenbenben.org/

已读论文

https://chenbenben.org/paper/www2019hou.pdf

https://chenbenben.org/paper/tkde2020hou.pdf

在读论文

https://chenbenben.org/paper/attentionGML.pdf

https://chenbenben.org/paper/elsarticle-template.pdf

论文列表

渐进机器学习:

框架笔记:

渐进学习

概念

以一种逐步学习的思想,由易到难不断迭代的一种利用数据的方法。

两大特性:

  • 易实例与难实例可能存在分布偏差(即可不满足数据独立同分布的基本假设)
  • 通过小阶段迭代去渐进学习和训练(可在无监督条件下自动执行)

基本任务

定义1:实体统一:给定一个由记录对组成的数据集$D = {d_1, d_2, …, d_n}$,entity resolution的任务就是针对数据集D给出一种标注方案S使得$f_1(D, S)$最大。

其中,使用$f_1(D, S)$这种F1分数的方式衡量方案质量:

precision:精确度(判断为真的多少实际为真);

recall:召回率(实际为真的多少判断为真)

F1分数为两者的综合考虑(调和平均)

基本过程

  • 简单实例标记(Easy Instance Labeling)

    • 这里简单实例指的是分类任务中相似度高的(更高可能性认为是一类)或相似度低的(更高可能性认为不是一类),而相似度中等的通常是难实例。(基于精度单调性假设
    • 简单实例可通过(1)用户指定规则;(2)现有无监督学习方法来搞定
  • 特征提取和模型修正(Feature Extraction and Influence Modeling)

    • 特征成为联系起简单实例和困难实例的媒介
    • 尽可能多的抓取各种各样的特征信息
    • 针对每个抓取的特征,需要修正相关实例的标签??

    三种类型的特征

    1. 属性值相似度(Attribute value similarity)
    2. 连续令牌的最大数量(Similarity based on the maximal number of common con-secutive tokens in string attributes)
    3. 两个记录中均出现或只出现在其中一个记录的令牌信息(The tokens occurring in both records or in one and only one record)

    特征影响力计算公式(使用sigmoid调制):

    其中,f代表一个特征,d代表一组实例,$\alpha_f$表示函数对称中点,$\tau_f$衡量曲线陡率,$x_f(d)$表示d这组实例的f型特征值。

  • 渐进推理(Gradual Inference)

    • 逐渐标注难度更高的样例
    • 实现角度/评估依据:evidential certainty
    • 在每一次迭代循环中,选择最高evidential certainty的标签进行标注
    • 在所有实例都被标注后停止
    • 新被标记的实例会作为依据加入下一次迭代之中

计算过程

针对未标记实例,计算其各选出特征值$x_f(d)$,后根据如上公式计算确信度(evidential certainty)$P_f(d)$,其中$\tau_f$和$\alpha_f$是各特征的超参数,也是迭代训练的目标变量。根据计算得到的$P_f(d)$,通过以下公式计算得到分配的权重:

其中,$\theta_f(d)$表示对该实例d的该特征f的置信度(confidence)。

得到特征值和权重后,可以计算出总体上的确信度(evidential probablity):

根据已标记公式与计算的P(d),可以通过梯度下降来更新$\alpha$和$\tau$

Λ表示已标记实例或易实例,$V_I$表示未标记实例或推理实例,由于已标记或未标记实例都相互独立,所以可以写到一起:

如果考虑到数据集中不匹配和匹配的数量差距较大的情况,我们可以添加超参数来调整模型的梯度下降公式:在样本集中动态记录不匹配的数量$n_-$和匹配的数量$n_+$,我们分别为不匹配实例和匹配实例设置权重为1和$\frac{n_-}{n_+}$(这里我认为可以理解为不匹配的信息量大于匹配信息量,所以给予更快的梯度下降程度)

其中,如果d是不匹配实例则$t_d = 1$, 如果是匹配实例则$t_d = \frac{n_-}{n_+}$。

熵的计算公式(参考帖子:https://blog.csdn.net/zhang911007xing/article/details/106767072)

其中,i代表事件i,$p_i$代表该事件发生的概率。熵很好的衡量了事件的不确定性(如果H(p)=1,则该不确定事件变为确定事件)

这里针对一个实例d的evidential certainty计算采用熵的逆(熵越大,不确定性越大,evidential certainty越小):

其中,$l$是一个标签种类集${L_1, L_2, …, L_l}$

针对ER任务场景,上述公式简化为二分类问题:

知识性备注

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

已实现应用

  • 实体统一(Entity Resolution)

  • 情感分析(Sentiment Analysis)

作为一种通用范式,GML可以推广到各种分类任务中

开源项目:https://github.com/gml-explore/gml

实体统一介绍

问题定义:给定两个实体,判断是否是指向同一个实体

主要研究方向:

  • 无监督:设计不同的距离函数去测量成对相似度

  • 监督方法:

    • rules

    • probabilistic theory 概率论 / 可靠度理论

    • machine learning

经典的二分类问题

  • 基于两实体相似度sim(str1, str2)的方法

    • 例如:两字符串可量化为编辑距离(看至少需要多少次的处理才能将一个字符串变成另一个字符串 删除、替换、添加
  • 基于规则的方法

    设计规则将实体转变为原型(prototype)

  • 在文本中应用、在图中应用

其他相关机器学习模型

  • Traditional supervised machine learning
  • Semi-supervised learning
  • self-supervised learning
  • Active learning
  • Online learning
  • incremental learning
  • Curriculum learning
  • self-paced learning
  • self-paced deep clustering
  • transfer learning
  • lifelong learning
  • multi-task learning

当代学者关于ER的研究趋势:众包 crowd-sourcing

实验验证方法学习

  • 实验说明(建立方式)
  • 对比研究(与其他模型对比)指标:F1分数
  • 敏感性评估 对m和k的调整 纵向对比准确率
  • 可扩展性分析 通过调整输入数据集大小判断运行速度

优化方式

scalable

优化方式:提高效率,做出决策

  • measurement of evidential support
  • approximate estimation of inference probability
  • construction of inference subgraph

ps:这段实在是悟性不够

attention

注意力增强 attention enhancement

AGML

AI风险分析

通过网络数据分析是否异常流量(NID)Network Intrusion Detection

步骤:

  • 风险特征生成
  • 风险模型构建
  • 风险模型训练

机密性(Confidentiality)衡量信息的隐蔽性,完整性(Integrity)衡量信息的可信度,可用性(Availability)衡量使用所需信息的能力。

  • 基于LearnRisk框架
  • 提取可解释的风险特征(风险特征生成)
  • 通过学习排序目标训练风险模型(风险模型构建)
  • 学习到的风险模型应用到根据错误预测风险对活动进行排序
  1. 我们提出了一种新的NID可解释风险分析方案。特别地,我们提出了一种风险特征生成技术,可以有效地融合各种入侵风险因素进行风险度量。
  2. 我们提出了一种新的NID自适应深度学习解决方案,该解决方案可以通过最小化错误预测风险,有效地将深度模型调整到目标工作负载。
  3. 通过对比研究,对所提出的解决方案在真实基准数据上的有效性进行了实证验证。我们的实验表明,所提出的风险分析方案可以识别出错误标记的活动。

情感分析

词频分析