持续更新中~
陈群教授个人主页:https://chenbenben.org/
已读论文
https://chenbenben.org/paper/www2019hou.pdf
https://chenbenben.org/paper/tkde2020hou.pdf
在读论文
https://chenbenben.org/paper/attentionGML.pdf
https://chenbenben.org/paper/elsarticle-template.pdf
论文列表
渐进机器学习:
实体统一:
情感分析:
AL风险分析:
- …
框架笔记:
渐进学习
概念
以一种逐步学习的思想,由易到难不断迭代的一种利用数据的方法。
两大特性:
- 易实例与难实例可能存在分布偏差(即可不满足数据独立同分布的基本假设)
- 通过小阶段迭代去渐进学习和训练(可在无监督条件下自动执行)
基本任务
定义1:实体统一:给定一个由记录对组成的数据集$D = {d_1, d_2, …, d_n}$,entity resolution的任务就是针对数据集D给出一种标注方案S使得$f_1(D, S)$最大。
其中,使用$f_1(D, S)$这种F1分数的方式衡量方案质量:
precision:精确度(判断为真的多少实际为真);
recall:召回率(实际为真的多少判断为真)
F1分数为两者的综合考虑(调和平均)
基本过程
简单实例标记(Easy Instance Labeling)
- 这里简单实例指的是分类任务中相似度高的(更高可能性认为是一类)或相似度低的(更高可能性认为不是一类),而相似度中等的通常是难实例。(基于精度单调性假设)
- 简单实例可通过(1)用户指定规则;(2)现有无监督学习方法来搞定
特征提取和模型修正(Feature Extraction and Influence Modeling)
- 特征成为联系起简单实例和困难实例的媒介
- 尽可能多的抓取各种各样的特征信息
- 针对每个抓取的特征,需要修正相关实例的标签??
三种类型的特征:
- 属性值相似度(Attribute value similarity)
- 连续令牌的最大数量(Similarity based on the maximal number of common con-secutive tokens in string attributes)
- 两个记录中均出现或只出现在其中一个记录的令牌信息(The tokens occurring in both records or in one and only one record)
特征影响力计算公式(使用sigmoid调制):
其中,f代表一个特征,d代表一组实例,$\alpha_f$表示函数对称中点,$\tau_f$衡量曲线陡率,$x_f(d)$表示d这组实例的f型特征值。
渐进推理(Gradual Inference)
- 逐渐标注难度更高的样例
- 实现角度/评估依据:evidential certainty
- 在每一次迭代循环中,选择最高evidential certainty的标签进行标注
- 在所有实例都被标注后停止
- 新被标记的实例会作为依据加入下一次迭代之中
计算过程:
针对未标记实例,计算其各选出特征值$x_f(d)$,后根据如上公式计算确信度(evidential certainty)$P_f(d)$,其中$\tau_f$和$\alpha_f$是各特征的超参数,也是迭代训练的目标变量。根据计算得到的$P_f(d)$,通过以下公式计算得到分配的权重:
其中,$\theta_f(d)$表示对该实例d的该特征f的置信度(confidence)。
得到特征值和权重后,可以计算出总体上的确信度(evidential probablity):
根据已标记公式与计算的P(d),可以通过梯度下降来更新$\alpha$和$\tau$
Λ表示已标记实例或易实例,$V_I$表示未标记实例或推理实例,由于已标记或未标记实例都相互独立,所以可以写到一起:
如果考虑到数据集中不匹配和匹配的数量差距较大的情况,我们可以添加超参数来调整模型的梯度下降公式:在样本集中动态记录不匹配的数量$n_-$和匹配的数量$n_+$,我们分别为不匹配实例和匹配实例设置权重为1和$\frac{n_-}{n_+}$(这里我认为可以理解为不匹配的信息量大于匹配信息量,所以给予更快的梯度下降程度)
其中,如果d是不匹配实例则$t_d = 1$, 如果是匹配实例则$t_d = \frac{n_-}{n_+}$。
熵的计算公式(参考帖子:https://blog.csdn.net/zhang911007xing/article/details/106767072)
其中,i代表事件i,$p_i$代表该事件发生的概率。熵很好的衡量了事件的不确定性(如果H(p)=1,则该不确定事件变为确定事件)
这里针对一个实例d的evidential certainty计算采用熵的逆(熵越大,不确定性越大,evidential certainty越小):
其中,$l$是一个标签种类集${L_1, L_2, …, L_l}$
针对ER任务场景,上述公式简化为二分类问题:
知识性备注
给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
已实现应用
实体统一(Entity Resolution)
情感分析(Sentiment Analysis)
作为一种通用范式,GML可以推广到各种分类任务中
开源项目:https://github.com/gml-explore/gml
实体统一介绍
问题定义:给定两个实体,判断是否是指向同一个实体
主要研究方向:
无监督:设计不同的距离函数去测量成对相似度
监督方法:
rules
probabilistic theory 概率论 / 可靠度理论
machine learning
经典的二分类问题
基于两实体相似度sim(str1, str2)的方法
- 例如:两字符串可量化为编辑距离(看至少需要多少次的处理才能将一个字符串变成另一个字符串 删除、替换、添加)
基于规则的方法
设计规则将实体转变为原型(prototype)
在文本中应用、在图中应用
其他相关机器学习模型
- Traditional supervised machine learning
- Semi-supervised learning
- self-supervised learning
- Active learning
- Online learning
- incremental learning
- Curriculum learning
- self-paced learning
- self-paced deep clustering
- transfer learning
- lifelong learning
- multi-task learning
当代学者关于ER的研究趋势:众包 crowd-sourcing
实验验证方法学习
- 实验说明(建立方式)
- 对比研究(与其他模型对比)指标:F1分数
- 敏感性评估 对m和k的调整 纵向对比准确率
- 可扩展性分析 通过调整输入数据集大小判断运行速度
优化方式
scalable
优化方式:提高效率,做出决策
- measurement of evidential support
- approximate estimation of inference probability
- construction of inference subgraph
ps:这段实在是悟性不够
attention
注意力增强 attention enhancement
AGML
AI风险分析
通过网络数据分析是否异常流量(NID)Network Intrusion Detection
步骤:
- 风险特征生成
- 风险模型构建
- 风险模型训练
机密性(Confidentiality)衡量信息的隐蔽性,完整性(Integrity)衡量信息的可信度,可用性(Availability)衡量使用所需信息的能力。
- 基于LearnRisk框架
- 提取可解释的风险特征(风险特征生成)
- 通过学习排序目标训练风险模型(风险模型构建)
- 学习到的风险模型应用到根据错误预测风险对活动进行排序
- 我们提出了一种新的NID可解释风险分析方案。特别地,我们提出了一种风险特征生成技术,可以有效地融合各种入侵风险因素进行风险度量。
- 我们提出了一种新的NID自适应深度学习解决方案,该解决方案可以通过最小化错误预测风险,有效地将深度模型调整到目标工作负载。
- 通过对比研究,对所提出的解决方案在真实基准数据上的有效性进行了实证验证。我们的实验表明,所提出的风险分析方案可以识别出错误标记的活动。
情感分析
词频分析