毕业设计

以本文记录自己毕业设计中的学习过程。

NRLMF与GRNMF

首先是老师让我看的两篇论文

以下是自己的一点笔记:

两篇论文共同点:都利用了样本点的邻域信息,GRNMF为miRNA-disease,NRLMF为drug-target,而两篇论文都选取了前k个相似的样本而不是全部相似样本,目的是为了避免引入噪声。使用[0,1]区间连续取值的相似度而不是0/1的二值变量,相似度越大的两个样本它们各自的特征向量应该越相似。

GRNMF

模型所使用的数据集没有提供现成的相似度,因此论文的一个创新点在于计算miRNA和disease的相似度矩阵,其中disease使用的是根据现有的有向无环图结构类型的数据进行计算,而miRNA是通过引入gene作为中介来计算,使用的是基因网络数据HumanNet。

在得到目标式进行优化之前,GRNMF的另一个创新之处在于对输入的数据矩阵Y先利用刚刚得到的相似度来进行更新,想法同NRLMF一样,也是认为没有观测值的miRNA或disease会造成精度的损失。这里同样是根据相似性去取一个k近邻,但与NRLMF不同之处在于不是更新特征向量,而是对输入矩阵逐行(miRNA)、逐列(disease)进行更新分别得到矩阵$Y_m$和$Y_d$。

对不存在观测值即$Y_{ij}$=0的数据用$\frac{Y_m + Y_d}{2}$来进行更新。接下来就是构建目标式,同时引入邻域信息。

GRNMF中的邻域

GRNMF中利用了两种领域信息,第一种由ClusterOne算法产生,算法的结果有分成多少簇,哪些miRNA在同一簇内;第二种由k近邻产生,衡量是否近邻的相似度由论文提出的方法进行计算,miRNA和target分别用不同的方法计算。

NRLMF

论文的目标是建模计算某个药物会对某个目标产生作用的概率值,概率的计算使用的是矩阵分解后得到的特征向量,药品和目标分别对应u和v

论文的一个创新之处在于,对于已经得到实验验证的样本,模型中会赋予更高的权重。对于样本出现的概率使用的是似然函数进行估计,同时对特征矩阵U和V假设高斯先验分布,均值为0,方差为$\sigma^2​$。可以证明这等同于引入L2正则。优化的目标式就等同于最大化取对数后的似然函数。

(6)式推导:

NRLMF中的邻域

目标式同GRNMF基本一致,同样是通过引入类似$a_{i\mu}$来引入邻域信息,不同在于NRLMF没有利用其他算法产生的簇作为额外的邻域信息,只是利用了数据集中提供的drug和target的相似度,构建k近邻来作为邻域信息。

然而NRLMF在另外一个地方又使用了邻域的信息,因为在drug-target的数据集中存在某个药物没有任何治疗目标的情况,也就是说某一行全为0,论文中认为这种情况下进行矩阵分解所得到的特征向量会有很大误差,因此通过药物和药物之间的相似度,来利用其它存在观测值的药物的特征向量取一个k近邻来代替,以提高精度。

证明高斯先验分布与L2正则的等价性

首先我们假设现在需要从一些样本点$(x_1,y_1)···(x_N,y_N)$中来估计参数 $\beta$,假设输出$y$与输入$x$之间线性相关,并且受噪声$\epsilon$影响:

这里的$\epsilon$服从均值为0,方差为$\sigma^2$的高斯分布,问题转换为如下的似然估计式子:

接下来我们引入高斯先验分布$N(\beta|0, \frac{1}{\lambda})$,这里的$\lambda​$是一个正数值,把这个先验分布与上面的似然估计相结合,我们得到:

对这个式子取对数,并且对常数进行化简,因为它们不影响优化的结果,我们得到:

根据最大似然的原则,我们需要最大化上面这个式子,这时就可以看出来为什么说高斯先验分布与L2正则等价了。

接下来是引入拉普拉斯约束来对特征向量进行优化,论文的另一个创新之处在于在约束中加入了邻域的信息,如上一节所讲。之后便是对目标函数进行优化得到迭代式以进行特征向量的更新。

问题

  • NRLMF(13)式的求导结果

可优化的地方

GRNMF

  • 利用邻域信息时,GRNMF只是用了一种聚类方法ClusterOne进行聚类,如果用多种聚类方法,多个结果中都被聚在同一类中认为可信度更高会不会更好?

NRLMF

  • 如果像GRNMF一样不仅利用相似度得到邻域信息,还用其它聚类算法的聚类结果作为邻域信息会不会更好?