首页
网站首页
公司简介
资讯中心
推荐内容
返回顶部
视频描述的全文翻译,运用深度学习预测肺癌诊断
发布时间:2020-01-24 19:33
浏览次数:

推荐系统通常分为召回和排序两个步骤召回:粗排选取合适的内容,可以通过协同过滤,兴趣tag,内容最热等方式排序:使用一个点击率预估模型(输入用户特征,内容特征,用户内容交叉特征等)对召回出来的内容进行排序

原文:Forecasting Lung Cancer Diagnoses with Deep Learning

未经允许,不得转载,谢谢~

从本节开始,我们用python把前几节讲解的神经网络原理实现出来。在最开始时,我们直接调用Kera框架,快速的构建一个能识别数字图片的神经网络,从本节开始,我们自己用代码将整个神经网络重新实现一遍,只有我们能重新制造一个“轮胎”,我们才能说我们真正理解的“轮胎”的内在原理。

LR是一个简单的线性模型,其不具备学习高阶特征的能力而通过DNN+embedding可以较好的学习到更抽象的特征达到泛化的效果在CTR预估任务中结合LR和DNN实现记忆+泛化的效果

澳门葡京娱乐手机版,注:本文为The Data Science Bowl 2017竞赛的第二名获奖团队中Daniel Hammack的解决方案,其另一成员Julian de Wit的解决方案,可查看用CNN识别CT图像检测肺癌一文。

新澳门葡京官网,这篇论文是2015年发在CVPR上的,实现了对视频帧序列输入、文字序列输出的一个端到端视频描述模型。

我们代码开发也保持着由简单到复杂的原则,就像上楼梯,一步一步的走,直到最后走到“高处不胜寒”的楼顶。一开始,我们先把神经网络的基本架构给搭建出来。我们的代码要导出三个接口,分别完成以下功能:1,初始化initialisation,设置输入层,中间层,和输出层的节点数。2,训练train:根据训练数据不断的更新链路的权重值3,查询query,把新的数据输入给神经网络,网络计算后输出答案。由此我们先给出如下代码框架:

新澳门葡京官网 1

在2017年由Kaggle举办的数据科学竞赛中,本团队的解决方案获得了第二名。本次竞赛的目标为构建一个系统,其能根据患者的CT图像,预测患者在一年内患癌的可能性。本文作者的解决方案已在Github上公开。

这篇论文提出的利用LSTM解决视频与文字可变长度的解决思路,以及整个视频描述的S2VT网络结构设计都是比较经典的,我在很多最新几年发表的视频描述相关的论文中都看到了S2VT的影子,个人觉得这篇文章具有很好的学习价值。

class NeuralNetWork: def __init__: #初始化网络,设置输入层,中间层,和输出层节点数 pass def train: #根据输入的训练数据更新节点链路权重 pass def query: #根据输入数据计算并输出答案 pass

实际效果

肺癌是最常见的癌症之一,尤其在北美地区。其是男性最常见的癌症形式,其次为女性。全球每年有160万人死于肺癌,仅在美国每年就有225000肺癌新增病例。此外,肺癌也是低存活率的癌症之一,平均5年的存活率低于20%。然而,早期发现的平均概率至少是肺癌存活率的两倍。

arxiv原文链接:sequence to sequence:video to text

葡京赌场88807手机平台,我们先完成初始化函数,我们需要在这里设置输入层,中间层和输出层的节点数,这样就能决定网络的形状和大小。当然我们不能把这些设置都写死,而是根据输入参数来动态设置网络的形态。由此我们把初始化函数修正如下:

新澳门葡京官网 2

The Data Science Bowl 是Kaggle举办的年度机器学习竞赛。2017年的竞赛是该赛事的第三届比赛,该次比赛共有2000名选手,其奖金池也高达100万美元。该比赛的目标为构建一个自动化系统,其能预测患者在下一年的CT扫描诊断中是否会被诊断为肺癌。该比赛的数据集只提供了每位患者的一次CT扫描图像,并删除了患者的相关信息。

现实世界中的视频多种多样,一个好的视频描述方法应该对时序结构具有敏感性,且能够满足输入的视频帧和输出的文本是长度可变的。本文提出了一种用于生成视频描述的端到端模型,实现从视频帧序列到单词序列的转换。本文探索了递归神经网络,尤其是在图像注释生成领域有着最佳性能的长短时记忆网络LSTM。实验用LSTM对已经标注内容的视频进行训练,进而用来生成输入视频的事件描述。本文提出的模型能够学习视频帧序列以及单词序列中的时间结构。本文在标准的YouTube视频集以及两个电影描述语料库(M-VAD和MPII-MD)上进行了多个模型变种的性能比较。

class NeuralNetWork: def __init__(self, inputnodes, hiddennodes, outputnodes, learningrate): #初始化网络,设置输入层,中间层,和输出层节点数 self.inodes = inputnodes self.hnodes = hiddennodes self.onodes = outputnodes #设置学习率 self.lr = learningrate # pass def train: #根据输入的训练数据更新节点链路权重 pass def query: #根据输入数据计算并输出答案 pass

2way-FM就是在线性回归的基础上加一个特征交叉系数矩阵w,意在自动学习组合特征

解决方案完全使用Python高级程序设计语言,并使用了相关的开源科学计算库:

用自然语言文本来描述视觉内容已经成为了研究热点,特别是用一句话来描述图像[8,5,16,18,20,23,29,40]最近受到了越来越多研究人员的关注。而视频描述在人机交互、视频索引以及为盲人电影描述等方面有着重要的应用。图像描述需要解决输出文本序列的长度可变性问题,视频描述同样也需要解决输入视频帧长度的可变性问题。目前在视频描述领域提出的整体视频表示[29,28,11]、帧汇聚[39]、取固定数量的帧做降采样[43]等方法已经解决了可变长度输入的问题。本文提出了一个按序读入帧序列并按序输出文本序列的模型,用端到端的方式进行训练,此模型能够学习输入视频帧序列的任意时间结构。

如此我们就可以初始化一个3层网络,输入层,中间层和输出层都有3个节点,相应代码如下:

新澳门葡京官网 3

  • keras
  • theano
  • numpy
  • scipy
  • scikit-learn
  • pandas

在开放域视频中生成描述的难点不仅仅在于各种各样的对象、场景、行为和属性的多样性,还在于很难确定显著的内容并在上下文中恰当地描述事件。为了学习什么是值得描述的,我们的模型从配对的视频片段和对应的句子描述中进行学习,使用一种长短时记忆网络LSTM[12]。LSTM是一种循环神经网络,在语音识别[10]和机器翻译[34]等相似的序列到序列模型任务中取得了巨大的成功。另外,由于视频和语言的固有顺序属性,LSTM非常适用于生成视频中事件的描述。

input_nodes = 3hidden_nodes = 3output_nodes = 3learning_rate = 0.3n = NeuralNetWork(input_nodes, hidden_nodes, output_nodes, learning_rate)

实际上会对矩阵w做分解,变成向量的乘积,这样可以提高效率

本次竞赛的数据集为1600幅高分辨率的胸部CT扫描图像,其切片厚度均小于3mm。扫描图像的大小为新澳门葡京官网 4体素,但在世界坐标系的单位中,其大小约为新澳门葡京官网 5。感兴趣区域通常在新澳门葡京官网 6左右。在训练集中,每幅CT扫描图像对应一个二值标签。

本文的主要贡献在于提出了S2VT这个新模型,它直接学习从帧序列到单词序列的映射关系。如图1所示,S2VT由两个LSTM网络叠加而成,第一个LSTM将通过卷积神经网络提取到的帧特征向量作为输入进行逐个编码。一旦读取完所有的帧,模型会逐个单词的生成一个句子。帧和单词表示的编码和解码工作由平行语料库学习得到。为了更好地表示视频中活动的时序特点,我们还计算了连续帧之间的光学流[2],流图像也是先通过CNN网络并作为输入提供给LSTM网络, 在论文[31,8]中已经展示流卷积网络有益于识别活动类型。

上面代码构造了一个三层,每层三个节点的神经网络对象,当然它的内核还有待我们继续实现。接下来我们要根据输入参数构建网络的节点,特别是节点间的链路权重。链路权重是整个网络的核心,也是网络训练时需要不断改进的参数,链路权重决定了网络最终输出结果的精确度。前面我们提到过,链路权重可以用矩阵组织起来,他们的计算也得通过矩阵运算来进行。

新澳门葡京官网 7

额外的数据集为LUNA16竞赛的数据集,其数据集来源于LIDC数据集,在该数据集的结节注释中包含如下特征:

新澳门葡京官网 8

我们要构造的有两个矩阵,一个是由输入层和中间层节点链路间构成的矩阵,我们用新澳门葡京官网 9这里写图片描述

实际上还有一种叫FFM的方法针对不同特征域有单的向量v

  • diameter
  • lobulation
  • spiculation
  • malignancy
  • calcification
  • sphericity

这是第一次将通用的序列到序列模型应用到视频描述中,这使得该模型能够处理可变长度的输入帧,学习并使用视频的时序结构,以及通过学习语言模型来生成既符合语法规范又能自然表达视频内容的句子。该模型同时包含对帧图像输入和光学流图像输入的处理,且不需要精准的注意力模型。我们在标准的YouTube语料库[3]、M-VAD[37]以及MPII电影描述数据集[28]这三个不同数据集上进行实验,都具有比其他相关方法更好的性能。我们基于Caffe[27]这个深度学习框架实现的代码可以在github上找到。

来表示,这个矩阵的大小为hidden_nodes * input_nodes。

友情链接: 网站地图
Copyright © 2015-2019 http://www.nflfreepicks.net. 新葡萄京娱乐场网址有限公司 版权所有