新冠肺炎治愈患者“康复后最想和家人在一起”

(抗击新冠肺炎)新冠肺炎治愈患者:“康复后最想和家人在一起”

中新网杭州2月17日电 题:新冠肺炎治愈患者:“康复后最想和家人在一起”

前来为出院患者送行的浙江省卫生健康委主任张平表示,近三天浙江报告新增病例都是个位数,应该说前一段的防控工作取得了比较明显的成果。“接下去我们的医疗救治任务还很重,尤其是危重病人救治是下一步的工作重点。”(完)

雷锋网原创文章,。详情见转载须知。

这一过滤可以让模型在下游任务上获得更好的表现,与此同时额外规模的数据集也让模型在预训练期间不过拟合的情况下,增加其大小。

五、扩展到其他任务,表现也同样可喜

文本到文本框架图。对于每个任务,作者都考虑使用文本作为模型的输入,并训练模型生成一些目标文本。这让他们能够在多个任务上使用相同的模型、损失函数和超参数,包括翻译(绿色框)、语言可接受性(红色框)、句子相似性(黄色框)和文档摘要(蓝色框)。它也为实证评估中所包含的方法提供了一个标准的试验台。

“是医务人员的精湛医术,加上我自己心态比较好,吃得好睡得好,让我恢复的比较快。”苏华用“无微不至”来形容照顾她的医生、护士。“医院还给我们做心理辅导,所以我在这里很愉快。”

作者 王逸飞 钱晨菲 应欣睿

迁移学习的一个重要部分,便是用于模型预训练的未标注的数据集。为了准确地评估扩大预训练规模的效果,我们需要一个不仅高质量、多样化而且规模庞大的数据集。

“最害怕的是从宁波转到杭州的时候,当时我是一个人上的救护车,氧气瓶什么都‘戴’上了。”苏华说,后来因为其情况比较严重,伴随着严重的呼吸衰竭、无法下地,还在重症监护室待了两三天。

她回忆,自己出现症状并被确诊后,于1月26日住进宁波当地医院,后来转院到杭州。从确诊到出院,她说自己有怕过,更坦然着。

T5非常灵活,可以非常容易的进行修改,除了作者论文中的一些任务,在其他任务中也能取得了巨大的成功。例如在下面两个新任务中,模型表现也不错。

按照出院流程,苏华回到宁波后还将在当地隔离一段时间。之后,她将重新回归正常生活。苏华坦言,“我康复后的最大愿望,就是和家人在一起。”

她拿出手机,给记者展示其在病房里与病友的合照。照片中,苏华与一位病友互相搂着肩膀,对着镜头比出了“V”型的胜利手势。“我和不少病友都结下了友谊,甚至有点难分难舍了,希望他们早日康复。”

在预训练期间,T5学习如何从C4文档中填充文本的丢失跨度。对模型进行了微调,在无需输入任何信息或者上下文的情况下,将其应用于已经封闭式问答。T5非常擅长这项任务,其110亿参数模型分别在TriviaQA、Web问题(WebQuestions)和自然问题(Natural Questions)对50.1%、37.4%和34.5%的答案进行了精确生成。为了客观看待此类问题,T5团队在酒吧琐事挑战(pub trivia challenge)与训练好的模型并肩作战,但不幸的是惨败而归。如下动图所示

T5使用的预训练目标与填空任务非常相似,在填空任务中,模型预测文本中缺少的单词,但是此目标是对“继续任务”(continuation task)的概括,因为填空任务中的空白有可能出现在文本的末尾。为了完成目标,创建了一个名为“填充空白”的新任务,并要求模型用指定数量的单词替换空白。例如给模型输入:我喜欢吃花生酱和—4—三明治。大概会训练模型用4个单词进行填空。用C4对模型进行了微调,效果良好,尤其是模型对缺失文本的预测非常棒!例如下列对于输入:“我喜欢花生酱和—N—三明治”,输出结果如下所示:

2020高考,还看新浪!宝剑锋从磨砺出,梅花香自苦寒来,新浪教育陪你一起打赢这场不平凡的高考战役!欢迎关注新浪教育,致敬所有不平凡的你~

苏华接受采访。钱晨菲 摄

作者使用T5 文本到文本框架和新的预训练数据集C4,评估了在过去几年间为NLP 迁移学习引入的大量思想和方法。

71岁的武汉人苏华(化名)终于走出了隔离病房。室外的明媚阳光对她而言,久违了。

直至今日,苏华也不确定自己是何时被感染的新冠病毒。“我是从武汉到宁波,去儿子家里过年,可能是在武汉机场的时候感染上的。”

为了满足这三点要求,作者开发了一个Colossal Clean Crawled Corpus数据集 (C4),该数据集是比维基百科大两个数量级的 Common Crawl  的清洁版本。他们的清洁处理过程涉及到删除重复数据、去除不完整的句子以及消除冒犯性或有噪音的内容。

事实上,作者使用这种方法在斯坦福问答数据集(SQuAD)中取得了最先进的结果。在作者的Colab demo和后续论文中,其训练了T5在一个更加困难的封闭的环境中回答琐碎的问题,而且不需要接触任何外部知识。换句话说,T在回答问题时只能用其在无监督预训练期间训练出的参数和知识。

1 招办在行动。自3月20日起,新浪高考频道特别策划《抗疫情|大学招办在行动》报道,聚焦疫情下的全国高校招生准备。截止到目前已有包括上海交通大学、南京大学、哈尔滨工业大学、四川大学在内的将近30所知名大学参与访谈。

17日,位于杭州的浙江大学医学院附属第一医院(下称浙大一院)之江院区里,院方为12位新冠肺炎治愈患者举行了简短的出院仪式,曾是危重症的苏华正是其中之一。

苏华的坦然不难被察觉。当在场媒体提出采访出院患者的希望时,她没有犹豫,第一个走上前来。

三、迁移学习方法的系统研究

2 对话双一流大学。4月起,新浪将会邀请国内顶尖“双一流高校”的招生负责人录制高招访谈,与以往直接邀请嘉宾做客新浪演播室不同的是,今年由于疫情影响,高招访谈形式将会更加多样化: 直播云访谈、电话访谈、图文访谈等等。在保证各位考生及家长安全的前提下,帮助考生及家长多渠道更深入全面地了解高校招生最新政策、优势学科及特色专业。

未标注数据集的实验中,他们展示了在域内数据集上训练模型是有益的,而在更小的数据集上对模型进行预训练则会导致不利的过拟合;训练策略的实验中,他们发现多任务学习可以与“先预训练再微调”的方法相媲美,但是要求更细致地选择模型在每个任务上训练的频率。

详尽的评估细节可前往论文查看,其中包括以下实验:模型架构的实验中,他们发现编码—解码模型通常比“仅解码”的语言模型,性能更优;预训练目标的实验中,他们证实了填空式的去噪目标(即训练模型来复原输入中缺失的词)的效果更好,并且其中最重要的因素是计算成本。

模型规模的实验中,他们对比了不同大小的模型、训练时间以及集成模型的数量,以确定如何才能最好地利用固定的计算能力。

在阅读理解问题中往往可以使用文本到文本的框架。给模型提供上下文信息以及一个问题,训练其在上下文信息中找到问题的答案,例如可以向模型提供维基百科文章中关于康尼飓风的文本,并提问“康妮飓风在哪天发生?”然后训练模型,让其找到文章中的日期。

当日出院患者合影。钱晨菲 摄

经历20多天的治疗后出院,当被问及最大的感想,老人没有多想,“现在轻松了不少,我觉得健康最重要。”

他说,近两周内从浙大一院之江院区治愈出院的患者达45人,从前期研究和感染病知识、免疫学知识来看,病人会有抗体、免疫力。“推动(已)恢复病人的血浆再用于现在住院病人治疗的工作,我们也准备马上开展。目前还不能说抗体是终身的还是短期的,至少近期不会再得。”

现有的预训练数据集无法满足上述三点要求,例如来自维基百科的文本是高质量的,并且格式统一,但是规模相对而言较小,而从Common Crawl 网站上爬取的文本虽然规模较大并且多样化程度高,但是质量相当低。

创建了T5模型后,作者将所有的 NLP 任务都重新构建为统一的文本到文本格式,输入和输出都始终是文本字符串,与只能输出类标签或者输入范围的 BERT 式的模型截然不同。该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)等等。T5 模型甚至可以被应用到回归任务上,具体方式是训练 T5 模型来预测一个数字的字符串表示,而不是这个数字本身。

当日包括苏华在内,12名治愈出院患者中包括危重型患者2例、重型患者8例、普通型患者2例。患者年龄最大71岁,最小29岁。浙大一院党委书记梁廷波介绍,“这批出院病人出院之前的核酸检测至少4次都是阴性,有的病人6次都是阴性。”

2、完形填空第二个任务是完形填空。像GPT-2这种大型语言模型在文本生产方面非常擅长。模型在经过训练之后,能够根据输入预测出下一个单词,如此将模型集成,便会产生非常创新性的应用程序,例如基于文本的游戏“AI地下城”。

为了探索NLP目前迁移学习的局限性,作者进行了最后一组实验,结合系统研究中的所有最佳方法,并利用Google Cloud TPU加速器进行了优化。其中最大规模的模型有110亿个参数,在GLUE、Superglue、Team和CNN/Daily Mail基准测试中都能够达到SOTA。另外,在SuperGLUE 自然语言理解的基准测试中获得了接近人类水平的分数。

一、共享的文本到文本框架

与此同时,他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus(C4)。作者在C4数据集上对T5 模型进行预训练,让模型在许多 NLP 基准上都实现了最佳结果,与此同时还拥有足够的灵活性,进行微调后可应用到多个重要的下游任务上。

《高校驾到》项目联系方式

此外,除了《高校驾到》系列策划,新浪教育今年隆重推出高考冲刺系列之《2020高考大师课》,不仅有高招政策、高考志愿填报等干货大放送,还邀请名师专家解读新高考、强基计划等最新热点,陪伴考生、家长紧张忙碌的最后冲刺时光。

二、大型预训练数据集(C4)

四、迁移方法+数据规模=性能最佳

3 高招咨询会。 6月-7月,新浪将联合各地合作伙伴,举办线上线下大型高招咨询会,给考生及家长提供与高校直接沟通的机会。共同助力考生、家长全方位了解心仪院校,满足考生、家长的不同需求。

谷歌研究者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中,提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并大规模应用这些迁移学习技术来创建一个新模型,作者将这个新模型称之为文本到文本的迁移Transformer (Text-To-Text Transfer Transformer,T5)。