像这样的官方要求之下未知期限的集体休假,确实是极为罕见的。这样的“封锁”或许让你崩溃,孤独感和经济压力可能正在袭来。但也不完全是坏事,尤其当你计划提高数据科学组合能力,并想要在危机后,得到一份可靠且与行业相关的简历的时候!

这可能是难得的时机,一个真正深入研究并从事于数据科学项目的机会。你有了大把的时间,并且社区中不乏也开源数据科技项目和想法。从计算机视觉和自然语言处理项目到python和工程数据的想法,每个人都有一个项目。

唯一的问题是——应该从哪儿开始?这个问题从来没有像现在这么有意义,这也是本文想要回答的问题。准备好了吗?Let’s go!

1. 冠状病毒时间序列数据

从哪儿开始?不如就从为什么你居然在一个工作日躺在床上说起吧。

新冠病毒正主宰着世界,所有的网站标题永远是新冠。幸亏全球有很多研究室和组织一直收集有关新冠肺炎的数据,并且对我们开放。所以为什么不使用数据科学知识来解决一些问题呢?

从新冠数据集到AutoML库集,值得学习的数据科学项目

图源:unsplash

这个GitHub库(https://github.com/datasets/covid-19)包含时间序列数据,该数据跟踪了全球受新冠肺炎影响的人数,包括:

  • 新冠肺炎确诊病例

  • 痊愈人数

  • 死于新冠肺炎的人数

这个项目的作者每天用 CSV格式更新数据集,你今天就可以下载下来然后开始分析。

你还可以看看另一个GitHub库,其中包含针对美国新冠病毒病例的数据集。

(https://github.com/nytimes/covid-19-data)

2. 谷歌的多区无线电导航系统

这是谷歌研发团队开发的另一个开源项目,谷歌研发团队是这样定义ELECTRA的:

“ELECTRA是一种用于自监督语言表征的学习方法。它可以用于使用较少的计算量来预训练transformer网络。训练ELECTRA模型区分‘真’令牌和由另一个神经网络系统生成的‘伪’令牌。”

ELECTRA令笔者印象深刻的是,即使在单个GPU上也可以实现精准操作。ELECTRA在大型数据集上达到了完全不同的水平,并在SQuAD 2.0基准测试中达到了最佳的性能。

你可以通过Google的研究论文进一步了解ELECTRA。谷歌团队目前已经发布了三个预训练模型。

(https://openreview.net/pdf?id=r1xMH1BtvB)

从新冠数据集到AutoML库集,值得学习的数据科学项目

在开始之前,需要把以下要求的功能安装在机器上。

  • Python 3

  • TensorFlow1.15

  • NumPy

  • scikit-learn and SciPy

3. NLP论文摘要

自然语言处理领域在过去三年里已经取得了突飞猛进般的进展。从2017年的Transformer架构开始,我们见证了许多突破和有开创性的NLP库,包括谷歌BERT模型,OpenAI的GPT-2等等。(https://github.com/dair-ai/nlp_paper_summaries)

从新冠数据集到AutoML库集,值得学习的数据科学项目

图源:tencent

这个GitHub库是为更广大的数据科学专业人员总结的NLP 关键论文集,以下是这个库中包含的一些主题列表:

  • 对话与互动系统

  • NLP模型的可解释性和分析

  • 语言以视觉,机器人等为基础

  • 问答

  • 资源和评估

  • 语义学

  • 文本情感分析,文本分析以及论证挖掘

  • 语言建模

  • NLP的机器学习

  • 机器翻译

  • 多任务学习

  • NLP应用

  • 言语与多模态

  • 道德规范与自然语言处理

  • 文本生成

  • 信息提取

  • 文本摘要

  • 语句法:添加标签、分块、解析

不只是这些,这里只列出来一部分。选择一篇NLP论文并开始解析,那里提供很多一站式知识服务。

4. GoogleBrain AutoML

AutoML是为了满足自动化典型机器学习某些任务的自动化,几年前为了节省时间而开始的一项附带项目,如今变成了一个成熟的研究领域。

市场中有很多AutoML工具,可以使整个ML管道自动化。对于没有专门的数据科学团队或负担不起从零开始的雇佣费用的团队而言,AutoML更受欢迎。几乎每个科技巨头都在市场上拥有AutoML解决方案,从谷歌的云自动机器学习到百度的EZDL(人工智能模型训练平台)。

从新冠数据集到AutoML库集,值得学习的数据科学项目

图源:towardsdatascience

GoogleBrain团队开发的数据科学项目包含了和AutoML相关的模型与库的列表。GitHub库从作者6天前开放源码就已经积累了1600颗星。(https://github.com/google/automl)

5. GAN压缩

2014年,Ian Goodfellow将对抗生成网络推向了数据科学领域。此后,这些GAN逐渐演变为有用的(通常是娱乐性的)应用程序,例如生成艺术品和制作电影。

但是训练GAN模型的一个重要问题是所需的强大计算能力。这就是GAN压缩的用武之地。GAN压缩是“压缩条件GAN的通用方法”。它减少了流行的基于GAN模型的计算,例如pix2pix,CycleGAN等。

从新冠数据集到AutoML库集,值得学习的数据科学项目

6. StyleGAN2——最新的GAN

这是一个最新的GAN架构。StyleGAN在计算机视觉社区中非常受欢迎,StyleGAN2使问题更趋现实。

“ StyleGAN2是生成逼真的图像的最先进架构。此外,它还经过了明确训练,可以在隐空间中解开方向,从而可以通过改变潜在因素来进行有效的图像处理。”

从新冠数据集到AutoML库集,值得学习的数据科学项目

居家隔离的日子可能暂时还无法结束,但比起上街游行抗议,沉下心来将时间投资于学习和未来,或许是一个更好的选择。