Reddit年度盘点：2019年最佳机器学习项目

y2Mvi2I.png!web

为了帮助筛选 2019 年一些令人难以置信的项目、研究、演示等，下面我们将介绍 17 个在机器学习领域最受欢迎、被讨论最多的项目，这些项目由 r/MachineLearning subreddit 策划。我希望你能在这个列表中找到一些鼓舞人心的，有教育意义的项目。

小样本无监督图像的转换（913⬆）

来自摘要：从人类从少量实例中提取新对象的本质并从中归纳出结论的能力中获得灵感，我们寻求一些在测试时对指定的、第一次出现的目标类起作用的镜头、无监督的图像到图像转换算法。

Qj6ZJbY.png!web

网址： https://arxiv.org/abs/1905.01723

我们的模型通过将对抗性训练方案与新的网络设计相结合来实现这种小样本生成能力。通过对基准数据集上几种基线方法的大量实验验证和比较，验证了该框架的有效性。

zu6jue7.png!web

网址： https://github.com/NVlabs/FUNIT

生成定制动漫女孩（521:arrow_up:️）

作者提出了一种能够绘制动画人物的人工神经网络。

QVb2eyf.png!web

网址： https://waifulabs.com/

Waifu Vending Machine 允许你选择你喜欢的角色，并在此基础上，你可以生成你可能喜欢的动画。

MfEJvme.jpg!web

用于机器学习的最大数据集列表（499:arrow_up:️）

在这里，作者整理了一个机器学习数据集列表，可以用于机器学习实验。

2mQV3yi.png!web

网址： https://www.datasetlist.com/

这种资源肯定可以减少在线查找数据集所需的时间。数据集按不同的任务/领域进行分割，包括：CV、NLP、自动驾驶、QA、音频和医疗。也可以按许可证类型排序。

为 NLP 准备的 48 万个对腐烂西红柿的评论数据集（464:arrow_up:）

作者在网上搜寻腐烂西红柿的评论，这在自然语言处理任务中可能非常有用。

NJjqYvU.png!web

网址： https://github.com/nicolas-gervais/6-607-Algorithms-for-Big-Data-Analysis/blob/master/scraping%20all%20critic%20reviews%20from%20rotten%20tomatoes

数据集可以在 Google Drive 上找到：

raIfeqy.png!web

网址： https://drive.google.com/file/d/1N8WCMci_jpDHwCVgSED-B9yts-q9_Bb5/view

使用 ML 创建一个猫门，当猫嘴里有食物时门自动锁定（464:arrow_up:️）

这篇文章是关于一个使用机器学习创建猫门的项目。

VBBnuiV.png!web

视频地址： https://www.youtube.com/watch?v=1A-Nf3QIJjM

上面视频中的演讲者创造了一个猫门，如果猫嘴里有东西，它会自动锁上 15 分钟。这使汽车无法把死动物带进屋里。他把摄像头连接到猫门上，然后应用机器学习来检查猫嘴里是否有东西。

基于神经点的图形（415:arrow_up:）

作者提出了一种基于点的复杂场景建模方法，这种方法使用原始点云作为场景的几何表示。

然后，用一个可以学习的神经描述符来扩充每个点。神经描述符对局部几何和外观进行编码。新的场景视图是通过一个深度渲染网络从新的视点通过点云的光栅化来获得的。

Q3E3mqj.png!web

网址： https://arxiv.org/abs/1906.08240

训练速度和 Adam 一样快，效果和 SGD 一样好的优化程序（402:arrow_up:）

AdaBound 是一个优化器，它的目标是提高在新的数据上训练的速度和性能。它有一个现成的 PyTorch 实现。

Nnm6Nvq.png!web

网址： https://github.com/Luolc/AdaBound

AdaBound 在模型训练开始时表现得像 Adam，在训练结束时转变成 SGD。

B3yqyaA.png!web

网址： https://www.luolc.com/publications/adabound/

第一个在 6 人扑克游戏中击败职业玩家的人工智能（390:arrow_up:）

摘自 Facebook 研究院的文章：Pluribus 是第一个能够在 6 个玩家游戏中击败人类专家的人工智能机器人，6 人扑克游戏是世界上最广泛使用的扑克模式。这是人工智能机器人第一次在一个有 2 个或 2 个以上玩家的复杂游戏中击败人类顶尖玩家。

v2MNF3Z.jpg!web

Pluribus 之所以成功，是因为它能够非常有效地处理一个既有隐藏信息又有 2 个以上玩家的游戏挑战。它通过自己和自己游戏来教自己如何取胜，没有任何战略方面的学习例子或指导。

nmEnYjE.jpg!web

网址： https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

各种 ML 模型的 NumPy 实现（388:arrow_up:）

从项目页面来看：numpy-ml 是一个不断增长的机器学习模型、算法和工具的集合，下面这些都是专门用 numpy 和 Python 标准库编写的。

JzMZziN.png!web

网址： https://github.com/ddbourgin/numpy-ml

模型的代码如下：

NvMrQf6.png!web

网址： https://github.com/ddbourgin/numpy-ml/blob/master/numpy_ml/README.md

PyTorch 实现 17 种深度 RL 算法（388:arrow_up:）

作者策划了 17 种深度强化学习算法的 PyTorch 实现。

IFZRva2.png!web

网址： https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch

其中一些实现包括 DQN, DQN-HER, Double DQN, REINFORCE, DDPG, DDPG-HER, PPO, SAC, SAC Discrete, A3C, A2C 等。

人工智能生成 100 万张供下载的虚假人脸图片（373:arrow_up:）

作者用 NVIDIA 的 StyleGAN 生成了 100 万张人脸。

MZjeI3n.jpg!web

网址： https://archive.org/details/1mFakeFaces

如你所见，这些图像看起来和真实的人一模一样。

神经网络赛车（358:arrow_up:）

来自作者：教神经网络开车。这是一个简单的网络，有固定数量的隐藏节点（不整齐），没有偏差。然而，仅仅几个迭代之后，它就成功地将汽车开得又快又安全。

JzUnmyf.png!web

视频网址： https://www.youtube.com/watch?v=wL7tSgUpy8w

「人数是 650。网络是通过随机变异进化而来的，安全性评估目前是手动完成的，如视频中所述。」

将 ML 模型转换为本机代码的简单库（Python/C/Java）（345:arrow_up:）

来自 repo：「m2cgen（Model 2 代码生成器）是一个轻量级库，它提供了一种将经过训练的统计模型转换为本机代码（Python、C、Java、Go、JavaScript、Visual Basic、C）的简单方法。」

bqmAZ32.png!web

网址： https://github.com/BayesWitnesses/m2cgen/

目前支持的模型如下：

fqMR7zE.png!web

探索你的神经网络的丢失情况（339:arrow_up:）

来自作者：这篇文章讨论的是在神经网络的损耗面上发现不同的模式。通常，一个最小的 landscape 就像一个坑一样，周围有随机的丘陵和山脉，但是有更多的有意义的东西，如下面的图片。

aQJRJfv.jpg!web

网址： https://github.com/universome/loss-patterns

「我们发现，你可以找到（几乎）任何你喜欢的 landsacpe 的最小值。有趣的是，所发现的横向模式即使对于测试集也仍然有效，即它（很可能）是对于整个数据分布仍然有效的属性。」

jIzMRzE.png!web

v2uUBb3.png!web

网址： https://arxiv.org/abs/1910.03867

基于 GPT-2 的 Reddit 机器人（343:arrow_up:️）

作者建立了一个由 OpenAI 的 GPT-2 驱动的 Reddit 机器人。

RrAFfia.png!web

网址： https://github.com/openai/gpt-2

这个机器人可以通过回复任何带有「gpt-2 finish this」的评论来使用。

机器人的代码可以在下面的 repo 中找到。

IVBRVj7.jpg!web

可以将任何视频转换为 SloMo 视频的 CNN 网络（332:arrow_up:）

作者在 PyTorch 中实现了下面的论文中的内容。

Qn2iiqV.png!web

网址： https://people.cs.umass.edu/~hzjiang/projects/superslomo/

相关的代码可以在如下页面找到：

ieiuu2M.png!web

网址： https://github.com/avinashpaliwal/Super-SloMo

RfInqqM.jpg!web

NLP 的预训练模型库（306:arrow_up:）

这是一个为 NLP 预训练的 transformer 模型的开源库。它有六种架构，即：

Google 的 BERT
OpenAI 的 GPT 和 GPT-2
Google/CMU 的 Transformer XL&XLNet
Facebook 的 XLM

m2qu6zz.png!web

网址： https://github.com/huggingface/transformers

库中有 27 个用于这些架构的预训练模型权重。

via： https://heartbeat.fritz.ai/best-of-machine-learning-in-2019-reddit-edition-5fbb676a808

雷锋网雷锋网雷雷锋网 (公众号：雷锋网)

雷锋网版权文章，未经授权禁止转载。详情见转载须知。

b6Zvmyn.png!web

Recommend

GitHub 6600星，面向中国人：微软AI教育与学习共建社区2.0登场！

2020年的粉丝经济应该怎么做？

rabbitmq~消息失败后重试达到 TTL放到死信队列(事务型消息补偿机制)

慢速阅读最有利于你的深度学习（上）

Bot Submissions to Comment Website Can’t Be Distinguished from Human Submissions

苹果正研发卫星技术可直接向iPhone发送数据

1年卖20亿，当90后喝起江小白：VC来了，瞄上国货新白酒

论私募业绩提成20%的欺骗性

Verizon频谱布局；美法庭开审诉讼各州拼命阻止T-Mobile收购Sprint；Dish成为新晋4弟，...

各位 Intellij IDEA 2019.3 卡吗？

About Joyk