22

微软强化学习开源节项目开始接受申请,1万美元助学金,3月6日截止

 4 years ago
source link: https://www.leiphone.com/news/202002/8LPu24GbTz0F4zmO.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

雷锋网AI开发者讯,微软研究院的全球项目:强化学习开放源代码节(RL Open Source Fest),目前已经开始面向全球接受申请。

强化学习(RL,Reinforcement Learning )开放源代码节是一项全球性在线计划,旨在让学生与数据科学家和微软研究院“真实世界强化学习”小组的工程师一起,进行开源强化学习程序和软件开发。2020年5月至2020年8月,学生们将进行为期四个月的研究编程项目。被录取的学生将获得10,000美元的助学金。

学生来自世界各地,共同解决开放源代码强化学习问题,在课程结束时,学生将在线向微软研究院“真实世界强化学习”小组介绍各自的项目。三名学生及其项目将被选为“强化学习开放源代码节”的决赛入围者,并有机会在纽约市的微软研究院实验室亲自介绍他们的项目,由微软提供差旅和住宿。

申请期将于2020年3月6日截止。接下来的时间表是:3月23日,选定申请者;4月20日至30日,将进行学生和导师会议;5月18日,项目开始;8月10日至13日,项目介绍和评估;2020年8月17日,决赛入围者宣布。

学生将在四个月里使用 Vowpal Wabbit (以下简称VW)来开始研究编程项目。VW是由计算机科学家约翰·兰福德(John Langford)创建,并在许多贡献者的帮助下由微软研究院开发的开源机器学习库。它提供一种快速、灵活、在线和主动的机器学习解决方案,使人们能够解决复杂的交互式机器学习问题,并且主要关注上下文强盗算法和强化学习。它既是研究原型,又是将前沿算法推向生产的工具。

约翰·兰福德生于1975年,是2012年国际机器学习会议(ICML)的联合主席,2016年ICML 的主席,也是2019年至2021年ICML的主席。

要获得该计划的资格,学生必须就读于被认可的机构包括大学,硕士课程,博士学位课程或本科课程。在计划期间,学生主要的责任是提交代码,并通过代码审查,定期反馈已完成的工作。最终实现一个成功的面向数据科学的项目,包括可重现的实验,数据集,报告和可视化结果,以及测试和文档。

微软研究院也在申请网页( https://www.microsoft.com/en-us/research/academic-program/rl-open-source-fest/ )上列出了需要解决的“开源项目问题清单”,以下是简要列表说明。

强化学习开放源代码节项目问题清单:

1.VW对FlatBuff 和/或Protobuf的支持

包括对现代序列化框架的支持,比如FlatBuff或ProtoBuff。这将实现更容易的互操作、更好的稳定性和潜在的更高性能。

2.基于Jupyter笔记本的背景数据可视化

构建可视化以帮助理解上下文强盗策略和日志的行为。

3.并行解析

现代机器经常利用多线程来实现性能。VW目前使用单个解析线程和单个学习线程,解析通常是瓶颈。扩展解析器以支持多线程将允许我们更好地利用资源。

4.VW服务器模式改造

VW目前有守护程序模式,允许客户发送示例、训练、建模以及接收预测。目前使用的是原始套接字和二进制协议。我们想提供一个现代版本的VW服务器模式,利用现代的RPC技术。

5.改善VW的Python体验

VW的Python集成可以在几个方面进行改进,使用户更容易使用。

6.用于强化学习的端到端循环

强化学习库有扩展点,允许交换框架,但是目前没有简单的方法让它在本地端对端工作。使RLClientLib支持本地预测、日志记录将成为一个很好的原型工具。

7.张量观察和张量板集成

张量板集成(TensorBoard)和张量观察(TensorWatch)是调试和监控训练的绝佳工具,使它们成为与VW和RLClientLib集成的绝佳选择。

8.VW的ONNX算子集和模型格式

VW有自己的运行时,从自己的模型文件运行推理。然而,ONNX是定义模型和支持推理的新兴标准,该项目使VW模型能够与ONNX运行时互操作。

9.支持在Python中实现VW的减少

VW的所有缩减都是在C++中实现的。然而,为了允许快速原型开发和利用Python生态系统,使用Python来做这件事是有意义的。

10.支持RLClientLib扩展点的Python实现

RLCLientLib支持几个可扩展性点,但这些只在C++公开。在Python中使用RLCLientLib时,能够支持这些是很重要的。

11.上下文强盗算法的基准

有许多不同的上下文强盗算法。为了比较,一个标准的基准将是有用的。

12.上下文强盗算法评估库

一种常见的评估库是IPS,其他的是DR和伪逆(PseudoInverse)。这些评估库在不同的环境下工作得更好或更差。这个项目探索每一个的参考实现,并允许它们之间比较,以帮助理解。

13.用Python进行可编写脚本的特征工程

VW通过命令行支持示例操作。它提供了很大的灵活性,但是除了固定的选项集,很难表达任何东西。其想法是使示例操作能够在Python中作为解析管道中的一系列钩子来编写脚本。

雷锋网雷锋网雷锋网 (公众号:雷锋网)

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

AfMRVbE.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK