18

AI 一周资讯:华为开源哪吒、TinyBERT 模型,可直接下载使用;美国六大科技巨头十年来...

 4 years ago
source link: https://www.infoq.cn/article/crDjaG8pZE6KtLWxgo5A
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

资讯

华为起诉 FCC 违反美国宪法,并公开回应李洪元事件

12 月 5 日,华为在美国法院提交起诉书,请求法院认定美国联邦通信委员会(FCC)有关禁止华为参与联邦补贴资金项目的决定违反了美国宪法和《行政诉讼法》。

FCC 于 11 月 22 日通过一项决定,将华为认定为美国国家安全威胁,并禁止美国农村地区运营商使用通用服务基金(USF)购买华为设备。在向美国联邦第五巡回上诉法院提交的起诉书中,华为认为 FCC 直接认定华为构成国家安全威胁,没有给予华为就相关指控进行反驳的机会,违反了正当程序原则。华为同时认为 FCC 并未提供任何证据或合理的理由来支撑其武断随意的决定,违反了美国宪法、《行政程序法》等美国法律。

华为首席法务官宋柳平在发布会上表示,“仅仅因为华为是一家中国公司就禁止我们,不能解决任何网络安全问题。”他还补充道,FCC 主席 Ajit Pai 和其他委员未提供任何证据,来证明他们认为华为构成安全威胁的指控。

byeEnq3.jpg!web

在发布会后的问答环节,华为对最近的一些热点事件进行了回应。有记者问到了华为对于最近“李洪元事件”有什么解释,宋柳平表示:第一,感谢公众对这个事件的关注;第二,这并不是一个劳动纠纷事件(是对于涉嫌违法的行为向司法机关举报);第三,华为已经发布了对于该事件的声明,今天没有更进一步的补充意见。

12 月 2 日,华为公司对李洪元事件作出回应:华为有权利,也有义务,并基于事实对于涉嫌违法的行为向司法机关举报。我们尊重司法机关,包括公安、检察院和法院的决定。如果李洪元认为他的权益受到了损害,我们支持他运用法律武器维护自己的权益,包括起诉华为。这也体现了法律面前人人平等的法治精神。

四川大学、中国民航局和 Wisesoft 研究人员开发了空中交通管制语音数据库

近期,来自四川大学、中国民航局和初创公司 Wisesoft 的研究人员基于空中交通管制员和飞行员之间的对话,开发了一个大型语音识别数据集。该 数据集 在注册后可用于非商业用途,旨在帮助研究人员提高空中交通管制中语音识别的技术水平,并有助于进一步实现 自动化 ,提高空中交通基础设施的安全性。

为进行研究,研究人员创建了一个 40 人的团队来收集和标记实时 ATC 语音。他们创建了一个大规模的数据集,并会将其中一部分免费发布(注册后);这个数据集包含约 40 小时的中文演讲和 19 小时的英文演讲。作者写道:“这项工作项旨在为 ATC 应用创建一个真正的 ASR 语料库,其中包含带口音的中文和英文演讲。”

vaemIfF.jpg!web

数据集包含 698 个不同的汉字和 584 个英语单词。他们还根据说话者的性别、岗位(飞行员或控制员)、录音质量、讨论的飞机在哪个飞行阶段、语音来自哪个机场控制塔来对语音进行标记。

针对为什么要研究空中交通管制环境中的自动语音识别问题,项目作者阐明了三个主要原因:这项技术能很容易地对飞行员口头提出的问题进行自动、实时回复;通过 ASR 与文本 - 语音(TTS)系统的结合,机器人飞行员可以与人类空中交通管制员一同协作;ASR 可以快速分析 ATC 语音历史档案。

HuggingFace 将其免费软件库升级到 2.2 版本

NLP 初创公司 HuggingFace 将其免费软件库升级到 2.2 版本,新版本增加了四种新的 NLP 模型:ALBERT、CamemBERT、DistillRoberta 和 GPT-2-XL(15 亿参数版本)。更新内容包括:支持编码器 - 解码器架构,以及一个新的基准测试部分。

bM7VJbn.png!web

像 HuggingFace NLP 库这种数据库很大程度上加快了新研究 模型 融入现实世界生产系统中的速度。这种很快应用于实际生产中的方式有助于技术进一步成熟,也能推动这项技术的进一步应用,最终催化了技术的成熟。

华为诺亚方舟开源哪吒、TinyBERT 模型,可直接下载使用

华为诺亚方舟实验室开源了一批优秀预训练语言模型,性能更好、使用更方便。

12 月 3 日,华为诺亚方舟实验室的 NLP 团队开源了两个重要的预训练语言模型——哪吒和 TinyBERT。这两个模型可以直接下载、 预训练 和微调。华为语音语义首席科学家刘群在微博上转发了这一消息。

fu6Vbif.jpg!web

根据 GitHub 上的介绍,这一项目是诺亚方舟实验室用来开源各种预训练模型的项目,目前有两个,日后不排除有更多模型加入进来。该项目中第一个开源的模型是哪吒(NEZHA:NEural contextualiZed representation for CHinese lAnguage understanding),是华为诺亚方舟实验室自研的预训练语言模型,在一些 NLP 任务上取得了 SOTA 的表现。这一模型基于 BERT ,可以在普通的 GPU 集群上进行训练,同时融合了 英伟达 和谷歌代码的早期版本。哪吒模型已经可以下载,已有四种中文的预训练模型,分别是 base、large 和对应的 mask 和全词 mask 类型。

项目中第二个开源的模型是 TinyBERT,这是一个通过蒸馏方法获得的 BERT 模型。相比原版的 BERT-base,TinyBERT 比它小了 7.5 倍,推理速度则快了 9.4 倍。无论是在预训练阶段还是特定任务学习阶段,TinyBERT 的性能都更好。

专家讨论称目前 AI 技术对社会威胁最大的是 Deepfakes

一些专家对人工智能造成的威胁给出了自己的看法,毫无意外,虚假内容是当前最大的威胁。

这些专家 12 月 3 日在纽约《华尔街日报》网络安全高管论坛上发表了上述讲话。社交媒体分析公司 Graphika 首席创新官 Camille Francois 表示,Deepfake 是最大的威胁。我们已经见识到了人工“假新闻”和虚假信息活动的威力,因此,许多人把 Deepfake 当成人工智能对社会的主要威胁也不足为奇了。

FFZNbmF.jpg!web

Francois 强调,如今的假文章和假信息运动依靠大量的手工劳动来制造和传播虚假信息。Francois 说:“当你看到虚假信息宣传活动时,你会发现创建虚假网站和虚假博客所耗费的体力是巨大的。”

“但是如果这些虚假消息制造者能简单地将看起来可信的、吸人眼球的文本自动化扩展和传播,那么网络上就会布满各种垃圾,所以我非常担心。”

美联邦贸易委员会扩大对亚马逊反垄断审查范围,涉及云计算业务

12 月 5 日,据外媒报道,据知情人士透露,美国反垄断调查机构扩大了对亚马逊公司的审查范围。除了零售业务,还将其庞大的云计算业务囊括其中。上述知情人士表示,美国联邦贸易委员会(FTC)的调查人员最近一直在询问其他软件公司有关亚马逊云计算部门 AWS 的做法。这些知情人士拒绝透露身份,因为他们没有获得公开发言的授权。

FTC 此举表明,该机构除了在调查亚马逊在其庞大在线零售业务中的行为之外,也正在对该公司进行更广泛的调查,以确定它是否违反了反垄断法并损害了竞争。

Nzyyu2u.jpg!web

AWS 主导着基础云计算技术市场,这些技术提供运行应用程序所需的存储和计算能力。据分析师估计,AWS 的市场规模比第二大竞争对手 微软Azure 大几倍。市场研究机构Gartner的数据显示, AWS 的份额为 48%,微软份额仅为 16%。在最近 12 个月报告的业绩中,AWS 占亚马逊运营收入的 60%。

FTC 对亚马逊的调查是席卷整个科技行业的反垄断调查的一部分。美国联邦和各州监管机构正在调查 Alphabet 子公司谷歌和 Facebook,而众议院司法委员会正在审查这些公司以及亚马逊和苹果公司的行为。

DeepMind 发布 LOGAN,击败 BigGAN

近日,DeepMind 发表了一篇名为“LOGAN:生成对抗网络的最新优化”的新论文。论文摘要中显示:训练 生成式对抗网络 需要平衡精细的对抗动力。即使进行了仔细的调整,训练也可能因掉落的模式而发散或最终达到不良的平衡。

这只 GAN 初登场就击败了“史上最强”的 BigGAN,成为新的 state-of-the-art,还把 FID 和 IS 分别提高了 32% 和 17%。DeepMind 采用的方法,是引入了一种受 CSGAN 启发的潜在优化(latent optimisation)。

首先,让潜在变量 z,通过生成器和判别器进行前向传播。然后,用生成器损失(红色虚线箭头)的梯度来计算改进的 z’。在第二次前向传播中,使用优化后的 z’。其后,引入潜在优化计算判别器的梯度。最后,用这些梯度来更新模型。(如图下所示)

Fbe2uuv.png!web

中国 AI 专利申请量逐年上升,百度、腾讯、微软前三

日前,国家工业信息安全发展研究中心发布的 《人工智能中国专利技术分析报告》 显示,中国人工智能领域的专利申请量呈逐年上升趋势。中国人工智能专利申请量排名中,百度以 5712 件位列第一。

Znqm2ez.jpg!web

报告显示,截至 2019 年 10 月,中国人工智能专利申请量已经超越美国成为 AI 领域专利申请量最高的国家。百度、腾讯、微软、浪潮、华为专利申请数量名列前五,其中百度以明显优势领跑。而从人工智能产业技术的细分角度来看,百度在深度学习、 自然语言处理 、语音、 智能驾驶 等各细分领域,无论是专利申请量还是增速,都呈现出明显优势。

报告:美国六大科技巨头十年来在全球避税 1000 亿美元

谷歌、苹果、亚马逊、Facebook 等美国科技巨头在海外国家避税,这已经不算是新闻,为了打击避税,许多欧洲国家针对硅谷公司推出了数字服务税。据外媒最新消息,最新的一个研究报告显示,美国硅谷六家最大的科技公司在过去十年中,在全球范围内避税 1000 亿美元。最近,英国一家认证企业纳税行为(即是否有良好的纳税记录)的组织“公平税务标志”(Fair Tax Mark)评估了 2010 年至 2019 年间 Facebook、苹果、亚马逊、奈飞、谷歌和微软的全球纳税情况。

ENFJvaz.jpg!web

周一公布的这项研究报告分析了美国科技公司提交给政府的 10-K 监管报告文件。报告研究了科技公司的纳税拨备金——公司在财务报告中提前留出的纳税金额——并将这些金额与实际交给政府的税金进行了比较(这些金额被称为现金税)。研究人员发现,在过去的十年里,六大科技公司的纳税拨备金和他们实际支付的税金之间的差距达到了 1002 亿美元。该报告指出,过去对大公司纳税的审查往往只关注纳税拨备金,而这笔金额并不总是政府收到的最终纳税金额。

研究人员指出,科技公司还在继续把利润“转移到避税天堂,特别是百慕大、爱尔兰、卢森堡和荷兰”。研究人员还表示,大部分纳税缺口“几乎肯定是在美国以外出现的”,海外纳税额仅占这些公司在这十年间海外利润的 8.4%。

声音

AWS 首席布道师 Jeff Barr:量子计算机无法被拥有,云端量子计算服务最合理

AWSre:Invent第一天,AWS 首席布道师 Jeff Barr 在其官网的发文中写到:从 Amazon Braket 开始量子计算之旅。

Amazon Braket 是一项全托管服务,允许科学家、研究人员以及开发人员以集中方式试验来自多家量子硬件供应商的新型计算机。Braket 也就是“括号”,物理学家用它来表示量子力学状态,AWS 的服务也正是得名于此。除此之外,AWS 的在量子计算领域的布局还包括另外两项:AWS 量子计算中心和 Amazon 量子解决方案实验室。

R7NjEjj.jpg!web

Jeff Barr 还表示,AWS 的目标,是与大家一道探索量子计算的实际用途,并帮助人们建立起属于自己的合格量子开发人才培训储备。并且,AWS 的量子解决方案实验室还将提供更多研究及合作机会。

AI 开源工具

Netflix Metaflow

Metaflow 是 Netflix 机器学习基础架构的关键部件,主要用于加速数据科学工作流的构建和部署,Netflix 希望通过开源 Metaflow 简化机器学习项目从原型阶段到生产阶段的过程,进而提高数据科学家的工作效率。在过去两年中,Metaflow 已在 Netflix 内部用于构建和管理从自然语言处理到运营研究的数百个数据科学项目。

Metaflow 也可以与当前主流的 Python 数据科学库一起使用,包括PyTorch、Tensorflow和 SciKit Learn。

https://github.com/Netflix/metaflow


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK