马斯克xAI首项研究成果发布!创始成员杨格&姚班校友共同一作马斯克的xAI,首项公开研究成果来了!共同一作之一,正是xAI创始成员、丘成桐弟子杨格(Greg Yang)...

贴文 1个月前
1.8K 0

马斯克xAI首项研究成果发布!创始成员杨格&姚班校友共同一作

马斯克的xAI,首项公开研究成果来了!

共同一作之一,正是xAI创始成员、丘成桐弟子杨格(Greg Yang)。

此前,杨格就曾公开表示,自己在xAI的研究方向是“Math for AI”和“AI for Math”。

其中一项重点就是延续他此前的研究:

描述神经网络架构的统一编程语言Tensor Programs——相关成果,在GPT-4中已有应用。

这次的新论文,就归属该系列,重点探讨了“如何训练无限深度网络”。

为此,杨格本人还专门在上进行了一场直播分享。

一起来看看有哪些精彩内容值得mark~

训练无限深度神经网络
简单来说,这篇文章研究的是残差网络(ResNet)在深度方向的扩展。

我们知道,残差网络解决了深度增加时,深度卷积神经网络性能退化的问题。但当网络继续加深,训练一个好的深度残差网络仍非易事:

当网络加深时,特征的规模会不断增大,导致网络不稳定;加深网络后,需要重新调整超参数,工作量不小……

杨格和他的小伙伴们的想法是,找到一种深度参数化方法,既可以学习特征,又可以实现超参数迁移。

他们首先想到了无限宽神经网络存在的两种极限情况:要么是核机(kernel machines),要么是特征学习器(feature learners)。对于后者而言,最佳超参数是不会随宽度变化而变化的。

在这里,他们使用Tensor Programs框架分析了无限宽网络的极限情况。

正如前文提到的,Tensor Programs是杨格的一项长期研究目标:用数学语言,建立能够描述和分析神经网络架构的底层编程语言 网页链接

暂无评论

暂无评论...