您当前的位置：首页 >> 最新 > >>

Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界

来源: 程序员客栈时间：2023-06-20 07:41:58

(资料图片)

新智元报道

编辑：桃子好困

【新智元导读】Transformer，6岁了！2017年，Attention is All You Need奠基之作问世，至今被引数近8万。这个王者架构还能继续打多久？

2017年6月12日，Attention is All You Need，一声炸雷，大名鼎鼎的Transformer横空出世。

它的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还成功跨界CV，给AI界带来了意外的惊喜。

到今天为止，Transformer诞生6周年。而这篇论文被引数高达77926。

英伟达科学家Jim Fan对这篇盖世之作做了深度总结：

1. Transformer并没有发明注意力，而是将其推向极致。

第一篇注意力论文是在3年前（2014年）发表的。

这篇论文来自Yoshua Bengio的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN+上下文向量」（即注意力）的组合。

或许很多人都没有听说过这篇论文，但它是NLP中最伟大的里程碑之一，已经被引用了29K次（相比之下，Transformer为77K）。

2. Transformer和最初的注意力论文，都没有谈到通用序列计算机。

相反，两者都为了解决一个狭隘而具体的问题：机器翻译。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻译。

3. Transformer发表在2017年的NeurIPS上，这是全球顶级的人工智能会议之一。然而，它甚至没有获得Oral演讲，更不用说获奖了。

那一年的NeurIPS上有3篇最佳论文。截止到今天，它们加起来有529次引用。

Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。

对此，Jim Fan认为，在一项出色的工作变得有影响力之前，很难让人们认可它。

我不会责怪NeurIPS委员会——获奖论文仍然是一流的，但影响力没有那么大。一个反例是ResNet。

何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧，得到了正确的认可。

2017年，该领域聪明的人中，很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样，很少有人能预见自2012年以来深度学习的海啸。

OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣，并表示，

介绍注意力的论文（由@DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看，这两篇论文都非常普通，但有趣的是恰好都是为机器翻译而开发的。

你只需要注意力！

Transformer诞生之前，AI圈的人在自然语言处理中大都采用基于RNN（循环神经网络）的编码器-解码器（Encoder-Decoder）结构来完成序列翻译。

然而，RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性，无法实现并行。

Transformer的现世可谓是如日中天，让许多研究人员开启了追星之旅。

2017年，8位谷歌研究人员发表了Attention is All You Need。可以说，这篇论文是NLP领域的颠覆者。

论文地址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。

甚至，有人发问「有了Transformer框架后是不是RNN完全可以废弃了？」

JimFan所称Transformer当初的设计是为了解决翻译问题，毋庸置疑。

谷歌当年发的博客，便阐述了Transformer是一种语言理解的新型神经网络架构。

文章地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

具体来讲，Transformer由四部分组成：输入、编码器、解码器，以及输出。

输入字符首先通过Embedding转为向量，并加入位置编码（Positional Encoding）来添加位置信息。

然后，通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征，最后输出结果。

如下图所示，谷歌给出了Transformer如何用在机器翻译中的例子。

机器翻译的神经网络通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019年，谷歌还专门为其申请了专利。

自此，在自然语言处理中，Transformer逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的GPT（Generative Pre-trained Transformer），都起源于这篇17年的论文。

然而，Transformer燃爆的不仅是NLP学术圈。

万能Transformer：从NLP跨到CV

2017年的谷歌博客中，研究人员曾对Transformer未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

没错，在NLP领域掀起巨浪后，Transformer又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼Transformer又攻下一城。

自2012年以来，CNN已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用Transformer来完成CV任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020年10月，谷歌提出的Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用Transformer对图像进行分类。

值得一提的是，ViT性能表现出色，在计算资源减少4倍的情况下，超过最先进的CNN。

紧接着，2021年，OpenAI连仍两颗炸弹，发布了基于Transformer打造的DALL-E，还有CLIP。

这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。

再到后来的DALL-E进化版DALL-E 2，还有Stable Diffusion，同样基于Transformer架构，再次颠覆了AI绘画。

以下，便是基于Transformer诞生的模型的整条时间线。

由此可见，Transformer是有多么地能打。

2021年，当时就连谷歌的研究人员David Ha表示，Transformers是新的LSTMs。

而他曾在Transformer诞生之前，还称LSTM就像神经网络中的AK47。无论我们如何努力用新的东西来取代它，它仍然会在50年后被使用。

Transformer仅用4年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6年过去了，曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了？

Jakob Uszkoreit被公认是Transformer架构的主要贡献者。

他在2021年中离开了Google，并共同创立了Inceptive Labs，致力于使用神经网络设计mRNA。

到目前为止，他们已经筹集了2000万美元，并且团队规模也超过了20人。

Ashish Vaswani在2021年底离开Google，创立了AdeptAILabs。

可以说，AdeptAILabs正处在高速发展的阶段。

目前，公司不仅已经筹集了4.15亿美元，而且也估值超过了10亿美元。

此外，团队规模也刚刚超过了40人。

然而，Ashish却在几个月前离开了Adept。

在Transformers论文中，Niki Parmar是唯一的女性作者。

她在2021年底离开Google，并和刚刚提到的Ashish Vaswani一起，创立了AdeptAILabs。

不过，Niki在几个月前也离开了Adept。

Noam Shazeer在Google工作了20年后，于2021年底离开了Google。

随后，他便立刻与自己的朋友Dan Abitbol一起，创立了Character AI。

虽然公司只有大约20名员工，但效率却相当之高。

目前，他们已经筹集了近2亿美元，并即将跻身独角兽的行列。

Aidan Gomez在2019年9月离开了Google Brain，创立了CohereAI。

经过3年的稳定发展后，公司依然正在扩大规模——Cohere的员工数量最近超过了180名。

与此同时，公司筹集到的资金也即将突破4亿美元大关。

Lukasz Kaiser是TensorFlow的共同作者人之一，他在2021年中离开了Google，加入了OpenAI。

Illia Polosukhin在2017年2月离开了Google，于2017年6月创立了NEAR Protocol。

目前，NEAR估值约为20亿美元。

与此同时，公司已经筹集了约3.75亿美元，并进行了大量的二次融资。

现在，只有Llion Jones还在谷歌工作。

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于——起标题。」

网友热评

走到现在，回看Transformer，还是会引发不少网友的思考。

AI中的开创性论文。

马库斯表示，这有点像波特兰开拓者队对迈克尔·乔丹的放弃。

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了NLP。

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

参考资料：

https://twitter.com/DrJimFan/status/1668287791200108544

https://twitter.com/karpathy/status/1668302116576976906

https://twitter.com/JosephJacks_/status/1647328379266551808

标签：

上一篇：苦瓜的家常做法大全_苦瓜的做法大全最好吃-天天快播

下一篇：最后一页

精彩推送

Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界

新智元报道编辑：桃子好困【新智元导读】Transformer，6岁了！2017年，

来源：时间：2023-06-20 07:41:58
苦瓜的家常做法大全_苦瓜的做法大全最好吃-天天快播

你们好，最近小活发现有诸多的小伙伴们对于苦瓜的家常做法大全，苦瓜的

来源：时间：2023-06-20 06:43:03
鲑鱼肉糜煎酿茄子_关于鲑鱼肉糜煎酿茄子简述_观天下

小伙伴们，你们好，今天小夏来聊聊一篇关于鲑鱼肉糜煎酿茄子，关于鲑鱼

来源：时间：2023-06-20 05:37:51
关于路的作文300字初中作文_快播

1、世上本没有路，走的人多了便成了路。2、??路有属于自己的性格，人又

来源：时间：2023-06-20 03:50:02
天天新资讯：小米618战绩正式公布，RedmiK60拿下销冠，有多少人感到意外？

跟以往一样，小米公布的2023年618战绩没有多少定语，整体显得比较干脆

来源：时间：2023-06-20 01:02:56
环球热点！翡翠怎么区分好坏（分辨翡翠的真假优劣的几种方法）

由于翡翠本身密度比重会比较大，我们可以把翡翠放在手里面上下掂动几下

来源：时间：2023-06-19 23:10:40
环球热头条丨贵州省2023年高考国家专项计划、地方专项计划申报工作的温馨提示

各位考生：　　根据《省招生委员会关于做好2023年重点高校招生专项计划

来源：时间：2023-06-19 22:06:42
西南首例重庆科学会堂项目72米大跨度钢结构吊装成功天天观察

科学会堂项目迎来首榀72米大跨度钢桁架吊装施工。建设方供图华龙网-新

来源：时间：2023-06-19 21:34:26
热头条丨天禾股份：上半年归母净利润约8212万元同比增长23.55%

发布易8月18日-天禾股份（002999）发布半年报，公司2022年上半年营业收

来源：时间：2023-06-19 20:47:23
柯力传感涨停三个交易日机构净买入2.22亿元

柯力传感涨停三个交易日机构净买入2 22亿元

来源：时间：2023-06-19 20:06:09
环球快资讯丨2连板飞龙股份：五部门联合启动2023年新能源汽车下乡活动汽车产业链走强带动个股上涨

飞龙股份公告，公司股票交易价格连续2个交易日收盘价格涨幅偏离值累计

来源：时间：2023-06-19 19:42:08
环球聚焦：省药监局助力中国（云南）自贸区红河片区第一家药品批发企业落地开办

近期，云南省药品监督管理局行政审批处和省核查中心一行5人对中国（云

来源：时间：2023-06-19 18:54:03
618观察丨五菱汽车成交量超5000台，头部主播开启直播卖车新模式每日时讯

封面新闻记者付文超从“直播带岗”到“直播卖车”，直播间正不断打破带

来源：时间：2023-06-19 18:20:09
天天实时：气压椅调高安全还是调低安全

很多人的家里或者办公室用的是可以调节高低的气压椅，但是我们在使用气

来源：时间：2023-06-19 17:49:31
全球球精选！小商品城：拟发行可转债募资不超40亿元

证券时报e公司讯，小商品城(600415)6月19日晚间公告，公司拟向不特定对

来源：时间：2023-06-19 17:35:39
环球热头条丨东威科技(688700):开展外汇套期保值业务

证券代码：688700证券简称：东威科技公告编号：2023-032昆山东威科技股

来源：时间：2023-06-19 17:02:42
天天报道:我乐家居: 关于控股股东减持时间届满暨减持结果的公告

我乐家居:关于控股股东减持时间届满暨减持结果的公告

来源：时间：2023-06-19 16:23:00
天天微头条丨看过来！“郑好融”2.0版六大变化

6月19日，科创金融服务港湾授牌仪式暨郑好融2 0及科创重点产品发布会在

来源：时间：2023-06-19 15:55:47
【天天新要闻】“鸡娃”！越来越多韩国家长让学龄前孩子上课外培训班

新华社北京6月19日电韩国儿童保育与教育研究所18日发布的调查数据显示

来源：时间：2023-06-19 15:32:36
【新视野】没有root怎么看wifi密码_没root怎么看wifi密码

你们好，最近小活发现有诸多的小伙伴们对于没有root怎么看wifi密码，没

来源：时间：2023-06-19 15:07:13
天龙股份：参股企业目前暂无机器人传感器业务

天龙股份6月19日在互动平台表示，公司参股企业武汉飞恩微电子有限公司

来源：时间：2023-06-19 14:47:49
23昆明城建CP001票面利率为7.5000%

23昆明城建CP001票面利率为7 5000%

来源：时间：2023-06-19 13:55:49
今年以来125家IPO撤否多家券商因保荐项目被监管警示环球热消息

伴随着全面注册制时代的到来，IPO监管持续从严。Wind数据显示，截至《

来源：时间：2023-06-19 13:13:53
全球观察：焦作市降低住房公积金贷款楼盘准入门槛

近日，焦作市住房公积金管理中心对《房地产开发企业楼盘准入办法》进行

来源：时间：2023-06-19 12:54:28
央企能源保供备战“迎峰度夏”|全球热头条

中国能源新闻网是由国家能源局主管，中国电力报社、中电传媒股份有限公

来源：时间：2023-06-19 12:09:36
焦点热文：平顶山卫东区：共建共享“星”创建成效明显
密友聊怎么收费（密友套餐）_全球今日报
赫梯王妃小说（赫梯王妃）
天天观察：白酒价格大面积倒挂白酒市场现状及前景分析2023
世界速递！公告速递：中欧中证同业存单AAA指数7天持有基金暂停代销渠道申购及定期定额投资业务
“粮食银行”已筹措15亿元信贷资金确保西安夏粮收购“钱等粮”
昆山仁宝电子厂最新招聘信息（昆山仁宝）全球速读
死灵的引诱（关于死灵的引诱介绍）
内燃机学第4版_内燃机学 2005年机械工业出版社出版的图书环球新要闻
李生发受贿案一审宣判
环球速读：暑期跨省游占比七成，商家包机抢资源
怎么把电视和平板电脑连接（怎么用平板电脑连接电视？）世界报资讯
世界观天下！神界原罪2盗贼技能加点心得神界原罪2盗贼最佳加点
环球快看点丨58同城是上市公司吗_同城58网公司注册
2023粤港澳大湾区车展：新款路虎揽胜星脉、全新CR-V e:HEV等上市|世界报道
晋江市气象台发布雷电黄色预警信号【2023-06-18】
【独家焦点】莱茵生物：与帝斯曼-芬美意签订重大经营合同
每日资讯：恒信东方：正推进苹果Vision Pro头显开发者套件申请工作
adc的全称为_adc的全称
富祥药业：副董事长及副总经理拟增持公司股份
台灣版小米 13 ultra 外觀、相機、電池、性能、影音功能開箱實測-全球热议
世界观速讯丨TFBOYS最新合照曝光！十周年演唱会官宣，王俊凯王源易烊千玺卡点发文
上海虹口三小区联合“团购”物业，不增加物业费享受品牌服务|全球播报
精彩看点：按劳分配和按劳动要素分配的区别举例按劳分配和按劳动要素分配的区别
环球关注：贵安发展集团与上海张江集团签署战略合作框架及投资意向协议

X 关闭

电视剧

深圳机场开通今年第5条国际货运航线为深圳企业外贸出口提供新支撑 2022-08-08

河南16岁少年《浅谈诗书画》引关注 2022-05-20

X 关闭

电影

热播

B站与杰威尔音乐达成版权合作首发周杰伦新歌MV 2022-07-08

郑州市经开区明湖办事处：别样的温暖、别样的生日 2022-05-20