返回

高二分科,我选校花也选亿万身家

首页
日/夜
全屏
字体:
A+
A
A-
第686章 纯注意力机制?你们竟敢这么想(3 / 3)
上一页 返回目录 下一章

不是回头看别人,是自己看自己。

“你们在做……序列内部的自相关计算?”

林之远的声音不自觉地提高了。

任少卿和楼天城对视了一眼。

“差不多。”任少卿说。

“我们在探索一种全新的方式来让AI理解语言。不依赖传统的循环结构。就是那种必须一个词一个词按顺序处理的老方法,而是完全用注意力机制,让所有词同时互相‘看见’彼此。”

林之远的脑子嗡了一下。

不依赖循环结构?纯注意力?

这个想法太疯狂了。当前全世界做语言AI的人,没有一个敢把循环网络完全扔掉。注意力机制在所有已发表的论文里,都只是辅助模块,从来不是主角。

“你们怎么敢往这个方向想?”

任少卿推了推眼镜,眼神里闪过敬畏:

“不是我们敢想,是老板问了我们一个问题。能不能让序列内部自己看自己。安德烈顺着这句话推导了三个月,才有了这套数学框架。”

林之远和赵明满脸震惊。

那个神秘的幕后老板,到底是个什么怪物?

“验证过了?”赵明强忍震惊,凑过来盯着白板。

“初步实验跑通了。”楼天城说。

“但还有很多工程问题。计算量随文本长度的平方增长,显存吃得很凶。我们需要更多懂并行计算和矩阵优化的人。”

他看了林之远一眼。“也需要懂推荐系统里那套相似度计算的人。本质上是同一套数学,都是在海量信息里找到最相关的那一部分。”

凯文站在旁边,盯着白板上的公式看了足足两分钟。

然后他转过头,用英文对林之远说了一句话:

“他们领先我们至少一年。”

林之远没有反驳。

斯坦福、伯克利、谷歌大脑,所有人还在想怎么让注意力更好地辅助循环网络。

而这间藏在四川山区里的实验室,已经在问一个完全不同的问题:

我们还需要循环网络吗?

任少卿拉了几把椅子过来。

“坐吧。你们在斯坦福做的那套用户行为建模,跟我们现在做的东西有很多可以互相借鉴的地方。”

这一聊就是三个小时。

林之远发现自己越聊越兴奋,很多在斯坦福想不通的问题,在这里找到了全新的切入角度。

赵明更夸张,直接从包里掏出笔记本电脑,当场开始推导一个他想了半年没想通的数学问题。

凯文全程没怎么说话。但林之远注意到,他的眼睛一直在发亮。

下午五点,徐静推门进来:“聊完了?食堂六点开饭。”

任少卿看了看三个人的表情,笑了:“我猜不用再走什么流程了吧?”

林之远站起来,伸出手:“什么时候能开始?”

“明天。”任少卿握住他的手。“安德烈刚推完一版新的数学框架,正好需要人帮忙做工程验证。你来得太及时了。”

凯文也站了起来。他犹豫了一下,用那口蹩脚的中文说:

“我也可以明天开始吗?”

楼天城笑了笑。

“当然可以。我们欢迎天才。”

上一页 返回目录 下一章