最强记忆 VS 最强检索:T5 & REALM 你pick谁?

大数据文摘授权转载自安迪的写作间
如果突然让你回答,“ Geoffrey Hinton 的出生年月日是?”,相信大部分人是不知道的,转头直接百度或谷歌,然后找到相关词条,抽取关键信息,回答:“1947年12月6日”(冷知识 get)。
当然也不排除有少部分记忆非常强的人,曾经在某处看到过相关信息,并记了下来,立刻回答:“1947年12月6日”。
至于大部人,我相信属于第一种人,第二种可能... 谢耳朵吧。
这里提到的两个模型,类比的话,T5 便是那个将一切都记下来并回答的人,而 REALM 则是善于利用它的“搜索引擎”的人。
最强记忆 T5
关于 T5 模型,原理并不难,简单说就是:
一个超大Transformer Encoder-Decoder 模型(11B,110亿参数) Bert 式的文本破坏(corrupt)方法 Replace Span 的破坏策略 15% 的破坏比 破坏时 span 长度 3 加上 750GB 的文本数据

?第一,Retriever 里面的向量编码器冷启动问题,如果一开始拿不到比较好的文本向量,使检索结果与 query 相关的话,那么 Retriever 就获得不到梯度,就会导致 Retriever 根本训练不起来;
第二,训练过程中,因为向量编码器中的参数是变化的,导致对于同样的文本,可能训练时不同步数的模型编码出来的向量不一样,那么之前 LSH 算法建立的索引是会有 gap。
Reference
[1] How Much Knowledge Can You Pack Into the Parameters of a Language Model?
[2] REALM: Retrieval-Augmented Language Model Pre-Training
[3] Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)
[4] How Does Google Affect the Way We Learn?
[5] ?Illustrating the Reformer
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675



![兔牙新新 五秒钟之内我想要你的[心] 不穿裙子就做个cool girl.](https://imgs.knowsafe.com:8087/img/aideep/2021/9/15/086094a81eaf0c75e85488ad4a2a77e6.jpg?w=250)




大数据文摘
