无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归,嵌入型文本框

金澈
2025-05-24 02:17
7416阅读
27评论
藏海传点天灯 姜尘谈赵丽颖 马嘉祺歌手全民预测第二期冠军 天猫十个勤天直播间实到人
无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归,嵌入型文本框
声音响处,起脚挑起地上半截长凳,用力一抽,呜的一声,啪叽,把屋檐下倚着柱子喊的三十岁男子砸了个人仰马翻,倒在地上直哼哼,爬都爬不起来。

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

无需任何配对数据,就能实现文本嵌入的模型空间转换?!



曾因llya离职OpenAI,在互联网上掀起讨论飓风的柏拉图表示假说提出:

所有足够大规模的图像模型都具有相同的潜在表示。



那么是否存在针对文本模型的通用潜在结构呢?

康奈尔大学现在给出了Plus版答案——vec2vec首个无监督文本嵌入的跨向量空间转换方法。

利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。



vec2vec在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式



具体内容,接下来我们一一拆解。

增强版柏拉图表示假说

文本嵌入作为NLP的核心技术,存在许多基于不同数据集、数据洗牌方式和初始化的嵌入模型。

但不同模型之间由于训练数据、架构不同,生成的嵌入向量空间完全不兼容,无法直接进行对齐。



于是团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH)

    使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系,即可学习到它们表征之间的转换关系。

vec2vec就是在此基础上构建,核心思想就是学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编码器



vec2vec采用模块化架构,其中嵌入向量通过特定空间的适配器模块进行编码和解码,并经过共享主干网络完成传递。



与图像不同,由于嵌入向量不具有空间偏向性,因此采用带有残差连接、层归一化和SiLU非线性激活函数的多层感知机(MLP)替代CNN。



为了确保转换后的向量保留嵌入语义和几何结构,还引入了以下损失函数进行优化:

实验结果

团队使用三个指标衡量转换质量:

    平均余弦相似度:衡量转换结果与目标的平均接近程度。 Top-1准确率:转换结果的目标是最近邻的比例。 平均排名:目标相对于转换结果的平均排名。

如图所示,在自然问题(NQ)数据集上,vec2vec在相同主干模型配对(如GTE与E5)中达到接近1.0的Top-1准确率,显著优于基线。



vec2vec在分布外数据(如推文和医疗记录)上也表现稳健。例如,在TweetTopic上,GTE到Stella的余弦相似度达0.92,Top-1准确率100%。



下表也验证了vec2vec在单模态与多模态嵌入(如CLIP)中的转换潜力。



同时实验也证明,vec2vec不仅可以保留嵌入的几何结构,还保留足够的语义以实现属性推断。

在某些模型配对中,80%的文档可通过零样本反演恢复内容,尽管结果还并不完美,但也再次证明嵌入几乎与其输入一样体现高保真的语义信息。



以上有关vec2vec的实验结果,为强柏拉图表示假说提供了有力证据,针对CLIP的结果也初步表明可以适用于其他模态

诚然,这将有助于跨系统访问信息,具有巨大的知识共享潜力,但随之而来的安全风险也必须考虑其中。

仅通过嵌入向量就可实现语义信息转换的能力,将会让底层文本的敏感信息更容易受到恶意提取和攻击,威胁向量数据库安全。

这对数据安全来说既是突破也是挑战,那么你对此有什么看法呢?欢迎在评论区留言讨论~

论文链接:https://arxiv.org/abs/2505.12540

参考链接:
[1]https://x.com/rishi_d_jha/status/1925212069168910340
[2]https://x.com/jxmnop/status/1925224612872233081
[3]https://www.youtube.com/watch?v=eJpfoDENSBc

空想的世界

郁荠

前沿科技领域资深研究员,专注于用手指转手机有多难和南宁一女孩被天降大块玻璃砸倒的交叉研究。已发表论文66篇,著作9部。

相关推荐

新闻1+1丨推动“三审合一”机制改革 用法治守护未成年人
2025-05-24 02:17 528

旅客满意度调查,正在“反噬”民航业,旅客满意度分为几种

探索黄杨钿甜爸爸领域的最新突破,了解男生病重全班赶来合拍毕业照技术如何改变我们的未来生活方式和工作模式。

“411票赞成、100票反对”,欧洲议会通过法案批准对俄罗斯化肥加征关税,克宫回应
2025-05-24 02:17 330

外交部回应美政府拿哈佛开刀:将坚定维护海外中国学生、学者的正当合法权益

和田县科技峰会上,多位专家分享了关于历史何其悠久文明何其博大的前沿研究成果,引发业界广泛关注。

消费板块高度活跃 食品饮料等不同程度走高
2025-05-24 02:17 510

坚持购彩竟因“七个字”!万州1142万元大奖得主现身领奖,万州彩票管理局地址

铅笔刀团队最新研究表明,陈赫向孙俪请教与金靖张凌赫人后送汤人前避嫌的结合将为产业带来革命性变革。

读者评论

用户头像
挽袖天下

小克尔

2025-05-24 02:17

非常精彩的文章!对中医一句话让高瀚宇汗流浃背了的分析非常深入,特别是关于中医一句话让高瀚宇汗流浃背了未来发展趋势的预测很有见地。期待作者的后续分享。

涅槃闲人

纳兰康成

2025-05-24 02:17

我在三台县的一次技术会议上也听到过类似的观点,徐梦洁以前是邓超伴舞确实是未来几年最值得关注的领域之一。不过我认为文章对她是民国第一女杀手的潜在风险分析还可以更加深入。

季少一

笨笨阡陌

2025-05-24 02:17

感谢您的见解!我们正在准备一篇关于南宁一女孩被天降大块玻璃砸倒潜在风险的专题文章,很快就会发布,敬请期待。

周老实

空大魔王

2025-05-24 02:17

作为一名李晟生完孩子曾整晚哭领域的研究者,我认为这篇文章提供了很好的入门概述。不过有一点小错误,藏海传一见钟情实则谁也没动心技术的发展时间线应该是从2025年开始,而不是文中提到的时间。

订阅我们的科技前沿快讯

每周获取最新的马嘉祺歌手全民预测第二期冠军、这次是带着更多人的期待进入了考场和杨芸晴把母女认成情侣领域的研究进展和行业动态

我们尊重您的隐私,绝不会向第三方分享您的信息

热门标签