当前位置:主页 > 行业资讯 > > 正文

32k上下文可商用!长颈鹿来袭,开源大模型长度再创新高

时间: 2023-08-25 14:56:31 来源: 站长之家


(资料图片仅供参考)

编程客栈()8月25日 消息:长颈鹿(Giraffe)是Abacus.AI团队基于LLaMA模型系列打造的新作,被称为“开源大模型史上第一个上下RseTkm文长度达到32k的版本”。LLaMA发布于2022年,包含多个规模参数的迭代版本,但都仅有4k的上下文长度,在实际应用中表现仍有局限。为突破这一瓶颈,Abacus.AI团队进行了一系列测试与优化。

论文地址:https://arxiv.org/abs/2308.10882

项目地址:jshttps://huggingface.co/abacusai/Giraffe-v2-13b-32k

他们发现,通过修改注意力机制中的位置编码系统是当前主流的上下文外推方法,包括线性缩放、随机编码等。在此基础上,团队提出了Power Scaling和Truncated Basis两种新思路。Power Scaling是对原有编码做指数变换,使模型更倾向于外推距离较远的上下文;Truncated Basis则是保留高频分量但将低频分量设置为0,也能在循环周期中覆盖更长距离。

为全面评估不同方法的效果,团队设计了三个新的测试集,除困惑度外还加入了问答和关键词检索等任务。结果显示,线性插值最为有效,新提出的Truncated Basis也展现出一定的优势。最终,团队选择线性插值法打造出长颈鹿系列模型,长度可选4k、16k和32k。

Abacus.AI宣称这是全球首个32k开源大模型,但实际上Together.AI已经在更早发布了类似的版本。两家企业使用的上下文扩展方法和模型规模也有细微区别。所以,可以说长颈鹿与Together.AI的模型并列为当前开源领域32k长度的“第一”。

关键词:

相关文章

32k上下文可商用!长颈鹿来袭,开源大模型长度再创新高

编程客栈()8月25日消息:长颈鹿(Giraffe)是Abacus AI团队基于LLaMA

来源:站长之家2023-08-25

上海市部分区所属事业单位招聘资格审核与面试

上海市部分区所属事业单位招聘资格审核与面试1 报名结束后,达到全市平

来源:本地宝2023-08-25

阳煤化工: 主要产品的相关数据请关注公司8月30日即将披露的中期报告

阳煤化工(600691)08月25日在投资者关系平台上答复了投资者关心的问题。

来源:证券之星2023-08-25

还在熬夜玩手机?这些行为都会亏损气血

最近,关于养生补气血的话题屡次登上热搜,引发网友讨论。那么,什么是

来源:人民网2023-08-25

深圳:塑造夜晚生活新方式,光明“夜经济”升腾城市烟火气

华灯初上,霓虹璀璨,约上三五好友,骑行环湖跑道,去户外露营,逛逛潮

来源:羊城派2023-08-25