Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 19|回復: 0

谷歌研究院长期以来一直致力于稀疏

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-5-9 19:14:58 | 顯示全部樓層 |閱讀模式
性的研究。总结了构建一个大型模型的研究愿景该模型可以勤奋地处理数千个任务和众多数据模式。到目前为止语言和计算机视觉的稀疏单峰模型已经取得了相当大的进展。今天我们通过研究大型稀疏模型通过与模态无关的路由同时处理图像和文本朝着愿景迈出了重要一步。一种相关的方法是多模态对比学习它需要对图像和文本都有深入的理解以便将图片与其正确的文本描述对齐。迄今为止解决此任务的最强大模型依赖于每种模式的独立网络双塔方法。在使用进行多模态对比学习专家的语言图像混合中我们提出了第一个使用稀疏专家混合的大规模多模态架构。

它同时处理图像和文本但使用稀疏激活的自然专业专家。在零样本图像分类方面的性能优于可比较的密集多模态模型和双塔方法。最大的零样本准确率达到与更昂贵的最先进模型相当。稀疏性  格鲁吉亚电话号码列表 使能够优雅地扩展规模并学会处理截然不同的输入从而解决多面手和专才之间的紧张关系。架构包含许多专家路由器决定哪些令牌图像或句子的一部分交给哪些专家。经过专家层灰色和共享密集层棕色处理后最终输出层计算图像或文本的单个向量表示。稀疏专家混合模型转换器将数据表示为向量或标记序列。虽然最初是为文本开发的但它们可以应用于大多数可表示为标记序列的事物例如图像视频和音频。




最近的大规模模型在架构中添加了专家层例如自然语言处理中的和以及用于视觉任务的。标准由许多块组成每个块包含各种不同的层。其中一层是前馈网络。对于和上面引用的作品这个单个被包含许多并行的专家层取代每个都是一个专家。给定要处理的令牌序列简单的路由器会学习预测哪些专家应该处理哪些令牌。每个代币仅激活少量专家这意味着虽然模型容量由于拥有如此多的专家而显着增加但实际的计算成本是通过稀疏使用它们来控制的。如果只激活一名专家该模型的成本大致相当于标准模型。正是这样做的每个示例激活一名专家从而匹配密集基线的计算成本。不同之处在于路由器可能会看到图像或文本数据的标记。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2024-12-4 16:03 , Processed in 0.029289 second(s), 18 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |