Models.dev – OpenCode 团队开源的 AI 模型数据库

动态 来源:AI工具集 2026-05-08 16:30:18

Models.dev是什么

Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息,涵盖价格、上下文窗口、工具调用、知识截止等关键规格,提供公开 JSON API(models.dev/api.json)供开发者直接调用。Models.dev 解决了 AI 模型信息碎片化痛点,帮助开发者一站式查询与精确成本估算,高效完成模型选型。

Models.dev的主要功能

  • 一站式模型信息查询:收录 OpenAI、Anthropic、Google、Meta 等数十家主流厂商的基础对话模型与专业领域模型,无需在多个官网间切换查找。
  • 精确成本估算:详细记录每个模型的输入/输出/推理/缓存读取/缓存写入成本(每百万 token 美元),以及音频输入输出成本,帮助项目精确估算预算。
  • 能力规格对比:标准化展示模型是否支持工具调用、推理/思维链、结构化输出、温度控制、文件附件,以及知识截止日期、上下文窗口、最大输入输出 token 数、支持模态等关键指标。
  • 公开 JSON API:提供 models.dev/api.json 接口,开发者可直接在项目中调用完整模型数据,用于构建模型选型工具、成本计算器或管理面板。
  • 提供商 Logo 获取:通过 models.dev/logos/{provider}.svg 接口直接获取各厂商 Logo。
  • 社区协作维护:数据用 TOML 格式按提供商分类存储,支持社区贡献,确保数据库持续更新。

Models.dev的技术原理

  • 三阶段循环架构:输入经Prelude(标准Transformer层)编码后,进入Recurrent Block循环迭代T次,最后由Coda输出;每次循环通过注入原始输入e防止隐状态漂移。
  • 隐式思维链:每次循环等效于一步Chain-of-Thought推理,但在连续潜空间静默运行,不输出中间token;支持同时编码多条推理路径。
  • LTI稳定约束:将循环视为线性时不变系统,通过参数化A为负对角矩阵并离散化,严格保证谱半径ρ(A)<1,从根本上解决残差爆炸和训练发散。
  • MoE+循环协同:MoE提供跨领域广度,循环机制提供推理深度;隐藏状态在循环中演化时,路由器可能选择不同专家子集,使每次循环计算独特。
  • 自适应停止:支持ACT(Adaptive Computation Time)机制,模型动态决定何时停止循环,避免”过度思考”。

如何使用Models.dev

  • 安装:pip install open-mythos,可选[flash]启用Flash Attention 2。
  • 配置:选择mla或gqa注意力类型,使用MythosConfig设置维度、头数、循环次数等参数。
  • 创建模型:OpenMythos(cfg)初始化网络。
  • 推理生成:调用model.generate(max_new_tokens=8, n_loops=8),通过n_loops控制推理深度。
  • 训练:使用training/3b_fine_web_edu.py脚本,单卡直接运行或多卡通过torchrun启动。

Models.dev的关键信息和使用要求

  • 环境:Python + PyTorch;Flash Attention 2需CUDA与编译工具链。
  • 分词器:使用openai/gpt-oss-20b分词器。
  • 精度:H100/A100推荐bfloat16,旧GPU使用float16 + GradScaler。
  • 训练配置:AdamW优化器,线性warmup 2000步后余弦衰减,目标约30B tokens。
  • 规模覆盖:从1B实验模型到1T理论配置均有预定义参数。

Models.dev的核心优势

  • 参数高效:k层循环L次等效于kL层固定深度网络,参数量仅k层规模,内存不随推理深度增长。
  • 推理可扩展:测试时增加循环次数即可提升推理能力,遵循可预测的饱和指数衰减规律。
  • 训练稳定:LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。
  • 系统泛化:在分布外(OOD)组合推理上表现优异,通过”顿悟”式三阶段过程实现能力跃迁。
  • 深度外推:训练5步推理链,测试时可成功扩展至10步, vanilla Transformer则失败。

Models.dev的项目地址

  • 项目官网:https://models.dev/

  • GitHub仓库:https://github.com/anomalyco/models.dev

Models.dev的同类竞品对比

维度OpenMythosDeepSeek-V3Qwen2.5
核心架构循环深度Transformer(RDT)MoE TransformerDense / MoE Transformer
注意力机制MLA / GQA 可切换MLAGQA
循环推理核心特性(潜空间隐式CoT)
开源程度完全开源(代码+训练脚本+文档)开源权重开源权重
模型规模1B – 1T 预配置671B(总参)0.5B – 72B 等
产品定位研究验证 / 理论复刻生产级通用模型生产级通用模型
推理扩展增加循环次数扩展深度固定层数固定层数

Models.dev的应用场景

  • AI架构研究:验证循环Transformer、隐式推理链与测试时计算扩展理论。
  • 注意力机制实验:对比MLA与GQA在循环架构下的KV缓存效率与推理质量。
  • MoE研究:测试稀疏专家路由与循环深度结合对多领域任务的影响。
  • 模型训练:基于开源代码和脚本,在FineWeb-Edu等数据集上从头训练自定义规模模型。
  • 稳定性研究:验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接