Models.dev – OpenCode 团队开源的 AI 模型数据库
Models.dev是什么
Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息,涵盖价格、上下文窗口、工具调用、知识截止等关键规格,提供公开 JSON API(models.dev/api.json)供开发者直接调用。Models.dev 解决了 AI 模型信息碎片化痛点,帮助开发者一站式查询与精确成本估算,高效完成模型选型。

Models.dev的主要功能
- 一站式模型信息查询:收录 OpenAI、Anthropic、Google、Meta 等数十家主流厂商的基础对话模型与专业领域模型,无需在多个官网间切换查找。
- 精确成本估算:详细记录每个模型的输入/输出/推理/缓存读取/缓存写入成本(每百万 token 美元),以及音频输入输出成本,帮助项目精确估算预算。
- 能力规格对比:标准化展示模型是否支持工具调用、推理/思维链、结构化输出、温度控制、文件附件,以及知识截止日期、上下文窗口、最大输入输出 token 数、支持模态等关键指标。
- 公开 JSON API:提供 models.dev/api.json 接口,开发者可直接在项目中调用完整模型数据,用于构建模型选型工具、成本计算器或管理面板。
- 提供商 Logo 获取:通过 models.dev/logos/{provider}.svg 接口直接获取各厂商 Logo。
- 社区协作维护:数据用 TOML 格式按提供商分类存储,支持社区贡献,确保数据库持续更新。
Models.dev的技术原理
- 三阶段循环架构:输入经Prelude(标准Transformer层)编码后,进入Recurrent Block循环迭代T次,最后由Coda输出;每次循环通过注入原始输入e防止隐状态漂移。
- 隐式思维链:每次循环等效于一步Chain-of-Thought推理,但在连续潜空间静默运行,不输出中间token;支持同时编码多条推理路径。
- LTI稳定约束:将循环视为线性时不变系统,通过参数化A为负对角矩阵并离散化,严格保证谱半径ρ(A)<1,从根本上解决残差爆炸和训练发散。
- MoE+循环协同:MoE提供跨领域广度,循环机制提供推理深度;隐藏状态在循环中演化时,路由器可能选择不同专家子集,使每次循环计算独特。
- 自适应停止:支持ACT(Adaptive Computation Time)机制,模型动态决定何时停止循环,避免”过度思考”。
如何使用Models.dev
- 安装:pip install open-mythos,可选[flash]启用Flash Attention 2。
- 配置:选择mla或gqa注意力类型,使用MythosConfig设置维度、头数、循环次数等参数。
- 创建模型:OpenMythos(cfg)初始化网络。
- 推理生成:调用model.generate(max_new_tokens=8, n_loops=8),通过n_loops控制推理深度。
- 训练:使用training/3b_fine_web_edu.py脚本,单卡直接运行或多卡通过torchrun启动。
Models.dev的关键信息和使用要求
- 环境:Python + PyTorch;Flash Attention 2需CUDA与编译工具链。
- 分词器:使用openai/gpt-oss-20b分词器。
- 精度:H100/A100推荐bfloat16,旧GPU使用float16 + GradScaler。
- 训练配置:AdamW优化器,线性warmup 2000步后余弦衰减,目标约30B tokens。
- 规模覆盖:从1B实验模型到1T理论配置均有预定义参数。
Models.dev的核心优势
- 参数高效:k层循环L次等效于kL层固定深度网络,参数量仅k层规模,内存不随推理深度增长。
- 推理可扩展:测试时增加循环次数即可提升推理能力,遵循可预测的饱和指数衰减规律。
- 训练稳定:LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。
- 系统泛化:在分布外(OOD)组合推理上表现优异,通过”顿悟”式三阶段过程实现能力跃迁。
- 深度外推:训练5步推理链,测试时可成功扩展至10步, vanilla Transformer则失败。
Models.dev的项目地址
项目官网:https://models.dev/
GitHub仓库:https://github.com/anomalyco/models.dev
Models.dev的同类竞品对比
| 维度 | OpenMythos | DeepSeek-V3 | Qwen2.5 |
|---|---|---|---|
| 核心架构 | 循环深度Transformer(RDT) | MoE Transformer | Dense / MoE Transformer |
| 注意力机制 | MLA / GQA 可切换 | MLA | GQA |
| 循环推理 | 核心特性(潜空间隐式CoT) | 无 | 无 |
| 开源程度 | 完全开源(代码+训练脚本+文档) | 开源权重 | 开源权重 |
| 模型规模 | 1B – 1T 预配置 | 671B(总参) | 0.5B – 72B 等 |
| 产品定位 | 研究验证 / 理论复刻 | 生产级通用模型 | 生产级通用模型 |
| 推理扩展 | 增加循环次数扩展深度 | 固定层数 | 固定层数 |
Models.dev的应用场景
- AI架构研究:验证循环Transformer、隐式推理链与测试时计算扩展理论。
- 注意力机制实验:对比MLA与GQA在循环架构下的KV缓存效率与推理质量。
- MoE研究:测试稀疏专家路由与循环深度结合对多领域任务的影响。
- 模型训练:基于开源代码和脚本,在FineWeb-Edu等数据集上从头训练自定义规模模型。
- 稳定性研究:验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675







王宏祥
