我测试了阿里巴巴的全新推理 AI QwQ-32B – 它为何如此强大 35
乔治·米洛拉多维奇
研究员、文案撰写者和用例采访者
分享此页面:
图标 LinkedIn
图标-facebook
图标不和谐
图标 reddit
目录
第一印象:令人惊讶的效率 1
怀着好奇心,我坐下来测试了 QwQ-32B——阿里巴巴 Qwen 团队最新的开源 AI 模型。他们声称,这个拥有 320 亿个参数的模型可以与 DeepSeek-R1 等巨头相媲美,后者的参数数量是其 20 多倍。我怀着一丝希望,开始探索 320 亿个参数中到底能包含多少 AI。说实话?它超出了我的预期。
第一印象:令人惊讶的效率
我在 QwQ-32B 上布置了各种各样的任务——从简单的数 贷款数据 学问题和编码挑战到逻辑谜题。答案是什么?快速、准确且真正富有洞察力。它只有 320 亿个参数,却与 DeepSeek-R1(拥有 6710 亿个参数)等庞然大物保持同步,展示了一种精简但强大的智能。
基准分数说明了一切:
第一印象:令人惊讶的效率 2
GPQA:准确率 65.2%(研究生水平的科学推理),与 OpenAI o1-mini 相当
AIME:在测试该模型数学任务能力的基准测试中,准确率高达 79.5%。这一结果与 DeepSeek R1 相似,远高于 OpenAI o1-mini
编码挑战:在 LiveCodeBench 上以 63.4% 的稳定成绩保持领先
这些数字令人印象深刻,但真正令人着迷的是它是如何高效地实现这些成果的。
深度推理:细致入微、敏锐且具有奇特的直觉
QwQ-32B 具有惊人的推理能力,能够理解微妙的含义层次,就像一位深思熟虑的伴侣。出于好奇,我要求它解释西尔维娅·普拉斯的一首名为《爸爸》的诗中隐藏的象征意义。它如此优雅地剖析了隐喻,以至于我认为它已经研究过文学批评。
第一印象:令人惊讶的效率 3
受此鼓舞,我尝试了一些更实际的事情:
它能否将近期科技监管文件中的复杂法律术语转化为通俗易懂的会话英语?它毫不费力地做到了,而且没有丢失关键的微妙之处。
它能否找出故意误导性新闻报道中隐藏的逻辑缺陷?令人印象深刻的是,它准确地指出了每一个矛盾之处,并给出了简明的修正。
它能否对复杂的 SQL 查询提出有效但不明显的改进建议?它不仅优化了性能,还解释了为什么每个更改都很重要。
即使是在进行多步骤任务或长时间的结构化讨论时,它也能保持清晰和连贯。令人印象深刻的是,在一项特别复杂的财务预测任务中,它不仅预测了潜在结果,还系统地概述了每个假设和风险因素,展现出一种在人类分析师中也很少见到的系统性透明度。
尽管 QwQ-32B 的参数数量仅为其最大竞争对手的一小部分,但它始终能够快速可靠地产生复杂的输出。参数多十倍的模型通常响应时间较慢,而 QwQ-32B 则在推理深度和快速交付之间取得平衡。
QwQ-32B 有其细微差别
虽然 QwQ-32B 给我留下了深刻的印象,但探索它的极限却凸显了一些令人着迷的细微差别:
递归推理循环:与许多其他推理模型一样,QwQ-32B 倾向于递归推理。它不会快速确定其想法,而是会围绕相同的逻辑点进行循环,从而形成广泛而复杂的解释。
意外的语言切换:偶尔,英语会莫名其妙地与另一种语言的片段混合在一起。
过于谨慎的原创性: QwQ-32B 的输出有时让人感觉过于谨慎。它的创作技巧无疑是精湛的,但该模型是规避风险的,更喜欢老套的推理方式,而不是更具想象力或推测性的方法。
我测试了阿里巴巴的新推理 AI QwQ-32B——这就是它出人意料的强大之处
-
- Posts: 247
- Joined: Tue Jan 07, 2025 4:45 am