时不时有人跳出来指责国模蒸馏 · 评论第 2 页

leowyzhang

2026-05-06 #58

如果有人想骂你，他有一万种理由骂你；如果有人想捧你，他有一万种理由捧你；所以哪里是信不信的问题呢

JeremyGE ↶ @baicai1145

2026-05-06 #59

1个回复 ⌃

baicai1145

2026-05-06

18个月2w4个账号，每天3w个请求，随便一个中转站都没这么少。全篇都是推测，没任何直接证据

↓ 跳到帖子

lexinxin 楼主 ↶ @Aumae

2026-05-06 #60

你用劣币驱逐良币就是不对，因为大家都在做，难道你没有错吗，装什么。你所谓指出的问题，传出去只剩deepseek蒸馏，其他不蒸馏，难道你是对的吗，一碗水端不平，在我看来就是对deepseek有意见

1个回复 ⌃

Aumae

2026-05-06

我连用都不用deepseek，我能对ds有什么意见？且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗？如果你不能，是否意味着你对不端平的就是有意见？劣币驱逐良币？赢下来的才是良币，比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的，都倒了，那些已经成为历史的劣币了。

对的，我就是有意见

↓ 跳到帖子

TOPIC OWNER

sss

2026-05-06 #61

个人认为大家讨厌的不是蒸馏问题，而是国模蒸馏国外模型迭代以后，营销号自媒体普天盖地的超越xxx、碾压xxx、替代xxx。难道不是更多讨厌跑分没输过,实际体验没赢过么

1

过度营销的反噬

1个回复 ⌃

blacksein

2026-05-06

实际跑分也没赢过御三家。。。只是接近缩小差距罢了详细看各个国模官网的用语
所以跑分没输过这句话就是错误的跑分也没赢过。。。

而且佬都说是自媒体了自媒体的一些没有依据的东西能信嘛
而且御三家发新模型营销号自媒体不也一样嘛

↓ 跳到帖子

JasonGui

2026-05-06 #62

我觉得这个主题开始不对头了，下面佬友的讨论是不是开始情绪化了
@neo

因为贴子主题本身就容易引发争议

1个回复 ⌃

gopython3

2026-05-06

这几天我看骂gpt的也很多, 骂a\的也不少, 但不知道为什么帖子突然说只骂国模

也许佬友看到了个主题认为骂过了

↓ 跳到帖子

Aumae ↶ @lexinxin

2026-05-06 #63

我连用都不用deepseek，我能对ds有什么意见？且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗？如果你不能，是否意味着你对不端平的就是有意见？劣币驱逐良币？赢下来的才是良币，比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的，都倒了，那些已经成为历史的劣币了。

对的，我就是有意见

1个回复 ⌃

lexinxin 楼主

2026-05-06

你到底是不是刚才那个被删的话题的人，话题肯定被删了，我找不到我发的内容

是另外的一个

TOPIC OWNER

↓ 跳到帖子

SudoTyper

2026-05-06 #64

大家都是抄来抄去，开发者都是挖来挖去，都是以结果为导向。我觉得现在处于一个，谁能先搞出一个别人搞不出来的model谁就是老大的阶段。

gopython3 ↶ @JasonGui

2026-05-06 #65

这几天我看骂gpt的也很多, 骂a\的也不少, 但不知道为什么帖子突然说只骂国模

也许佬友看到了个主题认为骂过了

2个回复 ⌃

preacher

2026-05-06

好像涨价被刺用户的事情，厂商挺熟练。哈哈。

看L站佬友说过，不止一家

Donyzh

2026-05-06

看楼主的意思好像是在dy上看到啥视频了吗然后在论坛讨论了

↓ 跳到帖子

baicai1145 ↶ @JeremyGE

2026-05-06 #66

18个月2w4个账号，每天3w个请求，随便一个中转站都没这么少。全篇都是推测，没任何直接证据

water_99

2026-05-06 #67

这个指责和争论感觉没啥意义，从结果来看所有的模型都在蒸。从立场来看，对广大用户有意义的东西是效果和价格，至于有没有蒸馏，至少我完全不关心

1

好用才是硬道理

amoluo

2026-05-06 #68

没有看懂楼主的观点
4.7opus蒸了GPT，社区里一大堆佬友吐槽的
a/给自己洗的时候，也没有看见有人说a/是对的
怎么到楼主口中就成了，社区里有时不时有人骂国模了，骂a除的反而是最多吧，毕竟天天用

1

天天都有骂GPT和A\的

我觉得就是引战Dee

1个回复 ⌃

lexinxin 楼主

2026-05-06

除了那次外还有其他骂吗，骂a只是因为把不说人话也蒸馏进去

TOPIC OWNER

↓ 跳到帖子

back

2026-05-06 #69

都是互相蒸馏，底层数据是大众的，但是大众一分钱也拿不到，他们也白嫖，所以没必要计较那么多，谁能造福反馈大众就行，如果蒸馏完了高价收割甚至不让用就恶心了，参考claude，对这家公司没好感，凭什么特别针对我国，怕我国蒸馏你，你又何尝没蒸馏别人

preacher ↶ @gopython3

2026-05-06 #70

好像涨价被刺用户的事情，厂商挺熟练。哈哈。

看L站佬友说过，不止一家

TangYuan ↶ @xiaofanqie

2026-05-06 #71

向他道歉干什么？这人明显有问题，总喜欢拿其它东西来扯，你这么容易走进别人的套路里面去的吗？

1个回复 ⌃

xiaofanqie

2026-05-06

好的佬，确实感觉这个佬有点强行往别的方面上扯的，他太激动了，不继续回他了

↓ 跳到帖子

canglang ↶ @Sunflowers

2026-05-06 #72

毕竟deepseek是目前还属于半科研机构，有自己从坚持和理想。就比如，deepseek可以在设置里关闭权限，使得聊天数据不被用于训练。

Jason

2026-05-06 #73

看到刚刚那篇帖子了

他说：

通过蒸馏的模型，基本上幻觉率都很高，原理是模型不了解某些知识只能靠编，而真正靠数据集训练出来的模型是不需要靠编的

我准备评论，结果删帖了。。。

他前面很多论调都摆出了相关的文献证据，计算逻辑。

唯独这一句，关键的论调，他一笔带过，没有摆上任何证据。

然后我就去问了 Claude，得到下面的答案：

我觉得有人站出来喷蒸馏是没问题的（我个人是不care的，谁的好用，用谁的），但是这种偏见确实要自省一下。

1

lexinxin 楼主 ↶ @amoluo

2026-05-06 #74

除了那次外还有其他骂吗，骂a只是因为把不说人话也蒸馏进去

1个回复 ⌃

amoluo

2026-05-06

我看了一下之前站内发的贴子
事实上，当时的Claude一步绝尘，看起来不像是蒸馏方，这次不只是因为不说人话，而是蒸的太明显了
你也可以搜搜，之前a除控告几个国产大模型蒸馏自己的时候，相关贴子的讨论是怎么说的，a除犯病针对了很多次，我还没见到哪一次舆论是往a除那边倒的

↓ 跳到帖子

TOPIC OWNER

840814743

2026-05-06 #75

这类人抨击的不只是国模
而且，也没必要太在意他们
你以为跟他们解释清楚天下乌鸦一般黑，他们就不会继续骂了吗？
并不会
因为蒸馏只是他们找的由头，他们既可以装作听不懂你的科普，也可以继续换个角度

赞同

Donyzh ↶ @gopython3

2026-05-06 #76

看楼主的意思好像是在dy上看到啥视频了吗然后在论坛讨论了

1个回复 ⌃

lexinxin 楼主

2026-05-06

话题被删了，我基于那个被删话题说的，我可不看抖音

嗷嗷我看你说谁在dy被怼

TOPIC OWNER

↓ 跳到帖子

Alan_Y ↶ @

2026-05-06 #77

如果再不和光同尘的话会被禁言的，可惜这个3级号了

和光同尘是啥意思佬

不会，攻击性强的才会

1个回复 ⌃

Alan_Y

2026-05-06

@Donyzh “挫其锐，解其纷，和其光，同其尘” ————《道德经》

1

↓ 跳到帖子

lexinxin 楼主 ↶ @Aumae

2026-05-06 #78

你到底是不是刚才那个被删的话题的人，话题肯定被删了，我找不到我发的内容

是另外的一个

TOPIC OWNER

lexinxin 楼主 ↶ @Donyzh

2026-05-06 #79

话题被删了，我基于那个被删话题说的，我可不看抖音

嗷嗷我看你说谁在dy被怼

TOPIC OWNER

Alan_Y ↶ @Alan_Y

2026-05-06 #80

@Donyzh “挫其锐，解其纷，和其光，同其尘” ————《道德经》

1

zhdovelie

2026-05-06 #81

啊难道是我信息茧房了…
之前 A\在 X 上炮轰中国模型大规模蒸馏, 看面的回复全都是嘲讽A, 站队中国开源模型的.

指责蒸馏的不就主要是A\么

1个回复 ⌃

Jaime_Lannister

2026-05-06

反正我刷挺多软件，都有骂的，这种帖子两边都有见过。

↓ 跳到帖子

840814743

2026-05-06 #82

你要先认清一点
他们并不是基于事实来表达观点，而是出于自身的立场
对于这种只是为了表达立场的人来说，他们听不进去你的任何内容，他们只会看到
你不认同我，所以你就是我的对立方

跟值得沟通的人交流吧，别把情绪浪费在这些人身上

mantong

2026-05-06 #83

妈耶，A\孝子竟然这么多的吗……吓死个人了

xiaofanqie ↶ @TangYuan

2026-05-06 #84

好的佬，确实感觉这个佬有点强行往别的方面上扯的，他太激动了，不继续回他了

whitecode

2026-05-06 #85

第一：蒸馏是一个标准技术
第二：合成数据也是一个标准技术
第三：早在去年的人类数据集就已经告警不足，开始出现大量AI生成的数据集，所以只要用到大量数据集，必然都属于蒸馏
第四：商业化产品，数据本身的所有权到底是谁？如果是使用者本身，我拿我自己消费的数据干什么，为什么要受到限制。

Jaime_Lannister

2026-05-06 #86

l站评论区也开始刷怪了吗？大部分评论都还算在讨论范围吧，少数评论又开始大扣帽子，粗暴的发泄情绪。

amoluo ↶ @lexinxin

2026-05-06 #87

我看了一下之前站内发的贴子
事实上，当时的Claude一步绝尘，看起来不像是蒸馏方，这次不只是因为不说人话，而是蒸的太明显了
你也可以搜搜，之前a除控告几个国产大模型蒸馏自己的时候，相关贴子的讨论是怎么说的，a除犯病针对了很多次，我还没见到哪一次舆论是往a除那边倒的

1个回复 ⌃

lexinxin 楼主

2026-05-06

那是官方控告，而不是用户，我这里针对用户。官方我都懒得鸟，就a\那个反华言论，我随便官方说

TOPIC OWNER

↓ 跳到帖子

lueluelue ↶ @pangbo

2026-05-06 #88

数量呢
他蒸馏，我不获利啊
我违反协议，你也可以谴责我啊，我白嫖，难道还要站着白嫖？

3

Jaime_Lannister ↶ @zhdovelie

2026-05-06 #89

反正我刷挺多软件，都有骂的，这种帖子两边都有见过。

nimabibi

2026-05-06 #90

管你这家那家，消费者当然选的是性价比才是王道

1个回复 ⌃

Jaime_Lannister

2026-05-06

是。网上骂这骂那，喊打喊杀的，真落到实处还是看价格、模型能力、易用性才是真。

↓ 跳到帖子

jcc

2026-05-06 #91

嘴上都在骂对方蒸自己。但是手上并没有停止研究怎么蒸的比对方更好

蒸馏是很重要的技术，谁做的不好，谁就会掉队

Jaime_Lannister ↶ @nimabibi

2026-05-06 #92

是。网上骂这骂那，喊打喊杀的，真落到实处还是看价格、模型能力、易用性才是真。

lexinxin 楼主 ↶ @amoluo

2026-05-06 #93

那是官方控告，而不是用户，我这里针对用户。官方我都懒得鸟，就a\那个反华言论，我随便官方说

1个回复 ⌃

amoluo

2026-05-06

我的意思是站里的佬友不存在因为国外模型就偏袒什么的，因为实在没什么好说的
gemini蒸了？GPT蒸了？还是grok蒸了？目前就只有4.7opus能一眼蒸了，你再怎么骂也只能说偷数据，挖它的黑历史，4.7opus出来之前没有一个人说a除蒸馏，不代表他没蒸，而是看不出来蒸谁了

grok蒸了，创始人亲口说

↓ 跳到帖子

TOPIC OWNER

amoluo ↶ @lexinxin

2026-05-06 #94

我的意思是站里的佬友不存在因为国外模型就偏袒什么的，因为实在没什么好说的
gemini蒸了？GPT蒸了？还是grok蒸了？目前就只有4.7opus能一眼蒸了，你再怎么骂也只能说偷数据，挖它的黑历史，4.7opus出来之前没有一个人说a除蒸馏，不代表他没蒸，而是看不出来蒸谁了

grok蒸了，创始人亲口说

blacsheep

2026-05-06 #95

个人理解: 数据有限的情况, 模型怎么设计, 碰到训练中的各种问题如何处理, 这些是真正对开源有贡献并且推动科技发展的. deepseek的效果可能不是那么顶尖, 但是每一次ds出东西都是实实在在解决了问题, 所以我个人一直是比较粉deepseek的.

蒸馏这个就不太一样了, 蒸馏一上来就是我直接向国外的模型低头, 我套你的数据, 我打不过你, 但是我可以打过国内其他的开源模型, 从而积累优势. 我不去解决模型训练里面的各种问题, 我只要能抱大腿把国内其他模型按下去, 我就赢了.

如果大家都这样, 时间一长, 国内真正做技术的公司肯定会受影响, 比如dsv4出来就会有人说效果不尽人意, 从这个角度讲, 这何尝不是劣币驱逐良币呢?

叠甲: 这些都是我个人的想法, 实际情况肯定会存在各种信息差, 这种就不太好讨论了.

2个回复 ⌃

jcc

2026-05-06

蒸馏不是低头。。。这个技术是个好技术，算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段

谁搞不好这个技术，谁就要落后

所以，你能看到，claude和gpt现在也都在大规模的搞蒸馏

WenDavid

2026-05-06

实际上应该说的是合成像是冷启动的思维链（）

蒸馏也是要技术的呐，特别是Scaling之后，那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了

做技术来讲，在infra上面动刀肯定是对的，好比ds v4提高训练和推理的效率，降低推理的成本

但是相对的，难道整理数据集和训练的时候使用各种技术难道就不是一种技术了？架构上创新，你Post Training上创新难道不是创新了？模型架构的高效性也是需要具体的体现的，这本身也不是什么冲突的东西啊（）

是的，不过实际上国模从开源的情况来看，还是未公开的部分里面的trick更多一些。据我的印象来看，智谱比较擅长Agent相关的后训练，不过相关的后训练的细节感觉公开的比较少（）

↓ 跳到帖子

jcc ↶ @blacsheep

2026-05-06 #96

蒸馏不是低头。。。这个技术是个好技术，算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段

谁搞不好这个技术，谁就要落后

所以，你能看到，claude和gpt现在也都在大规模的搞蒸馏

1个回复 ⌃

blacsheep

2026-05-06

有用当然有用, 但是我理解的话, 纯做蒸馏对模型提升应该还是比较有限的. 你加强A这个部分的数据, 可能B这个部分就不行了. 不是说数据不重要, 而是说算法,模型架构,模型训练这些硬核的东西同样重要, 想做模型基座但又把大部分精力放到蒸馏上, 到头来只能落一个跑分没输过性能没赢过的称号.

↓ 跳到帖子

blacksein ↶ @sss

2026-05-06 #97

实际跑分也没赢过御三家。。。只是接近缩小差距罢了详细看各个国模官网的用语
所以跑分没输过这句话就是错误的跑分也没赢过。。。

而且佬都说是自媒体了自媒体的一些没有依据的东西能信嘛
而且御三家发新模型营销号自媒体不也一样嘛

blacsheep ↶ @jcc

2026-05-06 #98

有用当然有用, 但是我理解的话, 纯做蒸馏对模型提升应该还是比较有限的. 你加强A这个部分的数据, 可能B这个部分就不行了. 不是说数据不重要, 而是说算法,模型架构,模型训练这些硬核的东西同样重要, 想做模型基座但又把大部分精力放到蒸馏上, 到头来只能落一个跑分没输过性能没赢过的称号.

1个回复 ⌃

jcc

2026-05-06

所以，蒸馏不是那么简单的

确切的说，大家在搞的应该叫做合成数据，而不是蒸馏

核心就在于取长补短

用过glm-5.1的人，应该都能感受到，好的合成数据手段，对于体验的提升是很大的。

↓ 跳到帖子

claer_mo

2026-05-06 #99

无感，大家都是互相蒸馏的，要不要哪来的那么多信息资源，版权费都付了？如果你有道德洁癖就不用蒸馏的模型呗，你看看还能剩下不

jcc ↶ @blacsheep

2026-05-06 #100

所以，蒸馏不是那么简单的

确切的说，大家在搞的应该叫做合成数据，而不是蒸馏

核心就在于取长补短

用过glm-5.1的人，应该都能感受到，好的合成数据手段，对于体验的提升是很大的。

WenDavid ↶ @blacsheep

2026-05-06 #101

实际上应该说的是合成像是冷启动的思维链（）

蒸馏也是要技术的呐，特别是Scaling之后，那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了

做技术来讲，在infra上面动刀肯定是对的，好比ds v4提高训练和推理的效率，降低推理的成本

但是相对的，难道整理数据集和训练的时候使用各种技术难道就不是一种技术了？架构上创新，你Post Training上创新难道不是创新了？模型架构的高效性也是需要具体的体现的，这本身也不是什么冲突的东西啊（）

是的，不过实际上国模从开源的情况来看，还是未公开的部分里面的trick更多一些。据我的印象来看，智谱比较擅长Agent相关的后训练，不过相关的后训练的细节感觉公开的比较少（）