
时不时有人跳出来指责国模蒸馏

评论第 2 页,共 2 页

如果有人想骂你,他有一万种理由骂你;如果有人想捧你,他有一万种理由捧你;所以哪里是信不信的问题呢 ![]()


你用劣币驱逐良币就是不对,因为大家都在做,难道你没有错吗,装什么。你所谓指出的问题,传出去只剩deepseek蒸馏,其他不蒸馏,难道你是对的吗,一碗水端不平,在我看来就是对deepseek有意见
1个回复 ⌃

我连用都不用deepseek,我能对ds有什么意见?且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗?如果你不能,是否意味着你对不端平的就是有意见?劣币驱逐良币?赢下来的才是良币,比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的,都倒了,那些已经成为历史的劣币了。
对的,我就是有意见


我连用都不用deepseek,我能对ds有什么意见?且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗?如果你不能,是否意味着你对不端平的就是有意见?劣币驱逐良币?赢下来的才是良币,比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的,都倒了,那些已经成为历史的劣币了。
对的,我就是有意见1个回复 ⌃

你到底是不是刚才那个被删的话题的人,话题肯定被删了,我找不到我发的内容
是另外的一个
大家都是抄来抄去,开发者都是挖来挖去,都是以结果为导向。我觉得现在处于一个,谁能先搞出一个别人搞不出来的model谁就是老大的阶段。

这几天我看骂gpt的也很多, 骂a\的也不少, 但不知道为什么帖子突然说只骂国模
也许佬友看到了个主题认为骂过了2个回复 ⌃

好像涨价被刺用户的事情,厂商挺熟练。哈哈。
看L站佬友说过,不止一家

看楼主的意思好像是在dy上看到啥视频了吗 然后在论坛讨论了

18个月2w4个账号,每天3w个请求,随便一个中转站都没这么少。全篇都是推测,没任何直接证据
这个指责和争论感觉没啥意义,从结果来看所有的模型都在蒸。从立场来看,对广大用户有意义的东西是效果和价格,至于有没有蒸馏,至少我完全不关心
好用才是硬道理

都是互相蒸馏,底层数据是大众的,但是大众一分钱也拿不到,他们也白嫖,所以没必要计较那么多,谁能造福反馈大众就行,如果蒸馏完了高价收割甚至不让用就恶心了,参考claude,对这家公司没好感,凭什么特别针对我国,怕我国蒸馏你,你又何尝没蒸馏别人

好像涨价被刺用户的事情,厂商挺熟练。哈哈。
看L站佬友说过,不止一家

向他道歉干什么?这人明显有问题,总喜欢拿其它东西来扯,你这么容易走进别人的套路里面去的吗?
1个回复 ⌃

好的佬,确实感觉这个佬有点强行往别的方面上扯的,他太激动了,不继续回他了

毕竟deepseek是目前还属于半科研机构,有自己从坚持和理想。就比如,deepseek可以在设置里关闭权限,使得聊天数据不被用于训练。



这类人抨击的不只是国模
而且,也没必要太在意他们
你以为跟他们解释清楚天下乌鸦一般黑,他们就不会继续骂了吗?
并不会 ![]()
因为蒸馏只是他们找的由头,他们既可以装作听不懂你的科普,也可以继续换个角度
赞同
看楼主的意思好像是在dy上看到啥视频了吗 然后在论坛讨论了
1个回复 ⌃

话题被删了,我基于那个被删话题说的,我可不看抖音
嗷嗷 我看你说谁在dy被怼




你要先认清一点
他们并不是基于事实来表达观点,而是出于自身的立场
对于这种只是为了表达立场的人来说,他们听不进去你的任何内容,他们只会看到
你不认同我,所以你就是我的对立方
跟值得沟通的人交流吧,别把情绪浪费在这些人身上

妈耶,A\孝子竟然这么多的吗……吓死个人了

好的佬,确实感觉这个佬有点强行往别的方面上扯的,他太激动了,不继续回他了

第一:蒸馏是一个标准技术
第二:合成数据也是一个标准技术
第三:早在去年的人类数据集就已经告警不足,开始出现大量AI生成的数据集,所以只要用到大量数据集,必然都属于蒸馏
第四:商业化产品,数据本身的所有权到底是谁?如果是使用者本身,我拿我自己消费的数据干什么,为什么要受到限制。
l站评论区也开始刷怪了吗?大部分评论都还算在讨论范围吧,少数评论又开始大扣帽子,粗暴的发泄情绪。

我看了一下之前站内发的贴子
事实上,当时的Claude一步绝尘,看起来不像是蒸馏方,这次不只是因为不说人话,而是蒸的太明显了
你也可以搜搜,之前a除控告几个国产大模型蒸馏自己的时候,相关贴子的讨论是怎么说的,a除犯病针对了很多次,我还没见到哪一次舆论是往a除那边倒的
1个回复 ⌃

那是官方控告,而不是用户,我这里针对用户。官方我都懒得鸟,就a\那个反华言论,我随便官方说

反正我刷挺多软件,都有骂的,这种帖子两边都有见过。

嘴上都在骂对方蒸自己。但是手上并没有停止研究怎么蒸的比对方更好
蒸馏是很重要的技术,谁做的不好,谁就会掉队
是。网上骂这骂那,喊打喊杀的,真落到实处还是看价格、模型能力、易用性才是真。


我的意思是站里的佬友不存在因为国外模型就偏袒什么的,因为实在没什么好说的
gemini蒸了?GPT蒸了?还是grok蒸了?目前就只有4.7opus能一眼蒸了,你再怎么骂也只能说偷数据,挖它的黑历史,4.7opus出来之前没有一个人说a除蒸馏,不代表他没蒸,而是看不出来蒸谁了
grok蒸了,创始人亲口说
个人理解: 数据有限的情况, 模型怎么设计, 碰到训练中的各种问题如何处理, 这些是真正对开源有贡献并且推动科技发展的. deepseek的效果可能不是那么顶尖, 但是每一次ds出东西都是实实在在解决了问题, 所以我个人一直是比较粉deepseek的.
蒸馏这个就不太一样了, 蒸馏一上来就是我直接向国外的模型低头, 我套你的数据, 我打不过你, 但是我可以打过国内其他的开源模型, 从而积累优势. 我不去解决模型训练里面的各种问题, 我只要能抱大腿把国内其他模型按下去, 我就赢了.
如果大家都这样, 时间一长, 国内真正做技术的公司肯定会受影响, 比如dsv4出来就会有人说效果不尽人意, 从这个角度讲, 这何尝不是劣币驱逐良币呢?
叠甲: 这些都是我个人的想法, 实际情况肯定会存在各种信息差, 这种就不太好讨论了.
2个回复 ⌃
蒸馏不是低头。。。这个技术是个好技术,算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段
谁搞不好这个技术,谁就要落后
所以,你能看到,claude和gpt现在也都在大规模的搞蒸馏
实际上应该说的是合成像是冷启动的思维链()
蒸馏也是要技术的呐,特别是Scaling之后,那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了
做技术来讲,在infra上面动刀肯定是对的,好比ds v4提高训练和推理的效率,降低推理的成本
但是相对的,难道整理数据集和训练的时候使用各种技术难道就不是一种技术了?架构上创新,你Post Training上创新难道不是创新了?模型架构的高效性也是需要具体的体现的,这本身也不是什么冲突的东西啊()
是的,不过实际上国模从开源的情况来看,还是未公开的部分里面的trick更多一些。据我的印象来看,智谱比较擅长Agent相关的后训练,不过相关的后训练的细节感觉公开的比较少()
蒸馏不是低头。。。这个技术是个好技术,算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段
谁搞不好这个技术,谁就要落后
所以,你能看到,claude和gpt现在也都在大规模的搞蒸馏
1个回复 ⌃

有用当然有用, 但是我理解的话, 纯做蒸馏对模型提升应该还是比较有限的. 你加强A这个部分的数据, 可能B这个部分就不行了. 不是说数据不重要, 而是说算法,模型架构,模型训练这些硬核的东西同样重要, 想做模型基座但又把大部分精力放到蒸馏上, 到头来只能落一个跑分没输过性能没赢过的称号.



无感,大家都是互相蒸馏的,要不要哪来的那么多信息资源,版权费都付了?如果你有道德洁癖就不用蒸馏的模型呗,你看看还能剩下不
所以,蒸馏不是那么简单的
确切的说,大家在搞的应该叫做合成数据,而不是蒸馏
核心就在于取长补短
用过glm-5.1的人,应该都能感受到,好的合成数据手段,对于体验的提升是很大的。
实际上应该说的是合成像是冷启动的思维链()
蒸馏也是要技术的呐,特别是Scaling之后,那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了
做技术来讲,在infra上面动刀肯定是对的,好比ds v4提高训练和推理的效率,降低推理的成本
但是相对的,难道整理数据集和训练的时候使用各种技术难道就不是一种技术了?架构上创新,你Post Training上创新难道不是创新了?模型架构的高效性也是需要具体的体现的,这本身也不是什么冲突的东西啊()
是的,不过实际上国模从开源的情况来看,还是未公开的部分里面的trick更多一些。据我的印象来看,智谱比较擅长Agent相关的后训练,不过相关的后训练的细节感觉公开的比较少()



