时不时有人跳出来指责国模蒸馏

搞七捻三搞七捻三, Lv1纯水
查看原帖
lexinxin
lexinxin 楼主
#1

国外模型不蒸馏吗,天天指责国模蒸馏,说着劣币驱逐良币,a\说自己用gpt合成数据,不是蒸馏,这你就信,我也说deepseek爬到数据使用其他模型合成数据,你干嘛不信,是不是国模做什么都是错的

:heart:16:+1:7:laughing:6
leewithbass和车一样。错就错在是国产的
haiyewei谁给我薅谁才是好模
blacksein的确 都是没证据的
Butterl编程套餐工作时段429还涨价就
TOPIC OWNER
95楼层
94回复
58用户
lexinxin lueluelue cloudwide volodya714 Sunflowers xiaoxi967

评论第 2 页,共 2 页

leowyzhang
leowyzhang
#58

如果有人想骂你,他有一万种理由骂你;如果有人想捧你,他有一万种理由捧你;所以哪里是信不信的问题呢 :rofl:

lexinxin
lexinxin 楼主 ↶ @Aumae
#60

你用劣币驱逐良币就是不对,因为大家都在做,难道你没有错吗,装什么。你所谓指出的问题,传出去只剩deepseek蒸馏,其他不蒸馏,难道你是对的吗,一碗水端不平,在我看来就是对deepseek有意见

1个回复
Aumae
Aumae

我连用都不用deepseek,我能对ds有什么意见?且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗?如果你不能,是否意味着你对不端平的就是有意见?劣币驱逐良币?赢下来的才是良币,比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的,都倒了,那些已经成为历史的劣币了。

lexinxin对的,我就是有意见
↓ 跳到帖子
TOPIC OWNER
sss
sss
#61

个人认为大家讨厌的不是蒸馏问题,而是国模蒸馏国外模型迭代以后,营销号自媒体普天盖地的超越xxx、碾压xxx、替代xxx。难道不是更多讨厌跑分没输过,实际体验没赢过么 :sweat_smile:

:+1:1:laughing:1
haiyewei过度营销的反噬
1个回复
blacksein
blacksein

实际跑分也没赢过御三家。。。只是接近 缩小差距罢了 详细看各个国模官网的用语
所以跑分没输过 这句话就是错误的 跑分也没赢过。。。

而且佬都说是自媒体了 自媒体的一些没有依据的东西能信嘛 :rofl:
而且御三家发新模型 营销号 自媒体不也一样嘛

↓ 跳到帖子
JasonGui
JasonGui
#62

我觉得这个主题开始不对头了,下面佬友的讨论是不是开始情绪化了
@neo

amoluo因为贴子主题本身就容易引发争议
1个回复
gopython3
gopython3

这几天我看骂gpt的也很多, 骂a\的也不少, 但不知道为什么帖子突然说只骂国模

JasonGui也许佬友看到了个主题认为骂过了
↓ 跳到帖子
Aumae
#63

我连用都不用deepseek,我能对ds有什么意见?且不说你先入为主的来判断我对ds有意见。我们来说一碗水端平的问题。你能端平所有的水吗?如果你不能,是否意味着你对不端平的就是有意见?劣币驱逐良币?赢下来的才是良币,比如你现在还在用的各种加码付费的会员制视频和音频平台。其他所谓的真正的小而美的,都倒了,那些已经成为历史的劣币了。

lexinxin对的,我就是有意见
1个回复
lexinxin
lexinxin 楼主

你到底是不是刚才那个被删的话题的人,话题肯定被删了,我找不到我发的内容

ZwOrion是另外的一个
TOPIC OWNER
↓ 跳到帖子
SudoTyper
SudoTyper
#64

大家都是抄来抄去,开发者都是挖来挖去,都是以结果为导向。我觉得现在处于一个,谁能先搞出一个别人搞不出来的model谁就是老大的阶段。

gopython3
gopython3 ↶ @JasonGui
#65

这几天我看骂gpt的也很多, 骂a\的也不少, 但不知道为什么帖子突然说只骂国模

JasonGui也许佬友看到了个主题认为骂过了
2个回复
preacher
preacher

好像涨价被刺用户的事情,厂商挺熟练。哈哈。

看L站佬友说过,不止一家

Donyzh
Donyzh

看楼主的意思好像是在dy上看到啥视频了吗 然后在论坛讨论了

↓ 跳到帖子
baicai1145
baicai1145 ↶ @JeremyGE
#66

18个月2w4个账号,每天3w个请求,随便一个中转站都没这么少。全篇都是推测,没任何直接证据

water_99
#67

这个指责和争论感觉没啥意义,从结果来看所有的模型都在蒸。从立场来看,对广大用户有意义的东西是效果和价格,至于有没有蒸馏,至少我完全不关心

:+1:1
JasonGui好用才是硬道理
amoluo
amoluo
#68

没有看懂楼主的观点
4.7opus蒸了GPT,社区里一大堆佬友吐槽的
a/给自己洗的时候,也没有看见有人说a/是对的
怎么到楼主口中就成了,社区里有时不时有人骂国模了,骂a除的反而是最多吧,毕竟天天用

:+1:1
gopython3天天都有骂GPT和A\的
我觉得就是引战Dee
1个回复
lexinxin
lexinxin 楼主

除了那次外还有其他骂吗,骂a只是因为把不说人话也蒸馏进去

TOPIC OWNER
↓ 跳到帖子
back
back
#69

都是互相蒸馏,底层数据是大众的,但是大众一分钱也拿不到,他们也白嫖,所以没必要计较那么多,谁能造福反馈大众就行,如果蒸馏完了高价收割甚至不让用就恶心了,参考claude,对这家公司没好感,凭什么特别针对我国,怕我国蒸馏你,你又何尝没蒸馏别人

preacher
#70

好像涨价被刺用户的事情,厂商挺熟练。哈哈。

看L站佬友说过,不止一家

TangYuan
#71

向他道歉干什么?这人明显有问题,总喜欢拿其它东西来扯,你这么容易走进别人的套路里面去的吗?

1个回复
xiaofanqie
xiaofanqie

好的佬,确实感觉这个佬有点强行往别的方面上扯的,他太激动了,不继续回他了

↓ 跳到帖子
canglang
#72

毕竟deepseek是目前还属于半科研机构,有自己从坚持和理想。就比如,deepseek可以在设置里关闭权限,使得聊天数据不被用于训练。

Jason
Jason
#73

看到刚刚那篇帖子了

他说:

通过蒸馏的模型,基本上幻觉率都很高,原理是模型不了解某些知识只能靠编,而真正靠数据集训练出来的模型是不需要靠编的

我准备评论,结果删帖了。。。

他前面很多论调都摆出了相关的文献证据,计算逻辑。

唯独这一句,关键的论调,他一笔带过,没有摆上任何证据。

然后我就去问了 Claude,得到下面的答案:

我觉得有人站出来喷蒸馏是没问题的(我个人是不care的,谁的好用,用谁的),但是这种偏见确实要自省一下。

:heart:1
lexinxin
lexinxin 楼主 ↶ @amoluo
#74

除了那次外还有其他骂吗,骂a只是因为把不说人话也蒸馏进去

1个回复
amoluo
amoluo

我看了一下之前站内发的贴子
事实上,当时的Claude一步绝尘,看起来不像是蒸馏方,这次不只是因为不说人话,而是蒸的太明显了
你也可以搜搜,之前a除控告几个国产大模型蒸馏自己的时候,相关贴子的讨论是怎么说的,a除犯病针对了很多次,我还没见到哪一次舆论是往a除那边倒的

↓ 跳到帖子
TOPIC OWNER
840814743
840814743
#75

这类人抨击的不只是国模
而且,也没必要太在意他们
你以为跟他们解释清楚天下乌鸦一般黑,他们就不会继续骂了吗?
并不会 :thinking:
因为蒸馏只是他们找的由头,他们既可以装作听不懂你的科普,也可以继续换个角度

beimiaomiao赞同
Donyzh
#76

看楼主的意思好像是在dy上看到啥视频了吗 然后在论坛讨论了

1个回复
lexinxin
lexinxin 楼主

话题被删了,我基于那个被删话题说的,我可不看抖音

Donyzh嗷嗷 我看你说谁在dy被怼
TOPIC OWNER
↓ 跳到帖子
Alan_Y
Alan_Y ↶ @
#77

如果再不和光同尘的话会被禁言的,可惜这个3级号了

Donyzh和光同尘是啥意思佬
lexinxin不会,攻击性强的才会
1个回复
Alan_Y
Alan_Y

@Donyzh “挫其锐,解其纷,和其光,同其尘” ————《道德经》

:+1:1
↓ 跳到帖子
lexinxin
lexinxin 楼主 ↶ @Aumae
#78

你到底是不是刚才那个被删的话题的人,话题肯定被删了,我找不到我发的内容

ZwOrion是另外的一个
TOPIC OWNER
lexinxin
lexinxin 楼主 ↶ @Donyzh
#79

话题被删了,我基于那个被删话题说的,我可不看抖音

Donyzh嗷嗷 我看你说谁在dy被怼
TOPIC OWNER
Alan_Y
#80

@Donyzh “挫其锐,解其纷,和其光,同其尘” ————《道德经》

:+1:1
zhdovelie
#81

啊 难道是我信息茧房了…
之前 A\在 X 上炮轰中国模型大规模蒸馏, 看面的回复全都是嘲讽A, 站队中国开源模型的.

指责蒸馏的不就主要是A\么

1个回复
Jaime_Lannister

反正我刷挺多软件,都有骂的,这种帖子两边都有见过。

↓ 跳到帖子
840814743
840814743
#82

你要先认清一点
他们并不是基于事实来表达观点,而是出于自身的立场
对于这种只是为了表达立场的人来说,他们听不进去你的任何内容,他们只会看到
你不认同我,所以你就是我的对立方

跟值得沟通的人交流吧,别把情绪浪费在这些人身上

mantong
mantong
#83

妈耶,A\孝子竟然这么多的吗……吓死个人了

xiaofanqie
xiaofanqie ↶ @TangYuan
#84

好的佬,确实感觉这个佬有点强行往别的方面上扯的,他太激动了,不继续回他了

whitecode
whitecode
#85

第一:蒸馏是一个标准技术
第二:合成数据也是一个标准技术
第三:早在去年的人类数据集就已经告警不足,开始出现大量AI生成的数据集,所以只要用到大量数据集,必然都属于蒸馏
第四:商业化产品,数据本身的所有权到底是谁?如果是使用者本身,我拿我自己消费的数据干什么,为什么要受到限制。

Jaime_Lannister
#86

l站评论区也开始刷怪了吗?大部分评论都还算在讨论范围吧,少数评论又开始大扣帽子,粗暴的发泄情绪。

amoluo
#87

我看了一下之前站内发的贴子
事实上,当时的Claude一步绝尘,看起来不像是蒸馏方,这次不只是因为不说人话,而是蒸的太明显了
你也可以搜搜,之前a除控告几个国产大模型蒸馏自己的时候,相关贴子的讨论是怎么说的,a除犯病针对了很多次,我还没见到哪一次舆论是往a除那边倒的

1个回复
lexinxin
lexinxin 楼主

那是官方控告,而不是用户,我这里针对用户。官方我都懒得鸟,就a\那个反华言论,我随便官方说

TOPIC OWNER
↓ 跳到帖子
lueluelue
lueluelue ↶ @pangbo
#88
  1. 数量呢
  2. 他蒸馏,我不获利啊
  3. 我违反协议,你也可以谴责我啊,我白嫖,难道还要站着白嫖?
:laughing:3
Jaime_Lannister ↶ @zhdovelie
#89

反正我刷挺多软件,都有骂的,这种帖子两边都有见过。

nimabibi
nimabibi
#90

管你这家那家,消费者当然选的是性价比才是王道

1个回复
Jaime_Lannister

是。网上骂这骂那,喊打喊杀的,真落到实处还是看价格、模型能力、易用性才是真。

↓ 跳到帖子
jcc
#91

嘴上都在骂对方蒸自己。但是手上并没有停止研究怎么蒸的比对方更好

蒸馏是很重要的技术,谁做的不好,谁就会掉队

Jaime_Lannister ↶ @nimabibi
#92

是。网上骂这骂那,喊打喊杀的,真落到实处还是看价格、模型能力、易用性才是真。

lexinxin
lexinxin 楼主 ↶ @amoluo
#93

那是官方控告,而不是用户,我这里针对用户。官方我都懒得鸟,就a\那个反华言论,我随便官方说

1个回复
amoluo
amoluo

我的意思是站里的佬友不存在因为国外模型就偏袒什么的,因为实在没什么好说的
gemini蒸了?GPT蒸了?还是grok蒸了?目前就只有4.7opus能一眼蒸了,你再怎么骂也只能说偷数据,挖它的黑历史,4.7opus出来之前没有一个人说a除蒸馏,不代表他没蒸,而是看不出来蒸谁了

lexinxingrok蒸了,创始人亲口说
↓ 跳到帖子
TOPIC OWNER
amoluo
#94

我的意思是站里的佬友不存在因为国外模型就偏袒什么的,因为实在没什么好说的
gemini蒸了?GPT蒸了?还是grok蒸了?目前就只有4.7opus能一眼蒸了,你再怎么骂也只能说偷数据,挖它的黑历史,4.7opus出来之前没有一个人说a除蒸馏,不代表他没蒸,而是看不出来蒸谁了

lexinxingrok蒸了,创始人亲口说
blacsheep
blacsheep
#95

个人理解: 数据有限的情况, 模型怎么设计, 碰到训练中的各种问题如何处理, 这些是真正对开源有贡献并且推动科技发展的. deepseek的效果可能不是那么顶尖, 但是每一次ds出东西都是实实在在解决了问题, 所以我个人一直是比较粉deepseek的.

蒸馏这个就不太一样了, 蒸馏一上来就是我直接向国外的模型低头, 我套你的数据, 我打不过你, 但是我可以打过国内其他的开源模型, 从而积累优势. 我不去解决模型训练里面的各种问题, 我只要能抱大腿把国内其他模型按下去, 我就赢了.

如果大家都这样, 时间一长, 国内真正做技术的公司肯定会受影响, 比如dsv4出来就会有人说效果不尽人意, 从这个角度讲, 这何尝不是劣币驱逐良币呢?

叠甲: 这些都是我个人的想法, 实际情况肯定会存在各种信息差, 这种就不太好讨论了.

2个回复
jcc

蒸馏不是低头。。。这个技术是个好技术,算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段

谁搞不好这个技术,谁就要落后

所以,你能看到,claude和gpt现在也都在大规模的搞蒸馏

WenDavid

实际上应该说的是合成像是冷启动的思维链()

蒸馏也是要技术的呐,特别是Scaling之后,那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了

做技术来讲,在infra上面动刀肯定是对的,好比ds v4提高训练和推理的效率,降低推理的成本

但是相对的,难道整理数据集和训练的时候使用各种技术难道就不是一种技术了?架构上创新,你Post Training上创新难道不是创新了?模型架构的高效性也是需要具体的体现的,这本身也不是什么冲突的东西啊()

是的,不过实际上国模从开源的情况来看,还是未公开的部分里面的trick更多一些。据我的印象来看,智谱比较擅长Agent相关的后训练,不过相关的后训练的细节感觉公开的比较少()

↓ 跳到帖子
#96

蒸馏不是低头。。。这个技术是个好技术,算是合成数据的一个重要的方向。。。是提升模型能力的一个重要手段

谁搞不好这个技术,谁就要落后

所以,你能看到,claude和gpt现在也都在大规模的搞蒸馏

1个回复
blacsheep
blacsheep

有用当然有用, 但是我理解的话, 纯做蒸馏对模型提升应该还是比较有限的. 你加强A这个部分的数据, 可能B这个部分就不行了. 不是说数据不重要, 而是说算法,模型架构,模型训练这些硬核的东西同样重要, 想做模型基座但又把大部分精力放到蒸馏上, 到头来只能落一个跑分没输过性能没赢过的称号.

↓ 跳到帖子
blacksein
blacksein ↶ @sss
#97

实际跑分也没赢过御三家。。。只是接近 缩小差距罢了 详细看各个国模官网的用语
所以跑分没输过 这句话就是错误的 跑分也没赢过。。。

而且佬都说是自媒体了 自媒体的一些没有依据的东西能信嘛 :rofl:
而且御三家发新模型 营销号 自媒体不也一样嘛

blacsheep
blacsheep ↶ @jcc
#98

有用当然有用, 但是我理解的话, 纯做蒸馏对模型提升应该还是比较有限的. 你加强A这个部分的数据, 可能B这个部分就不行了. 不是说数据不重要, 而是说算法,模型架构,模型训练这些硬核的东西同样重要, 想做模型基座但又把大部分精力放到蒸馏上, 到头来只能落一个跑分没输过性能没赢过的称号.

1个回复
jcc

所以,蒸馏不是那么简单的

确切的说,大家在搞的应该叫做合成数据,而不是蒸馏

核心就在于取长补短

用过glm-5.1的人,应该都能感受到,好的合成数据手段,对于体验的提升是很大的。

↓ 跳到帖子
claer_mo
claer_mo
#99

无感,大家都是互相蒸馏的,要不要哪来的那么多信息资源,版权费都付了?如果你有道德洁癖就不用蒸馏的模型呗,你看看还能剩下不

#100

所以,蒸馏不是那么简单的

确切的说,大家在搞的应该叫做合成数据,而不是蒸馏

核心就在于取长补短

用过glm-5.1的人,应该都能感受到,好的合成数据手段,对于体验的提升是很大的。

#101

实际上应该说的是合成像是冷启动的思维链()

蒸馏也是要技术的呐,特别是Scaling之后,那你差不多大小的模型可能本身Post Training之后得到的解就收敛到用其他模型合成的思维链的分布里面了

做技术来讲,在infra上面动刀肯定是对的,好比ds v4提高训练和推理的效率,降低推理的成本

但是相对的,难道整理数据集和训练的时候使用各种技术难道就不是一种技术了?架构上创新,你Post Training上创新难道不是创新了?模型架构的高效性也是需要具体的体现的,这本身也不是什么冲突的东西啊()

是的,不过实际上国模从开源的情况来看,还是未公开的部分里面的trick更多一些。据我的印象来看,智谱比较擅长Agent相关的后训练,不过相关的后训练的细节感觉公开的比较少()