AI模型开源/闭源/蒸馏/套壳

AI 2026-03-14 93

现在AI 训练，在互联网上有很多数据可以使用,但是实际数据中，有正确的，错误的。实际没有那么多的资源语料。于是就有了蒸馏，套壳。

在说蒸馏和套壳前，我们先看一下开源和闭源。

很简单,开源就是将数据训练的结果，也就是模型（词权重的向量集），公开出来，让大家免费使用。

闭源：自己训练出来，仅仅公开接口，通过接口调用。

哪蒸馏呢，常规的是，将一个训练后的大模型，进行缩小，比如原来32B个参数，缩小到8B个参数。

还有一种，是用开源的内容，拿开源的训练关系数据，再训练或者增加数据训练，形成新的模型。或者形成级联模型。或者相互使用数据进行训练。

套壳，使用开源模型，说是自己的。或者直接通过API直接说是自己的模型。