AI模型开源/闭源/蒸馏/套壳
现在AI 训练,在互联网上有很多数据可以使用,但是实际数据中,有正确的,错误的。实际没有那么多的资源语料。于是就有了蒸馏,套壳。
在说蒸馏和套壳前,我们先看一下开源和闭源。
很简单,开源就是将数据训练的结果,也就是模型(词权重的向量集),公开出来,让大家免费使用。
闭源: 自己训练出来,仅仅公开接口,通过接口调用。
哪蒸馏呢,常规的是,将一个训练后的大模型,进行缩小,比如原来32B个参数,缩小到8B个参数。
还有一种,是用开源的内容,拿开源的训练关系数据,再训练或者增加数据训练,形成新的模型。或者形成级联模型。或者相互使用数据进行训练。
套壳,使用开源模型,说是自己的。或者直接通过API直接说是自己的模型。