SmallThinker — LLM нового поколения для локального запуска
Представьте, что полноценная «большая» языковая модель может работать прямо на вашем ноутбуке без бешеных затрат на облако. Звучит невероятно? Знакомьтесь с SmallThinker — семейством LLM, созданных с нуля для экономного и эффективного локального использования.
Вместо того чтобы сжимать громоздкие облачные модели, разработчики проектируют SmallThinker, учитывая слабые CPU, ограниченную память и медленный диск. Первое ключевое решение — двухуровневая разреженная структура: тонконастроенный Mixture-of-Experts (MoE) внутри и разреженные FFN, что снижает нагрузку на вычисления без потери мощности.
Но и это ещё не всё. Чтобы обойти «узкое горло» хранения, внутри движка предусмотрен предаутентификационный маршрутизатор: во время расчёта внимания система заранее подгружает параметры экспертов, маскируя задержки чтения с диска. А для экономии памяти используется гибридный механизм NoPE-RoPE, который сокращает объём кеша ключей и значений.
В итоге младшая версия SmallThinker (4 млрд параметров) при квантизации Q4_0 выдаёт свыше 20 токенов в секунду на обычном процессоре, потребляя около 1 ГБ ОЗУ. Более крупная модель (21 млрд параметров) работает на том же CPU со скоростью свыше 20 токенов/с и укладывается в 8 ГБ памяти. Никаких дорогих GPU не требуется!
SmallThinker уже доступен для скачивания и экспериментов: версии для инструкционных задач выложены на Hugging Face. Готовы ли вы испытать ИИ нового уровня прямо на своём устройстве?
