Será uma corrida de 486 Crysis? Não, claro que não. Ele executará um grande modelo de idioma (LLM)? Dada a enorme construção de poder de computação para fazer exatamente isso, muitas pessoas zombariam da própria noção. Mas [Yeo Kheng Meng] não são muitas pessoas.
Ele criou vários computadores do DOS para executar uma versão despojada do LLAMA 2 LLM, originalmente da Meta. Mais especificamente, [Yeo Kheng Meng] está implementando [Andreq Karpathy]Llama2.C Library, que já vimos aqui antes, executando no Home windows 98.
LLAMA2.C é um pouco maravilhoso de programação que permite que a inferência um modelo LLAMA2 treinado em apenas setecentos linhas de C. É setecentos linhas de linhas de moderno C, no entanto, por favor, para o DOS 6.22 e a arquitetura desatualizada do i386 levou um pouco. [Yeo Kheng Meng] documentos que funcionam e referenciam alguns retrocomputadores. Por mais doloroso que seja dizer – sim, um 486 ou um Pentium 1 agora pode ser contado como “retro”.
Os modelos não são grandes, é claro, com o modelo de 260 kb treinado em minúsculas, produzindo um tokens de 2,08 bolhas por segundo em uma caixa genérica 486. Máquinas mais recentes podem executar modelos maiores mais rapidamente, é claro. Ironicamente, um Pentium M ThinkPad T24 (foi isso realmente 21 anos atrás?) É capaz de executar um modelo maior de 110 MB mais rápido do que [Yeo Kheng Meng]Fashionable Ryzen 5 Desktop. Não porque o Pentium M está acelerando rapidamente, lembre -se, mas porque um erro de alocação de memória impediu que esse modelo fosse executado na CPU moderna. Parece que acaba lento e constante.
Esta porta será executada em qualquer {hardware} i386 de 32 bits, que deixa o regime de 16 bits como o próximo desafio. Se um de vocês pode receber um lhama 2 hospedado localmente em uma máquina 286 ou em uma 68000, então podemos parar de perguntar: “Isso é executado RUÍNA? ” E comece a perguntar “vai executar um LLM?”