llama.cpphttps://github.com/ggerganov/llama.cppInference of LLaMA model in pure C/C++ 推論処理がC++で実装されている量子化(Quantisation) 強いGPUを積んでいないマシンでも動かせるようになる MacBookでの推論も可能になる 適切なサイズのモデルであればRaspberry Pi 4Bでも動いた