0 条精彩讨论
核心诉求:我的 Mac(M1, 16GB)需要运行一个本地 AI 应用。由于本地算力无法承载大模型,因此应用对输出结果的绝对准确性要求不高,但将隐私安全置于首位,可接受较高的 Token 消耗。延迟方面,考虑到本地硬件的限制,预计体验与云端相差不大。
brew 安装的版本通常默认开启了 Metal 优化。 99 代表尝试将所有层都放入 GPU,这样生成速度会起飞。bashbrew install huggingface-cli
使用 Hugging Face CLI 可以更方便地从 huggingface.co(模型界的 GitHub)下载和管理模型。
目标:在 16GB 统一内存的 M1 Mac 上运行。
甜点区间:参数量在 7B 以下的模型。
模型格式:在 Mac 上认准 MLX 格式(最快)或 GGUF 格式(最通用)。
量化 (Quantization): 务必使用 4-bit 或 Q4_K_M 格式的模型。这能将模型大小压缩至 3-4GB,在精度损失极小的前提下,确保模型能在你的设备上流畅运行。
rust还是python
本地小模型在“实用上下文长度”上,与云端大模型存在本质差异。
| 特性 | 云端大模型 (如 Claude 3.5 / Gemini 1.5) | 本地小模型 (在 Mac 上运行) |
|---|---|---|
| 理论上限 | 200k (Claude) / 2M (Gemini) | 通常为 32k - 128k |
| 内存压力 | 由成千上万颗 H100 GPU 集群承担 | 完全占用你的 Mac 统一内存 |
| 推理速度 | 几乎恒定(由云端负载平衡) | 随 Token 增加呈指数级变慢 |
| 准确度 | 经过长文本特殊优化,抗“迷失”能力强 | 超过 8k-16k 后,准确度通常大幅下滑 |
| 根本瓶颈: |
Q:为什么编译 llama.cpp 报错,或者找不到编译器?
A: macOS 升级(如从 14 升到 15)常会把 CommandLineTools 搞成“半残状态”。
bash
# 彻底删除旧工具
sudo rm -rf /Library/Developer/CommandLineTools
# 重新触发安装弹窗
xcode-select --install