INFO:
LLM推理(2):利用4张英特尔Arc A770推理32B大模型,速度突破到30 Token/s