純c#運(yùn)行開源本地大模型Mixtral-8x7B
當(dāng)前位置:點(diǎn)晴教程→知識(shí)管理交流
→『 技術(shù)文檔交流 』
先看效果圖,這是一個(gè)比較典型的邏輯推理問題,以下是本地運(yùn)行的模型和openai gpt3.5的推理對(duì)比 本地運(yùn)行Mixtral-8x7B大模型: chatgpt3.5的回答: 關(guān)于Mixtral 8x7B這個(gè)就不多介紹了,但凡在關(guān)注開源大模型的朋友應(yīng)該知道這個(gè)模型是目前市場(chǎng)上最具競(jìng)爭(zhēng)力的開源大型模型之一,其能力水平在多項(xiàng)任務(wù)中都有可以和gpt3.5打的有來有回,今天主要聊聊使用c#如何本地化部署實(shí)踐 整個(gè)模型部署其實(shí)相對(duì)已經(jīng)比較簡(jiǎn)單了,其核心是采用了llama.cpp這個(gè)項(xiàng)目,這個(gè)項(xiàng)目是用 ggml(一個(gè)用 c++ 開發(fā)的一個(gè)機(jī)器學(xué)習(xí)的張量庫)寫的一個(gè)推理 LLaMA 的 demo,隨著項(xiàng)目持續(xù)火爆吸引了大量沒有昂貴GPU 的玩家,成為了在消費(fèi)級(jí)硬件上玩大模型的首選。而今天我們要用到的項(xiàng)目就是依賴llama.cpp的c#封裝實(shí)現(xiàn)的nuget包LLamaSharp,地址(https://github.com/SciSharp/LLamaSharp)?;谒鼘?duì)llama.cpp的c#封裝從而完成本機(jī)純c#部署大模型的實(shí)現(xiàn)。通過LLamaSharp既可以使用cpu進(jìn)行推理,如果你有30系以上的N卡,也可以使用它的LLamaSharp.Backend.Cuda11或者Cuda12進(jìn)行推理,當(dāng)然其效果肯定相比純CPU推理速度更快。 整個(gè)項(xiàng)目我已經(jīng)放到github上了,有興趣的同學(xué)可以自?。篽ttps://github.com/sd797994/LocalChatForLlama 另外關(guān)于模型格式說一下,當(dāng)前使用llama.cpp主要通過gguf格式加載,這是一種專門面向llama.cpp的格式,可以通過huggingface搜索:https://huggingface.co/models?search=gguf。而我目前使用的是Nous-Hermes基于Mixtral-8x7B微調(diào)的版本,它的repo如下:https://huggingface.co/TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-GGUF/tree/main 據(jù)說Nous-Hermes微調(diào)版本的性能略好于Mixtral-8x7B。唯一需要注意的是如果不是使用我推薦的模型,index.cshtml這里需要根據(jù)模型的實(shí)際輸出硬編碼成對(duì)應(yīng)的字段: 最后的Tips:由于模型確實(shí)比較大,在純CPU模式下如果內(nèi)存不太夠(一般16G)的情況下推理很緩慢,一分鐘可能也就能輸出幾個(gè)字。建議上較大內(nèi)存的純CPU推理或者使用NVIDIA的顯卡安裝對(duì)應(yīng)的CUDA環(huán)境后基于CUDA推理,整個(gè)效果會(huì)快很多。 作者:a1010 轉(zhuǎn)自:https://www.cnblogs.com/gmmy/p/17989497 該文章在 2024/1/27 17:49:29 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |