![loading..](https://imgstor.waynecommand.com/img/gpt-faster-inference.png)
![loading..](https://imgstor.waynecommand.com/img/gpt-faster-inference.png)
GPT 量化加速推理的几个方案
GPT 量化加速推理的几个方案越来越多的开源优质模型,我们的选择也越来越多了,模型的质量上去了,硬件的要求更高了。 在我们有限的硬件条件下,甚至,在一些便携设备下,运行 LLM 几乎不可用。但是还是有些办法的:量化加速,CUDA,Vulcan,Metal,等。 量化加速通常会把LLM的 30G+ 的文件,处理到 10G以下。有一个通用标准:GGUF,单文件,可以让整个过程更轻松。 量化加速方案 我目前推荐4种: llama.cpp (支持的很多,HF上的GGUF能直接用的也有很多) MLC-LLM(有自己的特定格式,但HF有自己能直接用的模型库,预构建的二进制文件安装很友好) chatglm.cpp(ChatGLM的量化方案,对于国内的语言环境比较友好,但是缺点很严重) LM Studio(桌面版安装,哪..
更多![loading..](https://imgstor.waynecommand.com/img/Server-Sent-Events.jpeg)
![loading..](https://imgstor.waynecommand.com/img/Server-Sent-Events.jpeg)
SSE 和 NDJSON
背景最近再折腾GPT的时候, 遇到流式的响应,总是感觉有点怪怪的,但是又很好,解析了一下,发现竟然是标准化更广的一种协议。 Server-Sent Eventsdata: {"id":"id-1720428652482","object":"chat.completion.chunk","created":1720428652,"model":"gemma-7b-it","choices":[{"delta":{"content":"。"}}..
更多![loading..](https://imgstor.waynecommand.com/img/codespaces-ga-individuals-a3d930da2750.jpg)
![loading..](https://imgstor.waynecommand.com/img/codespaces-ga-individuals-a3d930da2750.jpg)
Github Codespaces 和 远程开发
GitHub CodespacesCodespaces 可以使用基于云服务的资源,并且免去了环境搭建,配置不平衡的问题。 对于我来讲,在公司用 MacBook,在家用 Windows,两套环境不统一,且项目的存放位置不一样,这给我开发一些小项目的时候带来了很多麻烦。 VS Code最优解仍然是 VS Code,和 Github 集成是最好的。但是也会有个问题,VS Code 并不适用于纯静态语言和复杂的依赖结构,比如 Java,Go 等等。 但是对于 脚本类型的非常合适,比如 python,shell,js 等等。 尤其是 Github Codespaces 集成了那么多的开发环境,开箱即用,真的是美到不行, Jetbrains Gateway对于大型项目来讲,还得是 Jetbrains 的产品好,一般来讲..
更多![loading..](https://imgstor.waynecommand.com/img/fido2.jpg)
![loading..](https://imgstor.waynecommand.com/img/fido2.jpg)
FIDO 2
FIDO 2FIDO 2 是我很早就想搞得一个事情,但是相关的东西生态太少了,所以优先级不高,但最近折腾了几个东西,让我觉得 还是有搞头的。 安全性和便利性都兼得的一种办法。这个就是未来。 概念FIDO2Fast IDentity Online(线上快速身份验证)的缩写,或称 FIDO 联盟。该联盟主要致力于构建安全、开放、防网络钓鱼的无密码身份验证标准。 包括通用认证框架 UAF(Universal Authentication Framework)、通用第二因素认证标准 U2F(Universal 2nd Factor) 以及 FIDO2。 当说到使用 “FIDO” 时,通常是指使用这三种协议中的任何一种,因为从概念的角度来看,这三者基本一致,只是结构有所区别(UAF——TLV,U2F——RAW,FID..
更多![loading..](https://imgstor.waynecommand.com/img/home-assistant.png)
![loading..](https://imgstor.waynecommand.com/img/home-assistant.png)
Home Assistant
Home Assistant之前一直觉得 Home Assistant 有些过于复杂了,是因为我一直一直都用某一个生态圈的东西,比如用小米的就用小米的全套,用 Aqara 就是全套。 那如果各种不一样的品牌组合来用呢?这就变得很复杂了。 但是 Home Assistant 本身是支持各种生态圈的,所以你只要安装好 Home Assistant,然后把各种生态圈的组件都安装好,然后配置好,就可以使用了。 安装Linux推荐使用 Docker 安装, 这样就不用考虑各种Python依赖了。反正都是不能安装插件的。 如果你有虚拟机环境,官方提供的有操作系统。 version: '3' services: homeassistant: container_name: homeassist..
更多![loading..](https://imgstor.waynecommand.com/img/great-tools-VSC Microsoft WSL.png)
![loading..](https://imgstor.waynecommand.com/img/great-tools-VSC Microsoft WSL.png)
好用的工具和插件
好用的工具和插件这是一期主要分享工具和插件,也是第一期做这个,简单稍微写一下。 本期所有插件 完全免费 VS CodeMicrosoft WSL & Remote SSH https://marketplace.visualstudio.com/items?itemName=ms-vscode-remote.remote-ssh Remote SSH 就不用讲了,远程开发的同学 相比直呼牛x,那么就稍微讲一下 WSL。 在 windows 中 WSL 现在几乎是开发必备的一个东西了,可以和window无缝集成,而且 可以使用 最轻便的 Linux,而且,窗口化 可以透过 VNC 协议,直接在 windows 中渲染,现在的微软,简直是 Linux 最强开发者。 那么 从 windows 中,连接..
更多![loading..](https://imgstor.waynecommand.com/img/jsonrpc-1000x500.png)
![loading..](https://imgstor.waynecommand.com/img/jsonrpc-1000x500.png)
JSON RPC
JSON RPC偶然在 aria2 上看到了这个协议,平时我们都是用json来交换数据的,那么json RPC 是什么。 无状态且轻量级的远程过程调用(RPC)传送协议,其传递内容透过 JSON 为主。 相较于一般的 REST 透过网址(如 GET /user)调用远程服务器,JSON-RPC 直接在内容中定义了欲调用的函数名称(如 {“method”: “getUser”}), 这也令开发者不会陷于该使用 PUT 或者 PATCH 的问题之中。 我的看法目前国内行业中普遍都是采用特别偷懒或不合理的做法 请求全部使用 POST 响应 永远都是 HTTP 200 响应体里 一定要包装一层,而且有自己的错误码(好像也没人看/维护这个错误码) 在我看完 Json RPC 之后,我的评价是..
更多![loading..](https://imgstor.waynecommand.com/img/openai-white.png.webp)
![loading..](https://imgstor.waynecommand.com/img/openai-white.png.webp)
GPT Open API
私有 AI 和 OpenAI 兼容的 API现在很多私有化部署的 GPT 正在逐渐变多,且 运算方法在不断的更新,优化也越来越好,使得在笔电上跑一个 GPT 都已经不是问题了。 所以还是有必要记录一下我搭建的私有GPT和对外开放API的坑的。 私有 GPT方式方法软件都有很多: ChatGLM LM Studio GPT4All ….. OpenAI 的 API 文档: https://platform.openai.com/docs/api-reference/chat/create ChatGLM(chatglm.cpp) https://github.com/li-plus/chatglm.cpp 这是一个 c++ 实现的 ChatGLM,效率非常惊人,运行中占用的资源极低。 但是如果想要运行 ..
更多![loading..](https://imgstor.waynecommand.com/img/what-is-an-ip-address-image-min-820x460.png)
![loading..](https://imgstor.waynecommand.com/img/what-is-an-ip-address-image-min-820x460.png)
IP Echo
自己部署一个查看公网 IP 的服务之前一直都是使用的别人的 API 来去天气的当前地点,后来那个 API 挂了,导致我没这个数据了 其他的 要么做的太小 不能保证服务可用性,要么有CORS策略,web 嵌入是做不了的 另外 就是想通过最简单的 api,来快速获取IP。 所以干脆自己整一个吧。 MaxmindMaxmind 可以提供 GeoIP® data,算是一家独大的了 而且 Free plan 已经足够大多数场景使用了 数据也很准确 但使用其产品还是有些限制的,需要申请 license,文件数据更新也是个问题。 所以还是只能再调用在线的 API 了,好在足够使用。 接来下,就要想一下,高可用的服务 建设在哪里了。 Cloudflare Worker想了一下,即可以免费使用 又可以保证服务可用性的,而且还..
更多![loading..](https://imgstor.waynecommand.com/img/docusaurus-pages.png)
![loading..](https://imgstor.waynecommand.com/img/docusaurus-pages.png)
Docusaurus Pages
用 Docusaurus 做了导航站之前一直都是用 docsify 做的 wiki 和导航站点,但是排版和分类还是不够好,于是就又开始再折腾一份。 DocusaurusDocusaurus 是基于 React 开发的,而且可以提供原生的 React 编写,这样大大增强了可玩性,比如我可以把主页定制的非常华丽, 在我的定制主页里,我用了几个插件来美化: starback:^2.1.4 typewriter-effect:^2.19.0 starback用来展示炫酷的 流星效果 这个参数是我用起来感觉特别好看的: useEffect(() => { const starback = new Starback("#canvas", { wi..
更多