Wayne's blog

归档 · 全部

首页

关于

归档

好友们

loading..
LLMllamagpt

GPT 量化加速推理的几个方案

GPT 量化加速推理的几个方案越来越多的开源优质模型,我们的选择也越来越多了,模型的质量上去了,硬件的要求更高了。 在我们有限的硬件条件下,甚至,在一些便携设备下,运行 LLM 几乎不可用。但是还是有些办法的:量化加速,CUDA,Vulcan,Metal,等。 量化加速通常会把LLM的 30G+ 的文件,处理到 10G以下。有一个通用标准:GGUF,单文件,可以让整个过程更轻松。 量化加速方案 我目前推荐4种: llama.cpp (支持的很多,HF上的GGUF能直接用的也有很多) MLC-LLM(有自己的特定格式,但HF有自己能直接用的模型库,预构建的二进制文件安装很友好) chatglm.cpp(ChatGLM的量化方案,对于国内的语言环境比较友好,但是缺点很严重) LM Studio(桌面版安装,哪..

更多
loading..
spring

SSE 和 NDJSON

背景最近再折腾GPT的时候, 遇到流式的响应,总是感觉有点怪怪的,但是又很好,解析了一下,发现竟然是标准化更广的一种协议。 Server-Sent Eventsdata: {"id":"id-1720428652482","object":"chat.completion.chunk","created":1720428652,"model":"gemma-7b-it","choices":[{"delta":{"content":"。"}}..

更多
loading..
githubvscodejetbrains

Github Codespaces 和 远程开发

GitHub CodespacesCodespaces 可以使用基于云服务的资源,并且免去了环境搭建,配置不平衡的问题。 对于我来讲,在公司用 MacBook,在家用 Windows,两套环境不统一,且项目的存放位置不一样,这给我开发一些小项目的时候带来了很多麻烦。 VS Code最优解仍然是 VS Code,和 Github 集成是最好的。但是也会有个问题,VS Code 并不适用于纯静态语言和复杂的依赖结构,比如 Java,Go 等等。 但是对于 脚本类型的非常合适,比如 python,shell,js 等等。 尤其是 Github Codespaces 集成了那么多的开发环境,开箱即用,真的是美到不行, Jetbrains Gateway对于大型项目来讲,还得是 Jetbrains 的产品好,一般来讲..

更多
loading..
FIDO2WebAuthnPasskeyTPMSSH KeyWindows Hello

FIDO 2

FIDO 2FIDO 2 是我很早就想搞得一个事情,但是相关的东西生态太少了,所以优先级不高,但最近折腾了几个东西,让我觉得 还是有搞头的。 安全性和便利性都兼得的一种办法。这个就是未来。 概念FIDO2Fast IDentity Online(线上快速身份验证)的缩写,或称 FIDO 联盟。该联盟主要致力于构建安全、开放、防网络钓鱼的无密码身份验证标准。 包括通用认证框架 UAF(Universal Authentication Framework)、通用第二因素认证标准 U2F(Universal 2nd Factor) 以及 FIDO2。 当说到使用 “FIDO” 时,通常是指使用这三种协议中的任何一种,因为从概念的角度来看,这三者基本一致,只是结构有所区别(UAF——TLV,U2F——RAW,FID..

更多
loading..
dockerhomeassistant

Home Assistant

Home Assistant之前一直觉得 Home Assistant 有些过于复杂了,是因为我一直一直都用某一个生态圈的东西,比如用小米的就用小米的全套,用 Aqara 就是全套。 那如果各种不一样的品牌组合来用呢?这就变得很复杂了。 但是 Home Assistant 本身是支持各种生态圈的,所以你只要安装好 Home Assistant,然后把各种生态圈的组件都安装好,然后配置好,就可以使用了。 安装Linux推荐使用 Docker 安装, 这样就不用考虑各种Python依赖了。反正都是不能安装插件的。 如果你有虚拟机环境,官方提供的有操作系统。 version: '3' services: homeassistant: container_name: homeassist..

更多
loading..
GPTIDEAdatabaseDocker

好用的工具和插件

好用的工具和插件这是一期主要分享工具和插件,也是第一期做这个,简单稍微写一下。 本期所有插件 完全免费 VS CodeMicrosoft WSL & Remote SSH https://marketplace.visualstudio.com/items?itemName=ms-vscode-remote.remote-ssh Remote SSH 就不用讲了,远程开发的同学 相比直呼牛x,那么就稍微讲一下 WSL。 在 windows 中 WSL 现在几乎是开发必备的一个东西了,可以和window无缝集成,而且 可以使用 最轻便的 Linux,而且,窗口化 可以透过 VNC 协议,直接在 windows 中渲染,现在的微软,简直是 Linux 最强开发者。 那么 从 windows 中,连接..

更多
loading..
jsonrpc

JSON RPC

JSON RPC偶然在 aria2 上看到了这个协议,平时我们都是用json来交换数据的,那么json RPC 是什么。 无状态且轻量级的远程过程调用(RPC)传送协议,其传递内容透过 JSON 为主。 相较于一般的 REST 透过网址(如 GET /user)调用远程服务器,JSON-RPC 直接在内容中定义了欲调用的函数名称(如 {“method”: “getUser”}), 这也令开发者不会陷于该使用 PUT 或者 PATCH 的问题之中。 我的看法目前国内行业中普遍都是采用特别偷懒或不合理的做法 请求全部使用 POST 响应 永远都是 HTTP 200 响应体里 一定要包装一层,而且有自己的错误码(好像也没人看/维护这个错误码) 在我看完 Json RPC 之后,我的评价是..

更多
loading..
APIcloudflareAI

GPT Open API

私有 AI 和 OpenAI 兼容的 API现在很多私有化部署的 GPT 正在逐渐变多,且 运算方法在不断的更新,优化也越来越好,使得在笔电上跑一个 GPT 都已经不是问题了。 所以还是有必要记录一下我搭建的私有GPT和对外开放API的坑的。 私有 GPT方式方法软件都有很多: ChatGLM LM Studio GPT4All ….. OpenAI 的 API 文档: https://platform.openai.com/docs/api-reference/chat/create ChatGLM(chatglm.cpp) https://github.com/li-plus/chatglm.cpp 这是一个 c++ 实现的 ChatGLM,效率非常惊人,运行中占用的资源极低。 但是如果想要运行 ..

更多
loading..
nodejscloudflare

IP Echo

自己部署一个查看公网 IP 的服务之前一直都是使用的别人的 API 来去天气的当前地点,后来那个 API 挂了,导致我没这个数据了 其他的 要么做的太小 不能保证服务可用性,要么有CORS策略,web 嵌入是做不了的 另外 就是想通过最简单的 api,来快速获取IP。 所以干脆自己整一个吧。 MaxmindMaxmind 可以提供 GeoIP® data,算是一家独大的了 而且 Free plan 已经足够大多数场景使用了 数据也很准确 但使用其产品还是有些限制的,需要申请 license,文件数据更新也是个问题。 所以还是只能再调用在线的 API 了,好在足够使用。 接来下,就要想一下,高可用的服务 建设在哪里了。 Cloudflare Worker想了一下,即可以免费使用 又可以保证服务可用性的,而且还..

更多
loading..
programmingreactdocs

Docusaurus Pages

用 Docusaurus 做了导航站之前一直都是用 docsify 做的 wiki 和导航站点,但是排版和分类还是不够好,于是就又开始再折腾一份。 DocusaurusDocusaurus 是基于 React 开发的,而且可以提供原生的 React 编写,这样大大增强了可玩性,比如我可以把主页定制的非常华丽, 在我的定制主页里,我用了几个插件来美化: starback:^2.1.4 typewriter-effect:^2.19.0 starback用来展示炫酷的 流星效果 这个参数是我用起来感觉特别好看的: useEffect(() => { const starback = new Starback("#canvas", { wi..

更多
12314