github.com
GitHub - u14app/gemini-next-chat: Deploy your private Gemini application for free...
Deploy your private Gemini application for free with one click, supporting Gemini 1.5, Gemini 2.0 models.
multimodal-live@2x1500×1330 72 KB
Gemini Next Chat 更新 v1.9.0,本次更新带来了强大的多模态直播功能,并对性能和文档进行了优化:
- 重磅推出:多模态直播!
- 支持 Gemini Multimodal Live API。注意:目前官方仅支持 gemini-2.0-flash-exp 模型。
- 语音模式升级: 将原语音模式重构为组件,并增加自动录音设置。
- 性能优化:
- 优化了Office文件解析代码,改为动态导入,减少落地页加载的文件数量。
- 将系统指令和附件区域组件改为动态加载,提升加载速度。
- 移除了 store 中的早期兼容代码。
- 文档更新:
- 改进了文档内容,并添加了新的路线图(Roadmap)。
- 新增了多模态直播 API 常见问题解答。
- 新增了使用 Cloudflare Worker 代理的多模态直播 API 文档。
- Bug修复:
- 调整 defaultValue 为 value,防止表单状态被缓存。
- 构建调整: 调整了 wrangler.toml 配置。
Gemini Multimodal Live API 相关的代码逻辑早在一个多月前就已经写好,迟迟不推送相关更新主要是在等官方支持中文语音以及推出更完善的 API。由于官方接口限制,目前不支持服务端代理,需要使用 apikey,如果需要代理,请参阅 使用 Cloudflare Worker 代理 Multimodal Live API
虽然不是最早实现 Gemini Multimodal Live 的项目,但可能是目前最好用的实现版本。