
大家好,我是Echa。
今天是个好日子(2023年5月20)-520。春风十里,陌上花开,因为有你们,一切浅笑安然 风景看透,人情薄凉,因为有你们,一切岁月静好。遇见你们,是瞬间的偶遇,却是小编我一生最值得炫耀的骄傲!
最近又有一部分热爱AI 开发的粉丝们私信小编,让小编我帮他们找一些关于AI 方面的开源项目。小编挖呀,挖呀;找呀,找呀。世上无难事,只怕有心人, 终于找到了7个热门的AI 开源项目。只要粉丝们喜欢,小编为大家效劳。下面小编带着大家一起看看
盘点10个AI黑科技开源项目
ChatGPT 工具大全
程序员必看的ChatGPT资源大全
中国版ChatGPT争夺战打响
盘点 10个惊艳的 ChatGPT 开源项目
全文大纲
- whisper 语音快速跟 ChatGPT 进行对话交流
- StableStudio AI 图像生成平台
- ImageBind 让模型可以横跨 6 种不同的模态(图像、文本、音频、深度、温度和 IMU 数据)进行联动交流
- MiniGPT-4 识图模型
- so-vits-svc 歌声音色转化的模型
- shap-e 一句话生成 3D 模型
- polyglot 一个开源的基于 AI 的口语训练平台客户端
whisper 语音快速跟 ChatGPT 进行对话交流
Github:https://github.com/openai/whisper

OpenAI ChatGPT iOS 客户端
就在昨天凌晨(2023年5月19号),OpenAI 正式发布了 iOS 客户端。这就意味大家可以直接用iPhone 和 iPad 上直接使用 ChatGPT 进行聊天了。
题外话不多说了,咱们进入主题聊底层技术如何实现的。小编私底下找了很久的资料,才找到了溯源技术在哪里。
OpenAI 发的这个iOS 客户端 是基于Whisper 开源模型,集成了语音转文本功能,让你可以通过语音快速跟 ChatGPT 进行对话交流演变而来的。
该模型支持将m4a、mp3、mp4、mpeg、mpga、wav、webm 等多种语言格式,转化为上百种不同国家和地区的文本语言,这其中自然也包括中文。
此前该项目一经发布,便在技术圈掀起了不小波澜。目前在 GitHub 累积已有 36.7K Star,增长速度颇为恐怖。
Whisper是一种通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。
千言万语,不如一张图:


Whisper 支持的语言包
transformer序列到序列模型被训练用于各种语音处理任务,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务被联合表示为将由解码器预测的令牌序列,从而允许单个模型取代传统语音处理流水线的许多阶段。多任务训练格式使用一组特殊的令牌作为任务指定器或分类目标。
StableStudio AI 图像生成平台
Github: https://github.com/Stability-AI/StableStudio

小编没记错的话,上个月(2023年4月19号)Stability AI 开源大语言模型 StableLM,模型的 Alpha 版本有 30 亿和 70 亿参数,并支持商用。
过去仅一个月,Stability AI 再次宣布,开放 AI 图像生成平台 StableStudio!真的是一个月放一次大招...
作为 DreamStudio 的开源版实现,StableStudio可在线完成 AI 图像生成、编辑、修复等工作。
未来还将加入 AI 聊天机器人、插件系统、桌面应用、WebGPU 本地推理、ControlNet 工具等新特性!

Stability AI 的创始人 Emad Mostaque 自 2020 年从 OpenAI 团队离开后,一直秉承着开源开放的理念,持续推出了多款 AI 开源模型。
其中影响力最广的,便有大家所熟知的文本生成图像模型 Stable Diffusion。
该项目的安装与使用也比较简单,下面讲下具体安装流程。
安装 & 使用
首先,克隆该项目到本地,并进入文件夹:
git clone https://github.com/Stability-AI/StableStudio.gitcd StableStudioyarnyarn dev
项目运行成功后,在网页访问地址(端口默认为 3000):localhost:3000
然后,你便能看到如下所示界面:



到这一步,证明项目已成功部署。
ImageBind 让模型可以横跨 6 种不同的模态(图像、文本、音频、深度、温度和 IMU 数据)进行联动交流
官网:https://imagebind.metademolab.com/
在线演示:https://imagebind.metademolab.com/demo
Github: https://github.com/facebookresearch/ImageBind

ImageBind 官网
MetaAI,这位在元宇宙和 Web 3.0 磕得头破血流的少年,如今却在 AIGC 领域挥起开源宝剑大杀四方!
仅在过去几个月,MetaAI 便在 GitHub 开源了诸多实用项目:
- - Segment Anything (SAM),可自动分割图片或视频中的所有物品,一键完成自动分割,并支持零样本转移到其他分割任务。
- - DINOv2,无需微调,通过自监督获取视觉特征,直接推动计算机视觉技术进展。
- - Animated Drawings,利用 AI 能力,快速给绘画作品添加动画效果。
诸如此类,多不胜数。
最近,Meta 又放大招,正式宣布开源 ImageBind,让模型可以横跨 6 种不同的模态(图像、文本、音频、深度、温度和 IMU 数据)进行联动交流!
这里放下扎克伯格前几天在 Facebook 上对外公布的一段视频,让你们直观感受下 ImageBind 的能力到底有多强:

AI 模型每增加一种模态能力支持,其能力都将会更接近于人类。
我们能看到繁华的街道、听到马路上的鸣笛声、感受炎炎夏日,无一例外都来自于人类与生俱来的感官能力。
听觉、嗅觉、味觉、视觉等能力,让我们可以更好的与这个世界进行交互。
如果要让 AI 的能力更逼近于人类,则需要我们给 AI 赋予更多的能力,让它可以更好的感知这个世界。
在以前,要在各个模态之间实现搜索关联,需要同时维护与训练多份数据。
现在有了 ImageBind,便可以直接从音频中生成图像,比如,给 AI 听一段海浪的声音,它便能直接生成大海的图像,这将节省极大的训练成本。
从界面看,AI 就像人类一样,能够开始根据声音,脑补出画面了。
更厉害的是,ImageBind 还内置了 3D 感知和 IMU 传感器,可用于测量加速度与旋转运动,让 AI 能够身临其境感受我们的物理世界变化。
另外,ImageBind 还提供了一种新型的记忆检索丰富方式,让 AI 可以直接使用文本、音频和图像的组合数据,直接搜索图片、视频、音频文件或文本消息。
通过这种方式,我们可以让以往的 AIGC 应用生成质量更高的内容。
比如将其应用于视频剪辑领域,AI 便能够根据我们给出的声音、图像、文本,直接搜索匹配度更高的视频片段,实现真正意义上的视频一键剪辑功能!
在传统 AI 系统中,每个模态都拥有特定的嵌入(数据及其在机器学习中的关系数字向量)。
这使得不同模态之间难以进行互动和检索,我们无法直接根据音频来准确检索出相关图像和视频。
但是,ImageBind 却能做到。它通过将六种模态的嵌入对齐到一个公共空间,实现跨模态检索。

现在借助 ImageBind,则可以做到直接通过声音来直接生成图像。这使得 AI 能够更加深入了解人类情感,理解他们的喜怒哀乐,进而为人类提供更好的服务。
同时,基于 ImageBind 的跨模态交流能力,其每一个模态能力的上升,也将带动另一个模态的进步,进而达到一种类似滚雪球的效果。

为了验证这一点,MetaAI 技术团队也做了基准测试,发现 ImageBind 在音频和深度方面要明显优于其它的专业模型,这源自于 AI 从其它模态吸收与总结的经验。
MiniGPT-4 识图模型
官网:https://minigpt-4.github.io/
Github: https://github.com/Vision-CAIR/MiniGPT-4

最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为GPT-4先进的多模式生成功能的主要原因在于使用了更先进的大型语言模型(LLM)。
为了研究这一现象,我们提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐。我们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。

此外,我们还观察到MiniGPT-4中的其他新兴功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。在我们的实验中,我们发现,只有对原始图像-文本对进行预训练,才能产生缺乏连贯性的非自然语言输出,包括重复和碎片句子。为了解决这个问题,我们在第二阶段策划了一个高质量、对齐良好的数据集,以使用对话模板微调我们的模型。事实证明,这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,我们的模型计算效率很高,因为我们只使用大约500万对对齐的图像-文本对来训练投影层。

特性
- MiniGPT-4仅使用一个投影层将BLIP-2的冻结视觉编码器与维库纳的冻结LLM对齐。
- 我们分两个阶段训练MiniGPT-4。第一个传统的预训练阶段使用4个A100在10小时内使用大约500万对对齐的图像-文本对进行训练。在第一阶段之后,维库纳能够理解图像。但维库纳的发电能力受到了严重影响。
- 为了解决这个问题并提高可用性,我们提出了一种新的方法,通过模型本身和ChatGPT一起创建高质量的图像-文本对。在此基础上,我们创建了一个小的(总共3500对)但高质量的数据集。
- 第二个微调阶段是在对话模板中在此数据集上进行训练的,以显著提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段的计算效率很高,使用单个A100只需要大约7分钟。
- MiniGPT-4产生了许多新兴的视觉语言功能,类似于GPT-4中演示的功能。
so-vits-svc 歌声音色转化的模型
Github: https://github.com/svc-develop-team/so-vits-svc
歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN 解决断音问题

最近孙燕姿 AI 翻唱大火,通过 AI 可以让孙燕姿唱《发如雪》,而且没有任何违和感。达到如此惊艳的效果都依赖于一个开源项目 so-vits-svc,这是一个歌声音色转化的模型。

shap-e 一句话生成 3D 模型
Github: https://github.com/openai/shap-e
Shap-E 模型发布了,开源两周获得了 8.6K 的 Star。输入一段描述,就能生成一个 3D 模型。

polyglot 一个开源的基于 AI 的口语训练平台客户端
Github: https://github.com/liou666/polyglot
Polyglot 是一个开源的基于 AI 的口语训练平台客户端,可以在 Windows、Mac 上使用。
比如你想练习英语口语,只需在该平台配置一个虚拟的 AI 国外好友,你可以通过发语音的方式和 AI 好友交流,通过聊天的方式提升你的口语。

功能
- 多国语言口语练习 (
目前内置四个不同国家的AI人物,分别来自美国、日本、韩国和法国。后续将考虑增加更多的语种。)(内置了英语,其他语言现在支持自定义) - 智能语音合成(目前基于Azure TTS服务,后续考虑接入可以本地部署的语音模型)
- 智能对话功能(基于chatGPT服务)
- 支持暗黑模式
- 接入文字翻译功能
- 支持用户自定义语种和AI人物
- 用户自定义配置Azure key
- 自定义头像
- 语音识别支持快捷键操作(按住空格键开始语音识别,放开空格键结束语音识别)
- 支持用户配置自定义对话场景
- 自身语音支持回听
- 支持Azure openai api、claude api服务
使用方法
- 设置OpenAI Key(兼容api2d格式)
- 设置代理(非必须)
- 设置azure key
- 新建AI角色进行对话;
- 与AI人物进行对话练习口语。
本地启动
# 1.克隆本仓库;git clone https://github.com/liou666/polyglot.git# 2.安装依赖;cd polyglotpnpm install # 安装 electron 失败时尝试使用淘宝镜像源安装:# export ELECTRON_MIRROR=http://npm.taobao.org/mirrors/electron/ && pnpm i# 3. 根据注释提示配置相关的环境变量mv .env.example .env# 4. 启动服务pnpm dev
系统截图



最后
一台电脑,一个键盘,尽情挥洒智慧的人生;几行数字,几个字母,认真编写生活的美好;
一 个灵感,一段程序,推动科技进步,促进社会发展。
创作不易,喜欢的老铁们加个关注,点个赞,打个赏,后面会不定期更新干货和技术相关的资讯,速速收藏,谢谢!你们的一个小小举动就是对小编的认可,更是创作的动力。
评论留言