炫到爆炸!HuggingGPT在线演示惊艳亮相,网友亲测图像生成绝了
新智元报道
新智元报道
【新智元导读】浙大&微软推出的HuggingGPT爆火之后,刚刚开放了demo,急不可待的网友自己上手体验了一番。
最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了。
前段时间,浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。
研究者提出了用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,完成多模态复杂任务。
整个过程,只需要做的是:用自然语言将你的需求输出。
英伟达科学家称,这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」,即万物皆App,被AI直接读取信息。
上手体验
现在,HuggingGPT增加了Gradio演示。
项目地址:https://github.com/microsoft/JARVIS
有网友便上手体验了一番,先来「识别图上有几个人」?
HuggingGPT根据推理结果,得出图片中有2个人正在街道上行走。
具体过程如下:
首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述,生成的文本「2个女人在有火车的街道上行走」。
接着,使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体,2个人。
再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后,系统提供了详细的响应和用于解答问题的模型信息。
另外,让它理解「我爱你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。
HuggingGPT调用了以下模型:
首先,使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。
然后,使用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。
在推理结果中没有生成的图片、音频或视频文件。
转录MP3文件时,HuggingGPT却失败了。网友表示,「不确定这是否是我的输入文件的问题。」
贾维斯照进现实
因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。
请生成一个女孩正在看书的图片,她的姿势与example.jpg中的男孩相同。然后请用你的声音描述新图片。
网友热评
https://twitter.com/1littlecoder/status/1644466883813408768
https://www.youtube.com/watch?v=3_5FRLYS-2A
https://huggingface.co/spaces/microsoft/HuggingGPT
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平总书记这样寄语当代青年 4904678
- 2 14岁男孩当伴郎遇班主任伴娘 4999584
- 3 武汉90后温柔女交警回应走红 4875471
- 4 “假日经济”持续升温 4753431
- 5 高速公路惊现“老头乐” 车速仅60码 4633080
- 6 长沙一派出所不提倡抱头蹲下拍照 4566044
- 7 陕西一男子花62元买彩票中1.48亿元 4483324
- 8 前NBA球员莫里斯去世 4387710
- 9 每天只需睡2小时说法不靠谱 4293689
- 10 90后自媒体创业2天入账74万 4135700