上班时间请勿打开,158万张鉴黄图片数据集来喽~

作者 | 琥珀
出品 | AI科技大本营(ID:rgznai100)
前方高能预警,非战斗人士请火速撤离……
今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。
项目地址:
https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:
159个 不同的类别
158.9331 万个 URL
下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像
以下为项目中图片截图示例:

注意事项:
1. 建议下载后清洗下数据集,例如:
删除重复图片
移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)
找出损坏的数据并将其删除
2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。
3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。
值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。
项目地址:
https://github.com/alexkimxyz/nsfw_data_scrapper
(本文为AI科技大本营原创文章,转载请微信联系 1092722531)

推荐阅读:
? ? ? ? ? ? ? ? ? ? ? ? ?
点击“阅读原文”,打开CSDN?APP?阅读更贴心。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675








AI100
