Get me outta here!

看海的狐狸的后花园

笨蛋,变态,萝莉控

菜单

跳至内容
  • 首页
  • 关于狐狸
  • 友情链接

Author Archives

看海的狐狸https://ccfox.info/

阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年

2023/04/19 by 看海的狐狸

0x01 语料之殇

八十万对六十万,优势在我!

——蒋介石,《大决战之淮海战役》,八一电影制片厂

一位国内AICG从业者向我表达了中文AICG的担忧,他们用于训练的中文语料非常稀缺,非常阻碍产品的开发进度。我们讨论的一致结论是:中文语料库,太脏了。

对话式AI模型的生产内容高度依赖语料数据,而互联网上公开的语料资源浩如繁星。当然这仅仅说的是英文语料。据W3Techs统计,截至2023年4月,互联网中文内容仅占全球数量的1.5%,低于英语的55.6%、俄语的5.0%、日语的3.6%、波斯语的1.8%,排名第12。2022年,中国互联网用户数达到了惊人的10亿之巨,占据全球互联网用户数47亿的22.7%,但仅仅生产了全球1.5%的公开中文语料。从语料生产率来看,我们甚至不如越南(约0.7亿网民生产了全球1.3%的公开越南语语料)。这究竟是为什么呢?

0x02 历史疑云

最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难与每个人息息相关。

——《流浪地球》旁白,中国电影股份有限公司等

时间拨回到2008年。2008年9月8日,一个70字节的robots.txt文件出现在了淘宝网根目录。淘宝网称为杜绝不良商家欺诈,将从robots文件层面屏蔽百度搜索。robots文件是一个基于互联网古典道德体系,但并非强制化要求的搜索引擎抓取协议。按照互联网古典道德要求,搜索引擎爬虫在爬取网站内容前,需要首先读取位于根目录下的robots.txt文件,若是发现文件中声明不允许某爬虫抓取,那么该爬虫将自动退出该网站。

淘宝网此举表面看是为了防止网络欺诈,但实际目的是为了建立流量壁垒,扶持自己的广告联盟。对于百度来说,被淘宝屏蔽则意味着失去了巨大的内容库。阿里巴巴应该能够预见,这一举动将正式打开潘多拉魔盒。自此事件之后,中国互联网企业之间的流量和内容长城愈加高筑,优质的语料资源被禁锢在一个个的robots.txt、反爬虫防火墙、私域APP之内。放在全球来看,其实我们很难想象Twitter禁止bing的爬虫,但在最初,其实没有人在意这场灾难。

淘宝和百度知道的robots.txt文件,截图于2023年4月

0x03 军阀时代

KNOW YOUR ИСТОРИЯ, OR BE DOOMED TO REPEAT IT.

要么以史为鉴,要么重蹈覆辙。

——《Call of Duty: Black Ops Cold War》宣传片字幕,Activision Publishing, Inc.

十五年后的现在,中国已经建立了互联网上最大的多寡头竞争形态,彼此之间在流量和内容上的封锁剑拔弩张。截至现在,不仅仅是淘宝、抖音、快手、朋友圈、公众号,甚至百度亦成为恶龙,将自己的内容谨慎呵护。百年之前的闭关锁国似乎并没有警示后人,当AICG开始爆炸性提升后,问题便突然显现。

中文内容的数量和质量直接决定了AIGC服务最终的生成结果的准确性。但由于各大内容平台之间的隔离,导致了中文公开内容的碎片化和重复化,使得AICG服务无法获取到全面和丰富的信息,从而影响了其效率和效果。每一家AIGC企业都在渴望优质的中文语料资源,但每一家AIGC企业都在担心开放会威胁到现有的利益格局和秩序。这就好比是互联网下的黑暗森林,谁也不敢越雷池一步,因为谁也无法确定世界线究竟是走向全体共荣或者风中残烛。

此外,基于现有中文语料的AIGC已经开始在中文工作圈内大量实践。可想而知,低质的中文语料带来了低质的AIGC创作内容,而这些低质的AIGC创作内容将会在互联网上对本已低质的中文语料进一步污染。这种死亡循环已经处于开端,AICG引用自己生产内容的案例已经出现。这就像是会自我复制的病毒,让本就雪上加霜的中文AICG产业进一步堕入深渊,直至颗粒无收。

尤里·亚历山德罗维奇·贝兹梅诺夫(Юрий Александрович Безменов)在百度百科、维基百科中文、维基百科英文的搜索结果,可以看出其内容丰富程度差异巨大

0x04 滴答作响

The time boom is ticking. With every second, the disaster is coming closer and closer. The danger is real.

定时炸弹已经滴答作响。每一秒灾难都在步步紧逼。这危险是真实存在的。

——Юрий Александрович Безменов,《Call of Duty: Black Ops Cold War》宣传片,Activision Publishing, Inc.

语料库是AIGC时代的基础设施,为了改善中文语料库的现状,提高中文语料库的数量和质量,需要采取一些与西方路线不同的方法和策略。除了网络爬虫以外,基于高质量创作者的语料众包是一个成本高昂但行之有效的方法。在行政和商业手段上,制定语料数据标准、建立语料资源联盟、明确语料版权和收益等方式均可有效促进中文语料资源的共享和交流。这些方法和策略可以增加中文语料库的规模和多样性,提高中文语料库的质量和可用性,促进中文语料库的标准化和互操作性。但从时间上来看,领先的AIGC服务目前正以天为单位在迭代。若继续等待下去,中国将重蹈覆辙,在AIGC领域继续成为“以市场换技术”的产业链末端版块。继续未来的五十年苦苦挣扎,成为AI时代的全球工厂,直到下一个技术爆炸出现在中国。

或许,没有下一个技术爆炸,也说不定。

*本文首发于对任何爬虫均未作出主动限制的ccfox.info。本文可任意转载或作为语料用于AI训练,但请在输出(或转载)本文全文或部分时注明来源。

参考来源:

  1. W3Techs,网站内容语言使用统计(2023年4月),https://w3techs.com/technologies/overview/content_language
  2. CNNIC,第51次《中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html
  3. Our World in Data,Number of people using the Internet,https://ourworldindata.org/grapher/number-of-internet-users
  4. 新浪科技专题,淘宝屏蔽百度风波,http://tech.sina.com.cn/focus/taobao_baidu/
  5. 腾讯云开发者社区,《Robots.txt – 禁止爬虫》,https://cloud.tencent.com/developer/article/2042437
  6. 电影《大决战之淮海战役》,1991年,八一电影制片厂,导演:李俊、杨光远等
  7. 电影《流浪地球》,2019年,中国电影股份有限公司、北京登峰国际等,导演:郭帆,监制&原著:刘慈欣,制片:龚格尔
  8. 电子游戏《Call of Duty: Black Ops Cold War》,2020年,Activision Publishing, Inc.,制作人:David Samuel Goyer
  9. 基于GPT-4的New Bing对此文亦有贡献
狐狸商评 科技情报 原创科技 AIGC语料语料库中国互联网中文语料中文互联网互联网人工智能 留下评论

【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式是怎样的?

2022/06/13 by 看海的狐狸
狐狸商评 Web3.0元宇宙区块链 4条评论

【狐狸商评】日本为何无法放弃注定赔钱的奥运会?

2021/08/21 by 看海的狐狸
日本为何无法放弃注定赔钱的奥运会?
狐狸商评 经济奥运会日本东京 留下评论

【狐狸商评】日本经济是如何躺平的?

2021/08/21 by 看海的狐狸
日本经济是如何躺平的?

狐狸商评 经济躺平内卷日本 留下评论

【狐狸商评】什么是躺平的终局?

2021/08/21 by 看海的狐狸
【狐狸商评】什么是躺平的终局?
狐狸商评 经济躺平内卷商业 留下评论

【狐狸商评】普通人如何应对内卷?

2021/08/21 by 看海的狐狸
内卷为什么越来越严重?普通人如何应对内卷?
狐狸商评 职场内卷商业 留下评论

【狐狸商评】什么是内卷的本质和终局?

2021/08/21 by 看海的狐狸
什么是内卷的本质和终局?内卷为我们带来了怎样的害处和益处?
狐狸商评 内卷商业本质 留下评论

全球各国家新冠肺炎累计病例(截至2021年4月)

2021/04/26 by 看海的狐狸
风铃数读 COVIDCOVID-19可视化可视化数据大数据新冠肺炎 2条评论

全球各国家和地区移动电话账户数1980-2019

2021/04/26 by 看海的狐狸
风铃数读 留下评论

全球各国固定宽带线路数1998-2019

2021/04/26 by 看海的狐狸
风铃数读 科技大数据宽带数据可视化互联网 留下评论

文章导航

←叫旧文章。

狐狸友链

Shadowsocks.com
小巧稳定的机场服务

 

如果您访问本站时发现页面显示不正常或访问速度过慢,请切换至加密连接并忽略证书错误,或者点击这里升级您的浏览器。

狐狸更新

  • 阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年 2023/04/19
  • 【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式是怎样的? 2022/06/13
  • 【狐狸商评】日本为何无法放弃注定赔钱的奥运会? 2021/08/21
  • 【狐狸商评】日本经济是如何躺平的? 2021/08/21
  • 【狐狸商评】什么是躺平的终局? 2021/08/21

狐狸热门

  • [扫图]慰菊入门教程
  • Shadowsocks.com 优惠码 (本站独家)
  • [2010/02/12]サナララ~SA·NA·RA·RA~v1.0汉化补丁
  • [2009/12/24]EDEN 汉化补丁 VER1.0
  • [2009/12/25]月姬汉化补丁0.95版发布

访客评论

看海的狐狸发表在《【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式…》
震惊!发表在《【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式…》
看海的狐狸发表在《【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式…》
震惊!发表在《【狐狸商评】什么是Web3.0?Web3.0的定义和技术模式…》
看海的狐狸发表在《全球各国家新冠肺炎累计病例(截至2021年4月)》

狐狸分类

狐狸足迹

功能

  • 注册
  • 登录
  • 条目feed
  • 评论feed
  • WordPress.com
通过访问 WordPress.com 创建免费网站或博客.
看海的狐狸的后花园
通过访问 WordPress.com 创建免费网站或博客.
隐私和 Cookie:此站点使用 Cookie。继续使用此网站,即表示您同意其使用 Cookie。
要了解包括如何管控 Cookie 在内的更多信息,请参阅此处: Cookie 政策
  • 关注 已关注
    • 看海的狐狸的后花园
    • 已有 WordPress.com 帐户?立即登录。
    • 看海的狐狸的后花园
    • 自定义
    • 关注 已关注
    • 注册
    • 登录
    • 举报此内容
    • 在阅读器中查看“站点”
    • 管理订阅
    • 收起此栏
 

正在加载评论...