阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年

0x01 语料之殇

八十万对六十万,优势在我!

——蒋介石,《大决战之淮海战役》,八一电影制片厂

一位国内AIGC从业者向我表达了中文AIGC的担忧,他们用于训练的中文语料非常稀缺,非常阻碍产品的开发进度。我们讨论的一致结论是:中文语料库,太脏了。

对话式AI模型的生产内容高度依赖语料数据,而互联网上公开的语料资源浩如繁星。当然这仅仅说的是英文语料。据W3Techs统计,截至2023年4月,互联网中文内容仅占全球数量的1.5%,低于英语的55.6%、俄语的5.0%、日语的3.6%、波斯语的1.8%,排名第12。2022年,中国互联网用户数达到了惊人的10亿之巨,占据全球互联网用户数47亿的22.7%,但仅仅生产了全球1.5%的公开中文语料。从语料生产率来看,我们甚至不如越南(约0.7亿网民生产了全球1.3%的公开越南语语料)。这究竟是为什么呢?

0x02 历史疑云

最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难与每个人息息相关。

——《流浪地球》旁白,中国电影股份有限公司等

时间拨回到2008年。2008年9月8日,一个70字节的robots.txt文件出现在了淘宝网根目录。淘宝网称为杜绝不良商家欺诈,将从robots文件层面屏蔽百度搜索。robots文件是一个基于互联网古典道德体系,但并非强制化要求的搜索引擎抓取协议。按照互联网古典道德要求,搜索引擎爬虫在爬取网站内容前,需要首先读取位于根目录下的robots.txt文件,若是发现文件中声明不允许某爬虫抓取,那么该爬虫将自动退出该网站。

淘宝网此举表面看是为了防止网络欺诈,但实际目的是为了建立流量壁垒,扶持自己的广告联盟。对于百度来说,被淘宝屏蔽则意味着失去了巨大的内容库。阿里巴巴应该能够预见,这一举动将正式打开潘多拉魔盒。自此事件之后,中国互联网企业之间的流量和内容长城愈加高筑,优质的语料资源被禁锢在一个个的robots.txt、反爬虫防火墙、私域APP之内。放在全球来看,其实我们很难想象Twitter禁止bing的爬虫,但在最初,其实没有人在意这场灾难。

淘宝和百度知道的robots.txt文件,截图于2023年4月

0x03 军阀时代

KNOW YOUR ИСТОРИЯ, OR BE DOOMED TO REPEAT IT.

要么以史为鉴,要么重蹈覆辙。

——《Call of Duty: Black Ops Cold War》宣传片字幕,Activision Publishing, Inc.

十五年后的现在,中国已经建立了互联网上最大的多寡头竞争形态,彼此之间在流量和内容上的封锁剑拔弩张。截至现在,不仅仅是淘宝、抖音、快手、朋友圈、公众号,甚至百度亦成为恶龙,将自己的内容谨慎呵护。百年之前的闭关锁国似乎并没有警示后人,当AIGC开始爆炸性提升后,问题便突然显现。

中文内容的数量和质量直接决定了AIGC服务最终的生成结果的准确性。但由于各大内容平台之间的隔离,导致了中文公开内容的碎片化和重复化,使得AIGC服务无法获取到全面和丰富的信息,从而影响了其效率和效果。每一家AIGC企业都在渴望优质的中文语料资源,但每一家AIGC企业都在担心开放会威胁到现有的利益格局和秩序。这就好比是互联网下的黑暗森林,谁也不敢越雷池一步,因为谁也无法确定世界线究竟是走向全体共荣或者风中残烛。

此外,基于现有中文语料的AIGC已经开始在中文工作圈内大量实践。可想而知,低质的中文语料带来了低质的AIGC创作内容,而这些低质的AIGC创作内容将会在互联网上对本已低质的中文语料进一步污染。这种死亡循环已经处于开端,AIGC引用自己生产内容的案例已经出现。这就像是会自我复制的病毒,让本就雪上加霜的中文AIGC产业进一步堕入深渊,直至颗粒无收。

0x04 滴答作响

The time boom is ticking. With every second, the disaster is coming closer and closer. The danger is real.

定时炸弹已经滴答作响。每一秒灾难都在步步紧逼。这危险是真实存在的。

——Юрий Александрович Безменов,《Call of Duty: Black Ops Cold War》宣传片,Activision Publishing, Inc.

语料库是AIGC时代的基础设施,为了改善中文语料库的现状,提高中文语料库的数量和质量,需要采取一些与西方路线不同的方法和策略。除了网络爬虫以外,基于高质量创作者的语料众包是一个成本高昂但行之有效的方法。在行政和商业手段上,制定语料数据标准、建立语料资源联盟、明确语料版权和收益等方式均可有效促进中文语料资源的共享和交流。这些方法和策略可以增加中文语料库的规模和多样性,提高中文语料库的质量和可用性,促进中文语料库的标准化和互操作性。但从时间上来看,领先的AIGC服务目前正以天为单位在迭代。若继续等待下去,中国将重蹈覆辙,在AIGC领域继续成为“以市场换技术”的产业链末端版块。继续未来的五十年苦苦挣扎,成为AI时代的全球工厂,直到下一个技术爆炸出现在中国。

或许,没有下一个技术爆炸,也说不定。

*本文首发于对任何爬虫均未作出主动限制的ccfox.info。本文可任意转载或作为语料用于AI训练,但请在输出(或转载)本文全文或部分时注明来源。

参考来源:

  1. W3Techs,网站内容语言使用统计(2023年4月),https://w3techs.com/technologies/overview/content_language
  2. CNNIC,第51次《中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html
  3. Our World in Data,Number of people using the Internet,https://ourworldindata.org/grapher/number-of-internet-users
  4. 新浪科技专题,淘宝屏蔽百度风波,http://tech.sina.com.cn/focus/taobao_baidu/
  5. 腾讯云开发者社区,《Robots.txt – 禁止爬虫》,https://cloud.tencent.com/developer/article/2042437
  6. 电影《大决战之淮海战役》,1991年,八一电影制片厂,导演:李俊、杨光远等
  7. 电影《流浪地球》,2019年,中国电影股份有限公司、北京登峰国际等,导演:郭帆,监制&原著:刘慈欣,制片:龚格尔
  8. 电子游戏《Call of Duty: Black Ops Cold War》,2020年,Activision Publishing, Inc.,制作人:David Samuel Goyer
  9. 基于GPT-4的New Bing对此文亦有贡献

『野望』与『野和望』

本文约1100字,阅读约需3分钟。

昨夜伴着美团打车7城扩张的采访入睡,今晨则又是被滴滴融资的消息吵醒。本来冷静了一年的网约车市场看起来是不打算让大家过个消停年了。

2017年,滴滴将征战的主线从安内转为攘外。扩张海外城市,扩张新产品线,乃至智能驾驶研发和建设新能源生态。当然,也会有相当一部分资源,用于稳住现有的成熟业务线的竞争。

一个行业在不同的时期会有不同类型的进入者。行业初期的进入者最多,那个时期的市场蛋糕并未被寡头独占。在大家资源储备相差不大的时候,机会会更加青睐于犯错最少(指百分比,而非绝对值)、笼络资源最多的那一个。而对于其他人,将迅速会被洗牌。在洗牌后的高速发展期,仍然会有新的进入者。可能会是资源储备薄弱,但能够迅速切中寡头尚未顾及的细分赛道/商业模式/用户痛点的创业企业,也可能会是资源储备雄厚(或者自我感觉雄厚),希望能够依靠大量资源砸出一小块地盘的企业。美团便是在网约车市场洗牌后,在高速发展期进入的那一位。 继续阅读