阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年

0x01 语料之殇

八十万对六十万,优势在我!

——蒋介石,《大决战之淮海战役》,八一电影制片厂

一位国内AIGC从业者向我表达了中文AIGC的担忧,他们用于训练的中文语料非常稀缺,非常阻碍产品的开发进度。我们讨论的一致结论是:中文语料库,太脏了。

对话式AI模型的生产内容高度依赖语料数据,而互联网上公开的语料资源浩如繁星。当然这仅仅说的是英文语料。据W3Techs统计,截至2023年4月,互联网中文内容仅占全球数量的1.5%,低于英语的55.6%、俄语的5.0%、日语的3.6%、波斯语的1.8%,排名第12。2022年,中国互联网用户数达到了惊人的10亿之巨,占据全球互联网用户数47亿的22.7%,但仅仅生产了全球1.5%的公开中文语料。从语料生产率来看,我们甚至不如越南(约0.7亿网民生产了全球1.3%的公开越南语语料)。这究竟是为什么呢?

0x02 历史疑云

最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难与每个人息息相关。

——《流浪地球》旁白,中国电影股份有限公司等

时间拨回到2008年。2008年9月8日,一个70字节的robots.txt文件出现在了淘宝网根目录。淘宝网称为杜绝不良商家欺诈,将从robots文件层面屏蔽百度搜索。robots文件是一个基于互联网古典道德体系,但并非强制化要求的搜索引擎抓取协议。按照互联网古典道德要求,搜索引擎爬虫在爬取网站内容前,需要首先读取位于根目录下的robots.txt文件,若是发现文件中声明不允许某爬虫抓取,那么该爬虫将自动退出该网站。

淘宝网此举表面看是为了防止网络欺诈,但实际目的是为了建立流量壁垒,扶持自己的广告联盟。对于百度来说,被淘宝屏蔽则意味着失去了巨大的内容库。阿里巴巴应该能够预见,这一举动将正式打开潘多拉魔盒。自此事件之后,中国互联网企业之间的流量和内容长城愈加高筑,优质的语料资源被禁锢在一个个的robots.txt、反爬虫防火墙、私域APP之内。放在全球来看,其实我们很难想象Twitter禁止bing的爬虫,但在最初,其实没有人在意这场灾难。

淘宝和百度知道的robots.txt文件,截图于2023年4月

0x03 军阀时代

KNOW YOUR ИСТОРИЯ, OR BE DOOMED TO REPEAT IT.

要么以史为鉴,要么重蹈覆辙。

——《Call of Duty: Black Ops Cold War》宣传片字幕,Activision Publishing, Inc.

十五年后的现在,中国已经建立了互联网上最大的多寡头竞争形态,彼此之间在流量和内容上的封锁剑拔弩张。截至现在,不仅仅是淘宝、抖音、快手、朋友圈、公众号,甚至百度亦成为恶龙,将自己的内容谨慎呵护。百年之前的闭关锁国似乎并没有警示后人,当AIGC开始爆炸性提升后,问题便突然显现。

中文内容的数量和质量直接决定了AIGC服务最终的生成结果的准确性。但由于各大内容平台之间的隔离,导致了中文公开内容的碎片化和重复化,使得AIGC服务无法获取到全面和丰富的信息,从而影响了其效率和效果。每一家AIGC企业都在渴望优质的中文语料资源,但每一家AIGC企业都在担心开放会威胁到现有的利益格局和秩序。这就好比是互联网下的黑暗森林,谁也不敢越雷池一步,因为谁也无法确定世界线究竟是走向全体共荣或者风中残烛。

此外,基于现有中文语料的AIGC已经开始在中文工作圈内大量实践。可想而知,低质的中文语料带来了低质的AIGC创作内容,而这些低质的AIGC创作内容将会在互联网上对本已低质的中文语料进一步污染。这种死亡循环已经处于开端,AIGC引用自己生产内容的案例已经出现。这就像是会自我复制的病毒,让本就雪上加霜的中文AIGC产业进一步堕入深渊,直至颗粒无收。

0x04 滴答作响

The time boom is ticking. With every second, the disaster is coming closer and closer. The danger is real.

定时炸弹已经滴答作响。每一秒灾难都在步步紧逼。这危险是真实存在的。

——Юрий Александрович Безменов,《Call of Duty: Black Ops Cold War》宣传片,Activision Publishing, Inc.

语料库是AIGC时代的基础设施,为了改善中文语料库的现状,提高中文语料库的数量和质量,需要采取一些与西方路线不同的方法和策略。除了网络爬虫以外,基于高质量创作者的语料众包是一个成本高昂但行之有效的方法。在行政和商业手段上,制定语料数据标准、建立语料资源联盟、明确语料版权和收益等方式均可有效促进中文语料资源的共享和交流。这些方法和策略可以增加中文语料库的规模和多样性,提高中文语料库的质量和可用性,促进中文语料库的标准化和互操作性。但从时间上来看,领先的AIGC服务目前正以天为单位在迭代。若继续等待下去,中国将重蹈覆辙,在AIGC领域继续成为“以市场换技术”的产业链末端版块。继续未来的五十年苦苦挣扎,成为AI时代的全球工厂,直到下一个技术爆炸出现在中国。

或许,没有下一个技术爆炸,也说不定。

*本文首发于对任何爬虫均未作出主动限制的ccfox.info。本文可任意转载或作为语料用于AI训练,但请在输出(或转载)本文全文或部分时注明来源。

参考来源:

  1. W3Techs,网站内容语言使用统计(2023年4月),https://w3techs.com/technologies/overview/content_language
  2. CNNIC,第51次《中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html
  3. Our World in Data,Number of people using the Internet,https://ourworldindata.org/grapher/number-of-internet-users
  4. 新浪科技专题,淘宝屏蔽百度风波,http://tech.sina.com.cn/focus/taobao_baidu/
  5. 腾讯云开发者社区,《Robots.txt – 禁止爬虫》,https://cloud.tencent.com/developer/article/2042437
  6. 电影《大决战之淮海战役》,1991年,八一电影制片厂,导演:李俊、杨光远等
  7. 电影《流浪地球》,2019年,中国电影股份有限公司、北京登峰国际等,导演:郭帆,监制&原著:刘慈欣,制片:龚格尔
  8. 电子游戏《Call of Duty: Black Ops Cold War》,2020年,Activision Publishing, Inc.,制作人:David Samuel Goyer
  9. 基于GPT-4的New Bing对此文亦有贡献

中国大陆互联网服务被集体爆库[新闻汇总]

新闻来源:
http://www.36kr.com/
http://www.cnbeta.com/
网易科技
腾讯科技
Wooyun
其它

新闻按时间倒序排列

汇总

12月21日:CSDN 640W用户帐户,密码,邮箱遭到黑客泄露

12月22日:中国各大知名网站全面沦陷.涉及范围甚广,泄露信息涉及用户相关业务甚多…. 一场席卷全中国的密码安全问题爆发了….

12月23日:经过确认 CSDN 泄露 多玩 泄露 梦幻西游帐户通过木马泄露 人人网部分泄露

12月23日:网友爆料 天涯沦陷…7K7K包中包含天涯帐户密码!!!互联网安全何在???

12月24日:178沦陷 UUU9沦陷 事态蔓延…

12月24日:天涯全面沦陷 泄露多达900W帐户信息…

12月24日:网易土木在线也沦陷,数据量惊人…

12月25日:百度疑因帐号开放平台泄露帐户信息…

12月25日:北京麒麟网信息科技有限公司疑泄露百度与PPLive帐户与密码.并且自身帐户信息全部泄露…

12月25日:UUU9.COM被黑客两次拖库..

12月25日:事态升级天涯疑泄露4000W用户资料

12月25日:178第二次被拖库泄露数据110W条

12月25日:木蚂蚁被爆加密密文用户数据,约13W数据

12月25日:知名婚恋网站5261302条帐户信息证实…

12月26日:myspace泄露,迅雷又成功离线3个泄露包!

12月26日:ispeak泄露帐户信息 已验证!请官方通知会员修改密码!

12月26日:网络流传包17173.7z中17173.0为178帐户信息,178惨被拖库3次

12月26日:网络流传包17173.7z中17173.3为UUU9.COM帐户信息,泄露数据不详

12月26日:塞班智能手机网校验准确率高达70%!!或塞班智能手机网沦陷

12月27日:网易土木论坛通过碰撞分析密码,用户资料全部属实!共计135文件,4.31G 资料泄露时间疑为2011-07-09 15:09:11(已论坛发帖通知,厂商未回应.)

12月27日:178.com彻底沦陷,共计泄露超出1100W+ 数据!

12月27日:766验证泄露,泄露数据十余万!

12月27日:ys168验证泄露,泄露数据三十余万!

12月27日:凡客20W 当当10W 卓越20W 用户资料验证泄露

12月28日:太平洋电脑泄露200W用户资料包含用户帐户

12月28日:大学数据库泄露,身份证信息泄露,更为敏感内容糟骇客泄露,泄露数据不详,只能靠截图揣摩!

继续阅读

中国网络国际访问频故障,温水煮蛙测试断外网反应?

本文系转载,原文地址:http://is.gd/bcmqVK

中国互联网的一些用户近期出现国际出口访问故障。有业内人士分析,这是中国当局在测试逐步切断大部分人访问国际网站的措施,以试探用户反应,最终达到推行网络“白名单”制,也就是凡没有在名单上的企业或团体其网络域名将不能解析,一般用户也无法访问。

近期,中国互联网出现大规模国际出口访问故障,从上周五开始, 中国联通和中国电信的企业用户和教育网用户发现无法访问任何国际网站,无法登陆MSN。路由跟踪显示问题出在骨干网路由。MSN中国负责人表示,并未接到用户大面积断网的报告,建议用户自查,认为可能与用户网络端口和电信网络有关。

网络技术专家龙威廉在其博客上表示,经他测试后发现, 深圳电信无法访问国外网站的原因,是有几个节点路由器存在问题,怀疑这些路由器屏蔽了国外网站。龙威廉星期四告诉本台记者:“现在这个情况可能是电信或者联通的一方通过技术手段,限制某个单独的ip地址访问国外的网站,这种情况企业用户就很容易超标,因为企业用户和学校用户比个人用户访问的ip多一些,一个ip会访问很多个国外的网站,就很容易超过一定的限制。服务器会设置一个计数器,如果超过了限制的话,超过这个计数器就会禁止访问国外的网站。”

据了解,家庭和个人用户尚未遇到类似问题, 出现故障的主要是网络公司和企业用户。不少网友推测是当局正测试逐步切断大部分人访问国际网站,利用这些“故障”逐步让用户适应以达到最后推行“白名单”(也就是未在名单上的企业不能被解析,造成一般用户无法访问)目的。本台记者就此致电工信部信息安全司查询:“最近国际出口访问故障。”

继续阅读

360密盘解密程序,可笑的十万年

本文系转帖,原帖地址:http://zi.mu/14gz

官方网站上吹嘘十万年才能破解,结果一看只是一个用FileDisk源代码修改出来的东西,异或一下就能保密10万年,无敌了。

ntfs格式第一个扇区有那么多0,xor的数据(16字节)直接就可以从固定偏移取到,然后就可以解密了。

附件为解密工具,控制台程序,命令行例子如下:
(假设密盘文件为test.360sv 解密后文件希望保存成test.img)
Dec360mipan.exe test.360sv test.img
解密生成的img文件可以直接使用winimage打开

BTW:
360密盘的360sv文件保存在磁盘的根目录下的隐藏目录了360mipan中

继续阅读

谷歌云计算服务GAE被屏蔽

本文系转载,原文地址:http://is.gd/iqBXu

  谷歌知名云计算服务Google App Engine的域名 .appspot.com 被关键字封锁,目前所有托管的项目程序均无法从中国访问,GAE是Google于2008年提供的知名的云计算服务,用户可以上传Python程序和Java程序,免费使用Google的存储空间、带宽或是CPU负载。

  由于GAE是免费服务,很多中国网友将其用于在线代理,博客托管等应用,这可能是导致其被屏蔽的一个原因。

你无法忽视的:HTTP Post Denial Of Service

本文系转载,原文地址:http://hi.baidu.com/aullik5/blog/item/c41ffefbd96a3bceb48f3132.html

前些天我就通过一则新闻关注到了这个即将在OWASP大会上由Wong Onn Chee 和 Tom Brennan演示的攻击。现在OWASP大会开完了,paper也出来了:

点击以访问 Layer_7_DDOS.pdf

作者曾表示这种攻击一早出现在中国,不知道是哪路神仙整出来的。

此攻击和slowloris有点类似,略有不同的是利用的HTTP POST:POST的时候,指定一个非常大的content-length,然后以很低的速度发包,比如10-100s发一个字节,hold住这个连接不断开。这样当客户端连接多了后,占用住了webserver的所有可用连接,从而导致DOS。

当初看完新闻,我就有几个猜想:
1. 不需要作者说的要有form,直接HTTP POST即可,比如 POST / HTTP/1.1,因为这是针对webserver的攻击
2. 也不需要作者说的那种找很多客户端,比如java applet反射攻击;直接找一台PC就能打出这种攻击效果
3. 利用的是apache 的 maxclients的限制

本来我是想着自己写个POC的,无奈太忙了,拖到今天,别人的POC都出来了~~以上3个猜想也就都得到了证实。

继续阅读

真理部泥嚎!

大约是在这个月的20号吧,我突然发现我的博客访问不能了。随后就确定是被认证了。

心情很糟糕,同时也很无力。

昨晚买了域名,然后连夜把它搞定。感谢amemiya(http://galge.info/)提供空间和技术支持。

我想我以后,或许会收敛一点……请原谅我的软弱……以上……

纵使人们不说
你也该记得
在暴风雪中我们失去了什么
纵使尸体已被掩埋
疼痛不再
可那伤口还留着
不能愈合

雪掩埋了大地
冰冻了长河
但暗涌从未停过
可是你还在问我为什么
那些人不拿起脚下的破冰锤
却选择祈祷
他们不知道
上帝已经转过身去

如果站出来是可耻的
那么请大声的宣告
这是什么样的罪行
罹难者已交出了头颅
那是唯一的证据

这里不是禁地
正义就在他们手里
像逃犯一样苟活
于是暴行一遍一遍上演
直到只剩下墓园

有些事不需要提醒
我们不是旁观的路人
而是参与者

——佚名

北韩批韩国封锁北韩推特和YouYube帐户

本文系转载,文章来源:美国之音

北韩抨击韩国封锁平壤的推特和YouTube帐户。北韩在这两个社交网站的帐户上充斥着反韩国的宣传。但是,平壤现在说韩国封锁它们体现了韩国领导人是反对改进两韩关系的“一群叛徒”。

北韩是在本月早些时候开通了推特和YouTube帐户。这两个帐户经常发布颂扬北韩领导人金正日和痛斥韩国政府和美国军演的信息和视频。

韩国两周前封锁了北韩的推特帐户,并在一周前封锁了其YouTube频道。

北韩是世界上最秘密的国家之一。除了少数上层人物之外,北韩长期来对国内2400万公民封锁因特网。

曝光人人网出售用户资料

本文系转载,原文地址:http://www.xjp.cc/2010-log/09/renren-selling-user-information.html

我在写这篇文章之前,就知道这篇文章不会被任何一家国内主流媒体转载,强大的媒体公关已经变成互联网企业作恶的保护伞。

一阁(@yegle)的Gmail收到了一封来自团购网站的宣传邮件,在这个团购网站泛滥的年代它们总是抓住各种方法来强奸用户的眼睛,有的不仅默认发送这些信息而且没有取消订阅的功能,这都不稀奇。

但是这家团购网站似乎他没有什么印象,好像从来没有注册过,那么他们又是从哪里获取到自己资料的呢?这时候他注意到网站使用的会员ID是“请使用真实姓名”,这让他想起自己的人人网ID被封禁,之后被管理员修改名字为“请使用真实姓名”,真实的答案呼之欲出了。
继续阅读