阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年

0x01 语料之殇

八十万对六十万,优势在我!

——蒋介石,《大决战之淮海战役》,八一电影制片厂

一位国内AIGC从业者向我表达了中文AIGC的担忧,他们用于训练的中文语料非常稀缺,非常阻碍产品的开发进度。我们讨论的一致结论是:中文语料库,太脏了。

对话式AI模型的生产内容高度依赖语料数据,而互联网上公开的语料资源浩如繁星。当然这仅仅说的是英文语料。据W3Techs统计,截至2023年4月,互联网中文内容仅占全球数量的1.5%,低于英语的55.6%、俄语的5.0%、日语的3.6%、波斯语的1.8%,排名第12。2022年,中国互联网用户数达到了惊人的10亿之巨,占据全球互联网用户数47亿的22.7%,但仅仅生产了全球1.5%的公开中文语料。从语料生产率来看,我们甚至不如越南(约0.7亿网民生产了全球1.3%的公开越南语语料)。这究竟是为什么呢?

0x02 历史疑云

最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难与每个人息息相关。

——《流浪地球》旁白,中国电影股份有限公司等

时间拨回到2008年。2008年9月8日,一个70字节的robots.txt文件出现在了淘宝网根目录。淘宝网称为杜绝不良商家欺诈,将从robots文件层面屏蔽百度搜索。robots文件是一个基于互联网古典道德体系,但并非强制化要求的搜索引擎抓取协议。按照互联网古典道德要求,搜索引擎爬虫在爬取网站内容前,需要首先读取位于根目录下的robots.txt文件,若是发现文件中声明不允许某爬虫抓取,那么该爬虫将自动退出该网站。

淘宝网此举表面看是为了防止网络欺诈,但实际目的是为了建立流量壁垒,扶持自己的广告联盟。对于百度来说,被淘宝屏蔽则意味着失去了巨大的内容库。阿里巴巴应该能够预见,这一举动将正式打开潘多拉魔盒。自此事件之后,中国互联网企业之间的流量和内容长城愈加高筑,优质的语料资源被禁锢在一个个的robots.txt、反爬虫防火墙、私域APP之内。放在全球来看,其实我们很难想象Twitter禁止bing的爬虫,但在最初,其实没有人在意这场灾难。

淘宝和百度知道的robots.txt文件,截图于2023年4月

0x03 军阀时代

KNOW YOUR ИСТОРИЯ, OR BE DOOMED TO REPEAT IT.

要么以史为鉴,要么重蹈覆辙。

——《Call of Duty: Black Ops Cold War》宣传片字幕,Activision Publishing, Inc.

十五年后的现在,中国已经建立了互联网上最大的多寡头竞争形态,彼此之间在流量和内容上的封锁剑拔弩张。截至现在,不仅仅是淘宝、抖音、快手、朋友圈、公众号,甚至百度亦成为恶龙,将自己的内容谨慎呵护。百年之前的闭关锁国似乎并没有警示后人,当AIGC开始爆炸性提升后,问题便突然显现。

中文内容的数量和质量直接决定了AIGC服务最终的生成结果的准确性。但由于各大内容平台之间的隔离,导致了中文公开内容的碎片化和重复化,使得AIGC服务无法获取到全面和丰富的信息,从而影响了其效率和效果。每一家AIGC企业都在渴望优质的中文语料资源,但每一家AIGC企业都在担心开放会威胁到现有的利益格局和秩序。这就好比是互联网下的黑暗森林,谁也不敢越雷池一步,因为谁也无法确定世界线究竟是走向全体共荣或者风中残烛。

此外,基于现有中文语料的AIGC已经开始在中文工作圈内大量实践。可想而知,低质的中文语料带来了低质的AIGC创作内容,而这些低质的AIGC创作内容将会在互联网上对本已低质的中文语料进一步污染。这种死亡循环已经处于开端,AIGC引用自己生产内容的案例已经出现。这就像是会自我复制的病毒,让本就雪上加霜的中文AIGC产业进一步堕入深渊,直至颗粒无收。

0x04 滴答作响

The time boom is ticking. With every second, the disaster is coming closer and closer. The danger is real.

定时炸弹已经滴答作响。每一秒灾难都在步步紧逼。这危险是真实存在的。

——Юрий Александрович Безменов,《Call of Duty: Black Ops Cold War》宣传片,Activision Publishing, Inc.

语料库是AIGC时代的基础设施,为了改善中文语料库的现状,提高中文语料库的数量和质量,需要采取一些与西方路线不同的方法和策略。除了网络爬虫以外,基于高质量创作者的语料众包是一个成本高昂但行之有效的方法。在行政和商业手段上,制定语料数据标准、建立语料资源联盟、明确语料版权和收益等方式均可有效促进中文语料资源的共享和交流。这些方法和策略可以增加中文语料库的规模和多样性,提高中文语料库的质量和可用性,促进中文语料库的标准化和互操作性。但从时间上来看,领先的AIGC服务目前正以天为单位在迭代。若继续等待下去,中国将重蹈覆辙,在AIGC领域继续成为“以市场换技术”的产业链末端版块。继续未来的五十年苦苦挣扎,成为AI时代的全球工厂,直到下一个技术爆炸出现在中国。

或许,没有下一个技术爆炸,也说不定。

*本文首发于对任何爬虫均未作出主动限制的ccfox.info。本文可任意转载或作为语料用于AI训练,但请在输出(或转载)本文全文或部分时注明来源。

参考来源:

  1. W3Techs,网站内容语言使用统计(2023年4月),https://w3techs.com/technologies/overview/content_language
  2. CNNIC,第51次《中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html
  3. Our World in Data,Number of people using the Internet,https://ourworldindata.org/grapher/number-of-internet-users
  4. 新浪科技专题,淘宝屏蔽百度风波,http://tech.sina.com.cn/focus/taobao_baidu/
  5. 腾讯云开发者社区,《Robots.txt – 禁止爬虫》,https://cloud.tencent.com/developer/article/2042437
  6. 电影《大决战之淮海战役》,1991年,八一电影制片厂,导演:李俊、杨光远等
  7. 电影《流浪地球》,2019年,中国电影股份有限公司、北京登峰国际等,导演:郭帆,监制&原著:刘慈欣,制片:龚格尔
  8. 电子游戏《Call of Duty: Black Ops Cold War》,2020年,Activision Publishing, Inc.,制作人:David Samuel Goyer
  9. 基于GPT-4的New Bing对此文亦有贡献

中国大陆互联网服务被集体爆库[新闻汇总]

新闻来源:
http://www.36kr.com/
http://www.cnbeta.com/
网易科技
腾讯科技
Wooyun
其它

新闻按时间倒序排列

汇总

12月21日:CSDN 640W用户帐户,密码,邮箱遭到黑客泄露

12月22日:中国各大知名网站全面沦陷.涉及范围甚广,泄露信息涉及用户相关业务甚多…. 一场席卷全中国的密码安全问题爆发了….

12月23日:经过确认 CSDN 泄露 多玩 泄露 梦幻西游帐户通过木马泄露 人人网部分泄露

12月23日:网友爆料 天涯沦陷…7K7K包中包含天涯帐户密码!!!互联网安全何在???

12月24日:178沦陷 UUU9沦陷 事态蔓延…

12月24日:天涯全面沦陷 泄露多达900W帐户信息…

12月24日:网易土木在线也沦陷,数据量惊人…

12月25日:百度疑因帐号开放平台泄露帐户信息…

12月25日:北京麒麟网信息科技有限公司疑泄露百度与PPLive帐户与密码.并且自身帐户信息全部泄露…

12月25日:UUU9.COM被黑客两次拖库..

12月25日:事态升级天涯疑泄露4000W用户资料

12月25日:178第二次被拖库泄露数据110W条

12月25日:木蚂蚁被爆加密密文用户数据,约13W数据

12月25日:知名婚恋网站5261302条帐户信息证实…

12月26日:myspace泄露,迅雷又成功离线3个泄露包!

12月26日:ispeak泄露帐户信息 已验证!请官方通知会员修改密码!

12月26日:网络流传包17173.7z中17173.0为178帐户信息,178惨被拖库3次

12月26日:网络流传包17173.7z中17173.3为UUU9.COM帐户信息,泄露数据不详

12月26日:塞班智能手机网校验准确率高达70%!!或塞班智能手机网沦陷

12月27日:网易土木论坛通过碰撞分析密码,用户资料全部属实!共计135文件,4.31G 资料泄露时间疑为2011-07-09 15:09:11(已论坛发帖通知,厂商未回应.)

12月27日:178.com彻底沦陷,共计泄露超出1100W+ 数据!

12月27日:766验证泄露,泄露数据十余万!

12月27日:ys168验证泄露,泄露数据三十余万!

12月27日:凡客20W 当当10W 卓越20W 用户资料验证泄露

12月28日:太平洋电脑泄露200W用户资料包含用户帐户

12月28日:大学数据库泄露,身份证信息泄露,更为敏感内容糟骇客泄露,泄露数据不详,只能靠截图揣摩!

继续阅读

喝西北风,也会中毒

本文系转载,原文地址:http://www.nbweekly.com/news/special/201112/28352.aspx

本刊记者_徐卓君

秋天本是北京最好的季节,但今年入秋以来,整个北京城一直被浓重的雾霾所笼罩,街道上弥漫着呛鼻的硫磺味。这个城市的1700万人都被困在这个巨大的气罐里,终日只见灰黄的天空,蓝天白云成了奢侈品。经常穿梭于国内外的贝志城这样形容国内外的“空气切换”:“一去国外,就像有人把眼前的眼罩给摘了,空气整个是透亮的。”

空气已经发疯了

2010年始,贝志城发现越来越多朋友在推特(twitter)上转发美国大使馆发布的空气质量指数,他也是从那个时候开始关注北京的空气质量的。美国大使馆早在2008年就在自家院内架起了一台空气监测仪,每隔一小时在推特发布一次空气质量指数。但在头2年,并没有引起多少关注,直到2010年11月21日,美国大使馆的瞬时检测数据显示,它所在的东三环的空气质量指数超过了500,美国大使馆用甚至用了“crazy bad(糟糕透了)”来形容当时的空气质量。这个数据成为了贝志城的出行指南,“当指标超过200时,我不再约人吃饭,也不出去见客户了。”

如果参照美国大使馆的数据,贝志城今年秋天有一半时间得待在室内。与此同时,北京市环保局发布的空气质量指数停留在120-130左右,仅仅被定义为“轻度污染”。贝志城曾带着他在阿里巴巴上花5000元人民币买来的空气测试仪,驱车到北京工体和上地等地,在路边测出一个数据,然后和美国大使馆的数据对比,发现误差在20%以内。

“我不相信环保总局的数据,这个数据(对我)没用,我相信自己的感受,美国大使馆说不健康时,我的嗓子确实不舒服,”贝志城说。北京市环保局、美国大使馆、多位从事大气环境研究的科学家都强调,两个数据巨大的鸿沟是由于衡量空气质量的两套标准造成的——美国大使馆用PM2.5计算空气质量指数, 而北京市环保局用PM10计算空气质量指数。

PM2.5,这个一开始被忽视,上个世纪90年代开始被学术界所认识的健康杀手,已经走进了中国公众的视野。

继续阅读

苹果前CEO史蒂夫·乔布斯逝世

文章来源:Apple

We are deeply saddened to announce that Steve Jobs passed away today.

Steve’s brilliance, passion and energy were the source of countless innovations that enrich and improve all of our lives. The world is immeasurably better because of Steve.

His greatest love was for his wife, Laurene, and his family. Our hearts go out to them and to all who were touched by his extraordinary gifts.

发现专门针对中国PC用户的BIOS病毒

本文系转载,原文地址:http://it.solidot.org/article.pl?sid=11/09/16/061256
狐狸:话说看到BIOS病毒突然感动得泪流满面?

本月初,360报告发现了针对Award BIOS的“BMW病毒(又名Mebromi病毒)”,它能连环感染BIOS(主板芯片程序)、MBR(硬盘主引导区)和Windows系统文件。360称病毒是通过捆绑游戏外挂传播的。

病毒针对的是中国电脑用户,在感染前它会检查系统是否运行瑞星和江民杀毒软件。当电脑被感染后,它会向系统释放五个加密文件:hook.rom、flash.dll、cbrom.exe、my.sys和bios.sys。通过bios.sys,它会检查电脑是否使用Award BIOS。如果是,它会保存现有的BIOS到c:bios.bin,然后检查有没有被感染。如果文件中存在hook.rom,它会认为BIOS已被感染;如果没有,它会尝试刷BIOS,在bios.bin中加入hook.rom。在系统启动时,BIOS会自动调用hook.rom,检查MBR是否被感染…该病毒针对Award BIOS的原因可能是因为几年前安全研究人员曾经演示了Award BIOS的漏洞。

你能相信自己的眼睛吗?

本文系转载,原文地址:http://www.aqee.net/can-we-believe-our-eyes/

本文是从 Can we believe our eyes? 这篇文章翻译而来。

几天前,一个客户向我们提交了一个病毒文件样品(SHA1: fbe71968d4c5399c2906b56d9feadf19a35beb97, 检测认定为TrojanDropper:Win32/Vundo.L病毒)。这种特洛伊病毒在hosts文件里劫持“vk.com” 和 “vkontakte.ru”这两个域名(两个都是俄罗斯的社交网站),把它们重定向到92.38.209.252,但它们的实现方法却很独特。

要想劫持一个网站,把它重定向到自己指定的地址,黑客通常的做法是修改Windows系统里位于%SystemRoot%system32driversetc目录下的hosts文件。然而,当我们打开这个受感染的计算机上的hosts文件时,却没有发现任何的跟“vk.com” 和 “vkontakte.ru”相关的条目,就像你在下图中看到的一样。

但当我们显示出隐藏文件时,却看到了另外一个“hosts”文件。是个隐藏文件,你可以在下图中看见它们:

etc目录下有两个名称完全相同的文件,都是“hosts”!这怎么可能?

继续阅读

研究称中国将在2017年加入民主俱乐部

本文系转载,原文地址:http://goo.gl/F8giV

研究机构复兴资本首席经济学家Charles Robertson预测,中国将在2017年人均收入突破$15,550后加入民主俱乐部。

Robertson的预测是基于一项政治制度变革研究,这项研究分析了经济发展、收入增加和政治变革之间的联系,专制/威权如何转变到民主。Robertson研究了近150个国家,他发现一旦人均收入达到1万美元,民主政体不可能回到非民主政体;而人均收入超过6千美元后,民主死亡的几率只有1%。最大的例外是中东盛产石油的国家,它们的人均收入最高超过了19,000美元,Robertson认为原因是这些国家无需向居民征税。他指出,中国在2009年人均收入超过6,200美元后,进入了最危险的政治时期。根据目前的趋势,中国到2017年人均收入将达到15,550美元。民主将到来。

让Windows通过TCP协议发送DNS请求

本文系转载,原文地址:http://is.gd/A5YGIt

起因是我这(beijing urban network co. ltd)把DNS服务器改为8.8.8.8或者8.8.4.4的时候就无法使用了,表现为发出DnsQuery后没有任何响应,猜测大概是GFW搞的鬼吧。唔。。。不管是不是反正这黑锅都让GFW来背,呵呵。

默认情况下Windows的DNS交互使用UDP协议承载,于是抱着试试的心理尝试了一下用TCP来发送DNS请求,结果Google DNS很给力的返回了结果。

接下来的工作就是怎样让Windows用TCP来发送了。悲催的是翻了一遍组策略,网络连接属性等等都没找到哪个选项可以让Windows发送TCP的DNSQuery,也不知道是真没有还是没找到。没办法只好自己动手丰衣足食啦,分析后发现判断用UDP或TCP的关键位置在DnsApi.dll中,修改之,覆盖,重启,用Wireshark看到发送的都是TCP的DNS请求,目前除了nslookup工具,其他使用一切正常,用nslookup发出的请求不受影响,默认还是UDP的,反正不影响上网,无视了。

提一下用的系统是Win7 Ultimate X86,版本号 6.1.7601
DnsApi.dll版本号为6.1.7601.17570

.text:6DC08FC8 8B 46 10        mov     eax, [esi+10h]
.text:6DC08FCB 89 45 F4        mov     [ebp+var_C], eax
关键代码,此处让var_C值为2即可,这里给出我的修改方法
85A0: 90 90 90 90 90 -> 33 C0 40 EB 25
85C8: 8B 46 10 -> EB D6 40

继续阅读

中国网络国际访问频故障,温水煮蛙测试断外网反应?

本文系转载,原文地址:http://is.gd/bcmqVK

中国互联网的一些用户近期出现国际出口访问故障。有业内人士分析,这是中国当局在测试逐步切断大部分人访问国际网站的措施,以试探用户反应,最终达到推行网络“白名单”制,也就是凡没有在名单上的企业或团体其网络域名将不能解析,一般用户也无法访问。

近期,中国互联网出现大规模国际出口访问故障,从上周五开始, 中国联通和中国电信的企业用户和教育网用户发现无法访问任何国际网站,无法登陆MSN。路由跟踪显示问题出在骨干网路由。MSN中国负责人表示,并未接到用户大面积断网的报告,建议用户自查,认为可能与用户网络端口和电信网络有关。

网络技术专家龙威廉在其博客上表示,经他测试后发现, 深圳电信无法访问国外网站的原因,是有几个节点路由器存在问题,怀疑这些路由器屏蔽了国外网站。龙威廉星期四告诉本台记者:“现在这个情况可能是电信或者联通的一方通过技术手段,限制某个单独的ip地址访问国外的网站,这种情况企业用户就很容易超标,因为企业用户和学校用户比个人用户访问的ip多一些,一个ip会访问很多个国外的网站,就很容易超过一定的限制。服务器会设置一个计数器,如果超过了限制的话,超过这个计数器就会禁止访问国外的网站。”

据了解,家庭和个人用户尚未遇到类似问题, 出现故障的主要是网络公司和企业用户。不少网友推测是当局正测试逐步切断大部分人访问国际网站,利用这些“故障”逐步让用户适应以达到最后推行“白名单”(也就是未在名单上的企业不能被解析,造成一般用户无法访问)目的。本台记者就此致电工信部信息安全司查询:“最近国际出口访问故障。”

继续阅读