Onedrive和iOS/Android实况照片的兼容性问题简述

目前是发现了问题,然而我根本没有一个好的解决方法……

我测试了来自iPhone和小米Android手机的实况照片及其兼容性问题,让人难以捉摸。

iPhone的实况照片:本质上是一个HEIC文件和一个MOV文件(使用第三方软件如爱思导出即为此格式),此外livp格式为前两者的简单打压缩包(使用百度、阿里等国产网盘上传即为此格式,我觉得这好像是国内生态自创的一个格式,并不受苹果官方支持?)。

小米Android的实况照片:来自google并应用于Android的文件标准,后缀名依然是JPG,默认以MVIMG作为文件名开头,一个文件中同时包含了图像和文件,在EXIF中加入了附加视频的偏移量,这样可以做到兼容性最佳化(不支持MVIMG的软件依然能够读取其中的图片部分)。

所以实况照片的格式割裂也带来了很多问题,尤其是像我这样双持手机,家中设备生态又比较庞杂的情况……

通过APP自动同步/手动上传实况照片到Onedrive的情况在iPhone Onedrive APP内查看在Android Onedrive APP内查看在Onedrive Web内查看通过Windows Onedrive客户端、群晖Cloud Sync同步/下载通过Windows 10/11 自带UWP照片应用查看
iPhone上传的实况照片上传了一个HEIC文件,文件大小“看起来”包含了照片和视频,但仅能看到上传了一个文件能查看照片+视频仅支持看图能查看照片+视频

但手动从Web下载后文件丢失视频部分(从文件大小判断)
文件丢失视频部分(从文件大小判断)因为在前一步已经丢失视频部分,因此仅能看图
小米Android上传的实况照片上传了一个MVIMG开头的单一JPG文件,包含了照片和视频仅支持看图仅支持看图仅支持看图

无损下载
无损下载,视频部分未丢失(从文件大小判断)能查看照片+视频

你就说奇怪不奇怪吧……如果要我给建议,我认为:

Onedrive可以参考百度、阿里等国内网盘做法,即:对iPhone上传的实况照片进行简单打包(比如打包为livp格式),并在APP、Web、Win10/11自带UWP照片中提供对livp格式支持。

对于Android设备,Onedrive应继续增强对MVIMG的兼容性支持。

反馈工单已经提交:https://feedbackportal.microsoft.com/feedback/idea/bc8d43f8-73fd-ee11-a73d-6045bd841c15

阿里巴巴15年前的70字节TXT,断送了中国AIGC的未来五十年

0x01 语料之殇

八十万对六十万,优势在我!

——蒋介石,《大决战之淮海战役》,八一电影制片厂

一位国内AIGC从业者向我表达了中文AIGC的担忧,他们用于训练的中文语料非常稀缺,非常阻碍产品的开发进度。我们讨论的一致结论是:中文语料库,太脏了。

对话式AI模型的生产内容高度依赖语料数据,而互联网上公开的语料资源浩如繁星。当然这仅仅说的是英文语料。据W3Techs统计,截至2023年4月,互联网中文内容仅占全球数量的1.5%,低于英语的55.6%、俄语的5.0%、日语的3.6%、波斯语的1.8%,排名第12。2022年,中国互联网用户数达到了惊人的10亿之巨,占据全球互联网用户数47亿的22.7%,但仅仅生产了全球1.5%的公开中文语料。从语料生产率来看,我们甚至不如越南(约0.7亿网民生产了全球1.3%的公开越南语语料)。这究竟是为什么呢?

0x02 历史疑云

最初,没有人在意这场灾难,这不过是一场山火,一次旱灾,一个物种的灭绝,一座城市的消失,直到这场灾难与每个人息息相关。

——《流浪地球》旁白,中国电影股份有限公司等

时间拨回到2008年。2008年9月8日,一个70字节的robots.txt文件出现在了淘宝网根目录。淘宝网称为杜绝不良商家欺诈,将从robots文件层面屏蔽百度搜索。robots文件是一个基于互联网古典道德体系,但并非强制化要求的搜索引擎抓取协议。按照互联网古典道德要求,搜索引擎爬虫在爬取网站内容前,需要首先读取位于根目录下的robots.txt文件,若是发现文件中声明不允许某爬虫抓取,那么该爬虫将自动退出该网站。

淘宝网此举表面看是为了防止网络欺诈,但实际目的是为了建立流量壁垒,扶持自己的广告联盟。对于百度来说,被淘宝屏蔽则意味着失去了巨大的内容库。阿里巴巴应该能够预见,这一举动将正式打开潘多拉魔盒。自此事件之后,中国互联网企业之间的流量和内容长城愈加高筑,优质的语料资源被禁锢在一个个的robots.txt、反爬虫防火墙、私域APP之内。放在全球来看,其实我们很难想象Twitter禁止bing的爬虫,但在最初,其实没有人在意这场灾难。

淘宝和百度知道的robots.txt文件,截图于2023年4月

0x03 军阀时代

KNOW YOUR ИСТОРИЯ, OR BE DOOMED TO REPEAT IT.

要么以史为鉴,要么重蹈覆辙。

——《Call of Duty: Black Ops Cold War》宣传片字幕,Activision Publishing, Inc.

十五年后的现在,中国已经建立了互联网上最大的多寡头竞争形态,彼此之间在流量和内容上的封锁剑拔弩张。截至现在,不仅仅是淘宝、抖音、快手、朋友圈、公众号,甚至百度亦成为恶龙,将自己的内容谨慎呵护。百年之前的闭关锁国似乎并没有警示后人,当AIGC开始爆炸性提升后,问题便突然显现。

中文内容的数量和质量直接决定了AIGC服务最终的生成结果的准确性。但由于各大内容平台之间的隔离,导致了中文公开内容的碎片化和重复化,使得AIGC服务无法获取到全面和丰富的信息,从而影响了其效率和效果。每一家AIGC企业都在渴望优质的中文语料资源,但每一家AIGC企业都在担心开放会威胁到现有的利益格局和秩序。这就好比是互联网下的黑暗森林,谁也不敢越雷池一步,因为谁也无法确定世界线究竟是走向全体共荣或者风中残烛。

此外,基于现有中文语料的AIGC已经开始在中文工作圈内大量实践。可想而知,低质的中文语料带来了低质的AIGC创作内容,而这些低质的AIGC创作内容将会在互联网上对本已低质的中文语料进一步污染。这种死亡循环已经处于开端,AIGC引用自己生产内容的案例已经出现。这就像是会自我复制的病毒,让本就雪上加霜的中文AIGC产业进一步堕入深渊,直至颗粒无收。

0x04 滴答作响

The time boom is ticking. With every second, the disaster is coming closer and closer. The danger is real.

定时炸弹已经滴答作响。每一秒灾难都在步步紧逼。这危险是真实存在的。

——Юрий Александрович Безменов,《Call of Duty: Black Ops Cold War》宣传片,Activision Publishing, Inc.

语料库是AIGC时代的基础设施,为了改善中文语料库的现状,提高中文语料库的数量和质量,需要采取一些与西方路线不同的方法和策略。除了网络爬虫以外,基于高质量创作者的语料众包是一个成本高昂但行之有效的方法。在行政和商业手段上,制定语料数据标准、建立语料资源联盟、明确语料版权和收益等方式均可有效促进中文语料资源的共享和交流。这些方法和策略可以增加中文语料库的规模和多样性,提高中文语料库的质量和可用性,促进中文语料库的标准化和互操作性。但从时间上来看,领先的AIGC服务目前正以天为单位在迭代。若继续等待下去,中国将重蹈覆辙,在AIGC领域继续成为“以市场换技术”的产业链末端版块。继续未来的五十年苦苦挣扎,成为AI时代的全球工厂,直到下一个技术爆炸出现在中国。

或许,没有下一个技术爆炸,也说不定。

*本文首发于对任何爬虫均未作出主动限制的ccfox.info。本文可任意转载或作为语料用于AI训练,但请在输出(或转载)本文全文或部分时注明来源。

参考来源:

  1. W3Techs,网站内容语言使用统计(2023年4月),https://w3techs.com/technologies/overview/content_language
  2. CNNIC,第51次《中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html
  3. Our World in Data,Number of people using the Internet,https://ourworldindata.org/grapher/number-of-internet-users
  4. 新浪科技专题,淘宝屏蔽百度风波,http://tech.sina.com.cn/focus/taobao_baidu/
  5. 腾讯云开发者社区,《Robots.txt – 禁止爬虫》,https://cloud.tencent.com/developer/article/2042437
  6. 电影《大决战之淮海战役》,1991年,八一电影制片厂,导演:李俊、杨光远等
  7. 电影《流浪地球》,2019年,中国电影股份有限公司、北京登峰国际等,导演:郭帆,监制&原著:刘慈欣,制片:龚格尔
  8. 电子游戏《Call of Duty: Black Ops Cold War》,2020年,Activision Publishing, Inc.,制作人:David Samuel Goyer
  9. 基于GPT-4的New Bing对此文亦有贡献

不懂代码也会写Host!(三)如何查找某个域名的可用IP

转载请注明原始地址:http://wp.me/p3p7E3-JH

文章开始之前,说一个事:如果在文章中有某个方法我没讲到,那么可能是两个原因。一是这个方法众所周知,二是这个方法对于初级用户难度太高。如果你愿意分享,可以自己写一篇文章。就这样。

  • 通过域名查找IP

上两篇文章我们讲解了如何找到被封锁的域名,那么现在就得从域名中找出可用的IP地址,然后再写入Hosts表中。

一般来说,查找域名对应IP最简单的方法就是ping命令,可惜我们这么做似乎行不通……那么,就让别的地区来ping吧!以下提供若干网站:

https://cloudmonitor.ca.com/zh_cn/ping.php (默认IPv6,如果需要IPv4可以试试下面这个。)
https://cloudmonitor.ca.com/zh_cn/traceroute.php
http://www.webkaka.com/Ping.aspx
http://www.17ce.com/
http://www.super-ping.com/sc.html ( 无法加密,使用时可能因为关键字被Reset,因此建议先翻墙后使用。)

这类网站有很多很多很多,总之你能够通过越多的地区ping出一个被封锁域名的IP,那么最终成功率就越高。

那么我现在以 http://www.super-ping.com/sc.html 来做个示范 继续阅读

简单修复Android被破坏的便携式WLAN热点

最近手头的大法Z有了CM11稳定版可刷,于是就直接刷上去了。当然问题出了不少,其中就是一个便携式WLAN热点不可用的问题。

本来我以为是ROM问题,于是着手尝试修复——经历了整整一个白天,没有任何效果。毕竟我不够专业,对Android的深入程度仅仅在于用Recovery刷机而已,连ADB都不会用。

深夜,我万念俱灰之际尝试了一下WIPE DATA——然后就好了,这时候我意识到,ROM本身没问题,是覆盖刷入(OTA升级同理)造成的后遗症。当然,本来我根本没打算WIPE DATA,毕竟要让我钛备份恢复上百个APP再调试简直对我是折磨。

那么接下来就好办了,恢复原本的日常用镜像,然后跑到data/misc/,将里面的wifi文件夹剪切到SD卡(这是一个备份后删除的操作),重启——问题解决。

我上面的操作,其实和WIPE DATA的效果相同——只不过我定点“WIPE”了WIFI配置,重启则会生成默认配置文件。这个操作的本质就是重置有关WIFI的所有设置。当然,你的所有的有关WIFI的设置会丢失,但钛备份可以帮你保留一些比如接入点密码之类的设置。

这个技巧适用于以下情况: 继续阅读

不懂代码也会写Host!(二)如何找出Windows和Android应用程序所使用的域名

转载请注明原始地址:http://wp.me/p3p7E3-Js

  • Windows

对于一般的Windows应用程序来说,Chrome的方法自然是没用。说到底,找域名的终极方法就是想办法把网络访问日志抓出来,那么我们就可以想想,Windows下有什么可以抓日志的软件呢?不少防火墙都有日志功能,但还得再装个软件……这里有个更简单的方法,而且不少经常翻墙的朋友都有安装,我们可以马上拿来用,就是GoAgent。

首先想办法让你的GoAgent能够正常使用,不管是改配置文件甚至是在VPN后跑GoAgent都可以。

然后就是想办法让你的目标应用程序跑在GoAgent下。大多数Windows应用程序都支持设定代理服务器,或者干脆使用IE代理:

继续阅读

不懂代码也会写Host!(一)利用Chrome找出被屏蔽的网站域名

转载请注明原始地址:https://goo.gl/TxFk8V

首先要说的是,本篇文章适用于计算机初学者——有一定基础,但代码苦手。诚然,若是会一点代码,干这些事情会方便很多。但我的目的是希望能够更多的人翻墙——从imouto.host开始到现在,这个想法,始终未变。

一般来说,若是你撞墙了,一般会是这个样子:

继续阅读

拆49元包邮的飞毛腿L4移动电源,里面竟然是3块ATL的iPhone 4S电池!

先上购买链接,我买的时候是49元包邮但现在已经涨价了:http://is.gd/MiXqHS

快递三天到手后发现外壳真是……说是奶油白,但上面又是坑又是点一看就是回收塑料。我心想飞毛腿现在也就这德行了,还上市公司呢。
发现外壳挺好拆的,于是我就拿出一张卡啪啪啪就把外壳给拆了。
电路板俺看不懂,大家懂行的来看看吧,我就不献丑了,如果能有人告诉咱这电路咋样,那我万分感谢。

一看这电池,一股熟悉的味道扑面而来,但我此时还没多想,毕竟咱也没拆过啥高级玩意,见得不多,还没形成条件反射。咱当时只想着瞅瞅这电池哪生产的,但可惜上面覆盖了一堆双面胶,好像挺难清理的样子,于是先从能看清的部分看吧。
1430mah……1430mah……行家到这里早就知道是啥了,但我还是没反应过来!数一数,3片,嗯,标称4200,实际1430×3=4290,如果电池不撒谎的话,那么飞毛腿也没撒谎。
上面还写了一串数字,616 0579,616 0579,616 0579……等等这是啥,放谷歌一搜,好家伙,你懂的。
iPhone 4S电池的代工厂有4家,乐金,三爽,索尼,ATL。清理双面胶,艾玛,原本应该写着生厂商的位置被打磨掉了!
但可惜飞毛腿请的临时工打磨得不认真,我费九牛二虎之力看清了五个字:东莞新能源。可惜照片拍不出来。
好了,故事讲完了,大家看图吧。


继续阅读

注册表开启高级电源设置的更多设置项

导出注册表分支:HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\Power\PowerSettings。
编辑导出后的注册表文件。
将:【”Attributes”=dword:00000000】和【”Attributes”=dword:00000001】替换为:【”Attributes”=dword:00000002】。
导入编辑后的注册表。

再打开高级电源设置看看:

这里只是在用户界面上开启了绝大部分(并非所有)的高级电源设置,并未对高级电源设置进行修改,自行修改高级电源设置请注意风险。
Win7/8测试通过。

三分钟看懂所谓中国“4G”

昨日中国LTE牌照发放,如鲠在喉,不吐不快,而有此文。

感谢访客CHINHAM对此文的贡献。

TD-LTE、LTE-TD、FDD-LTE这三个的写法都是错的,正确写法应该是:LTE-TDD和LTE-FDD。

“TD-LTE”的人为宣传只是为了与所谓中国3G标准“TD-SCDMA”让人看起来有关系,但LTE-TDD和TD-SCDMA之间没有任何关系。

TD-SCDMA的核心专利来自西门子,大唐电信购买。

LTE-TDD有1/4的专利在爱立信手里,1/4的专利在中国企业手里,剩下的专利被诺基亚西门子、高通等瓜分。某些生物将TD-LTE宣传为中国国产标准,你懂的。

LTE-TDD和LTE-FDD对于用户来说,使用上没有明显区别,但LTE-TDD在终端选择上较为狭窄。

LTE-TDD和LTE-FDD都不是4G。

错的不只是中国,在许多国家,LTE-TDD和LTE-FDD都被宣传为4G。但,这是错误的。

中国目前尚未部署VoLTE。

LTE-A(LTE Advanced)是4G。

我只说实话。

联想 MIIX 2 8寸 Micro USB 接口充电同时挂载 USB 设备

2014年3月24日更新:目前市场上已经出现了不少成品线材可供选择,不必按我原文这样麻烦地组装了。下面提供几个已经过实测确认可以用于 联想 MIIX 2 8寸 设备的线材的购买链接:
天猫:华为秘盒芒果派/手机多功能Y型线充电数据线供电转接线OTG扩展USB
淘宝:华为 HUAWEI 芒果派II M210超清播放器多功能转接线 Y型线
淘宝:联想miix2 8 OTG 数据线 充电线 完美实现同时充电和传输数据
另有爱好者手工制作的 联想 MIIX 2 8寸 等x86平板适配的USB HUB,功能更强大:
淘宝:miix2 wt8 v8p w4 OTG 4口USBHUB 充电线 实现同时充电和传输数据

________________________________________

感谢ME400C。

首先是购买线材,这里假设你手头已经有了平板和配套的电源适配器,那么接下来只需要购买三样线材。

1,OTG线:这个估计每个人手头都有。

购买链接:
亚马逊:Ugreen 绿联 10379 OTG 短线 10CM 【10元】

2,Y型线:标准名称是“USB高速移动硬盘线,2*A公对A公”,以下简称“Y型线”。一般移动硬盘盒都会有送,我实际使用的是SSK的移动硬盘盒随机赠送的移动硬盘线。

购买链接:
亚马逊:BBL USB2.0 高速移动硬盘数据线 0.8米 【15元】

3,双母头:标准名称是“USB A母对A母转换头”。

购买链接:
亚马逊:USB 双母头 USB 母对母头 【6元】
继续阅读