在1500万行源码上“动刀”,复刻「美版」核心算法?TikTok下场辟谣
在1500万行源码上“动刀”,复刻「美版」核心算法?TikTok下场辟谣
5月31日,路透社发布了一篇关于TikTok准备在美国复制核心算法的报道,引发广泛关注。对此,TikTok在Twitter上回应称该报道具有误导性且与事实不符。本文将详细梳理TikTok在美国的发展历程及其面临的挑战。
事件背景
2020年以来,TikTok在美国的发展一直备受关注。时任美国国务卿蓬佩奥曾表示美国正在考虑封杀包括TikTok在内的中国社交应用,这场科技战由此打响。
美国政府对TikTok的主要担忧在于其可能对国家安全构成威胁,担心TikTok收集的用户数据会被用于监视美国公民。因此,美国政府试图迫使字节跳动将其美国资产与中国业务分开。
字节跳动的回应与辟谣
面对美国政府的担忧,TikTok多次发表声明强调其重视用户数据安全。TikTok表示,有数百名涉及安全、产品、公共政策等方面的员工以及高管在美国工作,从未向中国政府提供过用户数据,即使被要求也不会这样做。
据CNBC报道,TikTok的代码量可能多达1500万行。如果交易达成,微软已经和美国政府达成协议,将在一年内将TikTok的代码及大量的数据从中国带到美国。
美国政府的最新动作
今年3月,美国众议院以352票对65票的压倒性票数通过了一项法案,要求TikTok的中国所有者在9个月内剥离其美国业务,否则将在美国禁用。拜登总统随后签署了相关法案,使得这项禁令正式成为法律。
TikTok的发言人亚历克斯·豪雷克表示,希望参议院能够考虑事实,听取选民的意见,并认识到这对经济和用户的影响。现任TikTok CEO周受资也发布视频,抨击了该法案,并呼吁人们分享TikTok如何改善他们生活的故事。
技术层面的挑战
根据《中国禁止出口限制出口技术目录》,语音合成技术、人工智能交互界面技术、基于数据分析的个性化信息推送技术等均受到限制。这些技术TikTok均有涉及,尤其是基于数据分析的个性化信息推送技术。
TikTok向美国哥伦比亚特区巡回上诉法院提交请愿书,称美国总统拜登签署的禁令侵犯了1.7亿美国用户的第一修正案权利,法律关闭该平台是基于“对数据安全和内容操纵的猜测以及分析上的缺陷”。
路透社的最新报道
路透社援引未具名消息人士的报道,TikTok及字节跳动于去年年底开始进行“源代码拆分工作”,将算法从中剥离出来。消息人士称,尽管TikTok目前没有剥离美国资产的计划,但一旦拆分代码,开发单独的算法可能会为未来的此类举措奠定基础。
工程量巨大的代码拆分工作
TikTok的代码量可能多达1500万行,如果对这项代码进行操刀,工程量可谓巨大。路透社称,在过去的几个月里,数百名来自美国和中国的字节跳动和TikTok工程师收到了一项任务:分离数百万行代码,筛选公司的算法,此算法可以按照用户的喜好为其配对视频。
引用两位直接了解该项目的消息人士的话——工程师们的任务是创建一个独立的代码库,该代码库独立于字节跳动的中国版TikTok“抖音”所使用的系统,同时消除任何与中国用户相关的信息。
开放源码的可能性
不止将TikTok的美国推荐引擎与抖音的代码剥离,路透社还透露,TikTok和字节跳动也想过将源码开放出来。路透社表示,早先一项名为“德克萨斯计划”的隔离美国用户数据的计划未能安抚美国监管机构和议员。现在,该公司正试图加大努力,表明其美国业务独立于中国所有者。
消息人士称,TikTok高管曾一度考虑将TikTok的部分算法开源,或供其他人访问和修改,以展示技术透明度。据一位参加会议的消息人士和另一位查看过这些信息的消息人士称,高管们在团队全员会议上、在内部规划文件中以及在名为Lark的内部通信系统上传达了有关代码拆分项目的计划并提供了最新信息。
据一位消息人士称,确定哪些代码部分可以移植到TikTok所涉及的合规性和法律问题使工作变得更加复杂。每一行代码都必须经过审查,以确定它是否可以进入独立的代码库。一旦完成,TikTok美国公司将独立于其他地区的TikTok应用程序及其中国版抖音运行和维护其推荐算法。此举将切断其与字节跳动庞大的工程开发力量的联系。
消息人士补充说,如果TikTok完成了将推荐引擎从中国同行中分离出来的工作,TikTok管理层会意识到TikTok美国可能无法提供与现有TikTok相同水平的性能,因为TikTok严重依赖字节跳动在中国的工程师更新和维护代码库,以最大限度地提高用户参与度。
结语
随着时间的推移,TikTok的核心算法究竟会以何种方式呈现,依然存在巨大的变数。这场科技巨头与政府之间的博弈,不仅关系到TikTok的未来,也影响着全球科技产业的发展格局。