312章 巨额隐形财富(续)
果世2017,1000万条双语数据标注耗资两千万元。
机器习整体比较滞空2014。
1000万条双语数据标注需少钱呢?
林灰觉1000万条双语标注数据怎两三亿元啊。
“两三亿元”数据似乎点吓。
其实夸张。
夸张两方原因:
、即便世,数据标注偶习类特殊习技巧问世本才幅降。
此,涉及数据标注跟“便宜”两字沾边。
拿此林灰列例援引:
世20171000万条双语互译标注本约2200万元;
注仅仅双语互译标注。
“双语互译”某两语言间互译标注。
两语言间互译标注需两千万元?
涉及百语言互译需少钱呢?
问题并复杂,简单排列组合问题:
C(100,2)== 4950; 4950*0.22亿元==1089亿元;
难若需支持百语言互译,工标注训练集本将达千亿元。
仅仅理况估算,果真按部班进标注实际本远止此。
毕竟很语间互译本显相比主流语言间互译价格更高。
虽实际操真怨按部班进百语言互译数据标注。
估算充分明数据标注相长段间内很昂贵。
理,空数据标注方本依昂贵。
且因空机器习方研究进展滞,涉及数据标注方本甚至高世期。
二、代飞速展,知随便文体店很方便买科计算器其实际效率、靠程度、易性甚至全方位吊打世纪五六十代花费千万元搞占几百甚至千平方米计算机。
况世很便宜计算器拿几十纵价百万元市场,且相竞争力。
举例并林灰再往几十卖计算器。
林灰藉此明代车轮向,科技飞快展。
尤其互联网代,科技展新月异丝毫。
况,往几怎被分重视技术几够换取额财富很正常。
更何况利数据标注相长段历史期内土豪公司才玩转东西换取财富?
,林灰觉“1000万条双语标注数据怎两三亿元”估算什问题。
甚至,即便“两三亿元价格”给旁很夸张感觉。
实际林灰价格估算点保守。
工智产业结构,主体包含应层、技术层基础层。
应层包含解决方案产品服务。
技术层包含应技术、算法理论平台框架。
基础层则包含基础设施数据。
角度衡量话,某程度甚至将数据工智基石。
实正此。
涉及工智三驾马车算法、算力、算据(数据)。
算法很重,知很候,优质数据存,很难训练优质算法。
数据东西虽通常况见摸,任谁忽视数据重性。
尤其标注数据更相重。
监督机器习仍神经网路习训练主方式。
监督机器习离标注数据。
监督机器习需被标注数据先验经验。
监督机器习未被标注数据被标注数据比例划分训练集测试集。
机器通训练集习模型,再测试集进识别,该模型准确率。
算法员根据测试结果找模型短板,并将数据问题反馈给数据标注员,再重复流程,直模型指标符合线需求……
几乎啥监督习应况,规模、高质量工标注数据集甚至机器习产业展刚需。
况,数据及标注数据再重。
因此才林灰谓估值估低法。
谓估值重,真涉及标注数据售话具体价格完全慢慢谈。
林灰需很钱,果将超级巨头进谈判话,林灰未必钱。
林灰感兴趣资源进交换。
实话顶尖巨头部分资源林灰相诱惑力。
具体林灰拥标注数据。
曾经涉及网文翻译候,林灰初几乎间世部机SimpleT软件。
【讲真,近直野果阅读书追更,换源切换,朗读音色,www.yeguoyuedu.com 安卓苹果均。】
SimpleT软件世林灰公司测试款软件。
软件怎知因该软件处α内测阶段。
α测试目评价软件产品功、局域化、性、靠性、性支持。
尤其注重产品界特色。
α测试间软件产品编码结束始。
模块(系统)测试完始。
确认测试程产品达定稳定靠程度再始。
SimpleT款软件α内测确认SimpleT达定稳定靠程度才始。
虽SimpleT尚内测。
款软件技术水平相熟,几乎离正式世差轮公测。
林灰原本待机合适将软件复刻进军软件翻译市场。
留标注数据拥特殊价值况。
林灰差间SimpleT软件。