-----Recorded Future預測未來搜索引擎-----
-----以色列計算機科學家kira radinsky-----
-----Big Data Scientist大数据工程师-----
2035年Ray Kurzweil :人腦將可連線至雲端
-----2025年Ray Kurzweil預測 :軍事無人機和陸地車輛將100%由電腦控制。
-----2017年Ray Kurzweil預測 :自動駕駛將普及化
-----2014.11.12華爾街日報 :Big Data時代來臨,公司急需的數據家不僅需要擁有工程知識和商業能力,還需對數據有敏銳的感覺,這樣他們才能勝任分析和處理「大數據」公司提供的各項數據和信息
-----2014.7微軟推出微軟Azure機器學習服務(Azure Machine Learning)預覽版=可透過不同的演算法和程式語言以檢視歷史數據與預測未來事件,可用於預測疾病爆發、電梯維修時間,甚至可以預防發生犯罪事件。
-----2014.1.26谷歌4億美元收購DeepMind人工智能公司
-----2013.5.16谷歌与美国航天局成立“量子人工智能實驗室Quantum Artificial Intelligence Lab”。
2020年---颜莉萍 :94%的公司需要Data Scientist
-----2018年麦肯锡报告显示,美国数据科学家将会面临多达19万名缺口。另外能够从数据中挖掘分析见解的管理、分析型人才,缺口高达150万名。
-----2016年中关村大数据带动的产业规模将超过1万亿元
-----2014.11.12北卡州立大學高等分析學院拉帕 :美國約70家高等學府教授類似的分析課程,每年大約產生1000名數據家,完全不能滿足市場需求。
-----2010年資料管理分析產業市值超過1,000億美元
2017年---重慶計劃使大數據技術在民生服務、城市管理及全市支柱業發展等領域廣泛應用,大數據業成為重慶市經濟發展的重要增長極,形成民生服務、城市管理和經濟建設融合發展的新模式,構建起雲端智能信息化大都市,成為具有國際影響力的大數據樞紐及業基地。
-----2014.11.12重慶與惠普推進雲計算 大數據業合作
一是惠普公司將分別與重慶市金融辦簽署“非傳統金融業務信息監管平台項目”戰略框架協議,與兩江新區、重慶大學和四川美術學院共同簽署“大數據人才教育項目”戰略合作協議,從金融信息化和人才培養兩個領域共同推進重慶雲計算和大數據業發展;
二是中國惠普有限公司重慶分公司掛牌成立,該公司未來將統籌惠普公司在雲計算大數據方面與重慶合作的業務發展和運營;
三是惠普公司與重慶本地民營企業重慶龍渲渲染科技有限公司合作的“龍渲雲平台”正式上線運營,惠普公司計劃將服務於美國好萊塢夢工廠的國際領先渲染架構和運營能力帶到中國,落戶重慶,這是惠普公司和重慶共同推動雲計算和大數據業發展合作的第一個落地行業板塊。
2015.5.26---网络安全公司正利用Recorded Future去收集和记录更多数据
==Christopher Ahlberg :预测未来非常简单,只需向其公司开发的软件中输入几个字即可。举例来说,将“抗议”两个字输入到其软件产品的仪表板中,后者就可显示出世界各地即将发生抗议的地点地图,我们的客户越来越有创意,他们正以令我们感到震惊的方式使用我们的产品
-----2010.7.30美CIA與Google投資Recorded Future
-----2008年Recorded Future成立
==Recorded Future總部設在位於麻省劍橋,美國和哥德堡 ,瑞典,專門從事網絡情報
==Recorded Future能夠分析大量網路訊息來掌握某一事件的發展趨勢,此一資訊將有助於Google或中情局預測未來
網站提供免費和預付費兩種用戶模式,
預付費用戶可以選擇包月或年的支付方式,包月費用是149美元,包年費用是1599美元。
免費用戶和預付費用戶的功能有很大差別,
免費用戶可通過Recorded Future定制自己感興趣事件,
可以定制的事件類型包括:
所關注上市公司最新活動、收購、盈利預測等資訊;
所關注國家或地區政治問題跟蹤、新聞等資訊;
所關注行業新品發佈、公司擴張及行業分析師評估報告等資訊;
公眾人物言論、位置以及行蹤;
科技及資訊安全等領域的新技術發展、網路安全等資訊;
自己或自己公司前瞻性課題。
2014.11.12---華爾街日報 :Big Data時代來臨,公司急需的數據家不僅需要擁有工程知識和商業能力,還需對數據有敏銳的感覺,這樣他們才能勝任分析和處理「大數據」公司提供的各項數據和信息
-----北卡州立大學高等分析學院(Institute for Advanced Analytics at North Carolina State University)創始人拉帕(Michael Rappa)表示,傳統大學的結構並不利於跨科目的教育方式。
-----北卡州立大學高等分析學院的創始人拉帕表示,要想具備這些能力,關鍵是採用跨部門的學習和培訓。在他們的學院,學生必須花整整十個月,一周五天,朝九晚五,主修應用數學、統計、計算機、金融和市場學。其中許多課目是一個數據家應當暸解的內容。學院會提供給學生來自政府的真實、但隱去真名實姓的數據,讓他們分析並解決經營方面的具體問題。
-----SunTrust Banks Inc銀行任職信息主管Anil Cheriyan表示,數據家的職位由兩人擔任。一位數據能力強的工作人員先以深度的商業知識和經驗將數據進行歸類、整合和管理。然後,另一位致力分析的工作人員採用數據模型和數據挖掘的方式來對客戶分類,或研究有關產品、風險等方面的課題。要找到一個人有能力同時涉足這兩大領域非常困難。不過他相信,隨著這個領域的發展和成熟,這樣的全面型人才逐漸會出現。該行已經開始將數據處理和分析這兩個領域的工作人員一起培訓了。
2014.11.12---LinkedIn中国商务分析及战略总监王昱尧:每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。,在一个成熟的数据驱动型公司,“大数据工程师”往往是一个团队,它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色,共同完成从原始数据到商业价值的转换—概括来讲,这是一个支持企业做出商业决策、发掘商业模式的重要群体。由于国内的大数据工作还处在一个有待开发的阶段,因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架,包括要有计算机编码能力、数学及统计学相关背景,当然如果能对一些特定领域或行业有比较深入的了解,对于其快速判断并抓准关键因素则更有帮助。
-----2014.11.13阿里巴巴[微博]集团研究员薛贵荣 :学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。除此之外,一个优秀的大数据工程师要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的,哪个是重要的,使用什么样的数据是最有价值的,如何快速找到每个业务最核心的需求
-----2014.11.13联合国[微博]百度[微博]大数据联合实验室数据科学家沈志勇 :学习能力能帮助大数据工程师快速适应不同的项目,并在短时间内成为这个领域的数据专家;沟通能力则能让他们的工作开展地更顺利,因为大数据工程师的工作主要分为两种方式:由市场部驱动和由数据分析部门驱动,前者需要常常向产品经理了解开发需求,后者则需要找运营部了解数据模型实际转化的情况。
A 大数据工程师做什么?
阿里巴巴集团研究员薛贵荣=大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
沈志勇=如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和采矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
找出过去事件的特征==大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好,是不是互联网付费用户、喜欢玩什么类型的游戏,平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰对说。下一步到了业务层面,就可以针对各类人群推荐相关服务,比如手游,或是基于不同特征和需求衍生出新的业务模式,比如微信的电影票业务。
预测未来可能发生的事情==通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。”薛贵荣说。在百度,沈志勇支持“百度预测”部分产品的模型研发,试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例,大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测,并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里,它究竟是畅通、拥挤,还是一般拥挤?
找出最优化的结果==根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。以腾讯来说,郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试(AB Test),即帮助产品经理在A、B两个备选方案中做出选择。在过去,决策者只能依据经验进行判断,但如今大数据工程师可以通过大范围地实时测试—比如,在社交网络产品的例子中,让一半用户看到A界面,另一半使用B界面,观察统计一段时间内的点击率和转化率,以此帮助市场部做出最终选择。作为电商的阿里巴巴,则希望通过大数据锁定精准的人群,帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人,比起现有的用户,这些人对产品更感兴趣。”薛贵荣说。一个淘宝的实例是,某人参卖家原来推广的目标人群是产妇,但工程师通过挖掘数据之间的关联性后发现,针对孕妇群体投放的营销转化率更高。
B 需要具备的能力
数学及统计学相关的背景==就我们采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。沈志勇认为,缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(Danger Zone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就并不是真正有意义的结果,并且那样的结果还容易误导你。“只有具备一定的理论知识,才能理解模型、复用模型甚至创新模型,来解决实际问题。”沈志勇说。
计算机编码能力==实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。“因为许多数据的价值来自于挖掘的过程,你必须亲自动手才能发现金子的价值。”郑立峰说。举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。
对特定应用领域或行业的知识==在颜莉萍看来,大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。“他不能只是懂得数据,还要有商业头脑,不论对零售、医药、游戏还是旅游等行业,能就其中某些领域有一定的理解,最好还是与公司的业务方向一致的,”就此薛贵荣还打了个比方,“过去我们说一些奢侈品店员势利,看人一眼就知道买得起买不起,但这群人恰恰是有敏锐度的,我们认为他们是这个行业的专家。又比如对医疗行业了解的人,他在考虑医疗保险业务时,不仅会和人们医院看病的记录相关,也会考虑饮食数据,这些都是基于对该领域的了解。”
C 大数据工程师的职业发展
如何成为大数据工程师==由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。2014年8月,阿里巴巴举办了一个大数据竞赛,把天猫[微博]平台上的数据拿出来,去除敏感问题后,放到云计算平台上交予7000多支队伍进行比赛,比赛分为内部赛和外部赛。“通过这个方式来激励内部员工,同时也发现外部人才,让各行业的大数据工程师涌现出来。”颜莉萍建议,目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。
薪酬待遇==作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。颜莉萍表示,“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。”在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。
职业发展路径==由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展,成为重要数据战略人才。”颜莉萍说。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。
2014.7---微軟推出微軟Azure機器學習服務(Azure Machine Learning)預覽版=可透過不同的演算法和程式語言以檢視歷史數據與預測未來事件,可用於預測疾病爆發、電梯維修時間,甚至可以預防發生犯罪事件。
-----2014.6.16微軟表示將結合自有軟體和開源軟體,提供操作簡易的機器學習服務。曾任職於亞馬遜多年,微軟機器學習部副總經理Joseph Sirosh表示,這是雲端服務首次推出全面性機器學習服務,目前市面相關軟體多半複雜難用,但微軟這個服務簡化了使用方式,甚至連國中生都可以很快上手。
=機器學習技術可運用不同的演算法和程式語言以檢視歷史數據與預測未來事件,可用於網路搜尋、產品推薦、數位語音助理Cortana等。Sirosh表示,可以實際運用Azure機器學習服務,預測疾病爆發、電梯維修時間,甚至可以預防發生犯罪事件。
=卡內基美隆大學(Carnegie Mellon University, CMU)利用Azure 機器學習服務,來分析校園建築的能源消耗趨勢,從而找出降低整體成本的關鍵。
-----2014.1.26谷歌4億美元收購DeepMind人工智能公司=谷歌正在大規模招攬人工智能領域人才,收購DeepMind是這一計劃的一部分。Google会变成一个“机器学习”技术方案的底层提供商,来帮助那些没有技术能力的小型公司或传统商业企业来提升他们的产品。而DeepMind恰恰便是这种模式的先行者之一。DeepMind的投資方包括Founders Fund,以及香港富豪李嘉誠旗下的創投機構維港投資(Horizons Ventures),DeepMind公司位于英國倫敦,由神經係統科學家Demis Hassabis、網絡語音通訊軟件Skype開發者Jaan Tallin和研究人員Shane Legg共同創辦。DeepMind Demis Hassabis是國際象棋神童,被稱為“智力運動會”(Mind Sports Olympiad)有史以來最佳選手。智力運動會創辦于1997年,是全球最聰明大腦的競爭舞臺。-DeepMind公司為模擬程序、電子商務和遊戲開發學習算法。
-----2013.5.16谷歌与美国航天局成立“量子人工智能實驗室Quantum Artificial Intelligence Lab”。該實驗室的目標是研究量子計算機能否解決傳統計算機無法勝任的一些問題。谷歌聘請Ray Kurzweil從事機器學習和語言處理等方面的研究。美国谷歌与美国航天局联手购入一台D-Wave量子计算机,并建立一个专门实验室致力于借助量子计算推动人工智能领域机器学习方面的研究课题。机器学习是一门人工智能科学,研究计算机如何通过分析现有数据的规律改进输出。个性化互联网搜索和根据GPS数据预测交通堵塞都是机器学习的例子。此领域对面部或语音识别、生物行为、大型复杂系统的管理尤其重要。“量子人工智能实验室”将设在美国航天局艾姆斯研究中心 Ames Research Center。非营利机构“高校空间研究协会”负责D-Wave量子计算机的日常运行,全球研究人员还可以申请共享使用该设备的运行时段。量子计算机由加拿大D-Wave系统公司制造,预计售价1500万美元。这是该公司售出的第二台商用量子计算机。此前洛克希德-马丁公司曾于2011年购买了一台D-Wave量子计算机。 量子计算机与传统计算机的一个主要区别是,传统计算机只使用1和0两种状态来记录数据和进行计算,而量子计算机可同时用多个不同的量子态,因此具有更大的信息存储和处理能力,被认为是未来计算机发展的方向。-D-Wave首席执行官Vern Brownell称,量子计算机的潜在用途包括金融、医疗和国防。长期愿景是量子云,后台配备一些高端系统。它可用于训练手机内的算法或为金融机构完成大量模拟
2014.5.12---SalesPredict$ 4.1M融資
==SalesPredict的业务范围专注于帮助企业找到最有希望的潜在客户,改进企业经营方式。
==SalesPredict首席執行官亞龍Zakai -或者說,兩年歷史的公司是他自己,並開始基拉Radinsky ,誰是首席技術官。 這兩個以前一起工作了好幾年的微軟,想開公司,以幫助銷售人員做出何處使用數據來驅動他們的決定將精力更好的決策。
該產品的工作方式是通過看成功和失敗從過去的交易作為一個開始點教算法交易是最有可能成功,但它不會停在那裡。 他們還扔在其他數據,望著打開網頁和網站,如維基百科和使用谷歌和雅虎的API來收集有關個人和公司信息。 最後,他們看的人在公司的公共社會概況,並結合與商業列表和它們的Alexa和ZoomInfo購買數據。“在一天結束的時候,我們有一個全面審視企業的人口統計數據,以及噸,每根導線和帳戶數據,”Zakai - 或者說。 他補充說,“我們期待在數據和計算定義成功[每]顧客的關鍵因素。”基於這些信息,SalesPredict使該公司從A級到D的基礎上,前景將如何可能變成一個銷售與A是最有可能和D最少。 然後,它提供了有關在球場客戶的最佳方式,他們的可能的痛點是,他們是在和他們最有可能購買什麼人物垂直,並根據這些信息給銷售人員推銷合適的產品工具最有可能的客戶。
-----其目的是更好的合格的銷售線索,增加收入的公司。 據其簡約的網站(“我們仍然在隱形模式,”Radinsky解釋),SalesPredict是建設“一個基於雲的應用程序,提供有針對性的企業對企業的銷售情報,讓銷售專業人士專注於完成交易。”與她無論是在商界和學術界的經驗,Radinsky肯定有數據印章拉過像SalesPredict項目。 但潛在的客戶將是最好避免Radinsky在一個黑暗的胡同 - 她的“印章”超越數據擴展到空手道,她在其中有一個黑色的皮帶。 它是一門藝術,她一直在練習,因為五歲。 並擊敗了雄心勃勃的Radinsky可能不會是一個預測自己的軟件將排名高
-----2014年以色列第66屆Independece日火炬受款人=榮幸被選為他們對以色列國家貢獻14之一,以點燃火炬紀念獨立日 ,作為科學領域的代表。
-----2013.8.23SalesPredict提出100萬美元的種子資金,它的預測分析平台,專門為銷售和營銷人員設計的。 該投資已於同樣率領Pitango風險投資,AfterDox和RSL Venture Partners公司從天使投資人的參與
-----該算法,建成由聯合創始人以前的微軟研究院和首席技術官基拉Radinsky,制定了SaaS的,緊密集成到Salesforce應用程序交換。 客戶將下載從AppExchange的銷售預測應用程序時,它可以在未來幾週和預測分析技術集成到他們的銷售線索的過程。 這項服務將隨後比分公司的信息,以幫助銷售人員決定優先考慮的東西。引線富集與Salesforce的數據,社交數據和其他信息來源,如來自Alexa和data.com,Salesforce的聯繫人數據庫網站的流量。,該公司著眼於過去的數據和特徵,區分一個好頭從一個不太可能是富有成效的屬性。 隨著時間的推移,該模型被更新,考慮變化中的鉛池。
-----2002~2013年kira radinsky服務於軍隊的智力軍團和微軟在Redmond加州
==正是在微軟美國總部的Radinsky,現在26,遇到埃里克·霍維茨,微軟研究院的負責人。 他建議他們一起工作的一個數據挖掘項目的被抓的頭條新聞。 兩人的軟件可以預測很多類型,包括疾病爆發,暴力和自然災害的災害。
最生動的例子:當2006年的歷史數據測試,該軟件正確預測在安哥拉霍亂疫情。 當同樣的成功發生在關係到古巴的流行,該軟件吸引了約翰·霍普金斯大學的利益,這是正在研究部署該軟件來預測,其中稀缺的藥物將是最需要在發展中世界。該軟件的工作原理是通過數字化的剪報和其他在線資源撲殺和尋找相關性。 在霍亂例子,疫情在世界各地的疾病往往在前面加上乾旱的新聞報導。 Radinsky也看著地震和海嘯和颶風和天然氣價格之間的連接。 結果有70-90%的準確率。
==Radinsky和霍維茨開發的算法,可以通過幾乎任何數據源供給,但到目前為止他們的工作,他們已經使用22年值得紐約時報的。 然而, 時代並沒有在通往古巴的霍亂爆發事件進行報告。 然而,軟件預測也無妨:Radinsky使用人群來源的數據來自維基百科,以增加時代 。 該軟件“找過類似的統計數據和國內生產總值的國家,然後搜索旱災,暴風雨和霍亂,”Radinsky解釋。除了維基百科,軟件使用從Web 90其他數據源,包括WordNet的,這有助於該軟件了解字義,並OpenCyc的,“一般的知識基礎和常識推理引擎。”該軟件提供了一個幾秒鐘之內的結果,並指定一個從0到100,表示明天的事件發生的概率,Radinsky告訴ISRAEL21c。Radinsky的並非唯一的軟件來進行預測。 商業公司一樣Recorded Future的已作出有關為客戶在金融服務和國防工業未來的可能性聰明的猜測。 但在Technion-Microsoft解決方案,目前為純理論研究,是更側重於人道主義問題。
-----2013.3.17kira radinsky26歲收到技術在Technion - 以色列理工學院的計算機科學博士學位
==kira radinsky15岁读大学,26岁获得计算机科学博士学位。她声称她研发的系统曾成功预测到古巴近几十年来的第一次霍乱疫情、“阿拉伯之春”期间的多次暴乱和其他一些重大国际事件。
-----kira radinsky编写的复杂的算法收录了大量电子数据,其中最值得一提的就是《纽约时报》近几十年来的全部新闻报道和Twitter消息流以及维基百科条目等。通过对这些电子数据的分析,提炼出全新的因果关系模式,用以预测未来可能发生的事件。比如,她认为“如果干旱的两年后出现暴风雨,那么暴风雨过后的几个星期很有可能爆发霍乱,尤其是在GDP低、淡水缺乏的国家”。这种预测看上去很直观——千百年来,人类一直在做类似的预测,但用电脑对大量的网络电子数据进行准确分析来进行预测,又是另一回事。即使很简单的一个步骤也是一个复杂的挑战。
-----kira radinsky说,2007年她在用Google Trends(一款公开的应用产品,可以分析出每一关键词在谷歌的全球搜索量)的时候,很快发现,根据全球最近的新闻报道,就能预测出谷歌将要热门的搜索词条,如飓风等,她觉得很好玩,于是开始思考是否可以将这种方法运用到对未来事件的预测中。
==同时他们也和还处于“隐身模式”的初创公司SparkBeyond紧密合作,据她说,该公司的领域涉及医药和人道主义搜索,创新性高级机器学习算法等。
-----2013年由麻省理工學院技術評論作為公認的一個世界頂級35青年創新對於正準備對世界產生了巨大影響,因為我們知道它在計算機科學領域的成就
-----2013年認可福布斯截至10女性創業要提防以色列之一
-----2013年40歲以下40在以色列有為企業家=由金球獎雜誌公認的一個年輕有為的商人在以色列
-----2009年谷歌安妮塔博格獎=收件人的谷歌安妮塔博格獎學金 20領先的女性計算機科學。
2008年---数据科学家Data Scientist由D.J.Pati和Jeff Hammerbacher提出,他们后来分别成为LinkedIn和Facebook数据科学团队的负责人
-----互聯網、社交網站、電子商務等新一代技術的廣泛應用催生了「大數據」。「大數據」(Big Data)指巨量數據的集合。大數據具有多樣化和海量的特點,而且無法用常規軟件工具分析。西方企業開始認識到,善用「大數據」將成為提高核心競爭力的關鍵。卡內基梅隆大學(Carnegie-Mellon University)海因茲學院(Heinz College)院長Ramayya Krishnan說,「大數據」具有催生社會變革的能量。但是釋放這樣能量,需要嚴謹的數據家、富有洞見的數據分析和激發管理創新的環境。
-----大資料的應用範例包括了大科學、RFID、感測裝置網路、天文學、大氣學、基因組學、生物學、大社會資料分析、網際網路檔案處理、製作網際網路搜尋引擎索引、通訊記錄明細、軍事偵查、社群網路、通勤時間預測、醫療記錄、照片圖像和影像封存、大規模的電子商務等
大科學==大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的資料。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊資料後,得到約100次的有用撞擊資料,將撞擊結果資料過濾處理後僅記錄了0.001%的有用資料,全部四個對撞機的資料量複製前每年產生25拍位元組(PB),複製後為200拍位元組。如果將所有實驗中的資料在不過濾的情況下全部記錄,資料量將會變得過度龐大且極難處理。每年資料量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的資料量。這個數字代表每天實驗將產生相當於500垓(5×1020)位元組的資料,是全世界所有資料來源總和的200倍。
衛生學==國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計資料,跟其他資料交叉比對,例如收入、宗教、能源使用量等。
公共服務部門==目前,已開發國家的政府部門開始推廣大數據的應用。2012年歐巴馬政府投資近兩億美元開始推行《大數據的研究與發展計劃》,本計劃涉及美國國防部、美國衛生與公共服務部門等多個聯邦部門和機構,意在透過提高從大型複雜的的資料中提取知識的能力,進而加快科學和工程的開發,保障國家安全。
社會學==大數據產生的背景離不開臉書、微網誌等社群網路的興起,人們每天透過這種自媒體傳播資訊或者溝通交流,由此產生的資訊被網路記錄下來,社會學家可以在這些資料的基礎上分析人類的行為模式、交往方式等。美國的塗爾干計劃就是依據個人在社群網路上的資料分析其自殺傾向,該計劃從美軍退役士兵中揀選受試者,透過臉書的行動App收集資料,並將用戶的活動資料傳送到一個醫療資料庫。收集完成的資料會接受人工智慧系統分析,接著利用預測程式來即時監視受測者是否出現一般認為具傷害性的行為。
没有评论:
发表评论