知識管理的坑 做知識管理最容易陷進去的坑就是滿足1%用戶的要求 做知識管理最容易陷進去的另一個坑就是滿足99%用戶的要求 知識庫的構(gòu)造中,當(dāng)目標是滿足全人類的需要,就沒辦法滿足(幾乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有這個問題。 wikidata至少做對了一件事:不用RDF 眾包是一個建設(shè)文本百科的好辦法,但是對于建設(shè)結(jié)構(gòu)化數(shù)據(jù)就沒有成功的先例,因為世界觀的沖突很難用結(jié)構(gòu)化表示融合。(詳見我的《The Unbearable Lightness of Wiking》http://www./baojie_iowa/2010-0522-smwcon) 知識庫和文本不同,它的長尾需求特別大,人們通常會關(guān)心各種小領(lǐng)域的entity。大部分這些entity是沒有機會進入主流的知識庫的。這里有認識的原因,有經(jīng)濟學(xué)的原因。比如ConceptNet和Freebase,他們允許眾包編輯,但是真正來編輯的人是極少的。大部分領(lǐng)域的概念都非常稀疏。 年輕人喜歡大數(shù)據(jù),成年人只看數(shù)據(jù)清理 做知識,做語義,很容易犯的錯誤,是把實驗室成果外推,認為能應(yīng)用到大幾個數(shù)量級的數(shù)據(jù)上。而在實踐中,一個人用的東西和十個人用的截然不同,1G數(shù)據(jù)的分析和1T數(shù)據(jù)的分析截然不同,不是上Hadoop就能解決的。這里面有太多人的因素,人是沒法Hadoop化的。 反之亦然,在大市場、大數(shù)據(jù)上有效的算法,在小市場、小數(shù)據(jù)上效果反而不好。創(chuàng)業(yè)公司就不能眼睛盯著大公司,覺得他們怎么做我們就follow,只要把規(guī)??s小了就可以了。可是大象的骨骼結(jié)構(gòu)小老鼠是不能按比例縮小的。 自由…不是無代價的 人工智能問題說到底是一個經(jīng)濟學(xué)問題,不(僅)是算法問題 在知識工程里,“領(lǐng)域”往往被看作一個本體(ie 概念的正確分類的形而上的)問題。但其實領(lǐng)域應(yīng)該是一個渠道問題,一個經(jīng)濟學(xué)問題。領(lǐng)域的大小是隨著知識銷售者的實力而變化的,和領(lǐng)域的真實大小不必然有關(guān)系。 在我看來,Knowledge Graph的核心既不是Knowledge,也不是Graph,而是自由。自由是降低成本的方式。但是眾包并不是自由——對于知識庫而言,眾包恰恰是反自由,自古以來就沒有成功的例子。允許多種觀點在不同的范圍內(nèi)共存,這才是知識圖譜能普及的根本——但是這違背大公司的利益。 例如Google的Knowledge Graph和Schema.org,代表的是Google自己的世界觀(比如命名,組織,范疇),它的目的是服務(wù)Google自己的商業(yè)利益。這也就決定了它們在用于其他人的利益范疇時,會非常的別扭。這個問題是和它的渠道緊密結(jié)合的,自由會損害它的商業(yè)利益 Web的成功,一個基礎(chǔ)就是允許人們各行其是,盡可能降低事先約定的必要,盡可能允許多種不同的組織方式、數(shù)據(jù)形式、基礎(chǔ)系統(tǒng)能共存。對于Web而言,URI是實現(xiàn)這種自由的基礎(chǔ)。于是語義網(wǎng)界(含關(guān)聯(lián)數(shù)據(jù))外推把URI也做為結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)的基礎(chǔ),經(jīng)歷十多年的失敗,現(xiàn)在看應(yīng)該是錯了。 URI當(dāng)年是自由的支柱,但是現(xiàn)在它反而阻礙了自由。作為一種尋址方式,它代表了自由。但是作為一種*命名*方式(也就是知識組織的底層基礎(chǔ)),它則代表了一種特殊的世界觀——這種世界觀和大多數(shù)人的世界觀抵觸。這就極大提高了成本。 知識表現(xiàn)中的成本,并不是說建一個模型的成本,或者機器跑一個模型的成本。最大的成本是人與人之間的成本。爭吵(大到各種會議和工作組,小到郵件列表)、困惑、官僚主義(項目擴大以應(yīng)項目擴大之需),而這一切的根源都在于以不恰當(dāng)?shù)姆绞竭^早優(yōu)化普適性,從而導(dǎo)致世界觀的沖突。 真理從來不是越辯越明的。在世界觀的沖突中,再多的辯論也無法改變?nèi)藗儽旧淼乃季S方式,更不用說利益本身。所以知識結(jié)構(gòu)不應(yīng)該被集體設(shè)計出來——事實上,參與設(shè)計的人越多,這個知識結(jié)構(gòu)越正確,于是就越?jīng)]有用。反而是偏見最后能落到實處。 Unified Ontology of Everything = Unified Ontology of Nonsense 好比是把佛教、基督教、伊斯蘭教混合在一起搞一個宗教 數(shù)據(jù)的語義,應(yīng)該盡可能的局部化。過于照顧數(shù)據(jù)多樣的應(yīng)用中的語義解釋,會極大提高數(shù)據(jù)發(fā)布者的發(fā)布成本,因為這就需要精確的指定語義(比如說用URI命名)。而事實上,真正產(chǎn)生價值的應(yīng)用的數(shù)量是很少的。在1-1而非n-n的語境下語義的解釋成本就會大大的下降。降低這個成本就是知識管理的一個核心任務(wù) 從社會學(xué)上說,參與事務(wù)的個體越多,分歧就會越大。把消滅分歧的任務(wù)交給發(fā)布者是不合適的,等于發(fā)布者成為整個理解系統(tǒng)的中心,從經(jīng)濟學(xué)上不可持續(xù)。應(yīng)該通過局部化事務(wù),去中心化。這就需要各種代理的出現(xiàn)。 把語義數(shù)據(jù)稱為ontology,這已經(jīng)在哲學(xué)上假設(shè)這些結(jié)構(gòu)化數(shù)據(jù)是在描述本體。人們已經(jīng)對本體爭論了兩千年,可能要再爭論兩千年。而工程中的數(shù)據(jù)的語義,則是主觀的而非客觀的描述。所以語義是一個唯心的認識論問題,而非本體論問題 因此,如果從認識論的角度設(shè)計語義系統(tǒng),就可以把復(fù)雜的本體論語義轉(zhuǎn)化為可解耦的認識論語義,從而在不同的域中允許不同的解釋存在。這就保證了語義解釋的自由,這一web發(fā)布最核心的價值。 市場的的經(jīng)驗教訓(xùn) 今日去檢查John Breslin和Nova Spivack的公司StreamGlider到底怎么樣了,才發(fā)現(xiàn)連網(wǎng)站都沒了,準確地說被黑了。公司似乎還在,全球排名已經(jīng)可以忽略不計 http:///Rw5zGbM Twitter 只有113個粉絲。作為當(dāng)年號稱要挑戰(zhàn)Flipboard的公司,匯集諸多明星,為什么會只走出這點距離? 這是Streamglider當(dāng)年剛推出時的新聞 http:///zOZzYeS Breslin是我們語義網(wǎng)界的風(fēng)云人物,DERI的大牛。但是很顯然,Streamglider和Bottlenose, Twine一樣沒有抓住用戶的需求。 DERI出來的另一個創(chuàng)業(yè)項目,seevl.fm http:///Rw5Zhb6 ,試圖在音樂領(lǐng)域做推薦,當(dāng)年還發(fā)了很多文章,也已經(jīng)基本上死掉了。單純從知識的角度,不管是語義網(wǎng)也好,知識圖譜也好,都不能解決用戶真正關(guān)心的問題。去進攻一個準備不足的市場,這個市場本身的規(guī)模再大也和你無關(guān),因為沒人會用。 Bottlenose先后融資了6.6M。前兩天他們剛剛從KMG Capital Partners B輪。但是如果他們不改變經(jīng)營戰(zhàn)略,再砸錢也沒用 幾乎所有的“語義”引擎在遇到消費者市場問題后就撤退了,去搞企業(yè)市場??墒沁@樣的公司幾乎過兩年也都死掉了。在我看來,他們的問題不是消費者vs企業(yè)市場,而是他們(至少我接觸的那幾家)太過從技術(shù)的角度,而不是真正從“消費者”的角度去思考問題。把客戶從個人換成企業(yè)也無助于解決問題。 幾乎所的這些公司,都是明星CEO+明星技術(shù)團隊+明星顧問+明星投資公司。在用戶以前,他們就已經(jīng)有各種C這個O,C那個O,一個漂亮的董事會。他們有各種天頂星技術(shù)。但是就是不愿意做小事。小事不需要明星。所以他們都死了。 在我看來,他們從消費者市場轉(zhuǎn)進企業(yè)市場,只是一種逃避。他們不試圖去解決成本、成本、成本這個知識管理最核心的問題——因為他們本身就是成本,他們沒法解決掉自己。語義和知識,如果不能lean startup,那就注定無解。創(chuàng)始人越是明星,開始拿的投資越多,就越更接近于失敗。 Sig.ma已經(jīng)下線了了。全球排名一直在40萬上下,再也上不去。如今商業(yè)化的通用語義搜索十分的不景氣。 在不景氣名單上的還有kngine 已經(jīng)加入陣亡或被收編名單的:Hakia, Kosmix, Evri, Powerset, Truevert。唯一和語義有點關(guān)系還干的不錯的是DuckDuckGo 和Hakia和Powerset的人都聊過。對這兩個語義搜索先驅(qū)的失敗,我的感覺還是他們想做的事情太大,超越了時代。比如Powerset為了搞語義,先發(fā)明了HBase,但是語義分析速度實在是太慢。被微軟收購后,很長一段時間里Powerset其實是被拋棄了,沒法滿足微軟要求的規(guī)模。還是要Lean Startup Hakia和Powerset都是以自然語言理解為核心,想從關(guān)鍵字搜索進步到自然語言搜索。這個路徑至少在2006年是超前的。今天是不是還是超前,我不敢定言。但是任何會激發(fā)用戶圖靈測試欲望的界面設(shè)計,都是不妥的。 專有領(lǐng)域的一些語義搜索(一般它們都不這么叫自己),比如Yummly和Factual,活得都不錯。所以現(xiàn)在的技術(shù)和市場條件,還是不太合適通用語義搜索的存在。現(xiàn)在的機器學(xué)習(xí)技術(shù),做通用知識的自動挖掘還遠遠沒能離開實驗室階段,拿它來做創(chuàng)業(yè)太冒險了。 我的信箱里還有好多“Twine Digest”,其實和我們現(xiàn)在做的機器學(xué)習(xí)日報、大數(shù)據(jù)日報也差不多。Twine的經(jīng)驗教訓(xùn),時時刻刻都都在提醒我們。 如果Twine當(dāng)時更專注一些,比如專門做書簽,或者只做推送,或者專門在一個話題上深挖,會不會更好些呢?至少,它的數(shù)據(jù)量會少很多,對后端的壓力就不會那么大,也就不至于需要分一半的工程力量去搞大數(shù)據(jù)基礎(chǔ)設(shè)施,就能更關(guān)注于業(yè)務(wù)本身。當(dāng)然歷史是不容假設(shè)的。 End 轉(zhuǎn)載請注明來自36大數(shù)據(jù)():36大數(shù)據(jù) ? 關(guān)于知識管理和語義搜索的一些思考 |
|