2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
[ 億歐導(dǎo)讀 ] 智能金融的核心問題是兩件事情:自動化和智能化。先有自動化才有智能化,像個人征信、銀行大數(shù)據(jù)等,都用到了很多人工智能的算法:如機器算法和知識圖譜。但是,真正以人工智能為核心來構(gòu)造智能金融系統(tǒng)的,目前在國內(nèi)我基本上沒有看到。
【編者按】這是一篇一年前的文章,文因互聯(lián)創(chuàng)始人鮑捷在參加中信證券2016年11月24日舉辦的《中信證券2017年資本市場年會》上的演講,主題是《智能金融的核心引擎:一覽與前瞻》,文章從智能金融的核心、中美兩國智能金融的發(fā)展、智能對產(chǎn)業(yè)的影響、智能金融的底層技術(shù)以及相關(guān)事例等方面,對國內(nèi)智能金融商業(yè)化發(fā)展進行了概論和前瞻:Intelligent、Smart Data。時隔一年半,讀完依舊收獲頗多,億歐特編輯,供業(yè)內(nèi)人士參考。
6月15日,億歐在上海舉辦「2018全球AI領(lǐng)袖峰會——智能+新金融峰會」,峰會將從智能金融商業(yè)模式落地、金融業(yè)務(wù)革新、銀行業(yè)態(tài)變遷、智能科技前景與難點等方面進行研討,探析即將到來的智能金融時代。
我們文因互聯(lián)是一家位于北京的初創(chuàng)公司,正在探索智能金融落地的各種場景。智能金融這件事,不僅在中國很新,在美國也是很新的事物。在探索智能金融的過程中,包括技術(shù)的基礎(chǔ)、技術(shù)在金融行業(yè)的切入點、盈利模式等,大家都沒有完全探索出來。我估計還要花上三五年甚至更久的時間才能搞清楚。
之前很多人都會問我:你們是不是做互聯(lián)網(wǎng)金融的?最近幾個月以來,大家開始問:你們是不是做科技金融的?Internet Finance和Fintech這兩個概念,大家都已經(jīng)很熟悉了,但智能金融是一個更小的概念。我的理解是:智能金融是科技金融的一個子模塊,和互聯(lián)網(wǎng)金融有一定交叉,但并不完全相同。
前一段時間我看了《清華科技評論》,這是一本很厚的集子,里面講了國內(nèi)外100多個這樣的公司。畢馬威也出了一個中國Fintech 50強的列表。仔細看的話,這些公司從事科技金融和互聯(lián)網(wǎng)金融的都有,但是涉及到智能金融的其實還是非常少的。智能金融從去年開始在中國剛剛起步,今年又陸陸續(xù)續(xù)出現(xiàn)了一些,但是還處于非常初步的階段。
什么是智能金融?
在之前20多年的金融數(shù)據(jù)化和智能化的過程中,智能金融逐步成熟起來。這離不開之前做的很多工作,從金融到互聯(lián)網(wǎng)金融,再到科技金融,其實經(jīng)歷了很多的準備工作。不僅是數(shù)據(jù)的準備工作,還有市場的教育工作。已經(jīng)有這些領(lǐng)域的前輩幫我們探了路,趟了很多地雷。
按照我的理解,智能金融的核心問題是兩件事情:自動化和智能化。先有自動化才有智能化,像個人征信、銀行大數(shù)據(jù),還有之前的P2P和眾籌,都用到了很多人工智能的算法,包括機器算法和知識圖譜。但是,真正以人工智能為核心來構(gòu)造智能金融系統(tǒng)的,目前在國內(nèi)我基本上沒有看到。在國外,我們可以看到Alphasense、Kensho這樣的公司,國內(nèi)目前還沒有成熟的對應(yīng)公司。
智能金融的定義
為什么會有智能金融出現(xiàn)?這是這些年中國經(jīng)濟,特別是金融產(chǎn)業(yè)發(fā)展所帶來的一些因素造成的。
發(fā)展的正負面因素
促進因素包括:
第一點:市場規(guī)模的成長
舉個例子,我們之前找A股的研報,隨便一搜,大概就下載了30多萬份研報的PDF文件。我們?nèi)フ倚氯逖袌蟮臅r候,發(fā)現(xiàn)新三板93%的企業(yè)沒有任何研報,98%的企業(yè)只有一份或者少于一份的研報。在A股市場上,中國的研究員可能有7000人或更多,他們在兩千多家公司上面研究了20年時間,把每個行業(yè)都研究透了,寫出來上百萬份報告。
新三板上現(xiàn)在有將近一萬家公司,未來還有可能達到兩萬家,其中一半以上的公司所在的行業(yè)都是新興行業(yè)。在這些行業(yè)上,如果我們還沿用之前人工研究的方法,需要多少研究員?現(xiàn)在是七千個研究員,要把研究員擴大到七萬個來解決這個問題的話,顯然是不可能的。所以之前的研究體系跟交易體系、資源配置體系,只適合為很少的公司進行運作。現(xiàn)在面臨著一個十倍甚至更大市場,我們不可能沿用原來的方式來服務(wù)這個市場,必須要依靠技術(shù)。而人工智能就是這個過程中最重要的一環(huán)。
第二點:產(chǎn)業(yè)的升級
之前我們看A股的公司,上面有各種各樣傳統(tǒng)的產(chǎn)業(yè),國有企業(yè)的產(chǎn)業(yè)。那么到了新三板上,我們看到了一大半以上公司都是新興行業(yè),這些行業(yè)在A股上根本沒有。在新三板,我們找到了六萬多種產(chǎn)品,其中超過60%的行業(yè)標簽在A股上是找不到的。傳統(tǒng)培養(yǎng)行業(yè)研究員的方式跟不上今天的新興行業(yè)的成長速度。新三板還只有一萬家企業(yè),早期市場有幾十萬家企業(yè),還有更多新興的行業(yè),怎么可能用人力完全把它建模出來?必須用技術(shù)的手段。
第三點:人工智能技術(shù)的進步
特別是最近幾年,深度學(xué)習(xí)技術(shù)和知識圖譜技術(shù)快速發(fā)展,使得我們有可能解決這些問題。這些問題并不是全新的問題,在美國之前也有。十年之前美國有一批公司出來做這種事情,但他們最終大多死掉了。為什么?因為那個時候從底到上,每一層的技術(shù)架構(gòu)都不完善,從數(shù)據(jù)庫到前面的搜索引擎,都是自己來搭。那個時候還沒有成熟的體系來支撐,也沒有開放的數(shù)據(jù)來建立整個生態(tài)鏈。2006年之后,美國的這種數(shù)據(jù)發(fā)展起來了。2001年之后整個語義網(wǎng)的技術(shù),2012年之后整個知識圖譜的技術(shù),使得我們現(xiàn)在有可能解決這些問題了,不需要我們再重頭開始構(gòu)造整個架構(gòu)了。
以上是正面的因素。在這些正面因素的前提下,為什么智能金融現(xiàn)在還是一個非常弱小的產(chǎn)業(yè)?我們下面來看看制約智能金融發(fā)展的因素。
制約因素包括以下三點:
第一點:數(shù)據(jù)的缺失
在美國,這個問題已經(jīng)解決得比較好了。在國內(nèi),相信做過這件事情的同行都會有切身體會。無論是政府數(shù)據(jù),還是行業(yè)數(shù)據(jù),數(shù)據(jù)缺失都是第一位的。3月份的時候,我們開了一個沙龍叫“語義對話金融”。在這個沙龍上我問在座的投資人:你們覺得當今最需要解決的問題是什么?答:是數(shù)據(jù)!巧婦難為無米之炊,所以我們必須先把數(shù)據(jù)問題解決。現(xiàn)在大多數(shù)的數(shù)據(jù)在哪里?其實都被隱藏著。很多數(shù)據(jù),在政府的各部委的數(shù)據(jù)中,在各個地方政府里面,現(xiàn)在還沒有一套很好的開放方法,讓大家能夠訪問到。實際上,這是全民的財富。
從2009年之后,美國從白宮開始一層一層去搞開放數(shù)據(jù),最后要求政府每一級都真正地開放數(shù)據(jù)。使用數(shù)據(jù)的每一個人,不需要事先申請就可以使用,這一點在中國目前是還沒做到的。即使是大家能夠接觸到的數(shù)據(jù),現(xiàn)在用得還不是特別好。比如說機器可讀的金融報表,現(xiàn)在的結(jié)構(gòu)化金融報表本來應(yīng)該讓每個人都可以訪問,這樣我們就不用雇那么多實習(xí)生去爬數(shù)據(jù)了。但現(xiàn)在它也不是每個人都能夠拿到。另外,在股轉(zhuǎn)書、年報、季報里,90%以上的數(shù)據(jù)都是非結(jié)構(gòu)化的。怎么使用這些數(shù)據(jù)?現(xiàn)在沒有一套很好的辦法幫我們用好這些財富。
第二點:人才的缺失
既懂金融又懂技術(shù),這樣的人才是非常非常少的。因為這兩種人是完全不一樣的,一個來自火星,一個來自金星。能將這兩種背景結(jié)合在一起的人,在中國可以說是鳳毛麟角。
第三點:組織變革的困難
我覺得這個因素是最重要的一個問題。我前兩天在看一本書叫《創(chuàng)業(yè)者》,英文叫Founders at Work。這本書第一篇文章是PayPal的創(chuàng)始人回憶他們當時怎么創(chuàng)造出PayPal的。記者問他們:為什么你們不害怕銀行來做這件事情呢?創(chuàng)始人說:銀行絕對不可能做這件事情,因為銀行關(guān)心的問題是銀行原來的體系內(nèi)部,他們認為PayPal完全不可能做出來,因為他們認為反欺詐的問題絕對不可能被解決。但是PayPal就解決掉了這些問題?,F(xiàn)在我們回過頭來想,是不是還有類似的事。
在一開始的時候,大量金融創(chuàng)新的可用性、可靠性都不是那么好。在這種大型組織里,想運用這種新技術(shù)是很困難的事情。這就是一個典型的創(chuàng)新者的窘境。
特別是在技術(shù)面臨的挑戰(zhàn)前面,它組織的變化,整個理念的變化,它的價值體系的變化都是挺慢的一件事情。我們大家都知道,銀行只看風(fēng)險是不夠的。國家強調(diào)提高直接融資的比例,降低間接融資的比例。但是銀行為什么就不能很快轉(zhuǎn)變過來呢?因為銀行原來的一整套體制都是風(fēng)控驅(qū)動。風(fēng)控是高壓線,所以人的提拔,獎懲全都是按照風(fēng)控來做的。在外部形勢沒有發(fā)生變化的前提下,這個并沒有什么錯誤。但如果發(fā)生了變化呢?組織在這個過程中會變化,但不會這么快。這使得越大的組織,在使用這些新技術(shù)的時候,反應(yīng)越慢。這是制約因素。
簡單看一下中美比較,去年畢馬威把中國Fintech 50強和國際100強做了一個比較。他們剛剛做了一個發(fā)布會,這里面有幾個大塊,跟智能金融有一點關(guān)系,但不是完全一樣。我們看框起來這一塊是大數(shù)據(jù)征信。中國對這一塊進行了密集的投入,比美國還密集。我懷疑中國有沒有一千家在做這件事情。另外智能投顧這一塊,做財富管理的公司美國非常多,中國非常少。這跟中國各種產(chǎn)業(yè)環(huán)境也有關(guān)?,F(xiàn)在,中國的監(jiān)管機構(gòu)不是很鼓勵做這件事情。之前,哪怕是非智能的投顧,在中國其實也沒有發(fā)展得特別好。所以智能投顧的基礎(chǔ)并不是很成熟。
中美比較一
中美比較二
再看科技系統(tǒng)這一塊。美國有這么多公司,中國居然是一片空白。中美兩國的發(fā)展,也預(yù)示著我們哪些地方發(fā)展過熱,哪些地方可能還需要再加強一下。
最關(guān)鍵的,我覺得是上面兩張圖里都還沒有的東西。畢馬威2016 Fintech榜單里提到了幾家公司,像Alphasense和Kensho,2015年都沒有出現(xiàn),2016年才把它們加進來。類似這樣的還有其他一些公司。我認為非常值得關(guān)注的智能金融的公司,像Palantir和Dataminr,這些公司真正的是以人工智能為核心來改造金融的數(shù)據(jù)產(chǎn)業(yè)鏈,很多這樣的公司還沒有進入公眾的視野。但實際上像Alphasense和CB Insights這樣的公司,其實已經(jīng)有七八年的歷史,并不是一夜之間冒出來的。
5.jpg
那么他們是怎么起家的?很多新興的技術(shù),像知識圖譜技術(shù),其實在2007年、2008年的時候,是非常悲催的。我從2001年開始做知識圖譜,2007年博士畢業(yè)。那個時候想找稱心的工作是蠻難的一件事情,因為大家當時都不看好這些技術(shù)。到了2012年之后,這方面才慢慢受到關(guān)注。特別是谷歌從2010年的時候,買了一個小公司(Metaweb),發(fā)現(xiàn)這個技術(shù)特別有用。他們發(fā)現(xiàn),只有機器學(xué)習(xí)是不夠的,知識圖譜特別有用。之后發(fā)生了幾個大事件,在2012年左右像蘋果的Siri和IBM的Watson,他們發(fā)現(xiàn),僅僅是通過統(tǒng)計的方法,無法解決他們現(xiàn)在面臨的問題。必須把人的知識、世界的知識放到系統(tǒng)里,才能解決各自的問題。在2007年、2008年之后,已經(jīng)有一些公司先知先覺開始將這些技術(shù)用到金融里面了,Alphasense和CB Insights都是那時候成立的。
Palantir是2004年成立的。用我們行話說,它是個本體編輯器(Ontology editor),這個東西是非??菰锏?。從2004年到2010年,我自己寫過五個本體編輯器,不過沒有想過進行商業(yè)化。Palantir則商業(yè)化了,變成了一個估值100多億的企業(yè)。這說明,人工智能的價值取決于你怎么用它。把它用到好的角度上,找到市場結(jié)合點,哪怕是看起來很偏門的技術(shù),也完全有可能成長為一個很大的市場。Palantir背后也有一個很大的知識圖譜團隊,因為要想把策略生成、數(shù)據(jù)集成做好,把下面的邏輯模型做好,都必須用到知識圖譜技術(shù)。
發(fā)展的基礎(chǔ)和階段
智能金融公司在美國從2007年、2008年就開始有了,在中國最近一兩年才開始做起來,就是因為每個國家的經(jīng)濟發(fā)展都有階段性。我們只有一個階段、一個階段地把前面的技術(shù)都夯實了,才能去做更高級的事情。所以之前我們花了20年時間,做銀行的金融的信息化。信息化之后,我們才能做大數(shù)據(jù)化。像工商銀行可能是做這種大數(shù)據(jù)最早的一批,然后做了七八年甚至上十年時間。很多銀行只是為了滿足巴塞爾協(xié)議的那些要求,就花了十年時間。有了這些東西之后,從2015年之后,我們看到有些做信息處理的自動化企業(yè)。做了自動化之后,才能去做智能化,這是一層一層發(fā)展的。我們目前做智能化,坦白說有點早。如果太冒進會成為先烈,所以應(yīng)該實事求是追求合理的目標。
從大數(shù)據(jù)到智能化
這幅圖是我從工行的前行長楊凱生先生的文章里面摘出來的。這篇文章蠻新的,發(fā)表于2016年。在回顧他們工行的大數(shù)據(jù)架構(gòu)時,他把整個大數(shù)據(jù)的發(fā)展過程分為五個階段。他認為前面三個階段現(xiàn)在都已經(jīng)做得比較好了,報表顯示已經(jīng)發(fā)生了什么事情,分析為什么會發(fā)生這些事情,預(yù)測還會發(fā)生什么事情。后面兩個層面,就是運營分析和動態(tài)正在發(fā)生什么,實際上這兩個層面不是光靠大數(shù)據(jù)技術(shù)就能解決的,需要更多的人工智能技術(shù),包括機器學(xué)習(xí)技術(shù)、知識圖譜技術(shù)。比如這篇文章里也講了好幾個例子,講了一個工商銀行有上千萬的房產(chǎn)抵押,而這個房產(chǎn)的價值,每天都會變化,不停地變化,該怎么快速跟蹤上千萬的抵押房產(chǎn)呢?他們開發(fā)了一套系統(tǒng),其中還用到了自然語言處理的技術(shù),來估計每一個房子價值的變化。
把視野往后推一推,我們今天談的智能對產(chǎn)業(yè)的影響,其實只是漫長的技術(shù)對金融的推進過程的自然延伸。從1960年到現(xiàn)在,過去這半個多世紀的時間,每一代計算技術(shù)的發(fā)展都對金融產(chǎn)業(yè)產(chǎn)生了巨大的沖擊。特別是這些技術(shù)創(chuàng)造了新的業(yè)務(wù),這是最重要的一件事情。所以每一次革新開始的時候,大家總是先提高現(xiàn)有業(yè)務(wù)的效率,然后再往前走。隨著每一次效率的提升之后,就會有新的組織出現(xiàn)、新的業(yè)務(wù)出現(xiàn),去挑戰(zhàn)原來的組織和業(yè)務(wù)。大家發(fā)現(xiàn)這個技術(shù)不僅僅可以提高效率,還可以創(chuàng)造出新的業(yè)務(wù),從而顛覆原有的大型組織。所以金融組織也是不斷地新陳代謝。
什么是技術(shù)
我看過一篇文章,是中信建投的一位高層寫的,他說中國券商是個高危行業(yè)。他分析了一下過去15年的券商,發(fā)現(xiàn)好像超過一半的券商都死掉了。雖然現(xiàn)在券商的收入很高,好像去年的平均利潤率是50%,但是我們十年后看,券商的淘汰率可能也會很高。那么什么樣的組織能夠存活下來?我們看看上面的表格會得到一些啟示。在每一次的迭代過程中,都會有一些順應(yīng)技術(shù)進步的新興組織冒出來。最近這些年人工智能讓我們能夠看到,我們可以去做自動化的小貸、精準獲客,還有策略自動化、組合風(fēng)險管理,這些事情可以做。其實還有很多其他的事情,有待新興的組織去服務(wù)。
什么是“智能”
在談智能金融之前,我們來解釋一下什么叫“智能”。我們看到很多東西都冠以智能。我的鞋子里面有一個鞋墊,它稱為智能鞋墊,后來我掰開看了一下有一個小芯片,就稱為智能了。還有智能燈泡、智能音箱、智能汽車,這些東西都稱為智能。這些東西背后的智能指的是同一個東西嗎?
我把上圖中的三種智能稱為智能的三個階段:
第一個階段,是機器人化或者自動化,它代替人完成一般性的、重復(fù)性的動作,比如說里面的芯片,或者套了一個公式。
第二個階段,稱為小聰明(Smart),像智能音箱是典型的,它可以完成一個相對而言比較簡單的數(shù)據(jù)集成的事情,或者人花上很長時間才能完成但是機器很快就可以完成的事情,我們稱為Smart。
第三個階段,就是Intelligent,可以真正地進行預(yù)測、分類、聚類、策略等等,提供深度的洞察,這些都需要長期深入的訓(xùn)練才有可能得到的技能。一般意義上,在說人工智能的時候,我們通常會認為是Intelligent層面才課稱為人工智能。但是目前我們在商業(yè)上看到,很多情況下大家會把這個概念往外伸,把Robot、Smart也說成人工智能。智能燈泡不算是人工智能,智能鞋墊也不算是人工智能,但是我們在提智能的時候,很多人會把這些賣成AI技術(shù)的一部分。
看硬件的時候,我們可以看得很清楚,但看軟件就不一定看得那么清楚了。比如說智能投顧這個概念是不是AI的應(yīng)用?其實本身它就有多種含義的。如果只看基于60年代就已經(jīng)有的資產(chǎn)配置理論來說的話,那我們可以認為它不是人工智能的。它只是在一些簡單數(shù)據(jù)提取、整合這方面,做了一些Robot的工作,所以這不是人工智能。但是智能投顧這個概念,也用在很多事情上。比如說在智能選股這些事情上面,就有人工智能在里邊。所以說這個概念的含義是多種的。
什么是智能
我認為可以分為三個層面:
第一個層面是Robot。在座很多人都雇過實習(xí)生。這些實習(xí)生每天從PDF里面扒數(shù)據(jù)是人工智能嗎?這是人工的智能,但不是人工智能。這個工作是非常機械的,就不應(yīng)該用人來做,而應(yīng)該用機器來做。
第二個層面是Smart,指數(shù)據(jù)的簡單分析、摘要、過濾、跟蹤、可視化。Alphasense是智能的,是美國的基于知識圖譜的語義、金融搜索。這個軟件可以去監(jiān)視上市公司所有的年報、季報、會議記錄,開會的時候說了什么,董事長一句話說完,一秒鐘之內(nèi),交易策略自動就推送到投資者那里去了。這樣一種工作,用人來干一個小時也可以完成,但是用機器人,不到一秒鐘就可以干完,這是Smart。
第三個層面是Intelligent,提供數(shù)據(jù)的決策支持和洞察,這是高級分析師才能做的事情。Robot是實習(xí)生就可以做到,Smart是一兩年工作經(jīng)驗的分析師才可以做的。Intelligent是高級分析師才能做到的。他真正有這些行業(yè)的經(jīng)驗和洞察力,他才能做出來這件事情,才能夠合格的提出一個參謀的意見。像這樣的事情,我們認為才是真正的人工智能。Kensho從某種程度上來說接近了,但我還不能夠有信心地說Kensho現(xiàn)在已經(jīng)是這樣的東西了,因為Kensho包括兩大塊內(nèi)容,一塊是數(shù)據(jù)集成,第二塊就是策略生成,它的數(shù)據(jù)集成那一塊,我認為還只能說是Smart。
真正的Intelligent是怎么發(fā)展起來的?其實人工智能的行業(yè)是“有多少人工,就有多少智能”。因為每往前走一步,最核心的問題都是成本、成本、成本。如果想去構(gòu)造一個所謂非常聰明的系統(tǒng),從技術(shù)上來說都是做得到的。我經(jīng)常愛開玩笑說,如果明天發(fā)生第三次世界大戰(zhàn)的話,所有的AI問題我們都可以在五年內(nèi)解決掉。因為只要政府能夠征發(fā)一千萬人,來給我們做數(shù)據(jù)標注就可以了。我們在商業(yè)中,不可能免費得到一千萬奴隸。我們解決這些問題的最好方法,就是經(jīng)過快速的產(chǎn)品迭代。在每一個層次上面,我們從低質(zhì)量的數(shù)據(jù)到高質(zhì)量的數(shù)據(jù),在投入一些成本之后,我們獲得一些收益,然后不斷地去加速人的輔助價值。
大家常聽到一句話,什么職業(yè)要在人工智能的壓力下失業(yè)了,速記員要失業(yè)了,或者說翻譯要失業(yè)了。坦白說我認為這種話說得不對。其實技術(shù)發(fā)展那么多年,真正的被技術(shù)消滅了的行業(yè)、職業(yè)真的很多嗎?我不覺得,更多的時候是增強了。我們有了計算器之后,真的把會計這個行業(yè)給消滅掉了嗎?其實會計做得更好了。人工智能取代這個、取代那個是現(xiàn)在根本不用擔心的問題。實際上,人應(yīng)該起到畫龍點睛的作用。每一個層面機器幫我們,我們有了更好的數(shù)據(jù),我們有更好的創(chuàng)造力,來加速人的判斷,這才是比較好的人工智能的應(yīng)用。中間有很多的步驟,我不一一去講這些細節(jié)了。
在這里面有兩張表,講了分別從底層技術(shù)的層次上,我們到底有哪些技術(shù)可以用。同樣今天沒有足夠多的時間,把這里面的每一點都講到。如果把這兩張表給解釋完了的話,可能就要花半個小時時間,只好略過。
一些底層技術(shù)一
一些底層技術(shù)二
我們看最后的層面“策略生成”。如果想造出Kensho這樣的系統(tǒng)來,我們到底需要花多少人力和物力?這絕對不是一個小團隊可以做出來的。比如說組一個10人團隊,給他們一年的時間,就能做得出來嗎?這是不可能的事情。因為背后需要做的底層技術(shù)發(fā)展實在太多了。
知識圖譜
這里多提一下知識圖譜技術(shù)。其實知識圖譜是一堆問題,而不是一個技術(shù)。雖然知識圖譜為人所知是最近三四年的事情,實際上這個領(lǐng)域成型已經(jīng)有15年時間了。2001年,我們管它叫Semantic Web(語義網(wǎng)),2006年的時候叫Linked Data(互聯(lián)數(shù)據(jù)),2012年的時候叫Knowledge Graph(知識圖譜),到了2015年我們又把它改成一個新名叫Smart Data(智能數(shù)據(jù))。今后一兩年,大家聽到智能數(shù)據(jù)這個詞不要詫異,它和知識圖譜是同一個技術(shù),只是換了一個馬甲而已。因為我們這一行,博士論文每五年一屆,所以每五年我們這個行業(yè)就要換一個馬甲。1998年的時候我們叫Agent,在這之前我們叫Lisp、專家系統(tǒng)。所以整個知識圖譜的技術(shù),實際上有三四十年的發(fā)展歷程。最早起源的技術(shù),60年代就有了,整個細分為幾個大塊。我認為細分下來,有幾十種不同的技術(shù),統(tǒng)稱為知識圖譜。并不是找到一兩個做自然語言處理的人就可以號稱是知識圖譜。
從來源來講,知識圖譜可以分成四大塊:
第一塊:知識提取。這一塊主要是從自然語言處理的角度來看的。比如說,我們現(xiàn)在有股轉(zhuǎn)書或者研報,研報里面有很多表格。把這些表格的數(shù)據(jù)提取出來,就叫自然語言處理的技術(shù)。我們從非結(jié)構(gòu)化的數(shù)據(jù)里,把數(shù)據(jù)信息結(jié)構(gòu)化,也就是知識提取。
第二塊:知識表現(xiàn)。我們拿到了一些數(shù)據(jù)之后,怎么進行有效處理。尤其是背后有意義的數(shù)據(jù),像股權(quán)關(guān)系網(wǎng)絡(luò)里面,股東A和股東B之間有親屬關(guān)系,他的兄弟們、同學(xué)們,這些關(guān)系是什么意思?這是一種知識,我們要有一種方法,讓機器更方便地進行自動處理,這一部分就叫知識表現(xiàn)。
第三塊:知識存儲。剛才提到了圖數(shù)據(jù)庫。圖數(shù)據(jù)庫是知識存儲的一個分支,還有很多其他數(shù)據(jù)庫,比如RDF數(shù)據(jù)庫,還有混合的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的管理。
第四塊:知識檢索,有時候也叫語義檢索。這里面又細分成六七種不同的技術(shù),我就不一一列舉了。
這些技術(shù)對我們有什么用呢?先舉一個小例子,在投資研究的過程中,我們最早跟一些券商研究員聊的時候,逐漸分析他們的行為過程。我發(fā)現(xiàn)應(yīng)該可以將他們的分析過程分成四個步驟:
以投資研究為例四步走
第一步,是搜索。比如說百度搜索。有時候可能是通過線下聊天或者微信,聽說這個行業(yè)不錯。大家看看這個行業(yè)有哪些公司,比如說珠寶這個行業(yè),我在搜索里去搜珠寶,繞過了前面若干個不該點擊的鏈接之后,找到了一個正確的鏈接。然后在這個鏈接里頭,我們找到了一篇文章說珠寶行業(yè)里面有8家公司可以看。
第二步,是找數(shù)據(jù)。這8家企業(yè)的數(shù)據(jù)在哪兒呢?打開一個金融終端,把里面的數(shù)據(jù)提取出來??赡芤荒甑臄?shù)據(jù)不夠,那么把過去幾年的都拎出來,然后一年一年地給篩出來。
第三步,把這些數(shù)據(jù)扔到EXCEL表格里。有些表頭,還有一些公式也都是事先定義好的,他們每天都要做這件事。我們之前還遇到了一個人,他每周一都要發(fā)布一個新的EXCEL,里面包含股轉(zhuǎn)中心中的新三板在審企業(yè)。這些企業(yè)有1000多個,每周一下午三點的時候發(fā)布。他每周一下載下來之后,把數(shù)據(jù)調(diào)出來,用以前定義好的模板把EXCEL表格填出來。每一個周一要花三個小時做這個事情。他怎么過濾數(shù)據(jù),都是他自己的世界觀。
第四步,就是呈現(xiàn)。他拿到了數(shù)據(jù),要寫PPT、做報告、畫圖、畫表,然后看風(fēng)險點,各種進一步分析。
當然這只是非常簡化的一個過程,實際的研究過程可能會比這復(fù)雜很多,而且是迭代的過程。這里也沒有包括那些非案頭的工作,如打電話和現(xiàn)場調(diào)研。
在這四步里,其實每一步你都會看到,人80%的時間在做什么?是在把一些文字、數(shù)字從一些地方挪到另外一個地方。這些事情為什么要用人來做呢?這些事情要用機器來做嘛。這就是人工智能在上面能夠起到的作用。每一個層面上,我們可以用語義聯(lián)想來做搜索,做行業(yè)對標簡化發(fā)現(xiàn)細分行業(yè)的問題。我們可以用微信機器人,在微信里快速尋找數(shù)據(jù)。有報道的摘要、產(chǎn)業(yè)鏈的分析、數(shù)據(jù)的集成等等。一系列的算法,可以在每一個細節(jié)上面提高分析師的效率。這就是文因互聯(lián)現(xiàn)在在做的事情。
我們在2016年1月份就做過新三板的金融終端,5月份發(fā)布了搜索,7月份發(fā)布了快報去跟蹤投前和投后的信息。最近我們做了自動化企業(yè)報告。企業(yè)要素分析大概有十來個點,這些點都是以前要一個實習(xí)生花上一天時間,甚至兩天時間才能夠做完的?,F(xiàn)在一秒鐘之內(nèi)就可以做成一份。也可以在微信群里說,我要某一個企業(yè)的分析報告,在10秒鐘之后微信機器人會在微信群里給你發(fā)出來。對于一些企業(yè)的負責人,或者時間特別寶貴的人來說,這非常有價值。之前他們的助理做這個報告,至少需要一天?,F(xiàn)在在街上、出租車上,他看到了一個公司,想看看那個公司的信息,一分鐘之內(nèi)就能找到。這種信息的及時性是以前享受不到的。
自動化信貸報告準備
信貸報告準備的自動化是我們跟銀行合作的一個例子。信貸經(jīng)理、客戶經(jīng)理生成報告的過程中,需要填很多表。填完這些表格,他們把數(shù)據(jù)從一個表里挪到另外一個表里。這里面有大量企業(yè)基本信息數(shù)據(jù)、工商數(shù)據(jù)、實際控制人的數(shù)據(jù)。這些數(shù)據(jù)都是從很多其他的表里面提取出來的。一個信貸報告中大概有一兩百個點,根據(jù)我們的評估,這其中大概有一半左右可以自動化。我們就跟銀行一起來自動化。同時,我們還跟一些評級機構(gòu)做類似的事情。在債券的評估報告里,大家要看六百多個點。這六百多個點大部分都是可以自動化的。從各種各樣的地方,把信息從表格中抽取出來,然后定義好,進行呈現(xiàn)和總結(jié)。
自動化上下游分析
自動化行業(yè)的上下游分析是另外一個例子。我們之前就已經(jīng)有這樣的數(shù)據(jù)。但是在新三板以及早期創(chuàng)投一級市場上,有大量的新行業(yè),這些行業(yè)的上下游從來沒有人分析過。那么怎么做呢?我們?nèi)タ纯词忻嫔弦呀?jīng)公開的數(shù)據(jù),包括這幾十萬份的新三板上的年報、半年報,還有股轉(zhuǎn)書,還有對整個產(chǎn)業(yè)的描述,這些都是金子。從這里面,我們可以抽取出來幾乎每一個細分行業(yè),上下游企業(yè)有哪些?他們對應(yīng)的產(chǎn)品有哪些?所以對這上千個新興行業(yè),我們都可以機器生成這樣一個產(chǎn)業(yè)鏈。上圖是園林行業(yè)的例子。園林的上游企業(yè),有沙石、石材,它的下游有綠化、工程、設(shè)計、種植景觀。這些工作以前都是要用人工,要用行業(yè)專家來做。我們現(xiàn)在有了機器之后,并不是取代了行業(yè)專家,而是可以讓行業(yè)專家大大節(jié)省時間,把成本降低。
自動化公告摘要
最后一部分是我們正在跟一些交易所在做的公告自動摘要。A股的已經(jīng)基本做好了,明年初還會做美股的。這都還是一些很初步的工作。對于整個投資研究而言,這些可以說都是一些局部的具體應(yīng)用。我們做了十幾個這樣的工具之后,現(xiàn)在在把它們組合在一起變成一個投資研究系統(tǒng)。這個投資研究系統(tǒng)可以做發(fā)現(xiàn)標的、企業(yè)的研究、行業(yè)的分析、事件的分析,最后生成各種各樣的自動化報告,能夠讓每一位研究人員把他的時間放在能夠創(chuàng)造更多價值的事情上。多一個小時做什么不好?不工作的話,睡覺也好、談戀愛也好,做什么都好。讓金融人士每天延長生命一小時,這就是我希望達到的目標。
投研系統(tǒng)
我們現(xiàn)在做的事情還都非常初步。再回到剛開始說的,智能金融這件事情才剛剛開始,我們的著眼點并不是下一步就替代什么,或者做很智能化的事情,而是把小事情做好,真正地幫助人做一些自動化的小事,提高人的效率。我相信在5年以后,我們會有一個智能金融的生態(tài)系統(tǒng)出來。人工智能在這個過程中會起到非常重要的作用。我們文因互聯(lián)希望跟這個產(chǎn)業(yè)一起同步成長,謝謝大家!
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。