自然語言理解(NaturalLanguageUnderstanding)即文本理解,和語音圖像的模式識別技術有著本質的區別,語言作為知識的載體,承載了復雜的信息量,具有高度的抽象性,對語言的理解屬于認知層面,不能僅靠模式匹配的方式完成。
2)自然語言理解的應用:搜索引擎+機器翻譯;
自然語言理解最典型兩種應用為搜索引擎和機器翻譯。搜索引擎可以在一定程度上理解人類的自然語言,從自然語言中抽取出關鍵內容并用于檢索,最終達到搜索引擎和自然語言用戶之間的良好銜接,可以在兩者之間建立起更高效,更深層的信息傳遞。
3)自然語言理解技術在搜索引擎中的應用
4)自然語言理解技術在機器翻譯中的應用
事實上搜索引擎和機器翻譯不分家,互聯網、移動互聯網為其充實了語料庫使得其發展模態發生了質的改變。互聯網、移動互聯網除了將原先線下的信息(原有語料)進行在線化之外,還衍生出來的新型UGC模式:知識分享數據,像維基百科、百度百科等都是人為校準過的詞條,噪聲小;社交數據,像微博和微信等展現用戶的個性化、主觀化、時效性,可以用來做個性化推薦、情感傾向分析、以及熱點輿情的檢測和跟蹤等;社區、論壇數據,像果殼、知乎等為搜索引擎提供了問答知識、問答資源等數據源。另一方面,因為深度學習采用的層次結構從大規模數據中自發學習的黑盒子模式是不可解釋的,而以語言為媒介的人與人之間的溝通應該要建立在相互理解的基礎上,所以深度學習在搜索引擎和機器翻譯上的效用沒有語音圖像識別領域來得顯著。