超470萬單詞！亞馬遜開源最大社交對話資料集

首頁>科技>圖靈聯邦2019-09-30 00:58

近日，亞馬遜在GitHub上釋出了超470萬單詞21萬句子的語料庫，並聲稱這個資料集支援“高品質”和“可重複”的對話系統研究，將成為研究界公開可用的最大的基於知識的社交對話資料集。

GitHub：

https://github.com/alexa/alexa-prize-topical-chat-dataset/

Amazon Alexa

早在今年4月，亞馬遜就宣佈向參加Alexa Prize Socialbot Grand Challenge競賽的團隊釋出其對話資料集。

此次亞馬遜釋出的資料集中，每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯，並且所述知識是從與一組實體相關的一系列“非結構化”和“鬆散結構化”的文字資源中收集的。

亞馬遜高階首席科學家Dilek Hakkani-Tur在部落格文章中明確表示，沒有任何語料是從與Alexa客戶的互動中收集的。

該資料庫是實現基於知識的神經反應生成系統的後續研究，解決其他公開資料集無法解決的自然對話中的難題。

這將使研究者可以專注於研究對話中主題和知識選擇方面的轉換，以及如何在對話中融入事實和觀點

為了編譯語料庫，Hakkani-Tur和同事從與Alexa Prize聊天機器人的對話中經常出現的8個不同主題類別中，確定了300個命名實體。

根據這些實體在資訊源中的共存情況，將它們分組為三個組，對於叢集中的每個實體，收集多個附加資訊源，並根據每個群集進行劃分。

然後，這些資料被傳遞給亞馬遜Mechanical Turk的眾包工人，他們有時會收到相同的資訊，有時只獲得其中一部分資訊。

Alexa AI團隊有時會對資料進行分割，以便匹配的工作人員獲得補充知識。

為了構建主題聊天資料集，通過Mechanical Turk招募的工作人員參與即時訊息對話（右），他們使用從非結構化或鬆散結構化資源（左）的集合中提取的資訊來支援他們的觀點。

按照研究人員的指示，這些工作人員就收到的知識進行即時通訊對話。

對於收到的每條資訊，他們都被要求指出資訊的來源，並衡量收到資訊的情緒(例如，快樂、悲傷、好奇、恐懼等等)，他們還被要求評估聊天夥伴的品質(例如，以及他們是否適合交談)。

接下來，通過手動和自動審查相結合的方式減少了對話。

“希望這將使研究人員能夠關注人類在話題、知識選擇和知識豐富之間的轉換，以及將事實和觀點融入對話中的方式，並支援出版高品質、可重複的研究成果，”Hakkani-Tur說。