首頁>科技>

近日,亞馬遜在GitHub上釋出了超470萬單詞21萬句子的語料庫,並聲稱這個資料集支援“高品質”和“可重複”的對話系統研究,將成為研究界公開可用的最大的基於知識的社交對話資料集。

GitHub:

https://github.com/alexa/alexa-prize-topical-chat-dataset/

Amazon Alexa

早在今年4月,亞馬遜就宣佈向參加Alexa Prize Socialbot Grand Challenge競賽的團隊釋出其對話資料集。

此次亞馬遜釋出的資料集中,每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯,並且所述知識是從與一組實體相關的一系列“非結構化”和“鬆散結構化”的文字資源中收集的。

亞馬遜高階首席科學家Dilek Hakkani-Tur在部落格文章中明確表示,沒有任何語料是從與Alexa客戶的互動中收集的。

該資料庫是實現基於知識的神經反應生成系統的後續研究,解決其他公開資料集無法解決的自然對話中的難題。

這將使研究者可以專注於研究對話中主題和知識選擇方面的轉換,以及如何在對話中融入事實和觀點

為了編譯語料庫,Hakkani-Tur和同事從與Alexa Prize聊天機器人的對話中經常出現的8個不同主題類別中,確定了300個命名實體。

根據這些實體在資訊源中的共存情況,將它們分組為三個組,對於叢集中的每個實體,收集多個附加資訊源,並根據每個群集進行劃分。

然後,這些資料被傳遞給亞馬遜Mechanical Turk的眾包工人,他們有時會收到相同的資訊,有時只獲得其中一部分資訊。

Alexa AI團隊有時會對資料進行分割,以便匹配的工作人員獲得補充知識。

為了構建主題聊天資料集,通過Mechanical Turk招募的工作人員參與即時訊息對話(右),他們使用從非結構化或鬆散結構化資源(左)的集合中提取的資訊來支援他們的觀點。

按照研究人員的指示,這些工作人員就收到的知識進行即時通訊對話。

對於收到的每條資訊,他們都被要求指出資訊的來源,並衡量收到資訊的情緒(例如,快樂、悲傷、好奇、恐懼等等),他們還被要求評估聊天夥伴的品質(例如,以及他們是否適合交談)。

接下來,通過手動和自動審查相結合的方式減少了對話。

“希望這將使研究人員能夠關注人類在話題、知識選擇和知識豐富之間的轉換,以及將事實和觀點融入對話中的方式,並支援出版高品質、可重複的研究成果,”Hakkani-Tur說。

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 全球邁向“新能源時代”,誰能搭上電動巴士“順風車”?