web-dev-qa-db-de.com

Verwenden von Word2Vec zur Themenmodellierung

Ich habe gelesen, dass die gebräuchlichste Technik zur Themenmodellierung (zum Extrahieren möglicher Themen aus Text) die Latent Dirichlet-Zuordnung (LDA) ist.

Ich bin jedoch interessiert, ob es eine gute Idee ist, die Themenmodellierung mit Word2Vec auszuprobieren, da Wörter im Vektorraum gruppiert werden. Könnten die Cluster deshalb nicht als Themen betrachtet werden?

Halten Sie es für sinnvoll, diesem Ansatz aus Gründen der Forschung zu folgen? Am Ende interessiere ich mich für das Extrahieren von Schlüsselwörtern nach Themen.

14
user1814735

Vielleicht möchten Sie folgende Papiere betrachten: 

Dat Quoc Nguyen, Richard Billingsley, Lan Du und Mark Johnson. 2015. Verbesserung von Themenmodellen mit Latent-Feature-Wortdarstellungen . Transaktionen des Vereins für Computerlinguistik, vol. 3, S. 299-313. [ CODE ]

Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. 2015. Topical Word Embeddings . In der 29. Konferenz der AAAI über künstliche Intelligenz, 2418-2424. [ CODE ]

In der ersten Arbeit werden Word-Einbettungen in das LDA-Modell und das DMM-Modell mit einem Thema pro Dokument integriert. Es berichtet über signifikante Verbesserungen in Bezug auf Themenkohärenz, Dokument-Clustering und Dokumentklassifizierungsaufgaben, insbesondere bei kleinen Korpora oder kurzen Texten (z. B. Tweets). 

Die zweite Arbeit ist auch interessant. Es verwendet LDA, um ein Thema für jedes Wort zuzuweisen, und dann Word2Vec, um Word-Einbettungen basierend auf beiden Wörtern und deren Themen zu lernen.

9
NQD

Zwei Leute haben versucht, das zu lösen.

Chris Moody von StichFix kam mit LDA2Vec heraus und einige Doktoranden der CMU schrieben einen Artikel mit dem Namen "Gaußscher LDA für Themenmodelle mit Word-Einbettung" mit code hier ... obwohl ich dort keinen Java-Code erhalten konnte um sinnvolle Ergebnisse auszugeben. Es ist eine interessante Idee, Word2vec mit Gaussian (eigentlich T-Distributionen, wenn Sie die mathematischen Berechnungen durchführen) Word-Topic-Distributionen zu verwenden. Die Gaußsche LDA sollte in der Lage sein, Wörter aus dem Training zu lösen.

LDA2Vec versucht, sowohl das LDA-Modell als auch Word-Vektoren gleichzeitig zu trainieren. Außerdem können Sie LDA-Prioren über Nicht-Wörter stellen, um wirklich interessante Ergebnisse zu erhalten. 

3
Mansweet

Berücksichtigen Sie in Word2Vec 3 Sätze
"Der Hund sah eine Katze",
"Der Hund jagte die Katze",
"Die katze kletterte auf einen baum"
Hier geben wir das Eingabewort 'cat' ein, dann erhalten wir das Ausgabewort als 'geklettert'.

es basiert auf der Wahrscheinlichkeit, dass alle Wörter Kontext (Wort) enthalten. Es ist ein fortlaufendes Modell mit Wörtern. Wir erhalten Wörter, die dem eingegebenen Word ähnlich sind, basierend auf dem Kontext. Word2Vec funktioniert nur in großen Datensätzen.

LDA wird verwendet, um Themen aus einem Korpus zu abstrahieren. Es basiert nicht auf dem Kontext. Bei der Dirichlet-Verteilung werden Wörter über Themen und über Themen gezeichnet. Das Problem, dem wir hier gegenüberstehen, ist Zufälligkeit. Wir erhalten jedes Mal unterschiedliche Ausgaben.

Die von uns gewählte Technik hängt von unseren Anforderungen ab.

0
Thomas N T