Seit der Einführung des revolutionären ChatGPT von OpenAI, das Rekorde brach, indem es die schnellsten 100 Millionen Benutzer für ein Produkt gewann, wurden im Bereich der Konversationsagenten in natürlicher Sprache erhebliche Fortschritte erzielt. Forscher erforschen aktiv verschiedene Techniken und Strategien, um die Fähigkeiten von Chatbot-Modellen zu verbessern und es ihnen zu ermöglichen, natürlichere und fesselndere Interaktionen mit ihren Benutzern zu schaffen. Infolgedessen wurden mehrere Open-Supply- und leichtgewichtige Alternativen zu ChatGPT auf den Markt gebracht. Eine dieser Alternativen ist die ChatGLM-Modellreihe, die von Forschern der Tsinghua-Universität in China entwickelt wurde. Diese Reihe, die auf dem Normal Language Mannequin (GLM)-Framework basiert, unterscheidet sich von der Gruppe der Generative Pre-trained Transformer (GPT) von LLMs, die häufiger vorkommen. Die Serie umfasst mehrere zweisprachige Modelle, die auf Chinesisch und Englisch trainiert wurden. Das bekannteste davon ist ChatGLM-6B mit 6,2 Milliarden Parametern. Das Modell wurde auf über 1 Billion englischer und chinesischer Token vorab trainiert und mithilfe von Techniken wie Reinforcement Studying mit menschlichem Suggestions weiter für die Beantwortung von Fragen, Zusammenfassungen und Konversationen auf Chinesisch verfeinert.
Ein weiteres herausragendes Merkmal von ChatGLM-6B ist, dass es lokal eingesetzt werden kann und aufgrund seiner Quantisierungstechniken nur sehr wenige Ressourcen benötigt. Das Modell kann sogar lokal auf Client-Grafikkarten bereitgestellt werden. Mit über 2 Millionen Downloads weltweit erfreut es sich insbesondere in China außerordentlicher Beliebtheit und ist damit eines der einflussreichsten Open-Supply-Modelle im großen Maßstab. Als Ergebnis seiner breiten Akzeptanz veröffentlichten Forscher der Tsinghua-Universität ChatGLM2-6B, die zweite Technology des zweisprachigen Chat-Modells. ChatGLM2-6B umfasst alle Stärken des Modells der ersten Technology sowie mehrere neue Funktionen, die hinzugefügt wurden, wie z. B. Leistungsverbesserungen, Unterstützung für längere Kontexte und effizientere Inferenz. Darüber hinaus hat das Forschungsteam die Verwendung von Modellgewichten über akademische Zwecke hinaus ausgeweitet (wie zuvor) und sie für die kommerzielle Nutzung verfügbar gemacht.
Als Ausgangspunkt haben die Forscher das Basismodell von ChatGLM2-6B im Vergleich zur Model der ersten Technology verbessert. ChatGLM2-6B nutzt die hybride Zielfunktion von GLM und wurde mit über 1,4 Billionen englischen und chinesischen Token vorab trainiert. Die Forscher bewerteten die Leistung ihres Modells im Vergleich zu anderen Wettbewerbsmodellen etwa gleicher Größe auf dem Markt. Es zeigte sich, dass ChatGLM2-6B spürbare Leistungsverbesserungen bei verschiedenen Datensätzen wie MMLU, CEval, BBH usw. erzielt. Ein weiteres beeindruckendes Improve von ChatGLM2-6B ist die Unterstützung längerer Kontexte, von 2K in der Vorgängerversion auf 32K. Der FlashAttention-Algorithmus hat dabei eine entscheidende Rolle gespielt, indem er die Aufmerksamkeit beschleunigt und den Speicherverbrauch für noch längere Sequenzen für die Aufmerksamkeitsschicht reduziert. Darüber hinaus wurde das Modell während der Dialogausrichtung mit einer Kontextlänge von 8K trainiert, um Benutzern mehr Gesprächstiefe zu bieten. ChatGLM2-6B verwendet auch die Multi-Question-Consideration-Technik und erreicht so erfolgreich eine geringere GPU-Speichernutzung des KV-Cache und eine um etwa 42 % höhere Inferenzgeschwindigkeit im Vergleich zur ersten Technology.
Die Forscher der Tsinghua-Universität haben ChatGLM2-6B als Open-Supply-Lösung bereitgestellt, in der Hoffnung, Entwickler und Forscher weltweit dazu zu ermutigen, das Wachstum und die Innovation von LLMs zu fördern und mehrere nützliche Anwendungen auf der Grundlage des Modells zu entwickeln. Die Forscher betonen jedoch auch, dass aufgrund des kleineren Maßstabs des Modells seine Entscheidungen häufig durch Zufälligkeit beeinflusst werden können und seine Ergebnisse daher sorgfältig auf ihre Genauigkeit überprüft werden müssen. Was die zukünftige Arbeit angeht, hat das Workforce einen Schritt voraus gedacht und mit der Arbeit an der dritten Model des Modells, ChatGLM3, begonnen.
Besuche die Github Verknüpfung. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 18k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Khushboo Gupta ist Beratungspraktikant bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Know-how (IIT) in Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Es macht ihr Spaß, mehr über den technischen Bereich zu lernen, indem sie an verschiedenen Herausforderungen teilnimmt.