Google-Forscher stellen AudioPaLM vor: einen Game-Changer in der Sprachtechnologie – ein neues großes Sprachmodell, das mit beispielloser Genauigkeit zuhört, spricht und übersetzt

0
27


Giant Language Fashions (LLMs) stehen seit einigen Monaten im Rampenlicht. Als einer der besten Fortschritte auf dem Gebiet der künstlichen Intelligenz verändern diese Modelle die Artwork und Weise, wie Menschen mit Maschinen interagieren. Da jede Branche diese Modelle übernimmt, sind sie das beste Beispiel dafür, wie KI die Welt erobert. LLMs zeichnen sich durch die Erstellung von Texten für Aufgaben aus, die komplexe Interaktionen und den Abruf von Wissen beinhalten. Das beste Beispiel hierfür ist der berühmte von OpenAI entwickelte Chatbot ChatGPT, der auf der Transformer-Architektur von GPT 3.5 und GPT 4 basiert. Nicht nur bei der Textgenerierung, sondern auch bei Modellen wie … Für die Bildproduktion wurden auch CLIP (Contrastive Language-Picture Pretraining) entwickelt, die die Erstellung von Texten abhängig vom Bildinhalt ermöglichen.

Um die Audiogenerierung und -verständlichkeit voranzutreiben, hat ein Forscherteam von Google AudioPaLM eingeführt, ein großes Sprachmodell, das Sprachverständnis- und Sprachgenerierungsaufgaben bewältigen kann. AudioPaLM kombiniert die Vorteile zweier bestehender Modelle, nämlich des PaLM-2-Modells und des AudioLM-Modells, um eine einheitliche multimodale Architektur zu schaffen, die sowohl Textual content als auch Sprache verarbeiten und produzieren kann. Dadurch kann AudioPaLM eine Vielzahl von Anwendungen abdecken, die von der Spracherkennung bis zur Sprach-zu-Textual content-Konvertierung reichen.

Während AudioLM hervorragend paralinguistische Informationen wie Sprecheridentität und Tonfall aufrechterhalten kann, ist PaLM-2, ein textbasiertes Sprachmodell, auf textspezifisches Sprachwissen spezialisiert. Durch die Kombination dieser beiden Modelle nutzt AudioPaLM die linguistische Experience von PaLM-2 und die paralinguistische Informationsbewahrung von AudioLM, was zu einem gründlicheren Verständnis und einer gründlicheren Erstellung von Textual content und Sprache führt.

AudioPaLM nutzt ein gemeinsames Vokabular, das mithilfe einer begrenzten Anzahl diskreter Token sowohl Sprache als auch Textual content darstellen kann. Die Kombination dieses gemeinsamen Vokabulars mit Markup-Aufgabenbeschreibungen ermöglicht das Coaching eines einzelnen Decoder-Modells für eine Vielzahl sprach- und textbasierter Aufgaben. Aufgaben wie Spracherkennung, Textual content-zu-Sprache-Synthese und Sprache-zu-Sprache-Übersetzung, bei denen es sich bisher um separate Modelle handelte, können jetzt in einer einzigen Architektur und einem einzigen Trainingsprozess vereint werden.

Bei der Evaluierung übertraf AudioPaLM bestehende Systeme bei der Sprachübersetzung deutlich. Es demonstrierte die Fähigkeit, eine Zero-Shot-Sprach-zu-Textual content-Übersetzung für Sprachkombinationen durchzuführen, was bedeutet, dass es Sprache in noch nie dagewesenen Sprachen präzise in Textual content übersetzen kann, was Möglichkeiten für eine breitere Sprachunterstützung eröffnet. AudioPaLM kann außerdem Stimmen basierend auf kurzen gesprochenen Ansagen sprachübergreifend übertragen und unterschiedliche Stimmen in verschiedenen Sprachen erfassen und wiedergeben, was eine Sprachkonvertierung und -anpassung ermöglicht.

Die wichtigsten vom Staff genannten Beiträge sind:

  1. AudioPaLM nutzt die Fähigkeiten von PaLM und PaLM-2s aus dem Nur-Textual content-Vortraining.
  1. Es hat SOTA-Ergebnisse bei den Benchmarks für automatische Sprachübersetzung und Speech-to-Speech-Übersetzung sowie eine Wettbewerbsleistung bei Benchmarks für die automatische Spracherkennung erzielt.
  1. Das Modell führt eine Sprach-zu-Sprache-Übersetzung mit Sprachübertragung von unsichtbaren Sprechern durch und übertrifft bestehende Methoden in Bezug auf Sprachqualität und Stimmerhaltung.
  1. AudioPaLM demonstriert Zero-Shot-Fähigkeiten, indem es eine automatische Sprachübersetzung mit unsichtbaren Sprachkombinationen durchführt.

Zusammenfassend lässt sich sagen, dass AudioPaLM, ein einheitliches LLM, das sowohl Sprache als auch Textual content verarbeitet, indem es die Fähigkeiten textbasierter LLMs nutzt und Audio-Eingabetechniken integriert, eine vielversprechende Ergänzung der Liste der LLMs darstellt.


Besuche die Papier Und Projekt. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Knowledge-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here