Chunking-Strategien für LLM-Anwendungen | von Dr. Ernesto Lee | Juni 2023

0
25


Stellen Sie sich inhaltsbewusstes Chunking so vor, als würden Sie einen Anzug maßgeschneidert anfertigen, anstatt ihn von der Stange zu kaufen. Die Stücke werden entsprechend der Artwork des Inhalts geformt, was zu einer verfeinerten Ausgabe führt. Dieser Ansatz kann in mehrere Untermethoden unterteilt werden, beispielsweise die Satzteilung.

Naive Spaltung ist der einfachste Ansatz, vergleichbar damit, einen Laib Brot in Stücke zu reißen, anstatt ihn sauber in Scheiben zu schneiden. Es teilt Sätze lediglich bei jedem Punkt oder jeder neuen Zeile auf, berücksichtigt jedoch möglicherweise keine Randfälle:

textual content = "..." # your textual content
docs = textual content.cut up(".")

Der NLTK Die Bibliothek bietet wie ein präziseres Messer einen differenzierteren Ansatz, indem sie Satzteile herausschneidet und gleichzeitig den sinnvollen Kontext bewahrt:

textual content = "..." # your textual content
from langchain.text_splitter import NLTKTextSplitter

text_splitter = NLTKTextSplitter()
docs = text_splitter.split_text(textual content)

Der spacig Die Bibliothek bietet einen ausgefeilten Ansatz, ähnlich einem Skalpell, der sich durch das Bilden präziser Sätze unter Beibehaltung des Kontexts auszeichnet:



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here