Stellen Sie sich inhaltsbewusstes Chunking so vor, als würden Sie einen Anzug maßgeschneidert anfertigen, anstatt ihn von der Stange zu kaufen. Die Stücke werden entsprechend der Artwork des Inhalts geformt, was zu einer verfeinerten Ausgabe führt. Dieser Ansatz kann in mehrere Untermethoden unterteilt werden, beispielsweise die Satzteilung.
Naive Spaltung ist der einfachste Ansatz, vergleichbar damit, einen Laib Brot in Stücke zu reißen, anstatt ihn sauber in Scheiben zu schneiden. Es teilt Sätze lediglich bei jedem Punkt oder jeder neuen Zeile auf, berücksichtigt jedoch möglicherweise keine Randfälle:
textual content = "..." # your textual content
docs = textual content.cut up(".")
Der NLTK Die Bibliothek bietet wie ein präziseres Messer einen differenzierteren Ansatz, indem sie Satzteile herausschneidet und gleichzeitig den sinnvollen Kontext bewahrt:
textual content = "..." # your textual content
from langchain.text_splitter import NLTKTextSplittertext_splitter = NLTKTextSplitter()
docs = text_splitter.split_text(textual content)
Der spacig Die Bibliothek bietet einen ausgefeilten Ansatz, ähnlich einem Skalpell, der sich durch das Bilden präziser Sätze unter Beibehaltung des Kontexts auszeichnet: