- Ein Überblick über asymptotische Normalität in stochastischen Blockmodellen: Clusteranalyse und Inferenz (arXiv)
Autor: Joshua Agterberg, Joshua Cape
Zusammenfassung: Dieses Papier bietet einen selektiven Überblick über die Literatur zur statistischen Netzwerkanalyse, die sich auf Clustering- und Inferenzprobleme für stochastische Blockmodelle und ihre Varianten konzentriert. Wir untersuchen asymptotische Normalitätsergebnisse für stochastische Blockmodelle, um klassische statistische Konzepte thematisch mit zeitgenössischer Forschung in der Netzwerkdatenanalyse zu verknüpfen. Bemerkenswert ist, dass in stochastischen Blockmodellen mehrere unterschiedliche Formen des asymptotischen Gaußschen Verhaltens auftreten und für verschiedene Zwecke nützlich sind, z. B. im Zusammenhang mit Schätzungen und Checks, der Charakterisierung der Clusterstruktur bei der Group-Erkennung und dem Verständnis der latenten Raumgeometrie. Dieser Artikel schließt mit einer Diskussion offener Probleme und laufender Forschungsaktivitäten, die sich mit der asymptotischen Normalität und ihren Auswirkungen auf die statistische Netzwerkmodellierung befassen
2.RNAprofiling 2.0: Erweiterte Clusteranalyse struktureller Ensembles (arXiv)
Autor: Forrest Hurley, Christine Heitsch
Zusammenfassung: Das Verständnis der Basenpaarung einer RNA-Sequenz bietet Einblick in ihre molekulare Struktur. Durch die Auswertung suboptimaler Stichprobendaten identifiziert RNAprofiling 1.0 die dominanten Helices in Sekundärstrukturen mit niedriger Energie als Merkmale, organisiert sie in Profilen, die die Boltzmann-Probe unterteilen, und hebt sie hervor Wichtige Gemeinsamkeiten/Unterschiede zwischen den informativsten, dh ausgewählten Profilen in einem grafischen Format. Model 2.0 verbessert jeden Schritt dieses Ansatzes. Zunächst werden die vorgestellten Substrukturen von Helices zu Stängeln erweitert. Zweitens umfasst die Profilauswahl Niederfrequenzpaarungen, die den vorgestellten ähneln. Zusammengenommen erweitern diese Aktualisierungen den Nutzen der Methode auf Sequenzen bis zu einer Länge von 600, die über einen großen Datensatz ausgewertet werden. Drittens werden Zusammenhänge in einem Entscheidungsbaum visualisiert, der die wichtigsten Strukturunterschiede hervorhebt. Schließlich wird diese Clusteranalyse experimentellen Forschern in einem tragbaren Format als interaktive Webseite zugänglich gemacht, was ein viel besseres Verständnis der Kompromisse zwischen verschiedenen möglichen Basenpaarkombinationen ermöglicht