Quelle: Cointelegraph Original: “Dezentralisierte OORT AI-Daten gehören zu den Besten auf Google Kaggle”
Das von dem dezentralen KI-Lösungsanbieter OORT entwickelte KI-Trainingsbilddatensatz hat auf Googles Kaggle-Plattform bedeutende Erfolge erzielt.
Die Liste des “Diverse Tools Kaggle” Datensatzes von OORT wurde Anfang April veröffentlicht; danach stieg er in mehreren Kategorien auf die Startseite. Kaggle ist eine Online-Plattform von Google für Wettbewerbe in Datenwissenschaft und maschinellem Lernen, Lernen und Zusammenarbeit.
Der Kernbeitrag von Ramkumar Subramaniam, einem Mitwirkenden des Krypto-AI-Projekts OpenLedger, an Cointelegraph lautete: “Das Ranking auf der Kaggle-Startseite ist ein starkes gesellschaftliches Signal, das zeigt, dass dieser Datensatz das aktive Engagement wichtiger Gemeinschaften wie Datenwissenschaftler, Maschinenbau-Ingenieure und Praktiker anzieht.”
OORT-Gründer und CEO Max Li teilte Cointelegraph mit, dass das Unternehmen “ermutigende Beteiligungsindikatoren beobachtet hat, die bestätigen, dass die durch das dezentrale Modell gesammelten Trainingsdaten tatsächlich eine frühe Marktnachfrage und Relevanz aufweisen”. Er fügte hinzu:
“Das spontane Interesse aus der Gemeinschaft, einschließlich aktiver Nutzung und Beiträgen – zeigt klar, wie dezentrale, gemeinschaftsgetriebene Datenpipelines wie OORT eine schnelle Verbreitung und breite Teilnahme ermöglichen können, ohne auf zentralisierte Mittler angewiesen zu sein.”
Li sagte auch, dass OORT in den kommenden Monaten mehrere Datensätze veröffentlichen wird. Dazu gehören Datensätze für Sprachbefehle im Auto, Sprachbefehle für Smart Home-Geräte und Datensätze von Deepfake-Videos, die darauf abzielen, die Fähigkeit zur Wahrheitsprüfung von KI-gesteuerten Medien zu verbessern.
Cointelegraph hat unabhängig bestätigt, dass das oben genannte Datenset Anfang dieses Monats erfolgreich auf der Startseite der Kategorien Allgemeine KI, Einzelhandel und Einkaufen, Fertigung sowie Ingenieurwesen auf Kaggle platziert wurde. Zum Zeitpunkt der Veröffentlichung hat dieses Datenset nach einem möglicherweise nicht relevanten Update am 6. Mai und einem weiteren Update am 14. Mai diese Ranking-Positionen nicht mehr gehalten.
Obwohl er diesen Erfolg anerkennt, erklärte Subramaniam gegenüber Cointelegraph: “Dies ist kein entscheidender Indikator für die tatsächliche Anwendbarkeit oder die Qualität auf Unternehmensebene.” Er wies darauf hin, dass die Einzigartigkeit des OORT-Datensatzes “nicht nur in der Rangfolge besteht, sondern auch in den Quellen und Anreizmechanismen, die hinter dem Datensatz stehen.” Er erklärte weiter:
“Im Gegensatz zu zentralen Anbietern, die möglicherweise auf intransparente Prozesse angewiesen sind, kann ein transparentes, tokenbasiertes Anreizsystem Rückverfolgbarkeit, gemeinschaftliches Management und kontinuierliche Optimierung ermöglichen, vorausgesetzt, dass eine geeignete Governance-Struktur eingerichtet wird.”
Der Partner von Generative Ventures, einer Risikokapitalgesellschaft für künstliche Intelligenz, Lex Sokolin, erklärte, dass er zwar der Meinung ist, dass diese Ergebnisse nicht schwer zu reproduzieren sind, “aber es beweist tatsächlich, dass Krypto-Projekte in der Lage sind, Aktivitäten mit wirtschaftlichem Wert durch dezentralisierte Anreizmechanismen zu organisieren.”
Laut Daten, die von Epoch AI, einem Forschungsinstitut für künstliche Intelligenz, veröffentlicht wurden, wird erwartet, dass die von Menschen generierten Text-KI-Trainingsdaten bis 2028 ausgehen werden. Der Druck ist so groß, dass Investoren nun Deals aushandeln, um sich die Rechte zur Nutzung von urheberrechtlich geschütztem Material für KI-Unternehmen zu sichern.
Seit vielen Jahren kursiert ein Forschungsbericht über die zunehmende Knappheit von AI-Trainingsdaten und wie dies die Entwicklung in diesem Bereich einschränken könnte. Obwohl synthetische ( AI-generierte ) Daten zunehmend angewendet werden und gewisse Erfolge erzielen, werden von Menschen generierte Daten nach wie vor allgemein als die bessere Wahl angesehen, da diese hochwertigen Daten leistungsfähigere AI-Modelle hervorbringen können.
Im Bereich der KI-Trainingsbilder wird die Situation zunehmend komplexer, da Künstler bewusst die Trainingsarbeit sabotieren. Um ihre Werke vor unbefugter Verwendung für das KI-Training zu schützen, ermöglicht das Nightshade-Tool den kreativen Köpfen, ihre Bilder zu “vergiften”, was die Leistungsfähigkeit des Modells erheblich beeinträchtigt.
Subramaniam指出:“Wir treten in eine Ära ein, in der qualitativ hochwertige Bilddaten zunehmend rar werden.” Er betonte auch, dass die weit verbreitete Anwendung von Bildvergiftungstechniken diese Herausforderung noch verschärft:
“Mit dem Aufstieg von Technologien wie Bildversteckung und adversarialem Watermarking stehen Open-Source-Datensätze vor der doppelten Herausforderung von Quantität und Vertrauenswürdigkeit.”
Als Reaktion auf die Situation sagte Subramaniam, dass überprüfbare und von der Community beigesteuerte Anreizdatensätze “wertvoller denn je” seien. Er glaubt, dass solche Projekte “nicht nur als Alternative dienen werden, sondern auch zu einer wichtigen Säule der KI-Ausrichtung und Datenrückverfolgbarkeit in der Datenwirtschaft werden”. "
Ähnliche Empfehlungen: Kima tritt dem Mastercard-Sandbox bei, um Stablecoin-Kartenaufladungen zu ermöglichen.