General_Effort

joined 10 months ago
[–] General_Effort@lemmy.world 3 points 10 hours ago

Musk also has his hands on a fair amount of data through X and Tesla. But yeah... Copyright expansion seems like an odd place to start breaking the constitution.

[–] General_Effort@lemmy.world 5 points 13 hours ago (2 children)

You're right about the regulation but I'm not so sure about the copyright exemptions. All in all, you'd think he's more likely to side with property owners - especially the heirs of media empires - over progress.

[–] General_Effort@lemmy.world 7 points 2 days ago

The insistence on electoral districts.

You get that across the English-speaking world, though. The really weird thing is that even people who see the problem want to keep the districts and argue for non-solutions like ranked-choice voting.

Centuries ago, it made sense. Communities chose one of their own to argue for their interests in front of the king. Which communities had the privilege? Obviously that's up to the king to decide. Before modern communication tech, it also made sense that communities would be defined by geography.

Little of that makes sense anymore. When their candidate loses, people don't feel like the 2nd best guy is representing them. They feel disenfranchised.

It used to be, in the US, that minorities - specifically African Americans - were denied representation. Today, census data is used to draw districts dominated by minority ethnic groups so that they can send one of their own to congress. This might not be a good thing, because candidates elsewhere do not have to appeal to these minorities or take their interests into account. Minorities that are not geographically concentrated - eg LGBTQ - cannot gain representation that way.

The process is entirely top-down and undemocratic. Of course, it is gamed.

Aside from that, the mere fact that representation is geography based influences which issues dominate. The more likely you are to move before the next election, the less your interests matter. That goes for both parties. But you can also see a pronounced urban/rural divide in party preference. Rural vs urban determines interests and opinions in very basic ways. Say, guns: High-population density makes them a dangerous threat and not much else. In the country, they are a tool for hunting.

[–] General_Effort@lemmy.world 2 points 5 days ago

Thank you. Since we decided a few weeks ago to adopt the leaf as legal tender, we have, of course, all become immensely rich.

But we have also run into a small inflation problem on account of the high level of leaf availability, which means that, I gather, the current going rate has something like three deciduous forests buying on ship's peanut.

So in order to obviate this problem and effectively revalue the leaf, we are about to embark on a massive defoliation campaign, and...er, burn down all the forests. I think you'll all agree that's a sensible move under the circumstances.

[–] General_Effort@lemmy.world 17 points 5 days ago (3 children)

Many were increasingly of the opinion that they'd all made a big mistake coming down from the trees in the first place, and some said that even the trees had been a bad move, and that no-one should ever have left the oceans.

[–] General_Effort@lemmy.world 3 points 6 days ago

Well, maybe it wouldn't if it was gluten-free. Have you thought of that? No, you didn't, you only think of yourself.

[–] General_Effort@lemmy.world 1 points 6 days ago

Daten bestimmen jetzt die internen logischen Abläufe im System mit, wie dargelegt das Beispiel mit den Elefanten. Das ist sehr wohl neu (naja so neu wie KI eben). Trainingsdaten sind nicht einfach Eingangsdaten, wie sie bei der Anwendung einer gewöhnlichen Datenverarbeitung vorliegen. Sondern sie sind integraler Bestandteil der Entwicklung einer Datenverarbeitung. Grundlegende Teile des Systemverhaltens werden erst durch die Trainingsdaten bestimmt und zwar unabhängig davon zB welche Eingangsdaten in einer Produktivphase später anliegen.

Bei den zur Zeit diskutierten KI-Modellen handelt es sich mathematisch um lineare Gleichungssysteme. Die Dateien, die als KI-Modelle geteilt werden, enthalten die Parameter, welche die einzelnen Glieder gewichten, als Fließkommazahlen. Beim Training werden die Parameter schrittweise angenähert, um einen Fehler zu verkleinern. Vom Prinzip her ist das wie das Newton-Verfahren. (Es gibt aber auch andere Verfahren, die aber zZ kaum praktische Bedeutung haben. In Zukunft kann sich das alles ändern.)

Das ist eine sehr traditionelle Computeranwendung. Dass man Zahlentabellen lädt, die das Verhalten des Systems entscheidend beeinflussen, ist auch ein alter Hut.

Nein, Urheberrecht gilt für Daten und Code gleichermaßen, an dieser Stelle ist eben genau kein Unterschied.

Ja, Code mit einer gewissen Länge fällt normalerweise unter Urheberrecht. Deswegen kann man Code auch lizenzieren, wenn man die entsprechenden Rechte hat.

Daten an sich fallen eigentlich nicht unter Urheberrecht. Die Trainingsdaten bestehen bei genAI aber meist aus "geschützten" Inhalten. Wer Daten kuratiert und ein damit trainiertes KI-Produkt teilt, hat deswegen noch lange nicht das Recht, den Satz weiterzugeben.

Ich habe hier nicht wirklich ein Interesse sondern nur eine persönliche Überzeugung. Ich bin jedenfalls nicht aus beruflichen Gründen auf Lemmy unterwegs, falls das die Frage war. Am ehesten geht es mir um die Diskussion und den Ideenaustausch?

Ich frage, weil es viele Leute gibt, die meinen, sie würden Geld bekommen, wenn sich solche abstrusen Ideen durchsetzen.

Code ist normalerweise das geistige Eigentum von jemandem. Das fertig kompilierte Programm ist immer noch das Eigentum dieser Person.

Um ein KI-Produkt zu trainieren, musst du mit mehr oder weniger Mühe einen Datensatz kuratieren und dann mehr oder weniger Geld ausgeben für Hardware/Strom, oder Cloud-Compute. Da würden gerne Leute kommen und sagen: "Yoink. Danke fürs Kompilieren, du Depp." Copyright-Leute sind oft so ideologisch gefestigt, dass die bei sowas nicht mal Schuld empfinden. Eine moderne Gesellschaft kann man so natürlich nicht haben. Wir werden's noch erfahren.

Wo kommt denn bitte dein überlegenes Technikverständnis her?

Ich bringe Fakten und Argumente und verweise nicht auf "persönliche Erfahrung", um Behauptungen zu untermauern.

Klassischerweise würde ich beide auch eher zur Open Source als zur KI Community zählen, aber bei der Frage nach Open Source KI gibt es doch die Überschneidung die beides relevant macht? Und auch wenn KI nicht der Fokus ist halte ich die Einschätzungen für relevant, an Fachwissen und Erfahrungen für eine fundierte Einschätzung mangelt es sicherlich in beiden Orgas nicht.

Ich erkenne bei der FSF keine relevante Expertise. Beim CCC sehe ich keine entsprechende Stellungnahme.

[–] General_Effort@lemmy.world 1 points 1 week ago (2 children)

Sicherlich reichen die Daten in den seltensten Fällen um das Verhalten komplett Vorhersagen zu können. Aber sie bestimmen eben das Verhalten auch mit.

Ja, Daten bestimmen das Verhalten eines Programms mit, sonst wäre es nicht weit her mit der Datenverarbeitung.

Nein, das ist nicht neu.

Halte ich für falsch, Urheberrecht kann doch auch genauso für Quellcode gelten. Und Code an dem jemand anderes das Urheberrecht inne hat den darf ich auch nicht als Open Source veröffentlichen.

Eben. Du erkennst den Unterschied.

Ich denke das hängt davon ab wen du fragst und wen du zur Community zählst. Wenn du die Stellungnahmen von FSF oder CCC oder dergleichen liest dann sehe ich da eher meine Sichtweise bestätigt.

Mit Open-Source-KI-Community meine ich Leute, die Open-Source-KI erstellen und benutzen. Ich weiß nicht, was diese Organisationen mit KI zu tun haben.

Was ist eigentlich dein Interesse? Der Kollege will PR machen für die Copyright-Industrie. Und du? Mir ist auch nicht klar, worin die persönliche Erfahrung besteht. Ein besonderes Technikverständnis erkenne ich nicht.

 

spoilerBoo!

[–] General_Effort@lemmy.world 1 points 1 week ago (4 children)

Ich habe auch nicht behauptet dass überall Trainingsdaten benötigt werden

Es sollte zeigen, dass die Analogie nicht funktioniert.

Aber das Training von AI Modellen kann man denke ich schon vergleichen. Was das Verhalten (mit) bestimmt steht am Anfang, nämlich der Code bzw die Daten.

Ich kann verstehen, was die Analogie verführerisch macht, aber auf der technischen Ebene funktioniert sie schlicht nicht.

Ein typischer Satz Trainingsdaten könnte aus Bild/Text-Paaren bestehen. ZB Bild und Schlagworte zum Motiv. Damit könnte man ein KI-Modell trainieren, das Bilder in Kategorien einteilt, oder zu einem Bild Schlagworte generiert. Man könnte das auch für einen Bildgenerator benutzen, der Bilder zu einer Worteingabe generiert. Der Code macht das Programm. Der Code steht am Anfang, wie du so schön sagst.

Wenn du die Daten austauscht, wird die fertige KI immer noch dasselbe machen. Aber was genau die KI macht, kannst du aus den Daten nicht vorhersagen. Deswegen spricht man von einer Black Box. Man kann nicht exakt vorhersagen, ZB was für Schlagworte einem neuen Bild zugeordnet werden, oder erklären warum.

Ein anderer Unterschied ist der, dass Kompilierung einen definitiven Abschluss hat. Wann ein KI-Modell austrainiert ist, ist wenig klar. Und natürlich auch die enormen Kosten.

Und das Recht zu teilen hängt vom Datensatz bzw. vom Code ab, Quellcode der persönliche Daten o.ä. im Klartext enthält darf ich sicherlich auch nicht einfach Open Source publizieren.

Erstmal ist das Problem das Urheberrecht. Kein Problem bei Code, aber bei Trainingsdaten. Wie die Sache dann schlussendlich wegen DSGVO aussieht, ist unklar. Dann hat man noch Sachen wie den Data Act.

Mir geht es darum wie es eigentlich und aus dem intuitiven Verständnis von Open Source her sein sollte, nicht was AI Act oder GPL usw. derzeit abdecken.

Tja. Ich habe nicht den Eindruck, dass die Open-Source-KI-Community dein Verständnis teilt. Deswegen die Frage nach der Erfahrung und wo das so gemacht wird. Anscheinend nur in Teilen der Wissenschaft. Dem Kommentator, der dir zustimmt, geht es offensichtlich nicht um Open Source, sondern um Schützenhilfe für die Copyright-Industrie.

[–] General_Effort@lemmy.world 1 points 1 week ago (1 children)

Mit den "Ähnlichkeiten" wäre ich vorsichtig. Es gibt da so viele Missverständnisse.

Qualitätssichernde Maßnahmen oder bestimmte, wünschenswerte Eigenschaften sind nicht Teil des traditionellen Verständnisses von Open Source. Insofern es da Ähnlichkeiten gibt, spricht das gegen die Forderung.

[–] General_Effort@lemmy.world 1 points 1 week ago (3 children)

De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

OSS ist aber kein Wunschzettel der Wirtschaft. Klar, dass die sich freuen, wenn sie was umsonst kriegen. Geht mir auch so. Aber Unittests oder das Einhalten von irgendwelchen Spezifikationen sind keine Bedingung, dass Code als Open Source gilt.

 

I wonder if anyone notices.

 
 

We can only expect these trends to continue to worsen, and many works to be lost well before they enter the public domain.

We are on the eve of a revolution in preservation, but “the lost cannot be recovered.” We have a critical window of about 5-10 years during which it’s still fairly expensive to operate a shadow library and create many mirrors around the world, and during which access has not been completely shut down yet.

If we can bridge this window, then we’ll indeed have preserved humanity’s knowledge and culture in perpetuity. We should not let this time go to waste. We should not let this critical window close on us.

Let’s go.

  • Anna and the team
 

This was published in November 2023, but may be of general interest now, because of current events.

 

Is it even for real?

 
view more: next ›