this post was submitted on 19 Feb 2024
91 points (96.9% liked)

DACH - jetzt auf feddit.org

8713 readers
1 users here now

Diese Community wird zum 01.07 auf read-only gestellt. Durch die anhäufenden IT-Probleme und der fehlende Support wechseln wir als Community auf www.feddit.org/c/dach - Ihr seid herzlich eingeladen auch dort weiter zu diskutieren!

Das Sammelbecken auf feddit für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.

Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:

Eine ausfĂĽhrliche Sidebar findet ihr hier: Infothread: Regeln, Feedback & sonstige Infos

Auch hier gelten die Serverregeln von https://feddit.de !

Banner: SirSamuelVimes

founded 1 year ago
MODERATORS
 
you are viewing a single comment's thread
view the rest of the comments
[–] GravitySpoiled@lemmy.ml 11 points 9 months ago (8 children)

A million words doesn't sound like a lot

[–] Deykun@kbin.social 24 points 9 months ago* (last edited 9 months ago) (2 children)

To clarify, it is not the total number of words but rather the number of unique words considered. Imho a million of unique words is okay. A bigger concern for me would be that words on Wikipedia can be overly specific.

[–] sbv@sh.itjust.works 9 points 9 months ago

That million words sounds like a lot.

[–] GBU_28@lemm.ee 1 points 9 months ago (1 children)

Have you considered a similarity search approach? They would handle your oddly specific synonym issue

[–] Deykun@kbin.social 1 points 9 months ago

I only have a prespellechecked list of words from here: http://www.aaabbb.de/WordList/WordList_en.php

load more comments (5 replies)