In basso es mi respons a un message in Facebook, https://www.facebook.com/groups/interlingua.IALA/permalink/3128901893798867/ ======= Le 2 de juni 2020, Todd Mockler scribeva: > Corpore de interlingua de IALA - un collaboration > > Salute! Io vole organisar un projecto collaborative compilar un > corpore comprensive de textos de interlingua, in forma electronic. > Le objecto de iste corpore de textos de interlingua va esser adjutar > con analyses de computator del lingua, esser un resource pro le > communitate, e facilitar le disveloppamento de utensiles in linea > pro interlingua. > Le scopo de iste projecto include, mais non limate a, 1) faciente un > dictionario frequentia pro interlingua, Un idea interessante. In un maniera simile a lo que io describe in https://rudhar.com/index/cron/script.htm, io poterea facer un tal lista del frequentia del parolas, basate sur mi proprie articulos in interlingua, typificate per "lang=ia". Vide per exemplo mi lista RSS in http:/rudhar.com/rss e https://rudhar.com/rss/rssinga.xml . Lo que io expectarea de un tal lista es: a) Naturalmente il habera un superrepresentation de parolas que pertine al themas super le qual io sovente scribe, e un subrepresentation de parolas de altere materias. b) Como in tote le linguas, ergo anque in interlingua, le curte e simplice parolas como 'le', 'de', 'in', 'a', que, 'io', 'on' e 'es', que es le particulas o parolas de function, es le parolas plus usate. Le altere vocabulos seque, con le parolas specialisate al fin. Lo que non es clar pro me, es como un lista de frequentia pote esser utile pro le communitate de interlingua. Saper que parolas primo apprender? Il ja ha le lista de 2500 parolas frequente: https://www.interlingua.com/e-libros/2500-lista/. Anque, si on apprende de textos e conversationes existente, automaticamente le parolas le plus frequente es ben repetite, que adjuta le memorisar. Todd Mockler anque scribeva: > 2) faciente intelligentia artificial pro traducer > interlingua (como Google Translate). > Assi, io cerca pro collaboratores qui me adjutara > assembler un collection grande de textos de interlingua. > Io necessita vostre adjuta con trovar e collectionar > documentos electronic e sitos web in interlingua includiente > PDFs e pares del mesme phrases in interlingua e anglese. > Per exemplo, Tatoeba.org es un fonte excellente de phrases, > mais illo solmente contine circa 25,000 phrases de interlingua > e circa 15,000 pares de phrases in interlingua e anglese. Iste > es troppos pauc pares de phrases pro facer un modelo de > alte-qualitate traduction machina. Io vide hic alicun problemas: 2.1) Io ha legite que Google Translate usque recentemente utilisava methodos statistic pro traducer textos de un lingua human a un altere. Vide (in anglese) https://en.wikipedia.org/wiki/Statistical_machine_translation . Le resultatos non esseva multo bon. Le plus moderne DeepL, e ora anque Google Translate, probabilemente usa Retes Neural pro https://en.wikipedia.org/wiki/Neural_machine_translation . Le resultatos es multo melior. Qui pote mesmo applicar tal methodos? Io non. Le detalios pote esser ben complicate (https://en.wikipedia.org/wiki/Deep_learning https://en.wikipedia.org/wiki/Feature_learning, etc.), e require ressources de computation multo forte: io ha legite que DeepL ha un centro de computation special presso Reykjavik, que usa le energia del terra profunde pro le multe processores e lor refrigeration. 2.2) Actualmente il non ha bastante textos in interlingua, e ancora minus textos que corresponde phrase a phrase a textos in altere linguas. Ergo forsan ante que effortios es dedicate a facer un corpore, il es melior focusar a traducer litteratura in le dominio public, e a extender le Wikipedia in interlingua. In Wikipedia, un fonte acceptabile es anque articulos Wikipedia in altere linguas. Ergo qui traduce in articulo del Wikipedia anglese, francese, espaniol etc. a in interlingua, con illo crea textos bilingue, que plus tarde pote esser usate pro reimpler un corpore multilingue de textos. Ma il non ha garantias que le correspondentia phrase a phrase remane quando le articulos es editate. -- Ruud Harmsen, http://rudhar.com -- Pro leger le archivos e pro modificar o cancellar le subscription: http://listserv.icors.org/archives/interlng.html