Apple Intelligence prý není trénovaná na datech ze služby YouTube. Alespoň to tvrdí Apple a vyvrací tak spekulace.
Společnost Apple ve čtvrtek řešila obavy ohledně používání dat pro trénink umělé inteligence v návaznosti na vyšetřování, které odhalilo, že Apple spolu s dalšími velkými technologickými společnostmi používal titulky z YouTube k tréninku svých modelů umělé inteligence.
Apple Intelligence a její trénink
Vyšetřování časopisu Wired na začátku tohoto týdne uvedlo, že více než 170 000 videí od populárních tvůrců obsahu bylo součástí datové sady používané k trénování modelů umělé inteligence. Apple tuto datovou sadu konkrétně použil při vývoji svých open-source modelů OpenELM, které byly zveřejněny v dubnu.
Společnost Apple však nyní potvrdila serveru 9to5Mac, že OpenELM nevyužívá žádnou z jejích funkcí AI nebo strojového učení, včetně systému Apple Intelligence. Apple upřesnil, že OpenELM byl vytvořen výhradně pro výzkumné účely s cílem pokročit ve vývoji open-source velkých jazykových modelů.
Při zveřejnění OpenELM na webu Hugging Face Hub, komunitě pro sdílení kódu umělé inteligence, jej výzkumníci společnosti Apple popsali jako „nejmodernější otevřený jazykový model“, který byl navržen tak, aby „posílil a obohatil otevřenou výzkumnou komunitu“. Model je k dispozici také na webových stránkách společnosti Apple věnovaných výzkumu strojového učení. Společnost Apple uvedla, že nemá v plánu vyvíjet nové verze modelu OpenELM.
Společnost zdůraznila, že vzhledem k tomu, že OpenELM není integrován do Apple Intelligence, není datová sada „YouTube Subtitles“ používána k napájení žádných jejích komerčních funkcí umělé inteligence. Společnost Apple zopakovala své předchozí prohlášení, že modely Apple Intelligence jsou trénovány na „licencovaných datech, včetně dat vybraných k vylepšení konkrétních funkcí, a také na veřejně dostupných datech shromážděných naším webovým vyhledávačem“.
Zpráva časopisu Wired podrobně popisovala, jak společnosti včetně Applu, Anthropicu a NVIDIA využívaly datovou sadu „YouTube Subtitles“ pro trénink modelů AI. Tato datová sada je součástí větší sbírky známé jako „The Pile“, kterou sestavuje nezisková organizace EleutherAI.