Есть какие-нибудь серьёзные работы, справочники и пр., где исследовано, как на самом деле фонетически реализуется такое безударное сочетание?
Насчёт серьёзных работ не знаю, но по моим замерам произношение /əjə/ плавает где-то в области реализации /и/, /э/ и /ə/ в аналогичном окружении. Соответственно, чем быстрее темп речи, тем уже и переднее звук. От обычного /ə/ отличается в среднем большей длительностью и большей устойчивостью к полному уподоблению и выпадению. Никакого [j] там нет и в помине, ессесьно — с фонологической точки зрения перед нами обычный монофтонг, искажающийся под влиянием разнородных согласных. То есть если между двумя [ʂ] в слове «слушаешь» будет что-то вроде [ɛ̝̈], то между мягким [lʲ] и твёрдым губным [m] в «гелием» будет уже [ɪ], переходящий в [ə], между [nʲ] и [mʲ] снова однородный [i] и т.д.