Accéder au contenu.
Menu Sympa

starpu-devel - Re: [Starpu-devel] comportement étrange avec StarPU

Objet : Developers list for StarPU

Archives de la liste

Re: [Starpu-devel] comportement étrange avec StarPU


Chronologique Discussions 
  • From: Gregoire Pichon <gregoire.pichon@inria.fr>
  • To: Mathieu Faverge <mathieu.faverge@inria.fr>
  • Cc: starpu-devel@lists.gforge.inria.fr
  • Subject: Re: [Starpu-devel] comportement étrange avec StarPU
  • Date: Mon, 7 Dec 2015 06:43:27 +0100 (CET)
  • List-archive: <http://lists.gforge.inria.fr/pipermail/starpu-devel/>
  • List-id: "Developers list. For discussion of new features, code changes, etc." <starpu-devel.lists.gforge.inria.fr>

Hello,

We found our error.
I was about some unitialized data (set to 0 so our result was correct..) which poses some problems with dependencies.

Regards,
Grégoire


De: "Mathieu Faverge" <mathieu.faverge@inria.fr>
À: "Gregoire Pichon" <gregoire.pichon@inria.fr>, starpu-devel@lists.gforge.inria.fr
Envoyé: Jeudi 3 Décembre 2015 16:59:33
Objet: Re: comportement étrange avec StarPU

Hello,

To complete what Gregoire said:
   - the barrier at 67.He meant, that we have a morse_sequence_wait @ 67 seconds.
   - on the second trace all the right part for the first one is hidden in such a small amount of time at the end of the trace that we don't see it, but its' there too.

It looks like the problem that Marc had with GPUs if I'm correct, but here we have no GPUs. So I have no clue what it could b, and it is really annoying :).

Mathieu

Le 03/12/2015 16:49, Gregoire Pichon a écrit :
292451197.27868752.1449150547213.JavaMail.zimbra@inria.fr">
Bonjour,

Nous travaillons actuellement sur la mise en place d'un algorithme de valeurs propres dans morse au dessus de StarPU.
Nous avons rencontré un problème assez étrange.

Lors de certaines exécutions, l'ensemble des threads semblent être dans l'état sleeping pendant une durée assez longue (plusieurs secondes).

Ci-joint, deux traces, l'une obtenue lors d'un run avec 20 threads (trace_good.png), l'autre lors d'un run avec 24 threads (trace_bad.png) sur un noeud miriel (CPU only).
Les blocs rouges correspondent à l'état sleeping. Nous avons ajouté une barrière qui correspond à la colonne 67 dans la première trace.
Dans la seconde trace, l'ensemble des threads arrive beaucoup plus tard à cette barrière, alors qu'il n'y a plus de tâches à exécuter.
Selon la taille du problème et le nombre de threads, le problème apparaît ou non.

Etant donné qu'il y a peu de tâches qui peuvent s'exécuter en parallèle au début de l'algorithme (cf CPU 20 qui ne travaille quasiment pas), nous nous sommes dit que certains threads étaient peut être passés dans un autre état après n'avoir pas trouvé de tâches à exécuter pendant une durée assez longue.

On retrouve ce comportement avec StarPU 1.2.0rc4, StarPU 1.1.5 et la branche StarPU 1.1 (utilisée par PaStiX)
Avez-vous déjà rencontré ce problème? Si oui, comment peut-on le résoudre?

Cordialement,
Grégoire Pichon


-- 
--
Mathieu Faverge
Maitre de conférence / Assistant Professor
Institut Polytechnique de Bordeaux - ENSEIRB-Matmeca
INRIA Bordeaux - Sud-Ouest, HiePACS Team
200 avenue de la vielle tour
33405 Talence Cedex
Phone: (+33) 5 24 57 40 73




Archives gérées par MHonArc 2.6.19+.

Haut de le page