<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <p>Hi,</p>
    <p>I have done some testing, it seems two tests fail the most often:</p>
    <pre class="bz_comment_text" id="comment_text_10">tcp_recv_two_quota and tcp_noresponse

</pre>
    <pre class="bz_comment_text" id="comment_text_10">PID 32090 exceeded run time limit, sending SIGKILL</pre>
    <p>Would you know, why just those tests so often timeouts?</p>
    <p>But I have found also strange issues when trying to find a way to
      reproduce on my local machine.</p>
    <p>When repeating make -j8 check in tests/isc build directory, the
      test often fails with just exit status 255 and no more details.
      Like netmgr_test.log contains:</p>
    <p>[ RUN      ] tcp_half_recv_half_send_sendback<br>
      [       OK ] tcp_half_recv_half_send_sendback<br>
      [ RUN      ] tcp_recv_one_quota<br>
      [       OK ] tcp_recv_one_quota<br>
      [ RUN      ] tcp_recv_two_quota<br>
      [       OK ] tcp_recv_two_quota<br>
      [ RUN      ] tcp_recv_send_quota<br>
      [       OK ] tcp_recv_send_quota<br>
      [ RUN      ] tcp_recv_half_send_quota<br>
      [       OK ] tcp_recv_half_send_quota<br>
      [ RUN      ] tcp_half_recv_send_quota<br>
      FAIL netmgr_test (exit status: 255)<br>
    </p>
    <p>What might be cause of this kind of termination? Since it does
      not happen separately, I cannot step this with gdb. I think it
      happens just when running under multiple make processes, in my
      case make -j8 (I have 4 cores with hyperthreading).</p>
    <p>It does happen about 20% cases of running, do not have exact
      numbers.</p>
    <p>Do such issues happen also on bind's infrastructure on gitlab?</p>
    <p>Regards,<br>
      Petr<br>
    </p>
    <p></p>
    <div class="moz-cite-prefix">On 8/29/22 22:57, PGNet Dev wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:89f7e681-148d-432f-a467-d380ed289d75@gmail.com">I'm
      building bind9 (v9.18.5, atm) on Fedora's COPR infrastructure.
      <br>
      <br>
      Building for Fedora 36, 37 & Rawhide, the builds FAIL
      randomly/intermittently here
      <br>
      <br>
      For example, with no changes to any source/spec, simply triggering
      rebuilds, over a period of just a few hours,
      <br>
      <br>
      <br>
       Time                   F36   F37   Rawhide  build URL
      <br>
       --------------------   ----  ----  -------  ----------
      <br>
       2022-08-29 15:58 EDT   OK    FAIL  OK      
      <a class="moz-txt-link-freetext" href="https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4784469/">https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4784469/</a>
      <br>
      <br>
       2022-08-29 14:23 EDT   FAIL  OK    OK      
      <a class="moz-txt-link-freetext" href="https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4784210/">https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4784210/</a>
      <br>
      <br>
       2022-08-29 11:49 EDT   OK    OK    OK      
      <a class="moz-txt-link-freetext" href="https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4776394/">https://copr.fedorainfracloud.org/coprs/pgfed/bind/build/4776394/</a>
      <br>
      <br>
      I'm trying to get a handle on cause ...
      <br>
      <br>
      Local builds on my own infrastructure are always successful; the
      issue's only on COPR.
      <br>
      <br>
      The FAILs are always in `netmgr_test` unittests ...
      <br>
      <br>
      looking at netmgr test source, my as-yet-unfounded suspicion is
      that these timeouts
      <br>
      <br>
       
<a class="moz-txt-link-freetext" href="https://github.com/isc-projects/bind9/blob/v9_18_5/tests/isc/netmgr_test.c#L116">https://github.com/isc-projects/bind9/blob/v9_18_5/tests/isc/netmgr_test.c#L116</a><br>
      <br>
      are intermittently hitting limits -- only in COPR/online.  perhaps
      for specific transport?
      <br>
      <br>
      I also note that -- in main, upstream, 3 days ago -- netmgr tests
      are being split up, into separate per-transport tests,
      <br>
      <br>
       
<a class="moz-txt-link-freetext" href="https://github.com/isc-projects/bind9/commit/37a1be5acc32244cec03cedc1bd46bc4aa0fbc18">https://github.com/isc-projects/bind9/commit/37a1be5acc32244cec03cedc1bd46bc4aa0fbc18</a><br>
      <br>
      I'm not clear what specific problem is being solved by that split,
      but imagine that it might well have an effect on builds @ COPR.
      <br>
      <br>
      I've not been able to get detailed test FAIL logs from COPR builds
      (local builds do not FAIL).  currently, @ #fedora-buildsys, did
      manage to get a reproducer of the build FAIL; I'm hoping I might
      get access to those FAIL logs via a manual COPR build.
      <br>
      <br>
      <br>
      Anyone here seen similar issues with netmgr, or maybe have a clue?
      <br>
      <br>
      Fwiw, I've initially filed at RH BZ already:
      <br>
      <br>
        <a class="moz-txt-link-freetext" href="https://bugzilla.redhat.com/show_bug.cgi?id=2122010">https://bugzilla.redhat.com/show_bug.cgi?id=2122010</a>
      <br>
      <br>
      ; no response there yet.
      <br>
    </blockquote>
  </body>
</html>